语言隔阂是人类永远的遗憾。打从数千年以前,人类便为了跨越语言隔阂而尽心尽力,成效却不尽理想。千年后的现在,在 Google 与微软等科技大厂的努力下,翻译科技拥有长足进步,即时语音翻译也不再遥不可及,这是否意味着即时翻译的新时代即将到来呢?人类真的有办法突破语言的障碍吗?
▲ 理想的即时翻译功能。
自从电脑问世后,“即时翻译”就一直是人类的努力的目标,然而世界上的语言种类繁多,语言结构又不尽相同,即时翻译的实践难度远比想像中更加困难。即使是主流的英语,利用翻译软件将其翻译成其他国家的语言,仍然会出现不少错字与文法错误,结构复杂的中文就更不用说了。
纵然即时翻译目前的成果谈不上尽善尽美,还是比以前更为进步。对手机讲出一句话,Google 翻译就可以将其翻译成其他语言的语音或文字,用于旅游观光十分便利。微软则是于今年 5 月全面开放 Skype 即时口译功能,允许通话者将通话转换成其他语言,将来还能够支援德语与法语等主流语言。
▲ 伍尔弗汉普顿大学的计算语言学研究首席──罗斯兰.密克夫。
英国伍尔弗汉普顿大学的计算语言学研究首席,罗斯兰.密克夫(Ruslan Mitkov)指出,早在 70 年前的 1947 年,已故美国数学家,瓦伦.伟佛(Warren Weaver)就已经展开机械翻译的相关研究,可惜结果以失败收场。
伟佛之所以失败,症结在于他将语言翻译视为数学问题,问题是语言具有很大的不确定性,远比数学来得复杂,加上当时无论是科技或是观念都不甚成熟,失败的结果并不意外。
就这样,机械翻译的议题被搁置了十几年。到了 60 年代,计算机技术蓬勃发展,人类开始研究人工智能,机械翻译顺势成为研究主题,但是并没有值得一提的研究成果。直到 90 年代,计算机技术拥有长足进步,运算速度大幅提升,足以处理资料庞大的语言数据库,各种翻译概念与算法接连问世,机械翻译才正式崭露头角。
▲ 机械翻译的先驱者──瓦伦.伟佛。
“现在,统计机器翻译(Statistical Machine Translation)已经成为重要的科技领域。在几个知名大厂的积极投入下,机器翻译的成果突飞猛进,即时翻译也不再是遥不可及的梦想。”密克夫说。
谈到当今最负盛名的机器翻译,首推 Google 翻译。Google 翻译的效能与泛用性极高,几乎远远凌驾其他的竞争者,Google 究竟是怎么办到的?密克夫解释说,Google 利用将他们在自然语言领域与搜寻领域的优势来钻研即时翻译,经过长时间的研究,才能够获得现在的成就。
▲Google 翻译成就斐然。
现在的 Google 翻译平均每天处理 1 亿次翻译,而且从 2011 年起提供语音翻译服务。除了单纯的翻译功能外,Google 翻译能够扫描手机所拍摄的照片,辨识出其中的外国文字并加以翻译,用来翻译餐厅菜单或路牌非常实用。当然啦,用户也可以自行输入词汇或句子,将其翻译成对应的语言,或是利用语音翻译与外国人沟通,超酷的!
“我们早在数十年前,就殷切期盼这些翻译功能的问世。”Google 的产品管理员,巴洛克.图洛斯基(Barak Turovsky)表示,“在那之前,如果你告诉别人,你只靠一支手机,就能与讲外国语的外国人毫无障碍地对话交流,对方一定会说你疯了。”
▲ 在手机上使用 Google 翻译。
即使 Google 翻译的成就已经非常耀眼,他们仍旧有许多工作要做。图洛斯基指出,若要将语音翻译弄得尽善尽美,必须要有更多的语音资料,开发团队的工程师还得“煞费苦心”地从语音资料中撷取有效的语音样本,将其加入 Google 的语音数据库。
▲ 告示牌也能使用 Google 翻译阅读。
“要教导机器了解人类的语言,以及语言中的重音与发声习惯,无疑是一件复杂无比的事,我们每天都在努力改善机器的表现。若我们替机器加入更多的语音样本,人们使用 Google 翻译就能获得更正确、更有用的结果。”图洛斯基说。
图洛斯基点出 Google 翻译所碰上的难题:语音资料的不足。族群庞大的语言并没有这种问题,可是对于族群较小(如波斯语),或是不常使用语音翻译的族群(如许多亚洲国家),Google 翻译就显得力有未逮,正确率也不尽理想。Google 必须想办法鼓励用户使用他们的语音翻译,才能够带来更完美的翻译结果。
▲ 用德语和英语交谈也没问题。
2014 年 5 月,微软公开一段 Skype 的即时口译演出,让美国人与德国人借由即时口译来交谈。虽然口译结果并不十分正确,两位当事人还是能够畅谈甚欢。微软研发部门主管的彼得.李(Peter Lee)表示,Skype 口译的用法就和一般的 Skype 差不多,唯一的差别是彼此不需要会讲对方的语言。
“想像一下,你可以将口中的德语,转换成文法与意义皆正确无误的英语,Skype 口译就是你所期待的未来。借由 Skype 口译,你几乎可以跟世界上的任何一个人沟通。”李这么表示。
▲Skype 口译不完美,却极富潜力。
微软研究机器翻译已超过十年,Skype 口译是最近才展现的成果。工程师原本使用高斯混合模型(GMM,一种古典的语音辨识方法)来建构语音资料,属于静态的概率函数。几年前,工程师认为高斯混合模型的应用效果不佳,便改采类似人脑运作的深度神经网络(Deep Neuron Networks,DNN),成为微软的新标准。
2010 年,微软获得一次成功的技术跃进。开发部门的法兰克.赛迪(Frank Seide)等人开发出一套新技术“The Translating Telephone”,能够将语音即时翻译为文字,或是口译为对应的语言。后来微软便以该系统为基础,反复投注语音样本,使得系统效能提升了 42%,进而促成语音助手 Cortana,以及 Skype 口译的问世。
▲ 借由 Skype 口译与外国人沟通。
就和 Google 翻译一样,微软花了许多心思,搜集到数量庞大的语音样本,从社群网络中寻找用户书写文字的语言习惯,利用这些资料持续训练系统,才让 Skype 口译具备现在的表现。
文字和语音本质上仍是不同的东西,其中的差别在于语音具有不流畅的混沌本质。举例来说,我们说话时经常用到发语词“嗯”、“喔”、“那个”,系统必须将其视为发语词,避免将其视为口译目标。
“那些发语词不属于语音的字。”微软的机器翻译首席,艾卢.曼尼兹(Arul Menezes)在部落格上表示,“有时候,人们会讲几个字,随后又从头讲出完整的语句。对于几种特定的语言,像是西班牙语,这种状况可能正好符合文法架构,要过滤这种状况十分棘手。我们过去几年持续努力,部分理由就是为了厘清语言的矛盾,填补文字和语音之间的鸿沟。”
▲Skype 口译的运作流程图。
语言博大精深,利用机器即时翻译的难度颇高,却绝非不可能的任务。人类实际钻研即时翻译领域的时间不过区区 20 余年,能有现在的成果实属难能可贵。若能够照这种速度持续进步,或许在你我的有生之年里,就有机会使用趋近完美的即时翻译,终结人类自从巴比伦之塔以来的漫长语言隔阂,美好的愿景令人期待不已呢。
(本文由 T客邦 授权转载;首图来源:Flickr/Alan Levine CC BY 2.0)