进击的 Google 翻译──透过神经机器翻译系统，Google 翻译可望与人类译者并驾齐驱？ 07月15日更新

自 2001 年 Google 推出线上翻译系统以来，该系统从原本仅能翻 9 种语言、进步到能翻 103 种语言，以前常常发生的词语排列不合文法和歧义理解有误等问题，如今也借着采用新的翻译系统而多有改善。现在，Google 翻译每日要翻译 1,400 亿以上的单字，并服务数百万的用户。

究竟 Google 翻译是如何运作，又进行了什么改革，才有如此出色的能力？Google 翻译又是否真的已经可以取代有血有肉的翻译员？以下便针对 Google 翻译的系统沿革和优缺点，进行简单的说明。

Google 翻译的基础和早期系统架构：机器学习和词组式机器翻译

Google 翻译是以机器学习（machine learning）为基础来应付语言的复杂多变。机器学习多运用在人工智能上，指机器从已知资料中分析出规律，再把规律套用在新资料上，并在不断套用的过程中提高效率或进行修正。借着机器学习，Google 翻译让电脑自己找出不同语言的文法规则，省下慢慢教电脑文法的麻烦。

学会文法后，接下来就面临翻译正确性的问题。早期的 Google 翻译要翻译句子时，会先将原文拆成单字或词组，接着利用统计学和 Google 收集的大量现存翻译资料，分别选出这些单字词组最普遍的译法，再依照文法重组成句子。这种类似逐字翻译的算法，称作词组式机器翻译（phrase-based machine translation，以下简称 PBMT）。

PBMT 即使是当时先进的机器翻译系统，但免不了许多缺点。首先，统计出来最有可能的翻译，有时不是最正确的。比方说，假如大多数资料把 took off 译作“起飞”，Google 翻译便很有可能把 I took off my clothes（我脱掉我的衣服）译作“我起飞我的衣服”。其次，PBMT 以翻译单字词组为主，翻译句子的能力有其极限。当句子长、结构复杂、有歧义（ambiguity）或是有文法上的例外的时候，PBMT 便容易翻错。最后，若没有某两种语言的直接互译资料，PBMT 必须透过多次转译，才能翻译完成，而这个过程使得效率和翻译的正确性大打折扣。

由于有这些缺点，加上 Google 翻译的数据库以英文为主（不论是原文或译文），当翻译资料稀少或遇到和英文文法差异大的语言时，Google 翻译的出错率就会升高。为了翻得更快更好，Google 翻译的改进势在必行。

Google 翻译大革新：神经机器翻译和零数据翻译

约在采用 PBMT 系统 10 年后，Google 翻译于 2016 年宣布今后会以神经机器翻译（Google Neural Machine Translation system，以下简称 GNMT）取代 PBMT，并声称翻译会变得更准确、通顺。 GNMT 的特色是以句子为单位进行翻译。翻译句子时，它会将句中每个字编码成向量，该向量代表着这个字和它之前所有字合在一起的意思。比方说，句子里第 3 个字的向量代表第一、第二个字和它自己本身合起来的意义。这个含意是系统才可以解读的，而非人类可以理解。等到该句的向量全部被编码出来，GNMT 会再进行解码。每次解码不会只针对一个向量，而是会连其余向量都一起纳入考量，以生成对应的翻译。总结来说，比起把句子拆成单字后独立翻译的 PBMT，GNMT 更加重视句子的结构和字词间的关系，能更正确的分析全句意义再进行翻译。

Google 翻译团队声称，采用 GNMT 后，几个主要语言的翻错率降低了 55% 到 58%。除此之外，在 2016 年时的翻译测验里，评分员给了 GNMT 接近人类译者的分数。以上事例皆显示 GNMT 比 PBMT 有更佳的表现，甚至可说是非常“人类”。

▲ 人类、GNMT 和 PBMT 的翻译对照。（Source：Google Research Blog）

▲ 人类评分员评比人类、GNMT 和 PBMT 翻译品质分数表。分数从最低分 0 分到满分 6 分，代表从“无意义的乱翻”到“完美的翻译”。（Source：Google Research Blog）

另外，Google 翻译的团队还发现，对 GNMT 进行改良后，GNMT 便能在没有 A 语言和 B 语言互译资料的情况下进行该两种语言的直接翻译，也就是实现零数据翻译（zero-shot translation），这是以往依赖统计资料的 PBMT 所难以达成的。

Google 翻译是如何做到零数据翻译的？先前有提到，GNMT 会把句子编码成向量。由于向量代表句子的含意，而同一句话几乎不会因为语言不同而改变太大的意思，因此理论上不同语言的同一句话会拥有相近的向量。Google 翻译改良 GNMT 时，让两种语言互译的翻译知识（translation knowledge）能在翻译其他语言时做为参考。如此一来，GNMT 能有效率的掌握同一句话在不同语言间的向量，并迅速找到相对应的译文。举例来说，如果 Google 翻译有同一句话英文翻成韩文和英文翻成日文的资料，想要进行它从没做过的日韩翻译时，只要有了该句日文版本的向量，它便能很快地找到数据相近的韩文版本的向量，期间完全不用转译成英文。这使得 GNMT 在翻译效率和正确性两方面都胜出早期的 PBMT。

Google 翻译取代人类翻译？

面对翻译水准大大提升的 Google 翻译，以翻译为生的人可能会担心丢了饭碗。其实，现今的 Google 翻译依然有不足之处。比方说，它会漏字、不太会翻少见的用语或法律条文之类复杂的文体，也没有办法翻得像人类一样有“诗意”或斟酌译文的语气和风格等。Google 翻译也主张，它以翻译日常用语为主，必要时还是要聘用专业的翻译家比较好。由此可知，Google 翻译要取代活生生的翻译家，恐怕还是很难。不过，Google 翻译做出的革新，无疑令人印象深刻，也让人对未来机器翻译的进步充满期待。

A Neural Network for Machine Translation, at Production Scale
Google Translate is getting really, really accurate
How Google translations are getting more natural
How Google Translate works, and why it doesn’t measure up
Zero-shot translation with Google’s multilingual neural machine translation system

（首图来源：shutterstock）

进击的 Google 翻译──透过神经机器翻译系统，Google 翻译可望与人类译者并驾齐驱？

Google 翻译的基础和早期系统架构：机器学习和词组式机器翻译

Google 翻译大革新：神经机器翻译和零数据翻译

Google 翻译取代人类翻译？

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

ElpakaiPhone8/8Plus磁吸与玻璃金属保护壳开箱推荐相容7/7Plus、iPhoneX即将登场

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图