Google 台湾董事总经理简立峰说,Google 翻译比以前好用太多了!就算有人恶作剧,刻意在“提出修改建议”字段写下错的翻译,也不会影响系统的运作。
简立峰解释,Google 翻译有学习及数据库的功能,不断累积经验,错误也是一种经验,除非几乎所的人都在“修改建议”栏写下一模一样的错误,才会积非成是,但事实上这种情况并不可能发生。
他认为,虽然简体中文、繁体中文有些相同的字词有着不同的意义,或相同的字已衍生出新的意义,但因简体、繁体中文语法相同,在机器翻译上仍采用一套系统,可视为专有名词,透过学习建立数据库来校正。
其实不只简体中文、繁体中文的语法相同,他透露,日文、韩文在机器翻译上也可算是语法相同,用同一套系统。
他指出,机器学习是很重要的议题,大家在讨论 Google 翻译的学习功能之际,也会联想到人工电脑 AlphaGo 打败真人世界棋王。现在也有人提出让 AlphaGo 打 AlphaGo,学习能力可以更快的说法,就像是金庸小说“华山论剑”里全真派的周伯通,用自己的左手和右手对打,使出的“左右互搏”。
Google 翻译的发展进程快速,10 年前,Google 推出翻译服务,并以词组式机器翻译(Phrase-Based Machine Translation)做为主要运算方式。从过去仅支援几种语言,到现在可支援 103 种语言,且每天翻译超过 1,400 亿个单词,Google 翻译的品质有了很大的进展。
数年前,Google 采用递归神经网络(Recurrent Neural Networks)将句子视为一个单位进行翻译,之后的词组式机器翻译方式(PBMT),则是将句子切割成单独的字和词组做独立翻译。
过去,为翻译任意两种语言,Google 需要建构多个不同的翻译系统,运算成本相当可观。相较于过去的词组机器学习(PBMT),神经机器翻译(NMT)仅需要较少的系统架构设计。刚开始推出神经机器翻译时,这两种翻译方式的精准度不相上下。
为改善 NMT 翻译品质,研究人员提出许多技术来解决,这当中包括透过模拟调校模型(external alignment model) 处理罕见字词、使用“注意”(attention) 来对准输入词和输出词,以及将词拆解成更小的单元以应对罕见字词等。
Google 神经机器翻译(GNMT) 将中文句子翻译成英文句子的过程,透过编码器(Encoder) ,首先,GNMT 将中文句子的每一个单词进行向量(vector) 编码,而每个向量将显示出目前为止单词被读取到的所有意义。
在读取完整句子后,解码器(Decoder) 就会开始运作,一次产生一个英语句子中的一个词。
注意功能是为了每一步都产出正确的词,解码器将针对编码中文向量里最相关的英文单词权重分布(weighted distribution) 进行解码。
(作者:潘智义;首图来源:shutterstock)