不少人要了解外文文章,常常倚赖 Google 翻译等机器翻译服务。但如果要查阅的语言不是主流语言,没有大量的训练材料,现行的机器翻译就抓不太到大致的意思。如今两篇新论文可能是小语言的救星,不必靠大量有双语作品存在的文本训练,也不需要人工监督,不用两种语言对译的文本,AI 就可以学会对译两种语言。
科幻作品如 Star Trek 的通用翻译器,成为消弭不同种族沟通障碍的利器。两个研究团队-西班牙巴斯克大学,以及美国卡内基美隆大学,提出的论文不用两种语言都有平行的字词库,甚至只有单一语言也行。因为语言里的字词用类似的方式组成群组,像是桌子和椅子,透过非监督式的机器学习,AI 猜出在另一种语言的对应字词。再用猜出的结果,分析句子的结构。最后翻译到其他语言,再翻译回去,AI 评估机器翻译的结果,学会语言的结构。
不少人运用的 Google 翻译,则可以服务 103 种语言之间的对译,包括世界十大语言如中文、西班牙文、印地语、孟加拉语等。Google 运用有平行字词库的语言,包括有大量翻译文本存在的语言,用监督式学习让 AI 学习两种语言之间如何翻译转换。尽管 Google 翻译有时候会出现相当好笑的结果,经过大量训练时间以及文本,往往翻译效果会越来越好。但不是每一种语言都有足够的文本能够运用。学者找出用单一语言库,甚至用非监督式学习就能得到不错的成果,是机器翻译领域相当大的突破。
研究团队成员的巴思克大学 Mikel Artetxe 说:“想像一下给一个人很多本中文书以及很多本阿拉伯文书,没有一本是讲重复的内容,两这个人得学会如何从中文翻译成阿拉波文。上述的说法看来不可能,对不对?但我们用电脑做到了!”
机器翻译的权威,微软的 AI 专家 Di He 的研究影响了上述两篇论文,则评论说:“很讶异电脑能在不需要人类监督的状况下完成翻译工作。”
两篇论文将投稿给 International Conference on Learning Representations 大会,并且已经被接受,不过仍得等待经过同侪审查的程序,在正式发表的时候论文的内容可能有些微的调整。
两篇论文的研究者都指出,他们的方法仍在初期阶段,翻译的正确率仍达不到 Google 的水准,还不知道最后会走到什么程度。加上彼此的方法能增进翻译的效果。
- For The First Time, AI Can Teach Itself Any Language On Earth
- Artificial intelligence goes bilingual—without a dictionary
(首图来源:shutterstock)