1886 年,英国考古学家 Arthur Evans 偶然发现了一块古老的石头,上面刻着一些奇特的未知语言,在得知石头来自地中海的克里特岛(Crete)后,Evans 立即前往那里寻找更多的证据,并发现了更多带有类似文字的石板。
研究人员辨认出其中有着两种文字体系,尽管努力多时仍未能破译成功,但一直到 1953 年,业余语言学家 Michael Ventris 才运用两项假设破译了其中之一的“线性文字 B”(Linear B)文字体系。
Ventris 推测,Linear B 写作是古希腊文的一种书写形式,文本中最常见的重复词则代表所在地“克里特岛”,这两项假设都在后续获得验证,也让他成功破译线性文字 B 文本,因为这项突破,Ventris 也证明古希腊人书写习惯比先前想像的还要早上几个世纪。
Ventris 的突破是无法抹灭的成就。但是,其中更古老的线性文字 A(Linear A)至今仍是语言学中最大的谜团之一。
在机器学习技术出现后,短短几年内,语言学研究产生了相当大的变化,近日麻省理工(MIT)和 Google AI 实验室团队开发了一种机器学习系统,能够用来解读那些失落的语言,他们也透过解译线性文字 B 来证明这一点,这也是第一次由机器自动解读线性文字 B。
传统上来说,机器翻译的中心思想是:无论哪种语言,单词都以相似的方式相互关联。因此在翻译上会先将特定语言彼此间的关系描绘出来,再透过一对一的对应将整个语言转换为另一种语言。
通过这种方式,翻译句子的过程变成透过空间找到相似轨迹的过程,机器甚至不需要了解句子的含义便能够运作,然而翻译过程必须仰赖大型文本资料集。
几年前,一个德国研究小组展示了如何用更小的数据库进行类似的方法,可以用来翻译缺乏大型文本数据库的罕见语言。 诀窍是找到一种不同的方法来约束没有数据库可以对照的机器。
团队使用的方法与标准机器翻译技术非常不同,在团队的研究中,团队认为,任何语言随时间演变的方式都十分类似,相关语言中的符号以相似的分布出现,相关的单词具有相同的字符顺序,利用这些规则限制机器,在知道相关语言之下,将可以更容易地破译语言。
有鉴于资讯和语言演变所施加的限制,新的翻译能够以非常准确的方式翻译这两种语言,在线性文字 B 上,新技术成功将 67.3% 的同源词转换成希腊语。
这是令人印象深刻的工作,也将机器翻译提升到一个新的水平,然而也提出了其他从未被破译语言的有趣问题,像是线性文字 A。由于没有人知道线性文字 A 与其它语言的关联,旧技术与新技术都不起作用。
好消息是,由于机器不会觉得疲倦,团队很可能会试着暴力破解线性文字 A,简单尝试将其解读为机器翻译已经懂的每种语言,如果能顺利成功,那将是一项令人印象深刻的成就。
- Machine learning has been used to automatically translate long-lost languages
(首图来源:Flickr/Ann Wuyts CC BY 2.0)
延伸阅读:
- 透过 AI 自然语言处理技术,加拿大团队正试着解开伏尼契手稿内容