科学家正尝试用机器学习破译古代文字 04月20日更新

1886 年，英国考古学家 Arthur Evans 偶然发现了一块古老的石头，上面刻着一些奇特的未知语言，在得知石头来自地中海的克里特岛（Crete）后，Evans 立即前往那里寻找更多的证据，并发现了更多带有类似文字的石板。

研究人员辨认出其中有着两种文字体系，尽管努力多时仍未能破译成功，但一直到 1953 年，业余语言学家 Michael Ventris 才运用两项假设破译了其中之一的“线性文字 B”（Linear B）文字体系。

Ventris 推测，Linear B 写作是古希腊文的一种书写形式，文本中最常见的重复词则代表所在地“克里特岛”，这两项假设都在后续获得验证，也让他成功破译线性文字 B 文本，因为这项突破，Ventris 也证明古希腊人书写习惯比先前想像的还要早上几个世纪。

Ventris 的突破是无法抹灭的成就。但是，其中更古老的线性文字 A（Linear A）至今仍是语言学中最大的谜团之一。

在机器学习技术出现后，短短几年内，语言学研究产生了相当大的变化，近日麻省理工（MIT）和 Google AI 实验室团队开发了一种机器学习系统，能够用来解读那些失落的语言，他们也透过解译线性文字 B 来证明这一点，这也是第一次由机器自动解读线性文字 B。

传统上来说，机器翻译的中心思想是：无论哪种语言，单词都以相似的方式相互关联。因此在翻译上会先将特定语言彼此间的关系描绘出来，再透过一对一的对应将整个语言转换为另一种语言。

通过这种方式，翻译句子的过程变成透过空间找到相似轨迹的过程，机器甚至不需要了解句子的含义便能够运作，然而翻译过程必须仰赖大型文本资料集。

几年前，一个德国研究小组展示了如何用更小的数据库进行类似的方法，可以用来翻译缺乏大型文本数据库的罕见语言。诀窍是找到一种不同的方法来约束没有数据库可以对照的机器。

团队使用的方法与标准机器翻译技术非常不同，在团队的研究中，团队认为，任何语言随时间演变的方式都十分类似，相关语言中的符号以相似的分布出现，相关的单词具有相同的字符顺序，利用这些规则限制机器，在知道相关语言之下，将可以更容易地破译语言。

有鉴于资讯和语言演变所施加的限制，新的翻译能够以非常准确的方式翻译这两种语言，在线性文字 B 上，新技术成功将 67.3% 的同源词转换成希腊语。

这是令人印象深刻的工作，也将机器翻译提升到一个新的水平，然而也提出了其他从未被破译语言的有趣问题，像是线性文字 A。由于没有人知道线性文字 A 与其它语言的关联，旧技术与新技术都不起作用。

好消息是，由于机器不会觉得疲倦，团队很可能会试着暴力破解线性文字 A，简单尝试将其解读为机器翻译已经懂的每种语言，如果能顺利成功，那将是一项令人印象深刻的成就。

（首图来源：Flickr/Ann Wuyts CC BY 2.0）

科学家正尝试用机器学习破译古代文字