你听过伏尼契手稿(Voynich manuscript)吗?这是约在 15 世纪出版的一本神秘书籍,由于书中语言和字母无人能辨识,自 19 世纪发现以来一直困扰著历史学家和密码学家,而加拿大团队最近运用人工智能展开新一轮破译尝试,并从中获得些微收获。
Phys.org 报导,这个团队是由加拿大阿尔伯塔大学(University of Alberta)电脑科学教授 Greg Kondrak 和研究生 Bradley Hauer 组成。身为狂热的语言爱好者,Kondrak 的主要工作内容便是自然语言处理(NLP),试图帮助电脑理解人类语言。
Kondrak 解释,自然语言处理不仅是为让人们和电脑沟通的能更简易方便,也是为了那些以书面形式存在的许多资讯,“我们使用人类语言与其他人交流,但电脑并不理解这种语言,因为这是专为人打造的,我们甚至没有意识到里面有多少模糊含意。”
伏尼契手稿共有 240 页,全书用精美的牛皮纸制成,除了无人能辨识的字母、语言,手稿中也有许多素描插图,自 19 世纪发现以来,许多顶尖解码专家都曾积极研究,但最终仍无人能解析内容,一些人甚至认为手稿只是恶作剧。
但 Kondrak 和 Hauer 显然并不这么想。为了帮助电脑理解人类语言,他们正在研究该如何运用 AI 协助解析人类语言常出现的歧义内容(ambiguities),而他们的目标正好就是伏尼契手稿。
▲ 手稿除了文字还有许多草药、天文及生物插图,部分人甚至认为内容与中世纪炼金术相关。(Source:See page for author [Public domain], via Wikimedia Commons)
进行内容解析之前,Kondrak 和 Hauer 必须先确定手稿使用的语言种类,为此他们运用世界人权宣言中 400 种不同语言的样本进行辨识。起初他们假设手稿是用阿拉伯文写成,但实际运行算法之后,却发现最有可能的反而是希伯来语(Hebrew)。
解析出语言类别后,团队的目标自然转向破译内容的方向进行,但这应该如何做到呢?Kondrak 和 Hauer 先假设手稿是以“alphagrams”方式撰写──以一个词语定义另一个,就像人类语言中含糊的词句,接着他们便运用算法试图破译手稿。
深入研究时团队发现,伏尼契手稿约 80% 以上单字都能在希伯来语字典找到,但他们并不确定当这些字连在一起时,句子是否有意义。向希伯来学者求助破译内容的过程失败后,他们转向 Google 翻译寻求协助。
尽管不是全部内容,但 Google 翻译还是提供一个首次语法通顺、且具意义的句子:“她向牧师,房子里的人,我和人们提出了建议。”
Kondrak 认为,虽然手稿以这样的句子开始有些奇怪,但句子内容确实有意义。在没有古希伯来历史学家的情况下,伏尼契手稿的全部内容仍旧是谜团,但至少这个句子能看作是一个开始,团队期待未来能将开发的算法应用到其他类似的古代手稿。
- Using AI to uncover the mystery of Voynich manuscript
(首图来源:See page for author [Public domain], via Wikimedia Commons)