Google 让机器更懂语言的博大精深，释出最大消除歧义数据库 04月19日更新

理解语言的核心自然是了解词语在文本中的不同含义。先来说个中文笑话：

上司：“你这是什么意思？”

下属：“没什么意思，意思意思。”

上司：“你这就不够意思了。”

下属：“小意思，小意思。”

上司：“你这人真有意思。”

下属：“其实也没有别的意思。”

上司：“那我就不好意思了。”

下属：“是我不好意思。”

如果让机器来理解这到底是什么意思，想必它会很头痛的吧。

那么用相对简单的英文？也没有那么简单。毕竟一个单词可能包括数十个意思。

举个例子：“He will receive stock in the reorganized company.”这个句子中，我们结合上下词就能知道，“stock”是股票的意思，我们可以从牛津字典中找到更专业的解释。

但同样在牛津字典中，stock 这个词还有超过 10 个不同的含义，比如“（商店里的）库存”或是“（鞭子、钓竿等的）柄”。对于电脑算法而言，如何从博大精深的含义中找寻某个句子中对应的词义？这的确是一个词义消歧难题，也就是 AI-Complete 问题。

19 日 Google 研究院又发出了重量级新闻，他们释出了利用 MASC&SemCor 资料集的大规模有监督词义消歧语词。这些语词会与牛津字典上的例句互相映照，广泛适用于各个社群。与此同时，本次释出也是最大的全句释义语词程式库之一。

有监督词义消歧

人们透过对句子中词语的内容进行理解，因为我们能透过常识判断内文的含义。比如同一个例子，“‘stock’ in a business.”代表的自然是股票的意思，而“‘stock’ in a bodega.”更有可能是库存的意思，即使这里的 bodega 也可能指酒窖生意。我们希望为机器提供足够的背景资讯，并应用于理解字句中词语的含义。

有监督词义消歧（WSD）尝试解决这一问题，也就是让机器学习使用人工记号的资料，并与字典中的词语所代表的典型含义符合。我们希望构建这样的监督模型，能够不考虑复杂语境，并符合句中单词在词典中最可能表达的含义。虽然这一点富有挑战性，但监督模型在大量训练资料支援下表现良好。

透过释出资料集，我们希望社群能够提出更好的算法，让机器对自然语言产生更深刻的理解，支援以下的应用：

从文本中自动搭建数据库存，这样一来，机器可以回答问题，并将档案中的知识串联起来。举个例子，机器在经过学习后，明白“hemi engine”指的是一种自动化机械，而“locomotive engine”则与火车有关；也能理解“Kanye West is a star”指的是名人的意思，而“Sirius is a star”则是天文学概念。
消除歧义。我们希望让文本在查询中能够呈现不同的含义，避免张冠李戴，与此同时还能返回有相关语义的档案。

人工注释

在人工记号的资料集中，每一个词义注释都由 5 个评估者进行审核。为了确保品质，这些评估者会进行训练（gold annotation），即让语言学家对一些研究样本进行标记。以下是我们的标记页面。

在页面左边呈现的是 general 的常用词义及例句，在右侧的文本中，general 一词会标亮显示。除了符合词义，评估者还能对词语进行判断，可以指出包括“拼字错误”、“上述情况都不符合”、“不确定”等 3 种情况。此外，评估者可以对一些含有隐喻的词语进行记号并评论。

这些人工的词义标注采用 Krippendorff’s alpha（α >= 0.67 则具有一定可信度，α >= 0.80 则表示具有很高的可信度）进行判断，结果显示得分为 0.869。这是一个非常不错的成绩了。

Wordnet Mappings

与此同时，Google 也释出了两个从牛津词典到 Wordnet 的对映。小的资料集中含有 2,200 个单词，而大的资料集则是算法构建的。这两个对映内容能更将 Wordnet 的内容应用于牛津词典的语料库中，也能在使用过程中实行系统的构建。

研究成果已经收录在“Semi-supervised Word Sense Disambiguation with Neural Models”中，主要采用的是 LSTM 语言处理模型及半监督学习算法。

Semi-supervised Word Sense Disambiguation with Neural Models

（本文由雷锋网授权转载，首图来源：Flickr/Valery Kenski CC BY 2.0）

Google 让机器更懂语言的博大精深，释出最大消除歧义数据库

有监督词义消歧

人工注释

Wordnet Mappings

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图