鉴于数据、计算力、算法等诸多门槛,自神经机器翻译(NMT)产品化以来,很大程度上便是互联网巨头的竞技场。
如今,又一个新的挑战者高调加入,直接把矛头指向堪称行业技术标竿的 Google、微软及 Facebook。
上周,来自德国的 DeepL 翻译上线,号称实现了 NMT 技术的新突破,打造出“世界上最精确、语言组织最自然的机器翻译系统”;并宣布在自家组织的盲测中,打败了 Google 翻译、微软与 Facebook 的 NMT 系统,挑衅意味十足。
目前,DeepL 翻译已支援英德法西等 42 门欧洲语言,正在训练汉、日、俄等语言,并计划将来发表一款 API,让开发者能将 DeepL 翻译整合入其应用。
公司前身
首先要说,这家公司的来历并不简单。
公司前身是营运近十年的线上外语词典 Linguee,DeepL 翻译也完全由 Linguee 团队打造。Linguee 在中国没什么存在感,至于在海外……有 Google 翻译专美于前,存在感也不是很高,但还是有一批认可它的用户。
▲ Linguee 的英汉、汉英词典界面。(Source:Linguee)
不过,Linguee 的成败现在已不重要了,它在今年正式更名 DeepL,以“Deep”提醒 VC 自己是一家正经的深度学习公司。
真正重要的是 Linguee 的技术积累。Linguee 由 Google 翻译前研究员 Gereon Frahling 在 2007 年离职开发,2009 年正式上线。Linguee 的核心优势是它的爬虫和机器学习系统,前者抓取网络上的双语对照翻译,后者评估这些翻译的品质。两者结合,使 Linguee 成为当时“世界上首个翻译搜索引擎”。十年积累,Linguee 无论数据或算法的研究都不可小觑。
▲ 去年在伦敦 Noah 演讲的 Gereon Frahling。(Source:YouTube )
一年前,研究团队着手欲实现一个新目标:利用在机器翻译领域的多年专业积累,打造一套业内最先进的 NMT 系统。这便是 8 月 29 日上线的 DeepL 翻译。
三大优势
既然底子厚实,我们来看看这些积累给 DeepL 带来哪些资源优势。以下资讯均是 DeepL 一家之言,尚无第三方背书,大家得自行判断真实性。
数据
Linguee 的数据集有逾十亿组对照翻译语句,号称世界最大的人工翻译资料集。 Linguee 能随时搜寻近似翻译结果。
计算力
DeepL 在冰岛搭建了一台超级电脑,号称在全球 HPC 中性排名第 23 位,浮点运算能力达 5.1petaFLOPS。因而能实现让 DeepL 十分自豪的计算速度:每秒处理百万量级的词语翻译。
算法
采用 CNN 而不是 NMT 产品通用的 RNN。DeepL 宣称其技术积累使他们克服 CNN 的主要短板,因而实现比基于 RNN 的竞品算法更精确、自然的翻译结果。
效果展示
DeepL 宣称其翻译系统的表现打败 Google 翻译、微软、Facebook 的 NMT 系统, 是基于两个指标:盲测反馈和 BLEU 分数。
盲测
DeepL 邀请职业翻译者,对 DeepL 翻译、 Google 翻译、微软翻译以及 Facebook 的 NMT 系统盲测,要求测试者选出最好的翻译结果。测试语言为 3 组,分别是英德、英法、英西互译,样本为 100 个句子。DeepL 并未公布每组参与测试的职业译者数量。测试结果如下:
如图所示,每门测试中,选择 DeepL 的测试者都最多。 DeepL 在英译德、英译法、英译西的优势尤其明显。官方统计是:选择 DeepL 为最佳翻译结果的次数,与选择另外 3 家 NMT 服务的平均比例为 3:1 。
BLEU
BLEU 是业内评估机器翻译品质最常用的评分算法,被认为与人类的评判结果有较大相关性。
DeepL 宣布,其英译德、英译法的 BLEU 得分超过所有已发表的 NMT 研究,包括 Google Transformer。结果如下:
如图,在英译法项目上,DeepL 的 BLEU 分数超过次优方案约 3.5%。
业内观点
踏入江湖第一天,DeepL 就自封“天下第一”,同行对此怎么看?雷锋网咨询了搜狗语音互动中心总监陈伟、商鹊网 CEO 邹剑宇,以及 Facebook 机器学习工程师王杨。需要说明的是,3 位老师均表示:由于缺乏关于 DeepL 算法、数据库的第一手资料,也没有来自第三方的资讯,无法对其翻译水平客观判断。商鹊网的 CEO 邹剑宇评论:“从相关报导中,对算法的描述并不详细,没有论文揭露细节,所以不好理解。”
因此,以下仅为这 4 个看到 DeepL 宣传讯息后的一些个人看法。
在 Facebook 从事应用机器学习的工程师王杨,听到这件事的第一反应是怀疑──单是同时胜过 Google 翻译和 Facebook NMT 这一点,不拿出有足够说服力的证据就难以取信于人。Google 的NMT 积累深厚,Facebook 的 NMT 也在快速发展。一个新的产品想要如其宣传那样实现大幅超越,很难。
若 DeepL 确实在技术上有突破,那麽不排除他们有全新的多语种(multilingual)模型。
至于 DeepL 的算法模型基于 CNN 而不是 RNN,王杨表示“这从侧面支持 Facebook 的研究”。FAIR(Facebook AI Research)一直认为 CNN 在机器翻译的潜力远大过 RNN,尤其是计算速度,这也是 Facebook 在 NMT 领域的主要研究方向之一。
搜狗语音互动中心总监陈伟的机器翻译团队,刚在 WMT 2017 评测获得中英、英中两个翻译方向的第一名,他认为数据对 DeepL 的贡献可能远大过其他因素。而 Linguee 的数据爬取和积累,是一项不小的优势。
陈伟评论:
从 BLEU 对比看,提升比较明显,感觉他们十亿等级的高品质数据对效果帮助比较大。实测大家都觉得好,这至少说明数据的全面性还是够的。
据一名德语系译者说,DeepL 德英互译的体验确实不错,这丝毫不意外──身为一家德国公司,顺理成章的,DeepL 重点关注的是德英、法英这些语种的翻译。这为 DeepL 在这几门语种的数据积累也提供了一定的聚焦和便利。
DeepL 公布的盲测、BLEU 评分,衡量的均是德、法、西这三门欧洲语言与英语间的互译。
在算法方面,陈伟表示:
没看到他们技术的详细介绍,只了解使用 CNN 而没有用 RNN,但是我感觉架构变动不会太大,应该类似 Facebook 的 convs2s。
他并不认可“CNN 是神经机器翻译未来”说法:
在搜狗的实验对比中,RNN-NMT、CNN-NMT 和 Google 的 Transformer 框架,3 个技术我们都认真研究和升级过,目前 Transformer 框架已在搜狗翻译系统上线,从机器评分和人工评测来看,都领先主要竞品,较 RNN-NMT、CNN-NMT 提升也比较明显。
业内也没有一致观点认为 CNN 是 NMT 的未来。我觉得技术方案无论 CNN、RNN、Transformer 都没做到极致,目前主流技术框架到底是什么没有定论,算法细节的打磨和多种技术的融合会是未来发展趋势,另外数据量会是各家公司的技术壁垒。
最后,陈伟总结,根据 DeepL 公布的报告,目前的评测有 3 个地方导致难以评估技术:
- 人工评测的测试数据量仅有 100 句,而一般人工评测或者 BLEU 评测会采用几千句。
- DeepL 对比其他家并没有使用相同的训练数据集,因此性能无法评估。
- 更多技术细节没有公布,很难把握具体的情况。
商鹊网 CEO 邹剑宇十分认同数据和计算资源对 NMT 产品的重要性:
报导说其训练引擎是基于一台冰岛超级电脑,可以说深度学习真的很需要计算力。Linguee 本身是一个不错的语料库公司,数据积累有自己的特点,这应该是其引擎优秀表现的一个基础。
对于引擎的评测,Linguee 引擎的盲测很好,BLEU 值超过其他引擎最优质 3 个百分点(行业通论是:2 个 BLEU 值的提高就可以称为“显著”)。
对于 BLEU 值究竟能在多大程度上客观反映翻译品质,邹剑宇强调,需要合理看待其参考价值,不可等同于普通人面对翻译结果的直观体验:
翻译评测有 3 类对象:科研人员、翻译者和普通阅读用户,三者评测的目标和方法不一致。BLEU 是一个科研环境的评测参数,和人的阅读体验感受有很大的不同,不可同类而论。
他最后忍不住拿自家产品对比,表示商鹊网的新引擎甚至达到比 Google 翻译高出 6 个百分点的 BLEU 值。
(本文由 雷锋网 授权转载;首图来源:Linguee)