Google 在人工智能相关研究的成果一向相当优异,之前公布的 BERT 模型更在自然语言处理方面再次打破纪录,获得不少垂青。最近 Google 终于把模型源代码等组件开源,为开发者社群带来强力工具。
BERT 模型是预先训练语言特征,透过大型文本数据库训练,获得通用语言理解模型。此模型可应用在自然语言处理下游工作,包括常用问答处理等。BERT 是首个用于预先训练自然语言处理的无监督、双向深层系统,只需要应用文本数据库就可训练,减少大量开发程序,效果也相当出色。
Google 在 Github 开源的除了 BERT 模型的 TensorFlow 源代码,也有 BERT-Base 与 BERT-Large 模型的预先训练检查点、微调实验结果的自动化复现 TensorFlow 源代码、预先训练数据生成和数据训练的源代码,可谓相当全面。
BERT 于史丹佛 SQuAD 阅读理解测试,取得 93.2% 准确度的极高分数,比人类阅读的基准分数 91.6% 还高,在另一个 GLUE 基准测试也取得 80.4% 准确率。有了这工具,开发者就可制作更准确理解自然语言的应用,对人工智能开发有不小帮助。
- Google open-sources BERT, a state-of-the-art pretraining technique for natural language processing
(本文由 Unwire Pro 授权转载;首图来源:Google AI)