身为元宇宙最坚定支持者之一,Facebook 10 月宣布改名 Meta,之后便动作不断,先是推出触觉手套,试图让人们在 VR 世界也能有触觉。
触觉后 Meta 又盯上语言,要让人们在虚拟世界无障碍沟通,哪怕双方语言不同,你说英语,我说中文都能互相理解。
于是 XLS-R 来了,是 Meta 最近发表的 AI 语言处理模型,最多能辨识 128 种语言,已公开网页体验版。体验版功能还不全,仅支援 22 种语言翻译成 16 种语言,笔者尝试常见的英翻中,一段 7 秒左右英文语音,XLS-R 能相对准确辨识,中文翻译和英文辨识都基本正确,两者耗时都为 1.4 秒左右,并不算短。
对比市面常见语音翻译应用,速度和转译表现其实中规中矩,且对清晰度有要求,一旦语速稍快就难理解出错。
XLS-R 潜力体现于多语言通用 AI 模型,Meta 技术基于 wac2vec 2.0 预训练模型,能将语音拆成 25 毫秒的基本单元分析,利用上下文转换语音,提升辨识准确度。之后 Meta 又多次调整 wac2vec 2.0 技术,尝试处理多种语言,转换准确率提升不少,经过 43.6 万小时公开录音训练后,才有如今的 XLS-R。
▲ XLS-R 辨识单词错误率更低。(Source:Facebook AI)
XLS-R 仅用一种语言模型就可转成 128 种语言,和特殊领域使用特殊模型的常见做法不同,大大提升通用性。官方部落格 Meta 表示目标是用单一模型辨识全球 7 千多种语言,改进翻译算法。这是个新开始,离真正成为 Meta 设想的虚拟世界基础部分还有难度,不仅和技术有关,设备算力也是限制。
同为自然语言辨识领域高技术储备的 Google,其实比 Meta 更早于消费级设备支援多语种翻译,Pixel 6 系列支援 live Translate 功能,可翻译聊天软件,无障碍与外国朋友交流。
只是 live Translate 功能支援的语言并不算多,主要还是英语、德语、日语翻译,哪怕 Pixel 6 的 Tensor 芯片 AI 性能冠绝全球,达骁龙 888+ 三倍。只有连网 live Translate 功能才能支援 48 种语言,使用云端计算的 Google 翻译也仅支援 108 种语言,离 7 千种语言还很远。
元宇宙仍有段距离,不过 XLS-R 等技术为 Meta 虚拟世界的基础建设之一,或许能在其他领域发挥作用,现在发布 XLS-R 预训练模型微调教程,专业人士可基于此微调后应用于工作。
或许不久后,我们能看到越来越多应用支援更多语种语音翻译。
(本文由 爱范儿 授权转载;首图来源:pixabay)