语音助理风行,从硅谷到东亚的中国、日本公司,不少科技公司投入资源进来发展这块。但对不少新创还是学生研究人员来说,首先第一步遇到的问题是,他们没有大公司资源,也无法靠一己之力收集所需要的训练资料。Mozilla 看到这个问题,决定用开放创新 (Open Innovatoin) 方式来收集语音资料。Mozilla 的同声计划 (Common Voice)运行一段时间,并且已经释出英文的语料库出来,可以供 AI 训练语言辨识模组。台湾社群的努力,开始台湾的语音收集计划,并且收录包括柯 P、蔡总统文告,变成语音训练数据库的一部分。
Mozilla 的 Kelly Davis 是语音辨识的专家,说语音辨识是相当复杂的过程,细部拆解可以分成语音截取、语音辨识、自然语言理解/对话 AI、自然语音生成,以及合成对话。目前同声计划专注在收集语音资料这一步,然后收集足够多的对话文字和语音资料,就可以做 Speech to text 的转换。他们自己评估需要收集不同人共 10,000 小时的录音,就能训练出可以媲美 Google 语音助理效果的语音辨识 AI 了。
▲ 语音相关技术彼此之间的关系,而同声计划则是在第二步语音辨识这边。(Mozilla 提供)
由于全球的科技公司以北美为主,因此做语音助理这块,用北美男性口音效果最好。但北美的人口只是全球人口一部分,要能够服务全球所有人口,必须广纳全球各地不同人的声音,尽量多样的声音,男女老幼声音都要能尽力收录。
▲ 同声计划专注 Speech-to-Text 这块,而 Mozilla 另一个计划 Deep Learning 则是做语音生成这块。(Source:科技新报)
资源少,还没办法好好写说明文件
同声计划团队的 Michael Henretty 称赞先前《科技新报》的文章有类似一步一步带的操作步骤说明,还有清础说明那些平台可以用,特定平台又要怎么用,他们团队小,而且为了避免计划人力过大,影响既有 Mozilla 的任务,以小团队的方式进行,甚至美编还得共用。同声计划还没有时间精力撰写说明文件。Michael 听到下载出问题的状况,如同前面提及的文件还不大够的问题,说他们还没有时间好好优化流程,之后要好好来改善。
▲ 如何录音的说明,同声计划还没有太多精力撰写。同声计划也有想要拍说明影片,介绍如何录音及验证录音资料。(Source:科技新报 )
同声计划资源不多的状况,还反映在这个计划还并没有 logo。很多素材的现况,如充做吉祥物角色的机器人,则是去年在台湾的设计思考工作坊的产物。Henretty 说他们希望之后有更多资源进来,计划本身有更多动力,周边的行销资源也能改善。
同声计划团队指他们听到不少参与者的心声,如加上录音排行榜,以及离目标 10,000 小时完成度的百分比饼图。另外针对收集录音对象,能够更细致的询问年龄、出生地,让 AI 训练更为精确。
柯 P、蔡总统文告成为素材之一
Mozilla 台湾社群联络人 Irvin 说他们收集属于公有领域的素材,像是不受台湾著作权保护的政府官员说话的新闻稿。因此训练的素材有柯文哲市长的致辞新闻稿,或是蔡文英总统的文告,各位可以念到柯 P 语录或是蔡总统的发言。
维基百科是规模相当庞大的文字数据库,但受限维基百科采用 CC-BY-SA 方式授权,因此不能使用。由于预期语音的应用会需要混搭,因此采用宽松的 CC0 授权,帮助新创和学生发展不同的语音应用。
目前同声计划计划共录制 900 小时,有 112 个国家参与。同声计划已经是全球第二大开源语料库,预计不久之后,2018 年年中会超越最大 LibriSpeech 成为最大开源语料库。
▲ LibriSpeech 是全球最大的开放语料库,但预料不久应会被同声计划超越。(Source:科技新报)
而各别语言拆开论述。大家关心台湾的部分,目前已经收集 36 小时的录音,这不过是从 6 月 30 日开始的累积成果,这样的成绩相当不错。如果依据同样速度前进,可以很快超车排名第二、第三的法国和德国,站上第二名的位置。
开放创新,多个利益相关者共同参与的创新方式
Mozilla 强调开放创新的理念,相对之下就是传统公司关起门的研发。Mozilla 发展同声计划,就有来自学界的帮忙,如威尔士的 Bangor University in Wales 长期致力收集和保存凯尔特语言,就提供语言学的专业知识,实际的语音收集技术,以及另一种接触人的方法。Bangor University 的老师就说,他们出去收集素材,会被要求有偿进行,但 Mozilla 发起的计划,却能动员人们免费参与,免费给录音出来。Bangor University 已经收集五年了,成果却比不上同声计划。
Davis 就说同声计划与 Bangor University 的合作就是相当典型的开放创新,Bangor University 提供语言保存角度可以怎么做的作法,Mozilla 则是提供软件技术的支援。
尽管同声计划数据库采用 CC0 的授权,别人用资料可以不必标示出处,但同声计划团队表示,仍希望能被使用者告知,知道他们辛苦收集的资料用在何方。商业公司如 Google,已经有用到释出的英文语料资料了,新创公司 Mycoft 则是搭配 Mozilla 另一语言专案 Deep Speech,做出类似 Siri 的产品。
台语、客语,多个原住民语言都可能收录
不少人可能好奇能否收录 Taigi (台语)、Hakka (客家话)、众多原住民语言等台湾语言。同声计划团队指他们的力量有限,无法接触世界上每种语言。以他们角度则是尽可能 empower 各个社群,要他们来参与,鼓励他们参与,在由社群制订方法和收录文字资料。而台湾社群相当积极推动同声计划,也让台湾很快就能收集自家的语言资料了,成为亚洲第一个开始的语言。
Irvin 提台湾社群讨论时,有想过以汉字、台湾罗马字并列的方式生出台语的文字资料,而原住民语言则先列出用汉字写的文句,族人依据他们族语的念法,直接念出来。
同声计划团队说中文的挑战相当巨大,像是有繁简体字两套文字书写方式,同样的文字说话的语音不同,地理分布导致语言有相当大的差异。所以这就是社群内部讨论的重要性所在,最终依据讨论成果列出收录方式和文字的数据库。
有这么多技术可以做,为何挑选语音辨识。Davis 表示不少人不识字,对于电脑惯用的键盘输入并不熟悉,如果直接用语音方式操作,会更为直接,能够接触需要网络的人。未来 Mozilla 的 Firefox 浏览器,计划加上直接声控的功能。
(首图图说:同声计划在台湾的社群活动,同声计划成员介绍专案。来源:科技新报)
延伸阅读:
- Mozilla 同声计划扩大,用念的也可以贡献台湾口音的开放语言资料集
- Mozilla 同声计划打开多语大门,壮大开源语音资料