现在各大科技公司关注 AI,要用 AI 训练语音辨识,就得有语句对应语音数据库的存在了,才有办法训练 AI。采用开放方式运作的 Mozilla,则是推出 Mozilla 同声计划 (Common Voice),上个月 6 日公布开始收集德语、法语和威尔士语的音档。如今 Mozilla 已经开放录制繁体中文的音档,并且由 Mozilla 台湾社群开始号召社群成员录制大家平常生活对话。
采用开源方式运作的 Mozilla 基金会,采用惯用的开源群众力量来收集 AI 训练所需要的语音库,推出同声计划。Mozilla 台湾社群 Facebook 粉丝页周六发布贴文,宣布同声计划的繁体中文版本网站上线,并且开始收录大家的语音对话。只要花上一点点时间,按下网站的录音按钮,不论在桌机还是手机上面,就可以照着屏幕上出现的句子,照平常说话方式说出来,贡献给要做语音辨识的人。
▲ Mozilla Taiwan 志工,开放文化基金会理事赵柏强在社交媒体上面号召大家一起参与录制台湾国语的语音数据库。
目前在桌机上或是手机浏览器,都可以进到同声计划繁体中文版,录制台湾日常语言。但由于系统限制,iOS 下必须下载 App 才能贡献录音,Android 则可以直接在手机浏览器之下录音。
▲ 拜现代浏览器越来越强大之赐,不论在手机还是桌机上面,都可以直接贡献自己的声音出来。(Source:Mozilla Common Voice)
▲ Mozilla 同声计划,也可以在手机上操作,贡献自己的录音,或是审核别人念得对不对。(Source:Mozilla Common Voice)
如果想要贡献对话文本,也可以上 Mozilla Github,在去除隐私资料之后,捐出日常对话出来,供大家拿来当口说录音的脚本。
- Mozilla goes multilingual with open source Common Voice speech recognition datasets
- More Common Voices
(首图来源:Mozilla)