由乡民参与收集的语音数据库 Common Voice 同声计划,如今开放释出 多国含台湾中文语音资料 (Beta 版),有兴趣先行试用训练语音 AI 的人,可以下载台湾中文资料。
根据 Mozilla 台湾社群联络人、Common Voice 专案志工 Irvin 表示,台湾中文的语音档案,包含自去年 6 月开始至今的完整录音,总共 3 万 6 千个音档,890MB,总长度约 30 小时,其中经过使用者两次验证的部分约 16 小时。
下载方式可到 Discourse 论坛阅读说明下载文件档,填写表单后才能取得整份压缩过,采用 P2P dat:// 协定传播的语音档。
Mozilla 相信网络社群的积极参与,因此此次多国语音资料 (Beta 版) 不放在 Common Voice 网站,而是在 Discourse 论坛释出档案,希望不只有 Mozilla 公司,还有 Mozilla 社群以及语言辨识的专家学者共同来参与,激发更大的火花。
Common Voice 同声计划收录的语音以及对应的文字,采用 Creative Common Zero 的抛弃著作权授权方式,由于预期语音的应用会需要混搭,同声计划因此采用宽松的 CC0 授权,帮助新创和学生应用同声计划的语音库,发展出不同的语音应用。
目前在台湾志工的经营下,去年建立了两个 Common Voice 台湾社群讨论频道:
- Telegram https://t.me/moztwCV
- Line http://line.me/ti/g/GXvGlgG0As
另外 Mozilla 社群也欢迎有兴趣的人,到 Discourse 与团队工程师以及其他国家的社群交流:https://discourse.mozilla.org/c/voice
(首图来源:Mozilla)
延伸阅读:
- 柯 P 语录、蔡总统文告也收录,Mozilla 同声计划要建构无使用限制的全球最大语音语料库
- Mozilla 同声计划扩大,用念的也可以贡献台湾口音的开放语言资料集
- Mozilla 同声计划打开多语大门,壮大开源语音资料