超高首奖达台币 2,000 万元吸引不少好手竞逐,但复赛资格严格没有团队能符合资格的争议下,“科技大擂台 与 AI 对话”竞赛,复赛时团队时所运用的语音辨识资料集,即将要释出。尽管因先前争议笼罩阴影,这次资料集除了初赛混入噪声的训练集,以及复赛及决赛当中,采用广播电台咬字清楚的语音档案,总共 400 小时长度,搭配标记开放研究者和企业申请使用。
今日 (6/25) 在 2019 在语音讯号处理研讨会上,科技部与合作两大-广播电台,教育广播电台与警察广播电台,携手宣布 AI 语音数据集资料集即将上线释出。台北科技大学廖元甫副教授协助语音资料的标记,而国网中心则提供资料集的储存空间与连线带宽。
科技部次长许有进期许语音资料集有助于民生应用,像是各界开发 Chatbot,并且说到这次科技大擂台与 AI 对话竞赛,很可惜没有团队能符合首奖资格。比赛主办单位科政中心表示,这 400 小时是先期的测试资料,后续还会有更多资料释出,现在还在厘清适当的授权,等到确定会有说明页面,解释如何下载和运用这些语音资料。
▲ 国网中心资料集平台目前页面内容有先前竞赛释出的资料集,以及需要申请取得的 400 小时资料集,仍需要补上说明文字。(Source:国网中心截图)
要弄语言辨识 AI,相比对岸中国成果相当丰富,原因在有不少有资源的大公司,能解决资料取得上,还有后续标记作业的障碍,台湾要有单一企业弄基基础的训练资料,是蛮困难的事情。因此由-推一把,统合各方建置语音 AI 所必须的训练资料集,看来是赶上这波 AI 风潮所必须做的事情。
(首图来源:科技新报)
延伸阅读:
- 语音辨识 AI 比赛惹争议, 科技部说明灭火但难抚平不满(新增科技部说明)
- AI 热身赛交大夺冠,陈良基盼正式赛水准更高