目前文字转语音的技术已相当普及,由于应用范围广泛,不少科技公司努力开发新技术,带来更自然流畅的效果。最近微软就开发出只需少量训练就可运作的人工智能语音技术。
目前文字生成语音技术需要大量资料去训练调整,才能达到自然效果,不过微软最近开发的人工智能技术,可用 200 个声音标本,也就是约 20 分钟录音,自动生成拟真度高的语音,比传统技术节省不少时间。此次采用深度神经网络技术,直接将输入文字连接到声音库,生成语音更有效率,即使较复杂的文字也可快速生成。
据研究人员指,虽然现在技术生成的语音仍未臻完美,但可读性已达 99.84%,意味大多数情况下,语音都可正确理解。新技术将让文字生成语音的技术门槛大幅降低,就算是中小型公司,都可简单制作自己的语音系统,无需投入大量资源。不过目前微软仍然未推出使用这技术的相关产品,距离正式推出相信仍有一段时间。
- Microsoft’s AI generates realistic speech with only 200 training samples
(本文由 Unwire Pro 授权转载;首图来源:微软)