亚马逊(Amazon)早在 2016 年就在 AWS 推出按字计费的 AWS Polly 文字转语音(Text-to-Speech,TTS)服务。过去很容易分辨电脑与人读音的差别,随着现代机器学习技术加持,文字转语音引擎在近几年来取得巨大的进步,音质已达新闻播报员的水准了。亚马逊 AWS 云端运算部门于 30 日发表了一系列新神经网络文字转语音(Neural Text-to-Speech,NTTS)模型,并采用模仿新闻播报员声音的全新风格。
“语音音质当然很重要,但要让合成语音听起来更真实、更吸引人,我们还有很大的努力空间,”亚马逊新闻稿指出:“至于语音风格?当然,人类的耳朵可以分辨新闻节目、体育节目、大学课程等风格的不同;事实上,大多数人在正确语境下采用正确的说话风格,必然让资讯更容易理解。”
正如亚马逊网络服务技术传教士赛门(Julien Simon)在部落格文指出的,透过自然度和表现力提升,神经网络文字转语音引擎能大幅提高语音音质的表现。至于全新新闻播报员风格支援,能让新闻报导和部落格文章等论述文听起来更真实。
这全拜神经网络文字转语音的底层机器学习算法之赐而达成,西蒙表示:“多亏 Polly 和新闻播报员风格,(听众)可享受高音质的文章阅读,听起来就像他们在电视或广播听到的一样。”
“能教 Alexa 根据客户的要求调整说话风格,这为 Alexa 提供以前无法想像的全新体验,”亚马逊文字转语音服务研发团队资深经理布林(Andrew Breen)在部落格写道。
多家媒体已开始使用,第一年有限字数免费
如今,举凡加拿大《环球邮报》(The Globe and Mail)、《今日美国》(USA Today)、Gannett 媒体集团、数位软件出版商 BlueToad、出版工具供应商 TIM Media、《大英百科全书》(Encyclopedia Britannica)、非营利的教育科技(Ed-tech)公司 CommonLit 和游戏开发商 Volley 等 AWS 客户,已在使用 Polly 提供的新闻播报员风格。今年 1 月,亚马逊已默默推广到支援 Alexa 的装置,用于每日新闻简报及维基百科内容片段解说。
新的新闻播报员风格提供男(Matthew)、女(Joanna)两种英语语音,而神经网络文字转语音引擎则支援 11 种语音,包括 3 种英语语音和 8 种美语语音,皆采即时与批次处理模式,目前位在美东(维吉尼亚州)、美西(奥勒冈州)和欧洲(爱尔兰)等 AWS 服务区域的使用者皆可使用。
计费方面,从第一次语音请求(标准语音或 NTTS 语音)开始,最初 12 个月内,每月最多有 100 万字元的神经网络文字转语音服务免费,之后就要按字计费了。
凭借神经网络转语音引擎与新闻播报员风格,亚马逊与 Google 正面交锋。2 月,后者在云端 NTTS 服务推出 31 个新 WaveNet 语音和 24 个新标准语音(整个 WaveNet 语音总数达 57 个)。亚马逊另一个竞争对手是微软,微软在预览版提供 3 种 AI 生成语音,并透过 Azure 语音服务 API 提供 75 种标准语音。
- AWS’ new text-to-speech engine sounds like a newscaster
- Amazon launches Neural Text-To-Speech and newscaster style on AWS Polly
(首图来源:pixabay)