许多 Google 产品(像是 Google Assistant、Google 搜寻、Google 地图等)都内建了高品质的 Text-to-Speech 服务,可以产生如人声般自然的发音。Google 收到许多开发者的意见,表示希望能将 Text-to-Speech 的服务结合到他们的应用程序中,所以 Google 特别将这项 Cloud Text-to-Speech 技术加入 Google 云端平台(Google Cloud Platform,GCP)中。
使用者可以将 Cloud Text-to-Speech 服务运用在不同的情境中:
- 为电话语音服务(Interactive Voice Response,IVR)中心提供语音回应系统,并启用即时自然语言对话功能。
- 与物联网设备,如电视、汽车、机器人等进行对话。
- 将文字格式的媒体内容(如新闻文章、书籍)转为口语形式(如Podcast、有声书)。
Cloud Text-to-Speech 服务提供了 12 种不同语言中的 32 种不同声音供使用者选择。即使是复杂的文字内容,例如姓名、日期、时间、地址等,Cloud Text-to-Speech 服务也可以立刻发出准确且道地的发音,并支援多种音档格式,包含 MP3 和 WAV 等,不仅如此,使用者还可以自己调整音调、语速和音量。
Text-to-Speech 服务结合 DeepMind 技术
Google 也很开心宣布,Cloud Text-to-Speech 服务更以 DeepMind 所建构的原始音档生成模型 WaveNet 为基础,透过运用 WaveNet 将一系列高保真度的声音转化为语音。整体而言,WaveNet 可以合成并产出更自然的语音细节,而且相较于其他 Text-to-Speech 技术所产生的语音内容,WaveNet 所产出的语音内容也更受使用者喜爱。
在 2016 年底,DeepMind 推出了第一版的 WaveNet,透过神经网络架构来训练大量的语音样本并创造原始音频的波形。在训练过程中,神经网络会撷取语音的基本架构,像是语调的连接和语音波形的形状等。当输入特定的文字内容时,经过训练的 WaveNet 模型会产生相对应的语音波形,借由一次产生一个样本的方式,达到比其他方法更高的准确度。
现在,Google 使用的运行于 Google 云端 TPU 基础架构上的更新版 WaveNet。全新且升级的 WaveNet 模型所生成的原始音频波形,比原本的模型快了 1,000 倍,而且只需 50 毫秒即可生成一秒钟的语音讯息。事实上,这个新模型不仅更快速而且具有高保真度,且每秒能创造出 24,000 个音频波形的样本。为了制作出更好、更拟真的音质,Google 也将每个样本的分辨率从 8 位元提高到 16 位元。
借由上述调整,新的 WaveNet 模型可以制作出更自然的语音讯息。在测试过程中,使用者在 1 到 5 级的平均意见分数(Mean-opinion-score,MOS)量表中,给予新版美式英文 WaveNet 语音 4.1 的高分,其中有超过 20% 的人认为比标准的人声更好,而超过 70% 的人肯定它能降低人类语言的隔阂。由于 WaveNet 音讯仅需较少录制音频,就能制作出高音质模型,因此 Google 预计在未来几个月内,将持续改善 WaveNet 音讯的多样性与品质,并提供给云端客户使用。
Cloud Text-to-Speech 已经协助很多 Google 的客户,像是思科(Cisco)和 Dolphin ONE,提供更好的终端使用者体验。
有了 Cloud Text-to-Speech 服务,你只需要透过点击就能体验到全球最先进的语音科技。想了解更多详细资讯,请参考相关文件或价目表;想要试用公开测试版或体验新的语音服务,请前往 Cloud Text-to-Speech 的网站。
(首图来源:科技新报)