10 月 4 日,DeepMind 在部落格发文称,一年前提出的生成初始声讯波形的深层神经网络模型 WaveNet 已正式商用于 Google Assistant,该模型比一年前的初始模型效率提高 1,000 倍,且比目前方案更能模拟自然语音。
以下为 DeepMind 部落格的详细资讯,编译如下。
一年前,我们提出一种用于生成初始声讯波形的深层神经网络模型 WaveNet,可产生比目前技术更好和更逼真的语音。当时,这个模型是一个原型,如果用在消费级产品,计算量就太大了。
过去 12 个月,我们一直努力大幅度提高这模型的速度和品质,今天,我们骄傲地宣布,WaveNet 的更新版本已整合到 Google Assistant,用于生成各平台上所有英语和日语语音。
新的 WaveNet 模型可为 Google Assistant 提供更自然的声音。
为了理解 WaveNet 如何提升语音生成,我们需要先了解目前字档到语音(Text-to-Speech,TTS)或语音合成系统的工作原理。
目前的主流方法是基于所谓的衔接 TTS,使用单个配音演员的高品质录音的大数据库,通常有数小时的资料。这些录音分割成小块,然后将其组合以形成完整的话语。然而,这方法可能导致声音在连线时不自然,且难以修改,因为每当需要一整套改变(例如新的情绪或语调)时,就要用到全新的数据库。
另一方案是使用参数 TTS,该方案不需要用诸如语法、嘴型行动的规则和参数来指导电脑生成语音并衔接。这种方法即便宜又快捷,但这种方法生成的语音不那么自然。
WaveNet 采取完全不同的方法。初始论文中,我们说明一个深层的生成模型,可以每秒处理 16,000 个样本、每次处理一个样本档的方式构建单波形,达成各声音之间无缝转换。
WaveNet 使用卷积神经网络构建,用大量语音样本资料集训练。在训练阶段,网络确定语音的底层架构,比如哪些音调相互依存,什么样的波形是真实的以及哪些波形不自然。训练好的网络每次合成一个样本,每个生成的样本都考虑前一个样本的属性,产生的声音包含自然语调和如嘴唇形态等参数。它的“口音”取决于它接受训练时的声音口音,而且可从混合资料集建立任何独特声音。与 TTS 系统一样,WaveNet 使用字档汇入来告诉它应该产生哪些字以回应查询。
初始模型以建立高传真声音为目的,需要大量的计算。这意味着 WaveNet 理论上可做到完美模拟,但难以现实商用。过去12个月,团队一直在努力开发一种能更快生成声波的新模型。该模型适合大规模部署,并且是第一个在 Google 最新 TPU 云端基础设施应用的产品。
▲ 新模型 1 秒钟能生成 20 秒的声音讯号,比初始方法快 1,000 倍。
WaveNet 团队目前正在准备一份详细介绍新模型背后研究的论文,但我们认为,结果自己会说话。改进版的 WaveNet 模型仍然生成初始波形,但速度比初始模型快 1,000 倍,每建立 1 秒钟的语音只需要 50 毫秒。该模型不仅速度更快,且传真度更高,每秒可产生 24,000 个取样波形,同时我们还将每个样本的分辨率从 8bit 增加到 16bit,与光碟使用的分辨率相同。
这些改进使新模型在人类听众的测试中发声显得更自然。新的模型生成的第一组美式英语语音得到的平均意见得分(MOS)为 4.347(满分 5 分),而真实人类语音的评分只有 4.667。
新型态还保留了初始 WaveNet 的弹性,使我们在训练阶段更能利用大量资料。具体来说,我们可以使用多个语音的资料来训练网络。这可以用于生成高品质和具细节层次的声音,即使在所需汇出语音中几乎没有训练资料可用。
我们相信对 WaveNet 来说只是开始。我们为世界所有语言的语音界面的无限可能兴奋不已。
- WaveNet launches in the Google Assistant
(本文由 雷锋网 授权转载;首图来源:pixabay)
延伸阅读:
- 谷歌 AI 击败棋王后再进化!会开口说话、语调超像真人