DeepMind 语音生成模型 WaveNet 正式商用：效率提高 1,000 倍 04月29日更新

10 月 4 日，DeepMind 在部落格发文称，一年前提出的生成初始声讯波形的深层神经网络模型 WaveNet 已正式商用于 Google Assistant，该模型比一年前的初始模型效率提高 1,000 倍，且比目前方案更能模拟自然语音。

以下为 DeepMind 部落格的详细资讯，编译如下。

一年前，我们提出一种用于生成初始声讯波形的深层神经网络模型 WaveNet，可产生比目前技术更好和更逼真的语音。当时，这个模型是一个原型，如果用在消费级产品，计算量就太大了。

过去 12 个月，我们一直努力大幅度提高这模型的速度和品质，今天，我们骄傲地宣布，WaveNet 的更新版本已整合到 Google Assistant，用于生成各平台上所有英语和日语语音。

新的 WaveNet 模型可为 Google Assistant 提供更自然的声音。

为了理解 WaveNet 如何提升语音生成，我们需要先了解目前字档到语音（Text-to-Speech，TTS）或语音合成系统的工作原理。

目前的主流方法是基于所谓的衔接 TTS，使用单个配音演员的高品质录音的大数据库，通常有数小时的资料。这些录音分割成小块，然后将其组合以形成完整的话语。然而，这方法可能导致声音在连线时不自然，且难以修改，因为每当需要一整套改变（例如新的情绪或语调）时，就要用到全新的数据库。

另一方案是使用参数 TTS，该方案不需要用诸如语法、嘴型行动的规则和参数来指导电脑生成语音并衔接。这种方法即便宜又快捷，但这种方法生成的语音不那么自然。

WaveNet 采取完全不同的方法。初始论文中，我们说明一个深层的生成模型，可以每秒处理 16,000 个样本、每次处理一个样本档的方式构建单波形，达成各声音之间无缝转换。

WaveNet 使用卷积神经网络构建，用大量语音样本资料集训练。在训练阶段，网络确定语音的底层架构，比如哪些音调相互依存，什么样的波形是真实的以及哪些波形不自然。训练好的网络每次合成一个样本，每个生成的样本都考虑前一个样本的属性，产生的声音包含自然语调和如嘴唇形态等参数。它的“口音”取决于它接受训练时的声音口音，而且可从混合资料集建立任何独特声音。与 TTS 系统一样，WaveNet 使用字档汇入来告诉它应该产生哪些字以回应查询。

初始模型以建立高传真声音为目的，需要大量的计算。这意味着 WaveNet 理论上可做到完美模拟，但难以现实商用。过去12个月，团队一直在努力开发一种能更快生成声波的新模型。该模型适合大规模部署，并且是第一个在 Google 最新 TPU 云端基础设施应用的产品。

▲ 新模型 1 秒钟能生成 20 秒的声音讯号，比初始方法快 1,000 倍。

WaveNet 团队目前正在准备一份详细介绍新模型背后研究的论文，但我们认为，结果自己会说话。改进版的 WaveNet 模型仍然生成初始波形，但速度比初始模型快 1,000 倍，每建立 1 秒钟的语音只需要 50 毫秒。该模型不仅速度更快，且传真度更高，每秒可产生 24,000 个取样波形，同时我们还将每个样本的分辨率从 8bit 增加到 16bit，与光碟使用的分辨率相同。

这些改进使新模型在人类听众的测试中发声显得更自然。新的模型生成的第一组美式英语语音得到的平均意见得分（MOS）为 4.347（满分 5 分），而真实人类语音的评分只有 4.667。

新型态还保留了初始 WaveNet 的弹性，使我们在训练阶段更能利用大量资料。具体来说，我们可以使用多个语音的资料来训练网络。这可以用于生成高品质和具细节层次的声音，即使在所需汇出语音中几乎没有训练资料可用。

我们相信对 WaveNet 来说只是开始。我们为世界所有语言的语音界面的无限可能兴奋不已。

WaveNet launches in the Google Assistant

（本文由雷锋网授权转载；首图来源：pixabay）

DeepMind 语音生成模型 WaveNet 正式商用：效率提高 1,000 倍

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图