语音合成新进展，Facebook AI 系统能用比尔盖兹声音流畅说话 04月10日更新

鉴于近年来机器学习技术的巨大进步，人们已经看到许多影像、图片上的发展，然而声音的应用仍相对少见，以文本转换语音的程式来说，即使是最好的系统仍听起来十足具有“机器”味，但在 Facebook AI Research 打造出能再现人类语调的 AI 系统“MelNet”后，这样的情况大概也维持不久了。

AI 在声音上应用之所以少见并不是因为缺乏尝试，就像图像、影像一样，许多团队都曾使用大型数据库来训练深度学习算法尝试再现真实的语音，然而过去多数研究都使用声音波形（waveforms）进行训练，产生的 AI 在克隆人类语调上表现往往不如预期，这也导致文本到语音系统的缓慢进展。

与多数研究者不同，Facebook AI Research 的 Sean Vasquez 和 Mike Lewis 选择另辟蹊径，不关注声波图而是采用声谱图（spectrograms）去训练深度学习网络，Vasquez 和 Lewis 解释，由于声谱图的时间轴比声波图更为紧凑，这意味着在波形中横跨数万个时间序列的相关性在声谱图中只相隔数百个，这使深度学习系统更容易获得相关性。

“这也让我们的频谱图模型能够产生无限制的语音和音乐样本，并且和原始样本保持一致性”。

结果相当令人印象深刻。在使用 TED 原始演讲内容训练系统之后，MelNet 能够在几秒内重现 TED 讲者的声音说出一些话，团队公布的所有例子可以前往此处查看，除了有对比尔盖兹、李飞飞、珍古德等 TED 讲者及数据库中各种口音对象的模仿，团队也让 MelNet 模仿产生了片段音乐，成果相当惊人。

当然，MelNet 还是有其限制存在。虽然在简短句子中听起来就像本人，但人们在长时间演讲时，经常会随着内容演变改变语调来带入情绪，但 MelNet 并不具备这种能力，除此之外， MelNet 虽然可以很快产生具可信度的短句，但它并无法产生更长的句子、段落或整个故事，而这也不是很快能够达成的目标。

虽然在复制上有许多条件限制，但可想而见，MelNet 的出现将对未来的人机交互产生重大影响。像是总机、服务台这类型的工作，对话经常只涉及使用简短的句子问答，类似 MelNet 的系统将可以让机器以更像人类的方式自动化这些互动。

从另一方面来看，就像能模仿人类的许多其他 AI 技术，MelNet 未来被有心人士应用在“其他用途”上并不是太难想像的事，而一但这些 deepfake 技术互相结合，又会发生什么事？

与往常一样，AI 在模仿人类上的发展进步似乎提出了更多的道德问题，而不是答案。

Facebook’s AI system can speak with Bill Gates’s voice

（首图来源：达志影像）

语音合成新进展，Facebook AI 系统能用比尔盖兹声音流畅说话

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图