鉴于近年来机器学习技术的巨大进步,人们已经看到许多影像、图片上的发展,然而声音的应用仍相对少见,以文本转换语音的程式来说,即使是最好的系统仍听起来十足具有“机器”味,但在 Facebook AI Research 打造出能再现人类语调的 AI 系统“MelNet”后,这样的情况大概也维持不久了。
AI 在声音上应用之所以少见并不是因为缺乏尝试,就像图像、影像一样,许多团队都曾使用大型数据库来训练深度学习算法尝试再现真实的语音,然而过去多数研究都使用声音波形(waveforms)进行训练,产生的 AI 在克隆人类语调上表现往往不如预期,这也导致文本到语音系统的缓慢进展。
与多数研究者不同,Facebook AI Research 的 Sean Vasquez 和 Mike Lewis 选择另辟蹊径,不关注声波图而是采用声谱图(spectrograms)去训练深度学习网络,Vasquez 和 Lewis 解释,由于声谱图的时间轴比声波图更为紧凑,这意味着在波形中横跨数万个时间序列的相关性在声谱图中只相隔数百个,这使深度学习系统更容易获得相关性。
“这也让我们的频谱图模型能够产生无限制的语音和音乐样本,并且和原始样本保持一致性”。
结果相当令人印象深刻。在使用 TED 原始演讲内容训练系统之后,MelNet 能够在几秒内重现 TED 讲者的声音说出一些话,团队公布的所有例子可以前往此处查看,除了有对比尔盖兹、李飞飞、珍古德等 TED 讲者及数据库中各种口音对象的模仿,团队也让 MelNet 模仿产生了片段音乐,成果相当惊人。
当然,MelNet 还是有其限制存在。虽然在简短句子中听起来就像本人,但人们在长时间演讲时,经常会随着内容演变改变语调来带入情绪,但 MelNet 并不具备这种能力,除此之外, MelNet 虽然可以很快产生具可信度的短句,但它并无法产生更长的句子、段落或整个故事,而这也不是很快能够达成的目标。
虽然在复制上有许多条件限制,但可想而见,MelNet 的出现将对未来的人机交互产生重大影响。像是总机、服务台这类型的工作,对话经常只涉及使用简短的句子问答,类似 MelNet 的系统将可以让机器以更像人类的方式自动化这些互动。
从另一方面来看,就像能模仿人类的许多其他 AI 技术,MelNet 未来被有心人士应用在“其他用途”上并不是太难想像的事,而一但这些 deepfake 技术互相结合,又会发生什么事?
与往常一样,AI 在模仿人类上的发展进步似乎提出了更多的道德问题,而不是答案。
- Facebook’s AI system can speak with Bill Gates’s voice
(首图来源:达志影像)
延伸阅读:
- 嘴型、语音都超级自然,新算法可以像改错字一样直接微调影片人物谈话内容
- 有图不一定有真相!NVIDIA AI 现在能混合人脸特征,创造出全新脸孔