想让奥巴马说什么都可以！最新 AI“对嘴”技术可伪造几可乱真的影片内容 04月06日更新

眼睛看到的不一定可靠！过去，我们用 Photoshop 修出各种“照骗”，但最新 AI 技术，连影片中谈话者的嘴形和声音都可以修改，甚至逼真到难以从影片中察觉异状。该研究可将声音档转换为说话嘴形，并套用在其他影片中，改变影片主角原本的说话内容；也就是，虽然影片片段是真的，但说话的内容是假的。

华盛顿大学研究团队发表一篇名为“同步奥巴马：学习如何用声音同步嘴形”的研究，而研究成果就是一系列美国前总统奥巴马的“造假”影片。

该研究透过深度学习算法，让软件从奥巴马过去的演讲影片中，学习如何将声音档转换为嘴形变化，因此，当替影片配上新配音时，这套软件可将新配音转换为嘴形变化，再将嘴形移植到既有影片中。

▲ 该研究透过神经网络技术，从奥巴马过去的演讲影片中学习如何将声音档转换为嘴形变化，再将嘴形移植到既有影片中。（Source：UW News）

虽然影片中的音档确实来自奥巴马过去说过的话，但说话场景却完全不同。就像示范影片中，左边是音档来源，右边是另一场完全不同的演讲，但研究者透过算法，将两者结合成全新的影片。

研究者表示，之所以选择奥巴马为实验对象，原因在于网络上可轻易取得大量奥巴马公开谈话的高清影音档，适合用来训练人工智能。

和过去研究不同的是，该软件不需要扫描大量的演讲影音资料，也不需要分析不同人说出相同句子的嘴形，才能学会转换声音；其仅需要既有的影音素材即可，所需成本和规模更小。

研究者指出，该研究仅分析 17 小时的奥巴马演讲影片就达到此成果，希望未来可以将分析所需影片长度压缩到 1 小时。

研究者表示，希望这款软件可帮助优化历史纪录的影音档案，或是用于改善 Skype 这类的视讯工具品质。例如，用户可以收集他们自己说话的影片，并用以训练软件，之后当他们使用视讯工具时，影像便能自动符合说话内容，因此就算网络连线品质不佳，也能让视讯画面保持顺畅。

不过，外界也担心，这套软件若遭恶意人士利用，后果不堪设想。例如，可先利用声音合成技术模仿出奥巴马的声音，再加上这套已经训练好、可将奥巴马声音转换为嘴形的模型，即可让奥巴马说出从未说过的话。

事实上，人工智能新创 Lyrebird 已经透过机器学习开发出声音模拟技术。该公司号称，只要 1 分钟的声音样本，即可模仿任何人说话。

New AI research makes it easier to create fake footage of someone speaking
AI Lip-Syncing Could Make Fake News Look Real
UW’s lip-syncing Obama demonstrates new technique to turn audio clips into realistic video

（本文由数位时代授权转载；首图来源：影片截图）

想让奥巴马说什么都可以！最新 AI“对嘴”技术可伪造几可乱真的影片内容