眼睛看到的不一定可靠!过去,我们用 Photoshop 修出各种“照骗”,但最新 AI 技术,连影片中谈话者的嘴形和声音都可以修改,甚至逼真到难以从影片中察觉异状。该研究可将声音档转换为说话嘴形,并套用在其他影片中,改变影片主角原本的说话内容;也就是,虽然影片片段是真的,但说话的内容是假的。
仅分析 17 小时奥巴马演讲影片,所需资料量较过去小
华盛顿大学研究团队发表一篇名为“同步奥巴马:学习如何用声音同步嘴形”的研究,而研究成果就是一系列美国前总统奥巴马的“造假”影片。
该研究透过深度学习算法,让软件从奥巴马过去的演讲影片中,学习如何将声音档转换为嘴形变化,因此,当替影片配上新配音时,这套软件可将新配音转换为嘴形变化,再将嘴形移植到既有影片中。
▲ 该研究透过神经网络技术,从奥巴马过去的演讲影片中学习如何将声音档转换为嘴形变化,再将嘴形移植到既有影片中。(Source:UW News)
虽然影片中的音档确实来自奥巴马过去说过的话,但说话场景却完全不同。就像示范影片中,左边是音档来源,右边是另一场完全不同的演讲,但研究者透过算法,将两者结合成全新的影片。
研究者表示,之所以选择奥巴马为实验对象,原因在于网络上可轻易取得大量奥巴马公开谈话的高清影音档,适合用来训练人工智能。
和过去研究不同的是,该软件不需要扫描大量的演讲影音资料,也不需要分析不同人说出相同句子的嘴形,才能学会转换声音;其仅需要既有的影音素材即可,所需成本和规模更小。
研究者指出,该研究仅分析 17 小时的奥巴马演讲影片就达到此成果,希望未来可以将分析所需影片长度压缩到 1 小时。
希望用于优化历史影音档案和视讯工具
研究者表示,希望这款软件可帮助优化历史纪录的影音档案,或是用于改善 Skype 这类的视讯工具品质。例如,用户可以收集他们自己说话的影片,并用以训练软件,之后当他们使用视讯工具时,影像便能自动符合说话内容,因此就算网络连线品质不佳,也能让视讯画面保持顺畅。
不过,外界也担心,这套软件若遭恶意人士利用,后果不堪设想。例如,可先利用声音合成技术模仿出奥巴马的声音,再加上这套已经训练好、可将奥巴马声音转换为嘴形的模型,即可让奥巴马说出从未说过的话。
事实上,人工智能新创 Lyrebird 已经透过机器学习开发出声音模拟技术。该公司号称,只要 1 分钟的声音样本,即可模仿任何人说话。
- New AI research makes it easier to create fake footage of someone speaking
- AI Lip-Syncing Could Make Fake News Look Real
- UW’s lip-syncing Obama demonstrates new technique to turn audio clips into realistic video
(本文由 数位时代 授权转载;首图来源:影片截图)