要打造令人信服的 deepfakes 影片,神经网络模型往往需要经过大量数据训练才能达成,但现在三星(Samsung)莫斯科 AI 研究中心的团队已经开发出一种方法,只需要“少许”影像数据就能打造出可信度相当高的谈话影片。但少许究竟是多少?根据团队的描述,这个数字可以是 32 张或 8 张照片,又或者更少一些──1 张照片也行。
据了解,这款 AI 模型是使用卷积神经网络(CNNs)所打造,团队先是使用 VoxCeleb 公开数据库中超过 7,000 张名人图像对算法进行了训练,让 AI 关注于辨识人们脸部的“地标”特征,像是眼睛、嘴巴形状、鼻梁长度和形状,它开始能以相似的做法应用在其他照片上,使照片活过来。
由于 AI 模型最少只需要 1 张照片便可以进行,这意味着历史人物或肖像画都能够适用,在影片中,可以看到爱因斯坦、杜斯妥也夫斯基和梦露的著名肖像动起来,就好像他们在现代生活,被一旁友人拍下讲话的画面一样。
▲ 想看历史人物、画像人物动起来的可直接移动至 4:18 处。
当然,使用越多照片的效果明显越好,只使用 1 张照片制作的 deepfakes 影片很容易就能从背景、脸部表情的不自然看出造假痕迹,只是随着使用的对象生活年代越早,也越难从影片中看出虚假──毕竟许多人在摄影技术普及前早已离世,并没有留下实际的谈话影片让我们能够对照真伪。
要说这个 AI 模型最让人惊艳的一点,应该还是让画像人物也能够动起来的部分,以知名的“蒙娜丽莎”为例,过去即使前往卢浮宫美术馆朝圣,顶多也只能感觉蒙娜丽莎像从任何角度都在看着你,可没有办法看到蒙娜丽莎对你眨眨眼,又或者像是在谈起生活琐事。
▲ 在造假技术协助下,画像中的人物就像被赋予了生命。
随着 deepfakes 技术越来越进步,许多人都开始担心相关技术被应用在恶意用途,让未来即使看到影片、听到声音档仍“眼见不能为凭”。尽管潜在疑虑仍然存在,但至少以目前来说,还未有任何 deepfakes 影片造成严重的混乱事件──当然,这是目前啦,未来会如何发展就不好说了。
- Deepfakes are getting easier than ever to make, new research paper shows
- arXiv 论文预印本-Few-Shot Adversarial Learning of Realistic Neural Talking Head Models
(图片来源:arXiv via Egor Zakharov)
延伸阅读:
- 有图不一定有真相!NVIDIA AI 现在能混合人脸特征,创造出全新脸孔
- 用 AI 拍色情片?神力女超人盖儿·加朵的脸被移植到 AV 女优身上