从图像、影片到语音,DeepFake 正在建构一个虚假的世界。
我们可以看到,在马斯克的这段演讲影片中,Deepfake 的换脸技术几乎达到人眼无法区别的地步。
不过,随着技术不断成熟,Deepfake 却带来隐藏的“虚假”风险。自从 2017 年,一位网友将女星盖儿‧加朵和成人电影女主做了人脸交换,伪造了一段色情影片后,有关滥用 Deepfake 制造虚假、不良内容的影片一直充斥于网络。
为了应对 Deepfake 换脸技术带来的种种风险,2019 年,Facebook 斥巨资发起“Deepfake 检测挑战赛”,这项挑战赛一直延续到现在,其辨识准确率已经达到 82.56%。
不过,令人担忧的是,有人又将虚假的矛头指向 Deepfake 语音。有报导称,一家英国能源公司被敲诈了 24 万美元(约台币 712 万元),其背后正是利用语音版 Deepfake 技术。
攻击者假冒公司 CEO 制造了一段虚假语音,以电子邮件的方式发给公司下属员工,要求其向指定账户完成汇款。员工称,假冒语音中的音调、口吻和口音都与公司 CEO 颇为相似,对他产生了误导乖乖转账。其实,诸如此类的诈骗案件已经发生了不只一起。
对此,安全咨询公司 Nisos 在分析过伪造语音后发出警告,Deepfake 语音诈骗正在兴起,必须提高警惕。
Deepfake 语音复制曝光
最近一家科技公司也收到一份自称公司 CEO 的语音邮件,要求“立即提供协助以完成紧急商业交易”。不过,这次员工发现了语音中的异常,诈骗没有成功。
可以听出这段语音的品质并不是很好,有点机械、不连贯,但员工说口音和音调还是大致相似的。
Deepfake 语音复制的品质,主要取决于假冒对象的录音,数量越多、品质越好,伪造的逼真度也就越高。对于公司高层而言,他们在电话会议、YouTube、社交媒体或者 TED 演讲中的录音很容易取得,也由此成为了诈骗集团的伪造对象。
随后,该公司将这段伪造的语音档交给一家安全咨询公司 Nisos。Nisos 使用一款名为 Spectrum3d 的音频频谱图工具,分析了 Deepfake 的伪造语音。
▲ Deepfake 音频频谱图。
可以看到频谱图中的音调几乎一直处于峰值状态,这与我们日常讲话的高低音转换显然有很大差异,另外,研究人员称,他们在语音中没有发现任何噪音的痕迹,显然说明这段语音是透过电脑软件合成的。
与正常人声的频谱图对比来看,结果更是一目了然,音高频率、幅度更加自然,同时也能够检测数量微弱的背景噪音。
▲ 正常人声频谱图。
由于未获取足够的样本,诈骗集团采用的是何种 Deepfake 软件合成技术还不得而知。不过,攻击者为制造高逼真度的诈欺语音,需要满足以下几个条件:
- 捕获几乎没有背景噪音的高品质语音。
- 在无法通话的场景下,分阶段发送语音进行沟通。
- 以留言的方式进行,避免面对面交谈。
如何辨别语音诈欺
虽然这次 Deepfake 伪造语音存在明显瑕疵,但只要获取高品质的语音样本,其伪造程度还是能够以假乱真。
另外,Nisos 公司表示,语音的深度伪造不仅与人的语气有关,还与特定的言语举止有关。但是这个目标已经能够实现,比如攻击者会采用会采用类似于 Yandex 反向图像搜寻的语音工具,透过大量样本的建构和训练,将原始语音转换为目标语音的模型。
目前语音诈欺案件已经陆续出现,随着 Deepfake 软件的使用更加容易,语音合成处理的品质越来越高,此类诈欺案件也会愈加普遍。
不过,Nisos 公司强调由于技术的局限性,此类诈欺事件还是很容易识破的,比如透过电话沟通再度确认。
Deepfake 技术无法实现连贯的语音通话,因此攻击者通常采用语音邮件的形式与对方沟通。另外,也可以透过询问一些只有内部才知道的事情来确认对方的身份。此外,攻击者会盗用公司高级管理人员的 email 来与下属员工进行沟通,因此,加强 email 安全防护也是非常必要的。
此外,除了经济诈骗外,攻击者还可能透过引导员工登入不安全网站等行为,对公司的网络或物理资产造成破坏。
- This is what a deepfake voice clone used in a failed fraud attempt sounds like
(本文由 雷锋网 授权转载;首图来源:pixabay)
延伸阅读:
- 用 AI 拍色情片?神力女超人盖儿·加朵的脸被移植到 AV 女优身上
- AI 伪造色情影片流窜,女星 Scarlett Johansson 坦言无能为力
- 美国登月失败影片流出?原来是 MIT 要世人防范 Deepfake 的造假影片