柏克莱加州大学(UC Berkeley)两位电脑科学家运用 AI 开发出一种针对语音转文字系统(speech-to-text)的攻击模式,在使用这项技术时,不论声音内容听起来像什么,输出的文字都是攻击者想要的内容。
据了解,团队主要是运用 Mozilla 开源的语音转文字系统 DeepSpeech 来测试,研究人员表示,无论提供任何音频波型,透过运用这项技术,团队都可制造出另一个相似度高达 99.9% 的音频,在人耳听不出差别的情况下,让 DeepSpeech 辨识成团队希望的任何字句。
转换后的音频能以每秒高达 50 个字元的速度进行,截至目前为止,团队攻击的成功率为 100%,无论是原本的音频内容,或是需要转换成什么字句都没有区别,对语音应用逐渐增加的现在来说,这种情况似乎也十分值得注意。
教授 Nicholas Carlini、David Wagner 向 TNW 表示,过去在与乔治城的研究人员合作的过程中,他们一同建构了“隐藏语音命令”来试图攻击手机语音辨识系统。
简单来说,这些攻击的目的是为了让语音辨识系统对主体与客体的判断转换,将隐藏在音频中的讯息视为主要目的,反而将语音中原先你我的声音判断成“随机噪音”。
目前团队的攻击效果仍仅适用于 DeepSpeech,这显然并不是 Siri、Alexa或 Google Assistant 用于转录的程式,但研究人员认为这确实证明,对于语音辨识的“攻击”行为是可行的。
Carlini 甚至认为,只要多进行一些研究,一些人甚至可让这个音频对抗技术也能在 Over-The-Air 的情况下使用。
- AI learns how to fool speech-to-text. That’s bad news for voice assistants
(首图来源:pixabay)