这几年,电脑在辨认文字和图像有显著的进步,但在辨认声音方面则还有许多进步空间。透过大量数据库的累积和学习,现在电脑可以透过观看影片的方式辨认声音,其辨识的精确度甚至和人类逼近。
训练方式
这几年新出现的技术,像是 Facebook 针对使用者上传的照片进行脸部辨识,都显示了电脑在视觉辨识上的进步。然而,若要电脑能精准推断某个声音来自何种场景,例如群众欢呼或者波浪拍打,实为一大技术上需要突破的门槛。
MIT 的 Computer Science and Artificial Intelligence Laboratory (CSAIL) 团队,在最近一次的 Neural Information Processing Systems 会议当中,发表了一种更胜以往的声音辨识系统。研究者善用了新系统可以在视觉分类和自然声音之间找寻关联性的特性,透过影片训练系统学习声音辨识。
研究团队在训练过程中使用了两个标准化的声音纪录数据库来测试他们的系统,发现表现结果比原先的模式多了 13~15% 的精准度。在具有 10 种不同声音种类的范围中,电脑的辨识可以达 92% 的精准度;若提高至有 50 种的数据库中,则呈现 74% 的精准度。相同的情况下,人类处理资料分别是 96% 和 81% 的准确度。
学习过程共有两次训练。第一次以自动注释的影像进行训练。一个是 ImageNet data,包含 1,000 个不同物件的影像。另一个则是 Places 资料,包含 401 个被标注过的场景的影像,像是游乐场、房间或者会议室。第二阶段,当系统经过一次训练后,研究者给系统观看从 Flickr 上下载的 26 兆位元的影片,接着再以相同的影片训练第二次。第二次的目标是让系统可以靠着第一阶段标注过的场景的影像进行更精准的预测。
应用
研究者认为声音辨识系统可以用来改进行动装置对于环境侦测的敏感度。举例来说,搭配 GPS 的资料,声音辨识系统可以在辨认出手机的使用者正在电影院等电影开演时,进行来电转接。又或是和自动驾驶车做搭配,假设现在有辆救护车靠近当中,但汽车的驾驶并未注意到,自动驾驶车可以透过声音预测救护车未来的行经路线改往别的方向行驶。随着电脑对于影像和声音辨识的进步,未来可以应用的层面也更加广泛。
- Computer learns to recognize sounds by watching video
(首图来源:达志影像)