电脑声音辨识力再提升，可区分不同来源类别 04月07日更新

这几年，电脑在辨认文字和图像有显著的进步，但在辨认声音方面则还有许多进步空间。透过大量数据库的累积和学习，现在电脑可以透过观看影片的方式辨认声音，其辨识的精确度甚至和人类逼近。

训练方式

这几年新出现的技术，像是 Facebook 针对使用者上传的照片进行脸部辨识，都显示了电脑在视觉辨识上的进步。然而，若要电脑能精准推断某个声音来自何种场景，例如群众欢呼或者波浪拍打，实为一大技术上需要突破的门槛。

MIT 的 Computer Science and Artificial Intelligence Laboratory (CSAIL) 团队，在最近一次的 Neural Information Processing Systems 会议当中，发表了一种更胜以往的声音辨识系统。研究者善用了新系统可以在视觉分类和自然声音之间找寻关联性的特性，透过影片训练系统学习声音辨识。

研究团队在训练过程中使用了两个标准化的声音纪录数据库来测试他们的系统，发现表现结果比原先的模式多了 13~15% 的精准度。在具有 10 种不同声音种类的范围中，电脑的辨识可以达 92% 的精准度；若提高至有 50 种的数据库中，则呈现 74% 的精准度。相同的情况下，人类处理资料分别是 96% 和 81% 的准确度。

学习过程共有两次训练。第一次以自动注释的影像进行训练。一个是 ImageNet data，包含 1,000 个不同物件的影像。另一个则是 Places 资料，包含 401 个被标注过的场景的影像，像是游乐场、房间或者会议室。第二阶段，当系统经过一次训练后，研究者给系统观看从 Flickr 上下载的 26 兆位元的影片，接着再以相同的影片训练第二次。第二次的目标是让系统可以靠着第一阶段标注过的场景的影像进行更精准的预测。

应用

研究者认为声音辨识系统可以用来改进行动装置对于环境侦测的敏感度。举例来说，搭配 GPS 的资料，声音辨识系统可以在辨认出手机的使用者正在电影院等电影开演时，进行来电转接。又或是和自动驾驶车做搭配，假设现在有辆救护车靠近当中，但汽车的驾驶并未注意到，自动驾驶车可以透过声音预测救护车未来的行经路线改往别的方向行驶。随着电脑对于影像和声音辨识的进步，未来可以应用的层面也更加广泛。

Computer learns to recognize sounds by watching video

（首图来源：达志影像）

电脑声音辨识力再提升，可区分不同来源类别

训练方式

应用

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图