MIT 和 Google 让 AI 获得多种感官协调能力 04月17日更新

根据 MIT 和 Google 研究人员近期发表的论文，他们正在训练 AI 将影像、声音和文字等多方面资讯连接起来。

在语音辨识、影像辨识以及下围棋等单项能力方面，AI 已够出色，甚至超越人类。但如果 AI 一次只能使用一种感知能力，无法将看到和听到的内容结合，就无法彻底理解周围的世界。这正是 MIT 和 Google 研究人员进行这项研究的原因。

研究人员并没有教算法任何新东西，只是建立一种方式，让算法将多种感官获得的知识连线和协调，这点至关重要。

论文的联合作者之一──MIT 的 AI 博士后 Yusuf Aytar 以无人车为例：比如无人车的声音感测器先听到救护车的蜂鸣声，然后激光雷达才看到救护车。有关救护车的鸣叫、外观及职能的知识可让无人车放慢速度，切换车道，让路给救护车。

他说道：“你是先看到汽车还是先听见引擎声并没有关系，你马上能辨识出这是同个概念。因为你大脑中的资讯自然把它们协调统一了。”

为了训练这套系统，MIT 研究小组首先向神经网络展示与声讯相关的影图片。神经网络发现图中的对象并辨识出特别声讯后，AI 就会尝试预测哪个对象跟声音的关联。比方说，招手会不会发出声音？

接下来，研究人员又以相同形式为算法提供有标题的图片，让它连连看文字和图片。网络首先需要单独辨识出图中所有对象及相关问题，然后才能连接。

（Source：arxiv.org）

由于 AI 独立辨识声音、影像、文字的能力已十分出色，这种网络乍看之下并没有什么了不起，但研究人员表示，当他们训练 AI 进行声音／影像、影像／文字的配对时，系统就能在未经训练指导哪个单词与不同声音符合的情况下将声音与文字连结起来。这表明神经网络对看到的、听到的或读到的东西已形成更客观的看法，且这种看法的形成并不完全依赖于了解这资讯的媒介。

统筹对象的观感、听觉及文字后，算法就能自动将听到的东西转化为视觉影像，强化对世界的理解。

据悉，Google 也进行了类似研究，不过 Google 更强调一点：新算法还能将文字转化成其他媒体形式，虽然从准确率上来说，暂时还比不上单用途的算法。

See, Hear, and Read: Deep Aligned Representations
One Model To Learn Them All

（本文由雷锋网授权转载；首图来源：shutterstock）

MIT 和 Google 让 AI 获得多种感官协调能力

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图