DeepMind 给最厉害的 AI 测了 IQ，结果让人轻松不少 04月20日更新

生活在 AI“泛滥”的时代，我们几乎每天都能看到 AI 研究的最新进展。昨天，AI 打 DoTA 战胜人类了；今天，AI 能自己找路了；明天，AI 能假冒人类打电话了。担心 AI 会灭掉人类的人眼中，AI 像一只怪物正野蛮生长，也像一支侵略军从远方大步逼近。

实际上你看到的进展，只是不同 AI 在特定方向的进步。虽然当前基于深度学习的 AI 热潮已有 5、6 年了，还是没有一个独立的 AI，像一个独立的人，优秀地执行多种任务。

人们形容 AI 时，通常会用这种说法：这个 AI 的智商跟 3 岁小孩差不多。智商（Intelligence quotient）简称 IQ，是评价人类智商的普遍标准。你有智商，我也有智商，就连 3 岁小孩也有智商。接下来问题来了：既然说 AI 跟 3 岁小孩差不多，那么它的智商到底有多少？

得帮 AI 测测智商了。

DeepMind 要帮 AI 测 IQ

自 AlphaGo 横空出世，AI 解决复杂、策略性的问题上，能力已得到证明。但如果想要更像“人”，AI 必须也拥有像人类的抽象理解能力。

现在 AI 的计算能力不用说了，推理能力也很强，所以只剩抽象理解能力了。Google 旗下的 AI 机构 DeepMind 认为，“基于神经网络的机器学习模型取得惊人的成绩，但要衡量推理抽象概念的能力，却非常困难。”

为了搞清楚现在的 AI 抽象理解能力究竟如何，DeepMind 还真的设计了一套测试题给 AI：

（Source：DeepMind）

这套测试题，借鉴人类的 IQ 测试著名的瑞文推理测验：给一组图片，找到符合“演进”规律的图片。

（Source：DeepMind）

这种测试中，题目并不会告诉你要找到符合什么标准的图形，而是根据日常生活学习或掌握到的基本原则，来理解和分析测试出现的简单图案。

要找到正确的答案，往往要借鉴生活中明白的“演进”规律。比如小树苗长成大树，比如从 0 到 1、2、3、4、5 的加法，再比如加减乘除。以上这些，就是我们生活提炼出的抽象“演进”（progression）意义，就是人类的抽象理解能力。

“但是，我们现在还没有找到办法，让 AI 也可以从‘日常经验’学到类似的能力。”DeepMind 论文说。

不过，我们依然可以利用人类的视觉抽象逻辑测试，来设计一个实验。在这个测试，我们并不像人类测试，考察从日常生活到视觉推理问题的知识转移。而是研究 AI 将知识从一组受控的视觉推理问题，转移到另一组问题的能力。

简单翻译一下这段话就是：DeepMind 先给 AI 一组由三角形构成的图像视觉推理题库，等训练差不多了，再出一组由方块构成的视觉推理题，让 AI 去回答，看它是能随机应变举一反三，还是学会三角，换成方块就不灵了。

机器人仍需努力

对于担心 AI 取代人类的朋友来说，DeepMind 的一部分实验结果确实是好消息：一些最棒的 AI 模型，在这个 IQ 测试的表现并不怎样。

正如预期，当训练集和测试集采用的抽象元素相同，多个 AI 模型都表现出超过 75% 准确率。

然而，当测试集和训练集有变化，甚至有时只是把黑点换成较暗的浅色圆点，AI 就像无头苍蝇，失去了准星。

▲ 一些知名 AI 模型的表现。（Source：DeepMind）

上面这些都是深度神经网络领域的当红炸子鸡，测起智商却没那么灵光了。

ResNet（Deep Residual Network），即深度残差网络在其中一组测试仅得到 22.4% 的低分，它的提出曾被形容为 CNN（卷积神经网络）的里程碑式事件，它在网络深度比其他模型提升了 n 个量级，更重要的是它的残差学习方式，改良了模型架构，因此一出现就秒杀众前辈。

表现最好的 WReN 模型，则是 DeepMind 在关系网络（Relation Networks）模型基础上改良的版本。它增加了分析不同图像组合之间的关系，并可评估这类 IQ 测试的各种可能性结果。

不过，DeepMind 针对这个测试的逻辑，改良一些模型，改良后的模型表现明显有提升。

比如，在一些模型中，DeepMind 加入了标记（meta-targets）辅助训练法，让模型预测数据集背后体现出的形状、属性（形状的数量、大小、颜色深浅等）及关系（同时出现、递减、递增等），当这部分预测准确，最终回答的准确率就明显提升；预测错误时，回答准确率明显下降。一些极端情况下，模型回答的准确率更从预测错误时的 32% 提升至 87%。

▲ 标记预测准确度与最终答案准确率的关系图。

DeepMind 表示，他们设计的实验，最终目的并不是让 AI 通过这种 IQ 测试，他们关注的是 AI 泛化能力。

泛化是指模型拟合以前未见过的新数据的能力，这是机器学习界的术语，你也可以粗暴理解成一个 AI 模型能否“通吃”各类场景。AI 的泛化能力越强，离什么都能做的所谓“通用人工智能”就越近。

DeepMind 部落格最后这样说：

研究表明，寻找关于泛化问题的普遍结论可能没有任何意义。我们测试的神经网络在某些泛化方案表现优秀，但是在其他方案却很糟糕。

诸如使用模型的架构、模型是否被训练进而解释答案背后的逻辑等一系列因素，都会对泛化效果带来影响。而在大多数情况下，当需要处理过往经验从未涉及、完全陌生的情景时，这些 AI 的表现很糟糕。

至少现在看来，AI 还有很长的路要走啊。

（本文由 PingWest 授权转载；首图来源：DeepMind）

DeepMind 给最厉害的 AI 测了 IQ，结果让人轻松不少

DeepMind 要帮 AI 测 IQ

机器人仍需努力

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图