随着人工智能技术(AI)研究持续进步,未来十几年后的某一天,我们可能必须做出一个判断:隔着屏幕谈话对象究竟是机器人还是人类?最近有两个科学家基于这项概念,透过一项简单测试提出了图灵测试的新观点。
与传统图灵测试相比,宾州大学(UPenn)John McCoy 和麻省理工 Tomer Ullman 近日提出的“最小的图灵测试”(Minimal Turing Test)目的有些不同;比起测试机器能否骗过人类,团队更想知道的是,人类会如何判断人与机器的区别?
测试内容是这样子的:首先,试着想像一下你和一个聪明的机器人就坐在法官面前,法官无法看见你们双方,最终法官会判定你们谁是人类,而无论对象是谁,判定为非人的那方就会死亡,但你与机器人都希望活下去。
这项测试的假设中,法官非常公平且聪明。但为了做出判断,你仍然必须给法官一个提示:一个英文字典中的单字,法官将根据这个单字判断何者为人,何者又是机器人。
这项测试非常有趣,公布团队最终调查情况以前,读者不妨可以试着思考究竟应选择什么样的单字。
这项测试中,科学家向 1,000 多位受试者提出这个小型的图灵测试,最终有 936 位受试者回答,团队最终得到 428 个单字(单字之所以少于受试者,是因为许多人答案相同,这也是这项测试有趣的点)。
如果你做好选择,不妨从下方图片看看你选择的单字是否也与多数人相同。
▲ love(爱)、please(请)、human(人类)和 compassion(同情心)是最多人选择的单字。
随后团队再找来一些独立志愿者,使其随机查看两两单字配对(由团队从其中选择的 10 个不同属性单字随机搭配而成),并要求他们判断哪些单字来自人、哪些来自机器人;当然这些“法官”并不知道,所有的单字都出自人类之口。
而结果也非常有趣,事实证明,比起 mercy(慈悲)、love(爱)、please(请)、human(人类)、robot(机器人)这些单字,让我们能与机器划分的其实是更人性化的单字:poop(大便)。
超过 2,000 次与其他 9 个单字的一对一较量中,法官选择 poop 为人类所说单字的比例远高于其他单字,从下面图表可看出单字两两较量下,何者更容易判断为人类。
▲ poop 与其他单字的比较都占上风。
或许有人会问,这样的测试有何意义?
自图灵测试(Turing test)问世以来,数十年已过去,但人们仍对机器的学习方式不甚清楚,研究者认为,随着科技持续进步,了解人类如何看待机器是必须的,而这次的实验正好能为过去相关研究提供额外资讯,即量化人们看待不同属性单字的重视程度。
无论如何,至少现在我们知道,如果未来被迫回答“以单字证明自己是人类”这种问题时,更口语化的单字或许是更好的选择。
- ‘Minimal Turing Test’ asks you to prove you’re a human with a single word
(首图来源:shutterstock,内文图片来源:Tomer Ullman, John McCoy CC BY 4.0)