2017 年 I/O 大会,Google 发表一款识人又识物的新产品。
- 你只需要对着别人的名片一扫,所有资讯就能存进通讯录。
- 你只需要对着景物一扫,就能获得当前景物的所有资讯。
- 当你在游览时,它还能当你的随身翻译、导游……
更重要的是,这款产品打破了智能手机的档次局限,无论是高阶旗舰还是低阶入门,只要搭载的是智慧系统,任何手机都用得上它。
这个在当时有着神仙功能的新品,就是我们在往后 2 年 I/O 活动都能看到的“Google Lens”,如今这个产品经过 2 年发展,已成为识物工具中的佼佼者。
而随着今年 Google 在这款工具里加入 AR 和朗读功能后,有着 124 年历史的笛洋美术馆(de Young museum)也在近日宣布,将全面支援游客用 Google Lens 游览展馆。
这也是世界第一家支援 Google Lens 的美术馆/博物馆。
(Source:de Young museum)
在笛洋美术馆内,游客可以透过 Google Lens 辨识展品,系统在进行辨识后会推送当前作品的作者、历史等相关资讯,游客可以在馆内透过这个功能自由获取想了解的内容。
(Source:Google)
更有意思的是,除了辨识作品,游客还可透过 Google Lens 辨识特定物品,成功后系统会播放作品相关的 AR 图像或影片内容。
透过这种方式,游客能获得面前这幅作品以外的资讯,比如作者介绍作品的创作经历等,让游客透过具体且优雅的方式获得知识内容,就像和艺术家面对面交流。
不过,AI 识物能在未来取代传统人类导览,成为游客获得新知识的主要途径吗?这个想法可能不错,但现在似乎还有点早。
强大的 AI 人工智能让 Google Lens 成为世界数一数二的识图工具,越来越多应用途径,也让这款工具走出实验室和 PPT,成为使用者了解新事物的另一种途径。
(Source:Google Lens)
但这种机械式的向导能取代人力成为未来游览的发展主流吗?笔者认为“取代”可能说得有点早了,而且在短期内,AI 导览不会取代人类成为主流。
首先不否认 AI 的两个优势:全天候运作和可延展性。
相比于人类导览,AI 能 24 小时全天工作,同时透过自学习能力,AI 能在执行任务时不断学习,且在网络的帮助下,AI 并不是一个大脑在学习,而是服务器主脑和终端“大脑”的资讯互通,进而组成一张储存特征的智慧网络。
表面来说,比如笔者用手机扫描面前的杯子,系统会记录物体的特征资讯,当其他用户扫描类似的物体时,AI 会特征辨识和结果筛选,快速得出结果。或当笔者第一次扫描这物体时,AI 会先记录特征,当笔者第 2 次扫描时,AI 会继续增加特征,进而全局提升辨识的速度和准确率。
神经网络的自学习能力能让 AI 的辨识效率接近人脑,甚至有不受情绪和精神的影响,可能还超越人脑,但能得出准确无误的结果,前提是需要大量训练。
(Source:COCO)
AI 能在短时间内得出辨识结果,实际上有赖于研发团队在功能推出前的各种训练工作。譬如在 Google 的 TensorFlow API 中,他们会透过 COCO 数据库的 90 大类、共 30 万张图像对 AI 做辨识训练,透过图像提升 AI 的辨识能力;但即便有大量的训练资讯为基础,AI 也并非天下无敌。
The Verge 近日《人工智能难以辨识低收入地区的日用品》文章,就探讨 AI 辨识的基础,并下了“AI 训练不平衡”观点。
研究人员发现,物体辨识算法在辨识月收入 50 美元的家庭物品时,结果的误差大约会比超过 3,500 美元的物品增加 10%,而且不同地区物品的准确率也差异甚大,比如算法在辨识美国物品方面会比索马里和布基纳法索的物品提升 15%~20% 准确率。
另外,这篇文章有意思的论点在于,由于 AI 识物在训练时大多都是在发达地区训练,因此对于非发达地区的物品,AI 识物会出现辨识失效情况,这种不平衡的现像很可能影响未来自动驾驶在非发达地区的发展,因为自动驾驶需要依赖感测器和 AI 辨识。
▲ 同一个 Soap(肥皂),不同的结果。(Source:The Verge)
所以尽管 AI 在某些方面比人类表现出色,但前提需要大量的数据支撑,对于有变量的物品,人脑学习和处理会比 AI 优秀。面对博物馆的固定展品,AI 能带来低成本、快捷的体验,但应对互动和数据库没有的物品,人类导览仍有优势。
不过 AI 要取代人力,真正要克服的不是知识量,而是互动情感。
AI 识物能提供详细的知识传播,但却不具备人类最可贵的互动交流。虽然 AI 识物方便参观者透过手机查看展品详细资讯,但这只是机械性获得千篇一律的内容,并非人与人交流。这种区别就像网络授课和面对面课堂,获得的资讯不变,但若要提问数据库没有的知识,谁能解答呢?
当然,面对情感这个大问题,不少厂商也正透过语音优化让 AI 贴近人类发声,比如 Google Duplex 在语音加入仿人类的语气和停顿,“唔”、“哦”这些助词让 AI 说的话更像真人而不是机器人;苹果也在 iOS 13 透过 TTS 对 Siri 进行多语音拼合优化,让 Siri 的发音更自然。
总体而言,虽然目前 AI 有强大的学习能力和辨识效率,但还有知识的提供途径,AI 当下仍处于辅助为主的发展阶段,拥有情感和互动的人力依然有主流优势。
不过不可否认的是,在网络技术推动下,AI 已踏上高速发展道路,越来越贴近真实人类,AI 若干年后能提供新知识给我们,并非不可能。
(本文由 爱范儿 授权转载;首图来源:Google)
延伸阅读:
- Google Lens 推出新功能,还能在餐厅推荐菜色
- Google 搜寻加入 AR 功能,让搜寻结果浮现你眼前