眼部追踪技术一直拥有广泛应用前景,然而过去 40 年来,由于其昂贵的硬件成本(高达几十万),使得它距离普通消费级应用十分遥远。之前也有厂商尝试过将这一技术应用于消费产品中,例如三星 Galaxy S4 基于普通镜头的眼部追踪翻动手机页面功能,然而产生的最大问题就是精度差,受环境光影响严重,不同人种更是差异巨大,所以三星后来去掉了这一功能。
近日, MIT 与乔治亚大学的人工智能研究院希望可以改变这一现状。他们借助两款名为 Gaze Capture 和 iTracker (与苹果的手机防盗追踪软件 iTracker 不是同一个)的 App, 可以将任何一支手机都变成眼球追踪装置,大大降低了眼球追踪技术应用的成本,并且精度提高一大截。
关于此项技术的一篇论文在 6 月 28 日的计算机视觉和模式识别大会上发布,论文的作者之一 Aditya Khosla 表示,相比于之前同行的研究,他们的优势在于数据。 Khosla 介绍,他们已经透过 GazeCapture 搜集了超过 1,500 个手机用户的注视模型,而在此之前,最大的数据样本是大概也只有 50 个用户。
为 什么他们能搜集到如此多的数据?答案是“众包”模式。研究人员选择亚马逊的“Amazon Mechanical Turk”群众外包平台,发布使用 GazeCapture 任务,用户可以登录 Amazon Mechanical Turk。在下载这款 App(目前只提供 iOS 版)之后, GazeCapture 会在屏幕上展示一个颤动的小点,并在小点里写上“L”或“R” (分别代表左右),以确保用户集中注意力。用户则透过点击屏幕左侧或右侧来做出响应,然后借助前置镜头记录用户的目光。用户在完成每次任务之后,都可以获得一笔“小费”。
透过以上方法, GazeCapture 帮助研究人员搜集了丰富注视模型数据。之前,大多数的研究机构都是召集人们来实验室采集数据,有 50 个数据样本就非常不错了。
(Source:Amazon Mechanical Turk)
对于 iTracker 软件,一款目前只能在苹果手机上运行的卷积神经网络系统 App 。 iTracker 能辨识出头部和眼球的位置与方向,确定用户的目光究竟看向屏幕的哪个位置。目前 iTracker 误差范围缩小到了 1.5 釐米,比以往实验的精度提高了 2 倍。在论文提交之后,研究团队又加入了 700 个用户的数据,平均每个用户有 1,600 张照片。在这一轮训练中,误差范围更是缩小至 1 釐米,研究人员预测如果用户达到 1 万人,那么精度会提高为 0.5 釐米。不过,这样的精度对于商业用途来说,已经十分足够 了。
对于 iTracker 来说,存在的最大问题是,神经网络是一个很大的系统,在手机端的运行效率会很低。不过,研究人员透过采用 “Dark Knowledge”(并非黑科技的意思)的处理方法,能够将神经网络规模缩小到 20%,使得 iTracker 可以在手机端处理 15 格/ 秒的画面,哪怕最短暂的眼神都可以清楚记录。
对于眼球识别技术的重大突破,康奈尔大学教授 Noah Snavely 评论称:
“在电脑视觉和人机互动领域,眼部追踪一直都是人们十分感兴趣的领域,但是它成本太贵了,让普通用户的手机就可以实现这一技术,非常令人惊叹。在我看来,他们达到的精度,似乎可以让这个领域的人群开始做些有趣的事了,这一项成果将会引发业内的一轮快速发展。”
(本文由 雷锋网 授权转载;首图来源:MIT Technology Review)