在科幻电影中,我们经常可以看到主角挥动手指操作屏幕上的数据,透过即时性的电脑运算来得到答案,虽然距离《钢铁人》中全像投影的操作还有些遥远,但好消息是,在麻省理工(MIT)的努力下,我们可能很快的就不需要比触控屏幕更专业的东西。
多年以来,MIT 和布朗大学(Brown University)研究人员一直在开发名为“北极星”(Northstar)的云端交互式数据系统,使用者仅需提供资料集(datasets),便能远端使用触控设备来发现数据中的趋势和模式。
而在 ACM SIGMOD 会议上发表的一篇论文中,研究人员提到他们为北极星系统带来的一项新功能:“虚拟数据科学家”(virtual data scientist)。
VDS 主要是基于自动机器学习(AutoML)所发展出来的功能,即使是对数据科学了解不多的人,也能够训练 AI 模型根据他们的资料集进行预测,根据研究人员的说法,VDS 是迄今为止最快的交互式 AutoML 工具。
▲ 北极星系统在操作上非常直观,使用者仅需将资料集上传到系统中,便可以透过右侧功能列从各种层面分析数据,一切都可以透过触控平板上的拉放动作完成。
VDS 之所以能有这种效率,是因为团队花了两年时间去让 VDS 模仿数据科学家的思考方式,这意味着它可以根据各种编码规则去判定哪些模型和预处理步骤应不应该在某些任务上运行。
在使用 300 个真实资料集评估的测试中,VDS 与其他最先进的 AutoML 系统几乎一样准确,但在运算时间上远比其他系统快上许多,其他工具约得花上数分钟至几小时才能得出答案,而 VDS 则仅需要几秒钟。
北极星项目负责人、CSAIL 电气工程与电脑科学副教授 Tim Kraska 表示,使用者通常希望能立即得到预测结果,当用户结果被拖延的那一刻起,他们便开始失去与系统的互动。
“使用预测系统时,你不会希望等待 4 个小时才能获得初步结果。你会希望已经看到正在发生的事情,这样如果发现错误才能立即纠正它,而这在任何其他系统中通常是不可行的。”
对于无法获取足够资源的人们来说,VDS 能够提供许多预测上的协助,而这也是许多中小型企业所迫切需要的。
Kraska 认为,这项技术具有许多潜在用途,举例来说,医生可以基于患者的内科病史来预测其罹患特定疾病的可能性,企业使用者也可以运用历史销售数据来快速开发更准确的预测,省去大量的人工分析时间。
“即使是不了解数据科学的咖啡店老板,应该也要能有预测未来几周销售情况的能力,才能确定要购入多少咖啡。”
- Drag-and-drop data analytics
- MIT’s new interactive machine learning prediction tool could give everyone AI superpowers
(图片来源:MIT)