Google 和资料技术的发展一直齐头并进,现在 Google 透过更快搜寻数据资料进一步强化大众和资料的关系。
好消息又来了:Google 再次宣布开放全新的搜寻服务:Dataset Search(资料集搜寻)。
还记得不久前 Google 发表的 Google Scholar(学术搜寻)吗?当时 Google Scholar 填补了快速查找学术资料的空白;这次 Google 直接将注意力精准聚焦到资料集,简直“体贴又细心”!
Google 人工智能研究科学家 Natasha Noy 表示,科学家、研究人员、数据资料记者和其他有兴趣使用数据的人,是这个工具的主要受众,与此同时,Google 认为这些资料集在整个 Google 产品的地位将更突出。
数据工作者的又一“神器”
首先,资料集到底是什么?Dataset(数据集)又称为数据集、数据集合或资料集合,是一种由数据资料组成的集合。Dataset 通常以表格形式出现。每一列代表一个特定变量,每一行都对应某一成员资料集的问题。它列出的价值观为每个变量,如身高和体重的一个物体或价值的随机数。每个数值称为数据资料。对应行数,该资料集的数据可能包括一个或多个成员。
从历史上看,这个术语起源于大型电脑领域,那里它有明确界定的意义,非常接近现代的电脑档案。
Natasha Noy 表示,这个新服务会将数万个不同线上资料集存档统一起来。那最终这些资料集的归属在哪呢?Natasha Noy 谈到:“我们想让这些数据可被发现,但数据仍保留在原始位置。”
如何执行?我们尝试进行了操作
这个 Dataset Search 怎么执行的?事实上,即使对组织最完善、数据最丰富的人来说,也需要利用源于外部的数据。
举个天气和环境数据的典型例子。
假设你想要将农业数据与天气现象相关联以预测作物生长,或者想研究天气对整个历史时期发生现象的影响,这种历史天气数据,几乎不可能由单一组织积累和策划,很可能由 NOAA 和 NASA 等组织随时提供(注:NOAA 是美国国家海洋和大气管理局,NASA 是美国国家航空暨太空总署) 。
这些组织会透过专用数据门户定期策划和发表数据,因此,如果你需要定期获取数据,可能需要熟悉透过这些门户定位数据的过程。当然,你还必须同时关注 NOAA 和 NASA 之外的其他可能消息来源。
如果不仅需要天气数据,还想找到正确的来源,然后再找到这些来源的更多正确数据,之前一个搜寻界面根本无法做到,现在 Google 开发了 Dataset Search,可达成一个界面就搜寻到,是不是很惊喜很意外?
实际上,Google 对结构化数据的热爱一直持续,代表性事件就是收购 Metaweb 整合 Google 的知识图谱,并透过 schema.org 支援结构化诠释资料。
▲ 搜寻资料集会检索查询的多个结果,显示资料集提供者和时间段。
我们尝试进入 Dataset Search 官网,发现在搜寻页面,如果一个资料集直接对应一个出版物,那么资料集名称旁边就会有出版物的连结。此外 Google 还提供参考资料集的出版物大致数量。
诸多问题值得考虑:错误内容、排名与盈利的可能
推出这个搜寻,不仅方便专业用户使用,且对资料集提供商也大有好处。NOAA 的 CDO(首席开发长)Ed Kearns 是该计划的坚定支持者,并帮助 NOAA 在该工具搜寻了许多资料集。
这种类型的搜寻,长期以来一直是开放资料和科学界许多研究人员的梦想。对 NOAA 而言,一部分工作是与他人共享我们的数据,Dataset Search 对让更广泛的用户社群更容易访问我们的数据至关重要。
▲ Dataset Search 搜寻后进入某个资料集连结,对一些讯息的排名。
为了避免资料集提供商将内容错误描述为“资料集”,Google 能告诉它“这不是一个资料集”或降低排名吗?Google 并没有给予明确的应对措施,只表示,Google 会在用户开始使用该工具后获得更多经验去改进,努力提高结果品质。
如何解决被搜出的资料集排名问题呢?Google 表示,对资料集来源页面使用 Web 排名组合(基于 Google 算法),并将其与资料集特定信号(如数据品质、引用等)相结合。
再进一步想,如果排除在搜寻排名盈利的可能,Google 哪一天会不会拿它出来营利?比如从销售通路收集数据,并使用它们来生成具有洞察力的定期报告?
不论如何,这个计划有助于科学决策,需要的人士尽管放心使用。不过随着数据价值越来越突显,Google 也越来越重视,包括云端计算和 AI 不断增加投入,大胆猜测一下,Dataset Search 会是 Google 在学术数据领域商业化的第一步。
(本文由 雷锋网 授权转载;首图来源:Google)
延伸阅读:
- Google 20 岁了:它如何改变了自己、网络和世界?