Google 巧妙地命名为“Dataset Search”的资料集搜索引擎,如今推出正式版,提供能更完美过滤搜寻结果并存取近 2,500 万个资料集的新工具。
Dataset Search(Beta版)发表于 2018 年 9 月,Google 希望能逐渐地将极其分散的线上开放取用(Open-Access)资料世界统整起来。尽管许多诸如大学、-和实验室的机构都在网上发布资料,但使用传统搜寻机制多半很难找到。透过在他们网页上新增开源诠释资料标签(Metadata Tag),这些组织便可以透过 Dataset Search 为他们的资料建立索引,如今 Dataset Search 涵盖了从滑雪受伤到火山爆发再到企鹅族群的大量资讯。
Google 不愿透露该搜索引擎的具体使用量,但它表示自推出以来,已有数十万使用者试用了 Dataset Search,科学界的反应整体上是持肯定态度的。
协助创建该工具的 Google 人工智能研究科学家 Natasha Noy 表示,大多数数据库的“回应都非常快”,该引擎的推出意味着历史较悠久的科研机构现在“更加重视发布诠译资料”。
“例如,知名科学期刊《自然》(Nature)正在改变其政策,要求使用适当的诠释资料共享资料,”Noy 表示,这一变化将使支撑一流科学研究的资料在未来更容易取得。
可在行动装置上使用,涵盖2,500万个资料集
Dataset Search 所新增的新功能包括按类型(表格、图像、纯文字等)、按是否可以免费使用,以及按覆盖之地理区域来筛选资料。该引擎现在也可以在行动装置上使用,并扩充了资料集说明档。
Google 表示,该搜索引擎所涵盖的资料集大约有 2,500 万个,虽然只是“网络上资料集的一小部分”,但集结了“非常重要”的资料集。最大的检索主题包括地球科学、生物学和农业,最常见的查询包括“教育”、“天气”、“癌症”、“犯罪”、“足球”和“狗”。美国也是开放-资料集的领导者,其在网上发布了 200 多万个资料集。
Noy 不愿对 Dataset Search 的未来计划多做评论,但她表示,团队正在思索一些他们希望有用的功能,包括“了解资料集是如何被引用和重复使用的”,以及“当使用者不一定知道他们在寻找什么时,协助他们在 Dataset Search 中探索资料集”。“当然我们会继续扩展资料集,”Noy表示。毕竟网络上总会有层出不穷更多的资料出现。
- Google’s search engine for scientists upgraded for better data scouring
(首图来源:Google Dataset Search)