Google 巧妙命名为“Dataset Search”的资料集搜索引擎,如今推出正式版,提供更完美过滤搜寻结果并存取近 2,500 万个资料集的新工具。
Dataset Search(Beta版)发表于 2018 年 9 月,Google 希望逐渐将极分散的线上开放取用(Open-Access)资料世界统整起来。尽管许多诸如大学、-和实验室的机构都在网络发表资料,但使用传统搜寻机制多半很难找到。透过网页新增开源诠释资料标签(Metadata Tag),这些组织便可透过 Dataset Search 为资料建立索引,如今 Dataset Search 涵盖了从滑雪受伤到火山爆发、再到企鹅族群的大量资讯。
Google 不愿透露搜索引擎的具体使用量,但表示自推出以来,已有数十万使用者试用 Dataset Search,科学界的反应整体持肯定态度。
协助创建该工具的 Google 人工智能研究科学家 Natasha Noy 表示,大多数数据库的“回应都非常快”,引擎推出意味着历史较悠久的科研机构现在“更重视发表诠译资料”。
“例如,知名科学期刊《自然》(Nature)正在改变政策,要求使用适当的诠释资料共享资料。”Noy 表示,这变化将支撑一流科学研究的资料未来更容易取得。
可在行动装置使用,涵盖 2,500 万个资料集
Dataset Search 新增的新功能包括按类型(表格、图像、纯文字等),按是否可免费使用,以及按覆盖地理区域来筛选资料。现在也可在行动装置使用,并扩充资料集说明档。
Google 表示,搜索引擎涵盖的资料集约有 2,500 万个,虽然只是“网络资料集的一小部分”,但集结了“非常重要”的资料集。最大检索主题包括地球科学、生物学和农业,最常见的查询包括“教育”、“天气”、“癌症”、“犯罪”、“足球”和“狗”。美国也是开放-资料集的领导者,在网络发布 200 多万个资料集。
Noy 不愿对 Dataset Search 的未来计划多做评论,但她表示,团队正在思索一些希望有用的功能,包括“了解资料集如何引用和重复使用”,以及“当使用者不一定知道在找什么时,协助他们在 Dataset Search 探索资料集”。“当然我们会继续扩展资料集。”Noy表示。毕竟网络总有层出不穷的资料出现。
- Google’s search engine for scientists upgraded for better data scouring
(首图来源:Google Dataset Search)