http://scielab.pku.edu.cn/dataset_search/
大数据时代,科学数据的开放共享受到各方高度重视,“数据爆炸”问题正在显现。随着科学研究转向数据密集型范式,许多学科对数据的需求十分强烈,基于共享的科学数据可支撑高质量研究成果产出。2018年,国务院发布《科学数据管理办法》,明确“开放为常态、不开放为例外”的科学数据共享原则。目前,科学数据正不断积累。据re3data.org统计,全世界至少有3000多个数据仓储;据DataCite统计,科学数据集至少有1500多万个。如何高效地从众多开放数据中发现符合需求的有效数据正成为研究者面临的重要问题。因此,欧美等发达国家对开放科学数据集的统一发现做了大量研究,并推出众多应用平台,如谷歌数据集搜索、DataMed等。
目前,国内对开放科学数据集的统一发现还未得到充分关注,相关理论、方法研究及应用平台建设急需加强。北京大学SCIE实验室受到国家社会科学基金重点项目"开放科学数据集统一发现的关键问题与平台构建研究"资助,初步构建了“北京大学人文社科数据集搜索”平台,收录国内外100多个重要科学数据仓储和我国省级开放政府数据平台中的人文社科数据集,可帮助人文社科研究人员查找数据,促进科学数据开放、共享和复用,推动我国新文科建设。
人文社会科学数据集搜索平台现收录了 30 余个开放数据平台中的数据,目前主要包括政府开放数据平台和人文社科研究数据平台两类,索引数据集的数量达百万量级。收录的部分平台如下所示。
数据来源
平台类型 | 平台名称 | 平台类型 | 平台名称 |
政府数据 |
北京市政务数据资源网 |
研究数据 |
UK Data Service |
政府数据 |
上海市公共数据开放平台 |
研究数据 |
Harvard Dataverse |
政府数据 |
山东公共数据开放网 |
研究数据 |
Qualitative Data Repository |
政府数据 |
浙江·数据开放 |
研究数据 |
OPEN ICPSR |
政府数据 |
贵州省政府数据开放平台 |
研究数据 |
北京大学开放研究数据平台 |
政府数据 |
四川公共数据开放网 |
研究数据 |
复旦大学社会科学数据平台 |
目前,该平台主要由两部分组成:数据集采集、数据集搜索与智能问答,如下图所示。在数据集采集部分,由爬虫模块使用开放数据平台提供的API或直接抓取页面的方式,采集数据集的元数据。由于各开放数据平台所使用的元数据标准差异较大,为了以统一的方式对所有数据集进行搜索,由元数据规范化模块将所有采集的元数据都映射到都柏林核心。在数据集搜索与智能问答部分,建立数据集元数据的索引,将经典检索模型和深度学习模型相结合实现数据集检索功能;构建数据集知识图谱,对用户自然语言提问进行解析,在知识图谱中进行检索,并以自然语言的形式返回检索结果;构建数据集搜索、问答与浏览的Web应用,方便用户通过浏览器获取数据集。
平台整体框架
http://scielab.pku.edu.cn/dataset_search/
版权所有©北京大学文科智数化公共平台