随着开放科学、开放获取运动的蓬勃发展,数据的开放共享受到高度重视,许多国家政府、研究机构都出台政策鼓励数据共享。在此背景下,互联网上政府数据和研究数据大量涌现。据 Google 统计,互联网上数据集的数量从 2016 年的 50 万快速增长到 2020 年的 2800 万,其中包含了 370 万政府数据。截止 2021 年 10 月,re3data.org 中收录的科学数据仓储的数量超过 2700 个,DataCite Search、Data Citation Index 收录的科学数据集的数量均超过了 1000 万。
当前,数据驱动研究范式在各个学科领域得到广泛应用,人文社科领域越来越重视数据驱动的研究方法。2020 年 11 月,《新文科建设宣言》发布,指出“积极推动人工智能、大数据等现代信息技术与文科专业深入融合”;2021 年 7 月,教育部等六部门发布“教育新基建”政策,指出“升级资源搜索引擎,通过平台模式为师生提供海量的优质资源和精准的资源服务”。数据是数据驱动研究范式的重要基石,基于共享的数据可支撑高质量研究成果产出。目前,国内的开放数据共享平台中也存放了大量有价值数据,但是其中很多平台并未被现有数据集搜索系统索引。为帮助中国人文社科学者更方便的查找利用国内外重要的开放数据,我们推出了“人文社会科学数据集搜索平台”。
人文社会科学数据集搜索平台现收录了 30 余个开放数据平台中的数据,目前主要包括政府开放数据平台和人文社科研究数据平台两类,索引数据集的数量达百万量级。收录的部分平台如下所示。
表1 数据来源
平台类型 |
平台名称 |
平台类型 |
平台名称 |
政府数据 |
北京市政务数据资源网 |
研究数据 |
UK Data Service |
政府数据 |
上海市公共数据开放平台 |
研究数据 |
Harvard Dataverse |
政府数据 |
山东公共数据开放网 |
研究数据 |
Qualitative Data Repository |
政府数据 |
浙江·数据开放 |
研究数据 |
OPEN ICPSR |
政府数据 |
贵州省政府数据开放平台 |
研究数据 |
北京大学开放研究数据平台 |
政府数据 |
四川公共数据开放网 |
研究数据 |
复旦大学社会科学数据平台 |
人文社会科学数据集搜索平台的数据处理方法主要由两部分组成:数据集采集和数据集搜索,具体如图 1 所示。在数据集采集部分,由爬虫模块使用开放数据平台提供的 API 或直接抓取页面的方式,采集数据集的元数据。由于各开放数据平台所使用的元数据标准差异较大,为了以统一的方式对所有数据集进行搜索,由元数据规范化模块将所有采集的元数据都映射到都柏林核心。在数据集搜索部分,建立数据集元数据的索引,将经典检索模型和深度学习模型相结合实现数据集检索功能,构建数据集搜索 Web 应用,方便用户通过浏览器搜索数据集。
http://scielab.pku.edu.cn/dataset_search/
图1 人文社会科学数据集搜索平台技术路线
人文社会科学数据集搜索平台的数据处理方法主要由两部分组成:数据集采集和数据集搜索,具体如图 1 所示。在数据集采集部分,由爬虫模块使用开放数据平台提供的 API 或直接抓取页面的方式,采集数据集的元数据。由于各开放数据平台所使用的元数据标准差异较大,为了以统一的方式对所有数据集进行搜索,由元数据规范化模块将所有采集的元数据都映射到都柏林核心。在数据集搜索部分,建立数据集元数据的索引,将经典检索模型和深度学习模型相结合实现数据集检索功能,构建数据集搜索 Web 应用,方便用户通过浏览器搜索数据集。
图2 人文社会科学数据集搜索平台的检索过程