成果展示

2022年成果

当前位置: 首页 > 成果展示 > 数字人文成果 > 2022年成果 > 正文

人文社科数据集搜索平台

王继民

北京大学信息管理系

2024-05-09

发布

背景


随着开放科学、开放获取运动的蓬勃发展,数据的开放共享受到高度重视,许多国家政府、研究机构都出台政策鼓励数据共享。在此背景下,互联网上政府数据和研究数据大量涌现。据 Google 统计,互联网上数据集的数量从 2016 年的 50 万快速增长到 2020 年的 2800 万,其中包含了 370 万政府数据。截止 2021 年 10 月,re3data.org 中收录的科学数据仓储的数量超过 2700 个,DataCite Search、Data Citation Index 收录的科学数据集的数量均超过了 1000 万。

当前,数据驱动研究范式在各个学科领域得到广泛应用,人文社科领域越来越重视数据驱动的研究方法。2020 年 11 月,《新文科建设宣言》发布,指出“积极推动人工智能、大数据等现代信息技术与文科专业深入融合”;2021 年 7 月,教育部等六部门发布“教育新基建”政策,指出“升级资源搜索引擎,通过平台模式为师生提供海量的优质资源和精准的资源服务”。数据是数据驱动研究范式的重要基石,基于共享的数据可支撑高质量研究成果产出。目前,国内的开放数据共享平台中也存放了大量有价值数据,但是其中很多平台并未被现有数据集搜索系统索引。为帮助中国人文社科学者更方便的查找利用国内外重要的开放数据,我们推出了“人文社会科学数据集搜索平台”。

数据来源


人文社会科学数据集搜索平台现收录了 30 余个开放数据平台中的数据,目前主要包括政府开放数据平台和人文社科研究数据平台两类,索引数据集的数量达百万量级。收录的部分平台如下所示。

表1 数据来源

平台类型 平台名称 平台类型 平台名称

政府数据

北京市政务数据资源网

研究数据

UK Data Service

政府数据

上海市公共数据开放平台

研究数据

Harvard Dataverse

政府数据

山东公共数据开放网

研究数据

Qualitative Data Repository

政府数据

浙江·数据开放

研究数据

OPEN ICPSR

政府数据

贵州省政府数据开放平台

研究数据

北京大学开放研究数据平台

政府数据

四川公共数据开放网

研究数据

复旦大学社会科学数据平台

数据处理方法


人文社会科学数据集搜索平台的数据处理方法主要由两部分组成:数据集采集和数据集搜索,具体如图 1 所示。在数据集采集部分,由爬虫模块使用开放数据平台提供的 API 或直接抓取页面的方式,采集数据集的元数据。由于各开放数据平台所使用的元数据标准差异较大,为了以统一的方式对所有数据集进行搜索,由元数据规范化模块将所有采集的元数据都映射到都柏林核心。在数据集搜索部分,建立数据集元数据的索引,将经典检索模型和深度学习模型相结合实现数据集检索功能,构建数据集搜索 Web 应用,方便用户通过浏览器搜索数据集。

地址


http://scielab.pku.edu.cn/dataset_search/

数据搜索技术路线


null

null

null

图1 人文社会科学数据集搜索平台技术路线

平台应用效果


人文社会科学数据集搜索平台的数据处理方法主要由两部分组成:数据集采集和数据集搜索,具体如图 1 所示。在数据集采集部分,由爬虫模块使用开放数据平台提供的 API 或直接抓取页面的方式,采集数据集的元数据。由于各开放数据平台所使用的元数据标准差异较大,为了以统一的方式对所有数据集进行搜索,由元数据规范化模块将所有采集的元数据都映射到都柏林核心。在数据集搜索部分,建立数据集元数据的索引,将经典检索模型和深度学习模型相结合实现数据集检索功能,构建数据集搜索 Web 应用,方便用户通过浏览器搜索数据集。

null

图2 人文社会科学数据集搜索平台的检索过程

版权所有©北京大学文科智数化公共平台