成果展示

数字人文平台

当前位置: 首页 > 成果展示 > 数字人文平台 > 正文

“吾与点”古籍智能整理平台

唐雪梅、严承希、苏祺、杨浩、王军

北京大学数字人文研究中心

2024-05-09

发布

访问在线系统:https://wyd.pkudh.xyz/

观看作品视频

背景


中华文明历史悠久,古典文籍浩如烟海。古籍具有极高的文献价值和学术价值,古籍整理不仅是连接现代和历史的桥梁,而且有利于民族文化的传承和研究。而古人在著书时一般不使用标点,现存的许多古籍也没有断句和标点,这给读者阅读学习和学者研究古籍造成了障碍。命名实体识别在古籍文献数字化处理过程中极为重要,是文白翻译、关系抽取等一系列自动化处理工作的基础,从古籍文献中自动识别出专名信息是一项非常重要且有价值的工作。传统的古籍整理通过选定某一代表性版本作为底本,通过与其他版本的对勘校订底本文字,同时施以现代标点,标示书名、人名、地名、朝代名,旨在提供一个文字准确,标点可靠,方便阅读的排印文本。“吾与点古籍智能整理平台”是由北京大学数字人文研究中心开发智能化古籍整理平台。该平台将提供图片文字识别、自动句读、命名实体识别三项基本古籍整理功能。目前提供公开测试的有自动句读和命名实体识别功能,其他功能将会陆续开放测试。 感谢中文在线集团北京元引公司在平台开发过程中提供的支持!

功能介绍


1)句读

未经整理的古代典籍不含任何标点,不符合当代人的阅读习惯,古籍断句标点之后有助于阅读、研究和出版。吾与点自动句读系统是基于深度学习的预训练语言模型 BERT 实现的,为了使模型能够具有更好的古汉语表示能力,我们利用 10 亿字的古汉语语料对 BERT 进行增量训练,在其基础上在进行句读学习。句读功能利用互联网上公开的古籍文本库训练得到,训练集包括 7 亿字。目前系统能够处理各类古籍文本,包括经史子集以及佛藏,道藏,通俗小说等。无论是先秦典籍还是明清小说,目前模型在混合类文本测试集上的句读平均准确率超过 94%,标点准确率达 90%,达到了实用标准。“吾与点”自动句读系统具有极高的处理速率和响应速率,经测试 API 接口处理 5 万字耗时 10 秒左右。

null

图1 上传无句读文本,图片上内容选自《史记·越王勾践世家》

null

图2 句读结果

2)命名实体识别

命名实体自动识别系统功能旨在从非结构化的输入文本中识别出各类专有名词。在实际的应用场景中,可以按照不同的业务需求识别出特定的实体,比如在古代历史文献中要识别地理、年号、职官、著书等常规命名实体。“吾与点”在以上提到的增量训练的 BERT 模型基础上,应用迁移学习实现古籍命名实体识别。经测试,现有模型在与训练语料同类型的测试语料上,其准确率达到 98.5%。在《尚书》、《春秋》等先秦上古语料上对人名、地名的泛化准确率分别达到 87%和 82%,在明清小说上测试识别准确率达到 80%。上述的准确率水平,表明当前基于预训练模型的深度学习方法在中华古籍文本上的句读和专有名词识别已经取得与专业人员相媲美的表现,准确率的进一步提升完全取决于标记语料的质量和覆盖率。

null

图3 命名实体识别结果

团队成员


指导教师:王军,杨浩;

模型研发:唐雪梅,严承希;

前后端开发:中文在线集团北京元引公司

设计:李文琦,梁利敏等

版权所有©北京大学文科智数化公共平台