基于机器学习的古籍目录互著与别裁探析-北京大学文科数智化公共平台

数智成果

数字人文成果展

当前位置: 首页 > 数智成果 > 数字人文成果展 > 正文

基于机器学习的古籍目录互著与别裁探析

张力元，王军

北京大学图书馆，北京大学数字人文研究中心

2024-05-09

背景

我国古典目录学历史悠久，具有“辨章学术，考镜源流”的学术价值。互著与别裁作为古典目录学的两种辅助方法，旨在剖析文献内容的基础上，根据内容的多元性，将文献准确、完整地记载于目录体系的多个类目下，达到“类例既分，学术自明”的效果。但是，互著与别裁的传统实现策略主要依托于人工，不仅对人力和学术素养有较高要求，存在主观性较强或难以准确判断的问题，也无法在海量古籍上得到普遍运用。本研究在数字人文视角下引入机器学习方法，为互著与别裁提供新的实现策略。

数据来源

代表典籍的选定主要参考《汉书·艺文志》中记载的先秦诸子典籍，并参考梁启超在《汉书·艺文志·诸子略考释》中对《汉书·艺文志·诸子略》中学派、学者、著述的存、佚、伪考释结论。

表1 本文所选先秦诸子学派图书文献

语料类型学派代表典籍


训练语料	儒家	《论语》《孟子》
	道家	《老子》《庄子》
	法家	《韩非子》《商君书》
	名家	《公孙龙子》
	墨家	《墨子》
	兵家	《孙子》《吴子》
	辨别语料	《荀子》《管子》

数据处理方式

分别利用 TextCNN 和 BERT 两种机器学习模型在先秦诸子六家十部典籍文本上分类训练，让机器学习各家类别与典籍文本的对应关系，最终选取训练后分类效果更好的 BERT 模型对《荀子》和《管子》两部典籍分别进行分类判断。

研究结果

BERT 模型优于 TextCNN 模型，可以达到 91.64%的分类准确率。用微调训练后的 BERT 模对《荀子》与《管子》进行篇、章粒度的分类判断，得出这两部书各篇章互著与别裁的结果。

null

图1 《荀子》三十二篇对应六家概率分布热力图

表2 《荀子》别裁结果

类目《管子》篇


道家	《劝学》《修身》《儒效》《天论》《解蔽》《正名》《赋》
墨家	《劝学》《不苟》《荣辱》《非十二子》《仲尼》《富国》《正论》《礼论》《成相》
兵家	《议兵》
名家	无

null

图2 《管子》七十五篇对应六家概率分布热力图

表 3 《管子》别裁结果

类目《管子》篇


儒家	《弟子职》
道家	《形势》《侈靡》《心术上》《心术下》《白心》《水地》《五行》《势》《内业》《九守》《立政》《乘马》《七法》《版法》《幼官》《幼官图》《五辅》《八观》
墨家	《法禁》《问》《君臣上》《侈靡》《心术下》《四时》《五行》《入国》
兵家	《九守》《地员》《乘马数》《海王》《轻重己》《七法》《幼官》《幼官图》《兵法》《地图》《参患》《制分》《势》《九变》
名家	无

数据应用前景

在古籍数字化的基础上智能化地实现互著与别裁，可以高效处理更多古籍资源与更多类目的对应关系，也可以深入到篇章做出细粒度的分类判断。这不仅能够拓展互著与别裁理论与实践边界，也能够提高古籍资源的组织与利用效率，为数字环境下的“即类求书，因书究学”提供量化保障。在新文科背景下，该方法也可以为人文研究提供新的分析维度，助力发现新问题。

上一篇：中国教育财政政策咨询报告—基于《全国教育经费统计年报系统》数据库

下一篇：中国教育财政家庭调查