成果展示

数字人文成果

当前位置: 首页 > 成果展示 > 数字人文成果 > 正文

基于机器学习的古籍目录互著与别裁探析

张力元,王军

北京大学图书馆,北京大学数字人文研究中心

2024-05-09

发布

背景


我国古典目录学历史悠久,具有“辨章学术,考镜源流”的学术价值。互著与别裁作为古典目录学的两种辅助方法,旨在剖析文献内容的基础上,根据内容的多元性,将文献准确、完整地记载于目录体系的多个类目下,达到“类例既分,学术自明”的效果。但是,互著与别裁的传统实现策略主要依托于人工,不仅对人力和学术素养有较高要求,存在主观性较强或难以准确判断的问题,也无法在海量古籍上得到普遍运用。本研究在数字人文视角下引入机器学习方法,为互著与别裁提供新的实现策略。

数据来源


代表典籍的选定主要参考《汉书·艺文志》中记载的先秦诸子典籍,并参考梁启超在《汉书·艺文志·诸子略考释》中对《汉书·艺文志·诸子略》中学派、学者、著述的存、佚、伪考释结论。

表1 本文所选先秦诸子学派图书文献

语料类型学派代表典籍




训练语料

儒家

《论语》《孟子》


道家

《老子》《庄子》


法家

《韩非子》《商君书》


名家

《公孙龙子》


墨家

《墨子》


兵家

《孙子》《吴子》


辨别语料

《荀子》《管子》

数据处理方式


分别利用 TextCNN 和 BERT 两种机器学习模型在先秦诸子六家十部典籍文本上分类训练,让机器学习各家类别与典籍文本的对应关系,最终选取训练后分类效果更好的 BERT 模型对《荀子》和《管子》两部典籍分别进行分类判断。

研究结果


BERT 模型优于 TextCNN 模型,可以达到 91.64%的分类准确率。用微调训练后的 BERT 模对《荀子》与《管子》进行篇、章粒度的分类判断,得出这两部书各篇章互著与别裁的结果。

null

图1 《荀子》三十二篇对应六家概率分布热力图

 

表2 《荀子》别裁结果

类目《管子》篇



道家

《劝学》《修身》《儒效》《天论》《解蔽》《正名》《赋》

墨家

《劝学》《不苟》《荣辱》《非十二子》《仲尼》《富国》《正论》《礼论》《成相》

兵家

《议兵》

名家

null

null

图2 《管子》七十五篇对应六家概率分布热力图

表 3 《管子》别裁结果

类目《管子》篇



儒家

《弟子职》

道家

《形势》《侈靡》《心术上》《心术下》《白心》 《水地》《五行》《势》《内业》《九守》《立政》《乘马》《七法》《版法》《幼官》《幼官图》《五辅》《八观》

墨家

《法禁》《问》《君臣上》《侈靡》《心术下》《四时》《五行》《入国》

兵家

《九守》《地员》《乘马数》《海王》《轻重己》《七法》《幼官》《幼官图》《兵法》《地图》《参患》《制分》《势》《九变》

名家

数据应用前景


在古籍数字化的基础上智能化地实现互著与别裁,可以高效处理更多古籍资源与更多类目的对应关系,也可以深入到篇章做出细粒度的分类判断。这不仅能够拓展互著与别裁理论与实践边界,也能够提高古籍资源的组织与利用效率,为数字环境下的“即类求书,因书究学”提供量化保障。在新文科背景下,该方法也可以为人文研究提供新的分析维度,助力发现新问题。

版权所有©北京大学文科智数化公共平台