我国古典目录学历史悠久,具有“辨章学术,考镜源流”的学术价值。互著与别裁作为古典目录学的两种辅助方法,旨在剖析文献内容的基础上,根据内容的多元性,将文献准确、完整地记载于目录体系的多个类目下,达到“类例既分,学术自明”的效果。但是,互著与别裁的传统实现策略主要依托于人工,不仅对人力和学术素养有较高要求,存在主观性较强或难以准确判断的问题,也无法在海量古籍上得到普遍运用。本研究在数字人文视角下引入机器学习方法,为互著与别裁提供新的实现策略。
代表典籍的选定主要参考《汉书·艺文志》中记载的先秦诸子典籍,并参考梁启超在《汉书·艺文志·诸子略考释》中对《汉书·艺文志·诸子略》中学派、学者、著述的存、佚、伪考释结论。
表1 本文所选先秦诸子学派图书文献
语料类型学派代表典籍
|
|
|
训练语料 |
儒家 |
《论语》《孟子》 |
|
道家 |
《老子》《庄子》 |
|
法家 |
《韩非子》《商君书》 |
|
名家 |
《公孙龙子》 |
|
墨家 |
《墨子》 |
|
兵家 |
《孙子》《吴子》 |
|
辨别语料 |
《荀子》《管子》 |
分别利用 TextCNN 和 BERT 两种机器学习模型在先秦诸子六家十部典籍文本上分类训练,让机器学习各家类别与典籍文本的对应关系,最终选取训练后分类效果更好的 BERT 模型对《荀子》和《管子》两部典籍分别进行分类判断。
BERT 模型优于 TextCNN 模型,可以达到 91.64%的分类准确率。用微调训练后的 BERT 模对《荀子》与《管子》进行篇、章粒度的分类判断,得出这两部书各篇章互著与别裁的结果。
图1 《荀子》三十二篇对应六家概率分布热力图
表2 《荀子》别裁结果
类目《管子》篇
|
|
道家 |
《劝学》《修身》《儒效》《天论》《解蔽》《正名》《赋》 |
墨家 |
《劝学》《不苟》《荣辱》《非十二子》《仲尼》《富国》《正论》《礼论》《成相》 |
兵家 |
《议兵》 |
名家 |
无 |
图2 《管子》七十五篇对应六家概率分布热力图
表 3 《管子》别裁结果
类目《管子》篇
|
|
儒家 |
《弟子职》 |
道家 |
《形势》《侈靡》《心术上》《心术下》《白心》 《水地》《五行》《势》《内业》《九守》《立政》《乘马》《七法》《版法》《幼官》《幼官图》《五辅》《八观》 |
墨家 |
《法禁》《问》《君臣上》《侈靡》《心术下》《四时》《五行》《入国》 |
兵家 |
《九守》《地员》《乘马数》《海王》《轻重己》《七法》《幼官》《幼官图》《兵法》《地图》《参患》《制分》《势》《九变》 |
名家 |
无 |
在古籍数字化的基础上智能化地实现互著与别裁,可以高效处理更多古籍资源与更多类目的对应关系,也可以深入到篇章做出细粒度的分类判断。这不仅能够拓展互著与别裁理论与实践边界,也能够提高古籍资源的组织与利用效率,为数字环境下的“即类求书,因书究学”提供量化保障。在新文科背景下,该方法也可以为人文研究提供新的分析维度,助力发现新问题。