意大利中古诗歌及但丁数字化研究项目-北京大学文科数智化公共平台

数智成果

历届成果展

当前位置: 首页 > 数智成果 > 历届成果展 > 正文

意大利中古诗歌及但丁数字化研究项目

成沫

北京大学外国语学院

2024-05-08

研究背景

在意大利早期文学及但丁研究领域，大型的数字人文项目中较为出色的两个案例的是

1）意大利国家研究委员会的 Gattoweb 项目（文本数据库+文本分析）

2） Princeton Dante Project（文本数据库）

相比数据库，文本分析类软件更利于编写与实现，不需要太多的资源或庞大的团队支持，而可以依赖现有的自然语言处理工具包等库类运用。

图1 GattoWeb-OVI 古意大利语文本数据库

对重复韵词组的分析

对重复韵词组的分析，是语言处理中的一个基础项目，如上面的分析所揭示，valle(山谷)，spalle（肩膀）, calle(小道)这样的特定组合是《神曲》中重复频率最高的三行诗韵（terza rima）结构，这一组在《地狱篇》第一歌便出现的韵词结构贯穿全文，在全诗叙事中直到重要的作用。

而另一个例子则是同样的分析所揭示的 Cristo(基督), Cristo, Cristo 韵脚，在《神曲》中“基督”一词只与自身押韵，这同样也展示了但丁的诗歌策略与风格，以及意大利中世纪诗歌的普遍文化背景。

图2 演示一

对于特定韵词的查询

如通过搜索对应“lamento”（哀嚎）一词的韵词，可以找到《神曲》《地狱篇》第五歌中的韵词组：“lamento”（哀嚎）与“tormento”（刑罚）。这一组词生动地展现了此间地狱中受罚灵魂的痛苦，同时，这两个词还构成富足韵（rima ricca），即比普通意大利语诗歌韵脚更精密（单词后两个音节完全相同）的押韵方式。同样很轻松地，如图演示，我们可以找到彼特拉克《歌集》中所有使用“-mento”一韵的韵词组，从而分析但丁与彼特拉克在诗歌语言上的风格差别。

图3 演示二

此项目面向已掌握所研究对象的语言、了解文学文本研究方法的研究员群体，按照意大利数字人文界借助时尚领域的分类定义，是属于 Haute Couture (高端定制)，而非 pret-a-porter（量产成衣）类数字人文项目。尽管如此，作者希望通过这样的尝试及分享，为更多中国的西方文学研究者提供思路，最终将成果扩展到不同语言及文本中，并激励更多中国的西方文学研究者尝试涉足数字人文领域。

又：作者的教学用项目尝试为外院意大利语专业所开发的“1000 个意大利语常用词分类及随机生成器”

图4 演示三

上一篇：全球首个发展融资机构数据库建设项目

下一篇：由“一夫”至“多宝”：数字人文视角下女频小说的情感位移