成果展示

数字人文成果

当前位置: 首页 > 成果展示 > 数字人文成果 > 正文

意大利中古诗歌及但丁数字化研究项目

成沫

北京大学外国语学院

2024-05-08

发布

研究背景


在意大利早期文学及但丁研究领域,大型的数字人文项目中较为出色的两个案例的是

1) 意大利国家研究委员会的 Gattoweb 项目(文本数据库+文本分析)

2) Princeton Dante Project(文本数据库)

相比数据库,文本分析类软件更利于编写与实现,不需要太多的资源或庞大的团队支持,而可以依赖现有的自然语言处理工具包等库类运用。

null

图1 GattoWeb-OVI 古意大利语文本数据库

对重复韵词组的分析


对重复韵词组的分析,是语言处理中的一个基础项目,如上面的分析所揭示,valle(山谷),spalle(肩膀), calle(小道)这样的特定组合是《 神曲》中重复频率最高的三行诗韵(terza rima)结构,这一组在《地狱篇》第一歌便出现的韵词结构贯穿全文,在全诗叙事中直到重要的作用。

而另一个例子则是同样的分析所揭示的 Cristo(基督), Cristo, Cristo 韵脚,在《神曲》中“基督”一词只与自身押韵,这同样也展示了但丁的诗歌策略与风格,以及意大利中世纪诗歌的普遍文化背景。

null

图2 演示一

对于特定韵词的查询


如通过搜索对应“lamento”(哀嚎)一词的韵词,可以找到《神曲》《地狱篇》第五歌中的韵词组:“lamento”(哀嚎)与“tormento”(刑罚)。这一组词生动地展现了此间地狱中受罚灵魂的痛苦,同时,这两个词还构成富足韵(rima ricca),即比普通意大利语诗歌韵脚更精密(单词后两个音节完全相同)的押韵方式。同样很轻松地,如图演示,我们可以找到彼特拉克《歌集》中所有使用“-mento”一韵的韵词组,从而分析但丁与彼特拉克在诗歌语言上的风格差别。

null

图3 演示二

此项目面向已掌握所研究对象的语言、了解文学文本研究方法的研究员群体,按照意大利数字人文界借助时尚领域的分类定义,是属于 Haute Couture (高端定制),而非 pret-a-porter(量产成衣)类数字人文项目。尽管如此,作者希望通过这样的尝试及分享,为更多中国的西方文学研究者提供思路,最终将成果扩展到不同语言及文本中,并激励更多中国的西方文学研究者尝试涉足数字人文领域。

又:作者的教学用项目尝试 为外院意大利语专业所开发的“1000 个意大利语常用词分类及随机生成器”

null

图4 演示三


版权所有©北京大学文科智数化公共平台