成果展示

2022年成果

当前位置: 首页 > 成果展示 > 数字人文成果 > 2022年成果 > 正文

假升级,真打脸:逃离不了家庭的赘婿

谭天,蔡翔宇

北京大学中国语言文学系

2024-05-09

发布

背景


一类被称为“赘婿文”的免费小说于 2020 年陡然火热。这类小说起源于无线文,主要讲述了入赘豪门的“贫贱女婿”饱受冷眼,奋起反抗的故事。升级模式的失效、“打脸”的实质化与爱恨交加的家庭叙事,使赘婿文在男频网络小说中兴盛一时,症候式地折射出其主要受众对家庭的纠结心态。此外,赘婿文的情节高度趋同,生产过程流水线化明显,数量庞大且单一文本可分析性低,把网络文学工业生产的特征推到极致。面对这样的一类小说,在传统的文学研究方法外,数字人文手段可以提供参考与辅助。

因此在 2020 年秋季学期的《人工智能技术与应用》课程中,项目团队选择“赘婿文”为研究对象,进行了数字人文与网络文学研究的初步结合,将目标设定为实现“赘婿文”中“打脸”情节的结尾判定,以期掌握这一基本情节在该文类中的节奏变化规律。数据来源于对“赘婿文”代表性文本的人工标记。

程序设计迭代


图1


图2

最终实现方案


小组成员分工对原始文本的前 300 章进行目标情节的定位标注,前 250 章共计 110 段标注数据作为训练/验证集,后 50 章共计 15 段标注数据作为测试集。程序首先以长度适中的窗口在标注完成的原始文本上随机切割,获得训练数据,而后使用 BERT 模型进行模型训练。使用时,以 200 字的窗口在正文上滑动,每次向前滑动 10 字,将窗口内文字送给模型进行打分,分数高于某一阈值则判定为“打脸结尾”,连续多段文字分数高于阈值则认为是同一段。

最终结果



图3

测试集中,程序成功识别出 6 个打脸结尾,遗漏 9 个,误识别 4 个。

结果反思与拓展


本次程序训练集数据量仍有不足,故识别成功率还不够高,难以实用,有待后续增补数据。但已证实思路具备可行性,后续若进一步识别出打脸情节的开头,应增加对打脸情节长度及文本量占比的研究;扩大训练文本来源,则可将这一思路推广至更多类型的网文研究中去。

版权所有©北京大学文科智数化公共平台