假升级，真打脸：逃离不了家庭的赘婿-北京大学文科数智化公共平台

数智成果

2022年成果展

当前位置: 首页 > 数智成果 > 历届成果展 > 2022年成果展 > 正文

假升级，真打脸：逃离不了家庭的赘婿

谭天，蔡翔宇

北京大学中国语言文学系

2024-05-09

背景

一类被称为“赘婿文”的免费小说于 2020 年陡然火热。这类小说起源于无线文，主要讲述了入赘豪门的“贫贱女婿”饱受冷眼，奋起反抗的故事。升级模式的失效、“打脸”的实质化与爱恨交加的家庭叙事，使赘婿文在男频网络小说中兴盛一时，症候式地折射出其主要受众对家庭的纠结心态。此外，赘婿文的情节高度趋同，生产过程流水线化明显，数量庞大且单一文本可分析性低，把网络文学工业生产的特征推到极致。面对这样的一类小说，在传统的文学研究方法外，数字人文手段可以提供参考与辅助。

因此在 2020 年秋季学期的《人工智能技术与应用》课程中，项目团队选择“赘婿文”为研究对象，进行了数字人文与网络文学研究的初步结合，将目标设定为实现“赘婿文”中“打脸”情节的结尾判定，以期掌握这一基本情节在该文类中的节奏变化规律。数据来源于对“赘婿文”代表性文本的人工标记。

程序设计迭代

图1

图2

最终实现方案

小组成员分工对原始文本的前 300 章进行目标情节的定位标注，前 250 章共计 110 段标注数据作为训练/验证集，后 50 章共计 15 段标注数据作为测试集。程序首先以长度适中的窗口在标注完成的原始文本上随机切割，获得训练数据，而后使用 BERT 模型进行模型训练。使用时，以 200 字的窗口在正文上滑动，每次向前滑动 10 字，将窗口内文字送给模型进行打分，分数高于某一阈值则判定为“打脸结尾”，连续多段文字分数高于阈值则认为是同一段。

最终结果

图3

测试集中，程序成功识别出 6 个打脸结尾，遗漏 9 个，误识别 4 个。

结果反思与拓展

本次程序训练集数据量仍有不足，故识别成功率还不够高，难以实用，有待后续增补数据。但已证实思路具备可行性，后续若进一步识别出打脸情节的开头，应增加对打脸情节长度及文本量占比的研究；扩大训练文本来源，则可将这一思路推广至更多类型的网文研究中去。

上一篇：房地产市场情绪指数构建和分析——基于对网媒、微博和公众号文本数据的研究

下一篇：由“一夫”至“多宝”：数字人文视角下女频小说的情感位移