成果展示

2022年成果

当前位置: 首页 > 成果展示 > 数字人文成果 > 2022年成果 > 正文

汉语文本分级系统

吴云芳

北京大学计算机学院

2024-05-08

发布

背景


分级阅读,是根据儿童的身心发展规律,给不同的儿童提供相应阅读难度的文本读物。早在 2011 年,国务院颁布《中国儿童发展纲要(2011~2020 年)》,提出“推广面向儿童的图书分级制,为不同年龄的儿童提供适合其年龄特点的图书,为儿童家长选择图书提供建议和指导。”

接受人民教育出版社的委托,北京大学吴云芳课题组承担了“中国儿童分级阅读文本标准研制”的项目开发工作,研究目的即是研制汉语文本分级系统。

系统模型


模型结构由 N-gram 特征抽取和篇章级特征提取两个部分组成。N-gram 特征抽取利用卷积神经网络 CNN 由词向量表示提取到 N-gram 表示,采用了变长卷积层和块结构(Block),如下图所示:

null

图1 N-gram 特征抽取

不同于一般的文本长度服从正态分布的数据集,分级语料数据集中文本的长度相差很大,因此,本模型先对文本序列长度作压缩处理,采用变长卷积层对句子作特征提取,即随着序列的增加,相应的卷积核大小和步长也进行增加。同时,采用块结构 Block 对输入进行下采样,经过不断的下采样,可以增加卷积核对原文的覆盖度,使模型对全局特征的提取能力得到大幅增强。 篇章级特征提取的作用是由 N-gram 特征表示提取到篇章级别的文本表示,采用了双向 LSTM 网络和注意力机制。 模型使用交叉熵损失函数进行训练,并且加入了标签平滑。

实验数据


本项目通过各种途径搜集了北师大版、人教版、苏教版、部编版等十多个出版社的小学、初中、高中教材,从中删除了诗歌和文言文,作为本文的实验数据集。依据 80%:10%:10%的比例划分训练集、开发集和测试集。阅读难度划分参考《语文课程标准》的学段划分,即第一学段(12 年级),第二学段(34 年级),第三学段(56 年级),第四学段(79 年级)和高中。此外,本项目还构建了一个文本阅读难度的人工测试集。

表1 五分类数据集划分

null

项目网址


http://www.chinese-pku.com/

主要成果


• 构建了大规模的汉语分级语料库 • 研制了汉语分级词表 • 研发了汉语文本分级系统 • 开发部署了汉语文本分级网站

结果分析


实验结果如表2 所示。我们的最终模型 VBCNN + BiLSTM + Att + LS 在两个数据集上、在各项指标上均取得了最佳性能。由于人工设计了大量语言特征,SVM 模型也取得了较为满意的效果。而常用的神经网络模型并没有取得理想性能,CNN、RNN、Transformer 的性能都不如 SVM 分类器,尤以 RNN 效果最差。比较意外的是,简单作词向量平均的 FastText 性能超过了 SVM。在大规模语料上作预训练的 BERT 取得了与 SVM 相媲美的结果。

表2 五分类难度等级的实验结果

null

应用前景


中小学语文教育 阅读推广 自然语言处理

系统展示


null

图2 系统展示

null

图3 系统展示

 

版权所有©北京大学文科智数化公共平台