汉语文本分级系统-北京大学文科数智化公共平台

数智成果

历届成果展

当前位置: 首页 > 数智成果 > 历届成果展 > 正文

汉语文本分级系统

吴云芳

北京大学计算机学院

2024-05-08

背景

分级阅读，是根据儿童的身心发展规律，给不同的儿童提供相应阅读难度的文本读物。早在 2011 年，国务院颁布《中国儿童发展纲要（2011~2020 年）》，提出“推广面向儿童的图书分级制，为不同年龄的儿童提供适合其年龄特点的图书，为儿童家长选择图书提供建议和指导。”

接受人民教育出版社的委托，北京大学吴云芳课题组承担了“中国儿童分级阅读文本标准研制”的项目开发工作，研究目的即是研制汉语文本分级系统。

系统模型

模型结构由 N-gram 特征抽取和篇章级特征提取两个部分组成。N-gram 特征抽取利用卷积神经网络 CNN 由词向量表示提取到 N-gram 表示，采用了变长卷积层和块结构（Block），如下图所示：

图1 N-gram 特征抽取

不同于一般的文本长度服从正态分布的数据集，分级语料数据集中文本的长度相差很大，因此，本模型先对文本序列长度作压缩处理，采用变长卷积层对句子作特征提取，即随着序列的增加，相应的卷积核大小和步长也进行增加。同时，采用块结构 Block 对输入进行下采样，经过不断的下采样，可以增加卷积核对原文的覆盖度，使模型对全局特征的提取能力得到大幅增强。篇章级特征提取的作用是由 N-gram 特征表示提取到篇章级别的文本表示，采用了双向 LSTM 网络和注意力机制。模型使用交叉熵损失函数进行训练，并且加入了标签平滑。

实验数据

本项目通过各种途径搜集了北师大版、人教版、苏教版、部编版等十多个出版社的小学、初中、高中教材，从中删除了诗歌和文言文，作为本文的实验数据集。依据 80%:10%:10%的比例划分训练集、开发集和测试集。阅读难度划分参考《语文课程标准》的学段划分，即第一学段（12 年级），第二学段（34 年级），第三学段（56 年级），第四学段（79 年级）和高中。此外，本项目还构建了一个文本阅读难度的人工测试集。

表1 五分类数据集划分

项目网址

http://www.chinese-pku.com/

主要成果

• 构建了大规模的汉语分级语料库 • 研制了汉语分级词表 • 研发了汉语文本分级系统 • 开发部署了汉语文本分级网站

结果分析

实验结果如表2 所示。我们的最终模型 VBCNN + BiLSTM + Att + LS 在两个数据集上、在各项指标上均取得了最佳性能。由于人工设计了大量语言特征，SVM 模型也取得了较为满意的效果。而常用的神经网络模型并没有取得理想性能，CNN、RNN、Transformer 的性能都不如 SVM 分类器，尤以 RNN 效果最差。比较意外的是，简单作词向量平均的 FastText 性能超过了 SVM。在大规模语料上作预训练的 BERT 取得了与 SVM 相媲美的结果。

表2 五分类难度等级的实验结果

应用前景

中小学语文教育阅读推广自然语言处理

系统展示

图2 系统展示

图3 系统展示

上一篇：假升级，真打脸：逃离不了家庭的赘婿

下一篇：湍流中的稳态——东晋门阀贵族的社会网络