国际关系学院助理教授卢晓与Moritz Osnabrügge, Gerrit Quaremba等学者合作研究:"Analyzing the Language of Legislation Using Natural Language Processing." In Language for Legislation and Legislation through Language, pp. 212-230. Routledge, 2025.
研究依托自然语言处理领域的最新进展,系统介绍用于分析欧盟立法文本的关键技术方法,涵盖正则表达式、词典法、监督与非监督文本分类、词性标注(POS tagging)以及依存句法分析(dependency parsing)。为展示这些技术的应用价值,该研究以2014—2019年欧盟立法期的立法文本为语料,运用词性标注与依存句法分析对106份指令(directives)、274份条例(regulations)和41份决定(decisions)进行实证研究。研究重点考察欧盟立法中被动语态与否定表达的使用频率。这两类语言特征通常被立法起草专家与相关指南建议尽量避免。进一步地,研究比较了不同立法类型、立法程序以及不同时段之间的差异。研究发现,平均而言,一部立法文件中有41.0%的句子包含被动语态,9.7%的句子使用否定表达;两者在时间维度上并无显著变化,但在立法类型上存在系统差异:欧盟指令相较于条例与决定这两种立法类型更频繁使用被动语态与否定表达。分析还揭示了不同政策领域之间的差异,例如,税收相关立法比通信网络相关文本更常使用被动语态,而欧盟内部市场相关立法比就业相关立法更常使用否定表达。
(信息来源:国际关系学院 卢晓)

图11.2 社会网络与电路网络的类比