2024年3月5日中午,社会科学部在百周年纪念讲堂咖啡厅举办“数字与人文节气沙龙”惊蛰篇活动。本次活动是“节气沙龙”系列活动的第23期,主题是“理想的古汉语语料库”。沙龙由北京大学中国语言文学系助理教授雷瑭洵主讲,主要邀请中国语言文学、外国语、对外汉语教育、软件工程等专业领域的专家学者,以及计算中心、教师教学发展中心等相关职能部门老师参与本次活动。沙龙由社会科学部副部长郭琳主持。
雷瑭洵作主题报告
语料库是有目的收集并按一定结构组织的自然语言材料的集合。雷瑭洵介绍了数智化背景下建设古汉语语料库的目标和思路,并基于“北京大学汉语史标注语料库”(PACC)梳理了既有经验,对古汉语语料库的发展和应用提出了诸多期待。
雷瑭洵指出,古汉语语料的自然性、规模性、有限性,以及研究方法上的特点,适合运用语料库语言学的方法来开展古汉语研究,建设方便实用的古汉语电子语料库对于古汉语研究有承上启下的重要意义;理想的古汉语语料库应以服务古汉语教学与研究为主要目的,语料的收集与分类应满足准确性、全面性、同质性;应在生语料库信息基础上标注形音义知识和8个方面的语法语用知识;同时应具备可扩展性、可修正性、可定制性。
雷瑭洵介绍了古汉语大模型技术在“北京大学汉语史标注语料库”建设中的应用情况、优势与不足,强调了古汉语语料库对学科研究和古汉语教学的极大助益,希望在新技术的帮助下,理想的古汉语语料库早日诞生。
与会嘉宾交流讨论
主题报告结束后,与会嘉宾充分肯定了该数据库的建设工作,并结合自身研究领域,就语料库建设中的翻译和组织机制、古汉语标注体系及理论基础、大模型嵌入标注工作、语料库应用场景和维护修正等问题进行了深入探讨。
与会嘉宾交流讨论
专题链接:“数字与人文”节气沙龙
延伸视频:https://resource.pku.edu.cn/index.php?r=lecturevideo%2Fview&id=43953
▌来源:北京大学新闻网