数字人文

数字人文成果展

当前位置: 首页 > 数字人文 > 数字人文成果展 > 正文

房地产市场情绪指数构建和分析——基于对网媒、微博和公众号文本数据的研究

李博

北京大学经济学院

2024-05-09

发布

背景


房地产市场广受社会关注,高房价对于经济健康发展、人民美好生活、社会稳定与活力等都有较强的影响。针对我国城镇房价持续快速上涨现象与高房价问题,不少学者已经从需求、供给、政府、货币等因素作出了深入的探索,但鲜有考虑到媒体情绪的因素。习总书记强调“要加强促进共同富裕舆论引导,为促进共同富裕提供良好舆论环境”。因此,在“共同富裕”的大背景下深入理解网络媒体和社交媒体的内容对于人们的影响,以及这些内容如何影响人们对房地产市场情绪,十分重要。

数据来源


本研究与人民网达成合作,利用人民网提供的全样本的网媒、微博和公众号的数据,构建房地产市场情绪指数。其中,每一条数据包含以下信息:文本,日期和地点。

数据处理方式


本研究有以下创新点:1.本研究是第一个专门针对中国房地产市场相关舆情数据进行 NLP 的分析,并构建房地产市场情绪指数。2. 本研究的 NLP 方法采用了国际最前沿的基于 Transformer 的预训练语言模型和语言模型的微调机制,我们还在训练集构造过程中借鉴了“角色扮演”的技术,最大程度保证标注结果的一致性,进而保证了文本分析的准确。3. 本研究构建的房地产市场情绪指数构成了一个高纬度面板数据,这个创新的数据为实证资产定价,房地产市场研究和政府决策等提供了新的素材和依据。

结果


图1 展示了 2015-2018 房地产市场的情绪变化,房地产情绪指数的走势与相关政策的出台紧密相关。在网文、微信和微博三种不同媒体之中,微博反映的房地产情绪比较消极,平均水平为-0.1,且波动较大;网媒反映的情绪指数与微信较为接近,均为积极情绪。其中,网文平均水平在 0.3,微信的平均水平在 0.2。例如,2017 年 10 月,十九大提出“房住不炒”,从本项目计算出的结果可以看出,情绪指数出现了非常大的积极变化。

null

图1 情绪指数

本项目的一个特色是在构建训练集时,采取了角色扮演的方式,通过该方法训练出的模型能更准确的反映市场的情绪变化。

角色一:土豪,拥有多套房的投资者。

角色二:城市务工,城市打工群体并无计划在城市购买房产。

角色三:改善性需求,有房但同时具有改善性需求换房者。

角色四:初入职场,无房者但有购房计划的人群。

null

图2 情绪指数-分角色

图2 的结果显示,土豪群体情绪最为稳定。2016 年 2 月,“降首付”政策出台,情绪指数达到峰值。2017 年 10 月,“房住不炒”政策出台,土豪群体情绪低落,与其他群体情绪分化。城市打工群体的情绪体现出明显的阶段性特征。2015 年 1 月~2017 年 6 月之间,网文和微信上情绪较为稳定,维持中性。2017 年 7 月起,随着楼市调控政策陆续出台,城市打工群体经历了一整年的情绪高涨期,并在 2017 年 10 月“房住不炒”政策的出台之际达到峰值。改善性需求群体是所有群体中情绪最积极的。除了 2016 年第三季度,限购政策密集出台导致负面情绪,其余时间情绪积极。初入职场群体的情绪,整体上与改善性需求群体走势接近,但是不同媒体上情绪分化明显。

图3 展示了我们的基于 Transformer 的情绪识别模型架构图。模型主要包含嵌入层, Transformer 编码器和标签推断分类器。其中嵌入层能将离散的单字转化为连续空间的表示,编码器能够将单字的表示组合为融合上下文信息的表示,标签推断分类器根据文本表示得到最终的预测情绪。我们采用在大规模语料上预训练的模型参数作为初始化参数,然后在自有的标注数据上微调模型参数,从而得到最终的情绪识别模型。

null

图3 模型


版权所有©北京大学文科智数化公共平台