成果展示

数字人文成果

当前位置: 首页 > 成果展示 > 数字人文成果 > 正文

基于深度学习的新冠患者疾病阶段挖掘与预后分析

李红燕

北京大学智能学院

2024-05-09

发布

背景


新型冠状病毒肺炎疫情的爆发严重危害了全球人民的身体健康。面对这种突发性医疗卫生状况,许多国家和地区的医院都面临过医护人员紧缺和医疗资源挤兑的情况,严重阻碍了对患者的救治和疫情的把控。采用深度学习的方法来及时而准确地进行患者预后,可以帮助医生施行针对性救治、合理分配紧缺的医疗资源。然而新冠肺炎患者的数据稀缺且在时间上呈现出不规则采样的特性,而现有的深度学习技术局限于理想场景,对于医疗时序数据的这种不规则特性鲜有考虑。同时,新冠肺炎的疾病阶段及其对应生物标志物尚不明确,无法结合经验知识进行有效的数据挖掘。为此设计了一种新颖的、能够感知时间特性的深度学习模型来建模新冠肺炎患者的医疗数据,并在此基础上实现了无监督学习方法来挖掘疾病的阶段性特征。

数据来源


来自武汉同济医院在 2020 年 1 月 10 日至 2 月 18 日期间住院的 487 位新冠肺炎患者的多次血液采样数据。

模型和结果


null

图1 用于新冠患者疾病阶段挖掘与预后分析的深度学习模型架构

针对样本数据,设计了时间敏感的长短期记忆神经网络(T-LSTM)来对患者的血样数据进行建模并预测其死亡率。T-LSTM 可以同时学习时序数据的动态演化特性和不规则时间间隔特征:通过带有门控机制的递归神经网络来学习数据过去、现在和未来之间的长期和短期的依赖关系,采用时间衰减函数来建模时序数据观测点之间的不等长时间间隔,并调整不同间隔点的依赖强度。此外,通过提取模型中间层的高维向量来挖掘疾病阶段和相关医学特征:通过对高维向量进行特征聚类来得到患者的分型,根据分型的时间分布定义不同的疾病阶段,并根据不同疾病阶段生物标志物水平的分布变化得到关键生物标志物,再通过关键生物标志物与其它疾病的关联程度来找出新冠肺炎的并发症。(图一)

T-LSTM 对新冠肺炎患者死亡的早期预测精度超过了现有的其它机器学习方法:提前 3 天的预测准确度为 97%,提前 6 天的预测准确度为 95%,提前 9 天的预测准确度为 92%,提前 12 天的预测准确度为 90%。

通过 T-LSTM 还挖掘出新冠肺炎疾病发展的四个阶段、五项关键生物标志物和三种并发症(图2)。这四个阶段分别具有不同的死亡风险、发病时间和生物标志物水平。与新冠肺炎最相关的五项生物标志物为淋巴细胞、乳酸脱氢酶、超敏 C 反应蛋白、间接胆红素和肌酐;三种并发症为心肌损伤、肝功能损伤和肾功能损伤。

null

图2 新冠肺炎的四个疾病阶段及相应特征

研究价值


目前在医疗领域尚没有明确的新型冠状病毒肺炎的疾病阶段定义,且很少有研究涉及到此疾病发展阶段的相关特征分析。该项成果对世界卫生组织(WHO)定义后新冠疾病起到了积极的作用,WHO 发表在柳叶刀上的论文使用了我们找到的并发症,并认可我们的工作方向以及我们对疾病阶段挖掘的工作。

版权所有©北京大学文科智数化公共平台