2023年12月,北大医信交叉小组于Cell Press细胞出版社旗下期刊Patterns上以首页封面文章的形式发表了题为“Mortality Prediction with Adaptive Feature Importance Recalibration for Peritoneal Dialysis Patients”的研究论文,该医信交叉研究基于腹膜透析患者时序随访电子病历数据,搭建个体化预后分析模型AICare,智能预测不良结局发生概率、个体化判别关键影响因素、重新判断指标参考值,研究同时开源发布了预后预测可视化系统“小雅医生”,以便于业界试用参考、促进领域内研究者进一步探索。(本研究发布于 https://www.cell.com/patterns/fulltext/S2666-3899(23)00294-5)
该研究由北京大学、北医三院、北大人民医院、爱丁堡大学(英国)、埃克塞特大学(英国)联合团队共同完成,作者为:马连韬#、张超贺#、高俊逸#、焦贤锋、余志浩、朱英豪、王天龙、马辛宇、王亚沙*、唐雯*、赵新菊、阮文杰、汪涛。
研究背景目标:腹透患者预后预测
终末期肾脏病(End-Stage Renal Disease,ESRD,即尿毒症)的发生率持续增加,已成为全球重大医疗负担。ESRD是一种长病程疾病,患者需要持续多年甚至几十年的肾脏替代治疗。腹膜透析(Peritoneal Dialysis,PD)是一种成熟的ESRD患者居家生命支持治疗方式。在长期腹膜透析过程中,患者需要定期随访以监测疾病进展状况。
基于门诊随访过程中所记录的结构化时序电子病历(Electronic Medical Record,EMR)个体化、动态预测不良结局和识别风险因素,对于精准诊疗、早期干预、提高长期透析患者的生存至关重要。
研究数据纳入:真实世界多变量时序电子病历
本研究基于656位腹透患者共13,091次门诊随访记录构成的真实世界电子病历数据集,数据集时间跨度12年,每位患者平均记录约20次随访,平均随访时间4年。分析数据包括:
- 患者的基线数据:患者的人口统计数据(如年龄、性别),是否患有糖尿病;
- 动态随访时序数据:实验室检验检查数据(血常规、肝肾功能、血压记录等)。
研究方法设计:基于深度学习的可解释健康状况表示学习框架
本研究提出了一项基于深度学习的可解释健康状况表示学习框架——AICare,该端到端模型包含多通道特征提取模块和自适应特征重要性重新校准模块。
- 多通道时序特征编码架构从高维医疗时序特征中提取序列模式;
- 患者基线信息和动态随访特征的压缩编码被视为健康上下文向量,用于指导特征重要性的重新校准模块;
- 模型在患者随访过程中,针对每一次电子病历继续编码多变量时序数据,建模患者疾病发展轨迹,最终实现动态预后预测,其中任务定义为每次随访病历数据记录后一年期死亡风险预测。
量化实验结果:不同死因预测性能差异分析
AICare模型在腹透患者一年期死亡风险动态预测任务中AUROC(接收者操作特征曲线下面积)为81.6%,AUPRC(精确率-召回率曲线下面积)为47.2%,超过业内已有模型。
根据预测结果,恶液质(Cachexia,AUROC=0.88)、感染(Infection,AUROC=0.082)和周围血管病(PVD,AUROC-0.82)相关的一年期不良预后风险容易识别。脑血管疾病(CVE,AUROC=0.55)和心血管疾病(CVD,AUROC=0.71)相关不良预后风险最难预测。与前三类相比,后二类风险往往发作急性,现有检验检查指标中难以反映出明显异常迹象,患者可能在相当短的时间内面临高的猝死威胁,这启发临床中需要针对此类风险更高频的采集检验检查数据或采集更丰富的特征来增强预后预测。
动态预测系统:个体化疾病进展轨迹可视化
本研究基于特征重标定模块在预测过程中随患者疾病状态变化自适应判别关键特征,通过多视角观察可以进行细粒度可解释性分析,辅助医学专家了解模型如何为特定患者做出预测,以确保预测结果在诊治辅助和提取医学知识方面是可信的。
模型部署是临床应用的最后但也是最具挑战性的一步。本研究配套AICare开发了AI-医生交互预后预测系统,用于可视化患者疾病进展轨迹和关键指标。该系统已开源发布,用户可以在线上传数据以立即获得预测结果,或下载代码以基于自有数据集离线训练模型。
疾病进展轨迹可视化系统展示了死亡风险预测结果和特征重要性分析结果。横轴表示门诊随访日期,纵轴表示预测的死亡风险(以粉色半透明曲线可视化)和部分关键指标值。AICare在每次患者随访时进行预后预测,提供特征的重要性权重作为可解释性(以折线图数据点的大小表示,同时也列在悬浮窗口中)。
图示以一位匿名糖尿病肾病患者展开案例分析演示。在图中红色虚线框覆盖的随访时期,AICare在不良结局发生前三年持续预测高风险。模型主要关注白蛋白、舒张血压(DBP)和血红蛋白(Hb)的异常下降趋势。1004年初,Hb和DBP值急剧下降,分别下降了69 g/L和27 mmHg。AICare迅速感应到并开始关注这一变化,Hb和DBP分别获得了31.0%和19.8%的关注度。1007年,白蛋白从32.9 mmol/L急剧下降至24.5 mmol/L,此后在最后几次访问中白蛋白水平一直保持在低水平,吸引了模型30%-40%的关注度。AICare继续上调了风险预测值至80%以上(即模型认为患者未来一年死亡风险概率超过80%)。不幸的是,数月后该患者死于前列腺癌和多器官衰竭。
回顾病历记录,自1004年以来,该患者出现了一系列并发症,包括不稳定性心绞痛、周围动脉疾病(PAD)、前列腺癌、贫血、糖尿病足和炎性肠病,这些并发症与AICare提示的异常生物标志物密切相关。DBP的下降表明动脉硬化加剧,可能与这些患者的严重动脉粥样硬化相关,如冠心病、PAD和糖尿病足。异常的血红蛋白水平表明有害贫血,可能与胃肠出血、严重感染、营养不良、前列脺癌、糖尿病足和炎性肠病相关。在AICare的帮助下,医生或可及早被提醒相关风险或进一步治疗干预。
定性观察分析:不同死因最具指示性指标
本研究以定性分析模型通过特征注意力模块为不同患者分别学习特征重要性权重的分配,判别不同死因预测最具指示性的关键特征。AICare基于端到端深度学习模型阐释了PD患者死亡原因与临床特征之间的关系。由AICare生成的不同死亡原因的平均特征重要性热力图绘制如下,颜色越深,特征重要性越大。
- 白蛋白是大多数死亡原因的最强指标,特别是对于脑血管疾病(CVE)、周围血管疾病(PVD)和胃肠疾病(GI)。这可能是因为白蛋白是蛋白质-能量消耗的指标,与胃肠摄入不良和炎症有关。低白蛋白血症是PD相关腹膜炎的强预测因素,是感染和腹膜炎死亡的主要原因。此外,我们的模型对仍然存活的患者白蛋白给予了高度关注,这意味着低风险评分与高白蛋白值相关。
- 舒张压(DBP)是脑血管疾病(CVE)、PD相关腹膜炎、癌症和消瘦死亡的风险指标。这可能是因为DBP水平是动脉粥样硬化的标志,并与动脉粥样硬化性脑梗塞的发生密切相关。低DBP还可能是周围血管阻力低或动脉硬化增加的指标,这与心脑血管疾病的高发病率密切相关。此外,低血压是心力衰竭、慢性炎症和营养不良等特定合并症的替代性预测因素,可能与腹膜炎、癌症和恶液质死亡有关。
- 钠(Na)、钾(K)和体重是恶液质死亡的重要指标。这可能是因为患者常因食物摄入不足而导致钠和钾水平低。这些患者体重减轻是常见现象。
- 血红蛋白(Hb)是胃肠疾病}死亡的重要指标。胃肠出血是尿毒症性胃肠病的重要表现。血红蛋白(Hb)和钾(K)是癌症死亡的指标,与癌症高度相关的难治性贫血、厌食症和因摄入不足导致的低钾血症一致。
- 尿素、体重、钾(K)、白蛋白、舒张压(DBP)和收缩压(SBP)是PD相关腹膜炎亡的重要指标。腹膜炎是PD患者常见的并发症,其风险因素包括低白蛋白血症、低钾血症、蛋白质能量消耗等。
定量观察分析:特征重要性随指标值变化趋势,及指标参考值划定
本研究首次揭示了每个特征重要性变化的模式,并基于内置可解释性为大多数PD患者提供推荐参考值。AICare学习到的特征重要性变化。临床访问以彩色点和直方图标记。红色代表AICare预测的高风险,绿色代表低风险。平均特征重要性以蓝色折线可视化。传统临床参考值以蓝色虚线标记。特征重要性有两种变化模式:V形抛物线(如白蛋白、舒张压)和L形折线(如收缩压、血红蛋白)。
AICare根据每个临床特征的值和患者的状况提供了先验的注意力权重。AICare通过宏观视角量化特征重要性的变化,帮助临床医生更好地理解决策过程、采取个性化干预措施,并提取新的医学知识。散点图展示了生物标志物的值(横轴)和特征重要性(纵轴)。每个点代表患者的一次随访,颜色表示预测风险。直方图显示了不同生物标志物值的风险分布。蓝色曲线表示特征平均重要性的拟合曲线。此外,还标出了每个特征在常规门诊患者中的传统临床参考范围(蓝色虚线),以帮助医生评估AICare结果与传统范围的一致性。
在生物标志物重要性权重和记录值之间存在两种明显的关系模式:V形抛物线和L形折线。对于V形抛物线模式(例如,白蛋白、舒张压),极高或极低的特征值会通过AICare获得高重要性关注,这意味着该特征在健康状态表示学习中发挥着重要作用。对于L形折线模式(例如,收缩压、血红蛋白),生物标志物值越低,关注度越高。
例如,白蛋白的重要性权重呈V形曲线,以32 g/L为最低转折点。对于大多数PD患者,当白蛋白低于(或高于)32 g/L时,其值越极端,AICare分配的注意力权重就越大,这意味着该特征在健康状况表示学习中扮演着重要角色,预测的死亡风险随之上升(或下降)。因此,AICare推荐提高血清白蛋白至32 g/L以上。
相反地,以收缩压重要性变化为例,其值低于130 mmHg转折点时关注度提高,但高于此值时关注度几乎为0%,不再影响健康状况的表示学习。因此,AICare推荐提高收缩压至至少130 mmHg,但更高并无太多益处。
开源发布总结
- 本研究发布于https://www.cell.com/patterns/fulltext/S2666-3899(23)00294-5 。
- 所开发的健康轨迹可视化系统,包含匿名病例研究(患者ID从A1到A20),公开可用于 http://v.ai-care.top/A8 。
- 特征重要性的可视化可在 http://v.ai-care.top/statistics/feature 查看。
- 代码发布在 https://github.com/Accountable-Machine-Intelligence/AICare 。
- 用户可以在线上传数据以立即获得预测结果 http://v.ai-care.top/predict 或下载代码以根据他们的数据集离线训练模型。
本研究整体框图如下所示。
引用信息为
Ma, Liantao, Chaohe Zhang, Junyi Gao, Xianfeng Jiao, Zhihao Yu, Yinghao Zhu, Tianlong Wang et al. "Mortality prediction with adaptive feature importance recalibration for peritoneal dialysis patients." Patterns 4, no. 12 (2023).
@article{ma2023mortality, title={Mortality prediction with adaptive feature importance recalibration for peritoneal dialysis patients}, author={Ma, Liantao and Zhang, Chaohe and Gao, Junyi and Jiao, Xianfeng and Yu, Zhihao and Zhu, Yinghao and Wang, Tianlong and Ma, Xinyu and Wang, Yasha and Tang, Wen and others}, journal={Patterns}, volume={4}, number={12}, year={2023}, publisher={Elsevier} }