健心知著
2026.03.25
第529期

基于深度学习的多视角超声心动图框架用于心包疾病的综合诊断

刘健、周海燕、孙宇彤
北京大学人民医院
健心荐语
心包疾病临床表现多样,从少量无症状积液到危及生命的心包填塞均可出现,经胸超声心动图是其主要诊断工具,但其解读高度依赖操作者经验且功能评估不完整,而现有深度学习模型多集中于心包积液的检测,缺乏对心包疾病更广泛谱系的评估能力,因此亟需一种能够整合结构与功能评估的综合诊断工具。
文章介绍
本研究开发并验证了一种基于深度学习的多视角超声心动图框架,用于对心包疾病进行顺序评估,包括从五个B模式视图识别形态学特征(积液量、心包增厚/粘连)并结合多普勒和下腔静脉测量评估血流动力学意义;其内部测试集诊断准确性在积液评估中为81.8%-97.3%,增厚/粘连检测为91.6%,血流动力学意义检测为86.2%,外部测试集对应准确性分别为80.3%-94.2%、94.5%和85.5%,表明该框架具有良好的泛化能力并与临床诊断流程相契合。该研究于2026年3月17日正式于《European Heart Journal - Digital Health》在线发表。
研究方法
本研究开发了一个两阶段深度学习框架,用于通过经胸超声心动图评估心包疾病。模型开发使用了韩国AI-Hub多中心数据库,从中筛选出2253例检查(2115例患者),涵盖正常心包及各类心包疾病。该数据集按8:1:1随机划分为训练集(1665例)、验证集(225例)和内部测试集(225例)。另从议政府乙支大学医院收集274例检查(255例患者)作为独立外部测试集。所有诊断标签由两名经验丰富的心脏病专家基于完整超声心动图审查后达成共识,包括心包积液量(正常/少量/中量/大量)、心包增厚或粘连(是/否)以及血流动力学意义(是/否)。
模型输入包括五个标准B模式切面(胸骨旁长轴、胸骨旁短轴、心尖四腔、心尖四腔右室聚焦切面、肋下四腔),以及二尖瓣流入多普勒、室间隔组织多普勒和肋下下腔静脉切面。所有病例无论图像质量或切面完整性均被纳入。第一阶段使用R(2+1)D-18网络从多视角B模式视频中提取时空特征,进行多任务分类,输出心包积液量和心包增厚/粘连。当同一视图有多个视频片段时,采用穷举组合概率聚合方法提升鲁棒性。第二阶段将自动测量的多普勒参数和下腔静脉指标(扩张与否、呼吸塌陷与否)与形态学特征整合,预测血流动力学意义。模型采用不确定性加权损失函数处理任务不平衡。

图表摘要
研究结果
在内部测试集中,模型对心包积液量四分类的准确率为81.8%-97.3%,心包增厚/粘连检测的准确率为91.6%(AUC 0.90),血流动力学意义检测的准确率为86.2%(AUC 0.76)。在外部测试集中,相应准确率分别为80.3%-94.2%、94.5%(AUC 0.85)和85.5%(AUC 0.76)。对于血流动力学意义检测,逐步纳入多普勒和下腔静脉信息后,灵敏度从仅用B模式时的33.4%提升至68.8%,AUC从0.70提升至0.76;外部测试集灵敏度从33.3%提升至51.5%,AUC从0.70提升至0.76。
亚组分析显示,排除图像质量差的42例后,心包增厚/粘连的灵敏度从66.7%提升至77.3%,血流动力学意义的灵敏度从68.8%提升至80.8%。当五个目标切面均可用时,心包增厚/粘连和血流动力学意义的灵敏度分别从0.500和0.571提升至0.762和0.778。GRAD-CAM可视化表明,第一阶段模型主要聚焦于心包区域,第二阶段模型同时关注心包和心腔内区域,提示模型整合了结构与功能信息。

表 1 基线信息

图 1 用于心包疾病评估的两阶段深度学习框架

图 2 内部和外部测试集在三项诊断任务中的混淆矩阵:(A) 心包积液分类,(B) 心包增厚或粘连检测,以及 (C) 血流动力学重要性评估。

表 2 基于DL的拟议框架在内部和外部测试数据集上的诊断性能

图 3 内部和外部测试集在三项诊断任务中的接收者操作特征曲线(A) 心包积液分类,(B) 心包增厚或粘连检测,以及 (C) 血流动力学重要性评估。

图 4 基于DL的框架在内部测试集的良好/一般智商分组中的诊断性能混淆矩阵(左)和接收器工作特征曲线(右)显示了三项诊断任务:(A) 心包积液分类,(B) 心包增厚或粘连检测,以及 (C) 血流动力学重要性评估。

图 5 从内部和外部测试集中选取的病例在两个诊断阶段的GRAD-CAM可视化:(A) 阶段1:心包积液和增厚或粘连;(B) 阶段2:血流动力学意义。
结 论
本研究开发并外部验证了一个两阶段深度学习框架,能够使用有限的标准经胸超声心动图切面自动识别主要心包异常,该模型不仅可检测积液,还提供更广泛的形态学评估并对潜在血流动力学意义提供辅助性判断;尽管模型在内部和外部测试集中表现总体稳定,但其灵敏度受图像质量和切面完整性的影响,提示在次优成像条件下需谨慎解读,在该框架的约束下,它有助于在临床实践中标记重要的心包发现并支持及时转诊进行专家评估。
讨论
本研究首次提出并验证了一个能够评估心包疾病全谱系的AI模型,超越了以往仅聚焦心包积液检测的局限,通过模拟临床诊断推理的两阶段架构整合了结构与生理学评估,并采用多视角输入和多实例推理策略增强了模型的鲁棒性和临床适用性。然而,B模式视频单独不足以最优检测血流动力学意义,纳入多普勒和下腔静脉指标显著提升了性能,但模型对血流动力学意义的检测灵敏度与精度仍相对有限,主要受限于数据集中血流动力学受损病例的类别不平衡以及高级多普勒采集在临床实践中较少可用。亚组分析显示图像质量和数据完整性显著影响模型灵敏度,但在次优成像条件下即使专家解读也面临类似挑战,因此模型输出应结合临床背景进行解读。
研究局限性包括所有数据均来自韩国机构、回顾性设计及选择性入组导致心包疾病患病率高于常规临床实践、以及基于经胸超声心动图的参考标准本身可能存在局限性,未来需在其他国家人群人群、前瞻性队列及联合心脏CT或MRI等更确证的影像学手段中进行进一步验证。