健心知著
2026.04.22
第533期

利用人工智能通过超声心动图诊断心脏淀粉样变性

刘健、周海燕、孙宇彤
北京大学人民医院
健心荐语
心脏淀粉样变性是一种漏诊率较高的致死性心肌病,其超声心动图表现与高血压、肥厚型心肌病等更常见的左心室肥厚表型高度重叠,传统诊断依赖手动测量和专家经验,难以在非专科中心普及。尽管已有基于多参数的超声评分系统,但其临床应用受限于测量复杂性和操作者变异性。
文章介绍
本研究展示了人工智能在心脏淀粉样变性(Cardiac Amyloidosis,CA)超声心动图诊断中的突破性应用,通过一个基于深度学习的全自动化模型(Us2.ca),研究团队在多个国际多中心数据集中实现了高达96%的内部诊断准确率和超过87%的外部验证准确率,显著优于传统的多参数超声评分系统。本研究有两个主要目的,首先,评估由人工智能自动获取的测量值所计算出的多参数超声评分系统在心脏淀粉样变性诊断中的准确性;其次,开发并验证一个基于深度学习、仅需单一心尖四腔心视频的全自动检测模型,以提升诊断效率与准确性,并推动其在全球不同医疗环境中的筛查应用。该研究于2026年4月正式发表于《Circulation: Cardiovascular Imaging》。
研究方法
本研究为一项国际多中心回顾性研究,共纳入5776例患者,其中心脏淀粉样变性患者2756例,对照组3020例。训练数据集来源于英国国家淀粉样变性中心和台湾马偕纪念医院,包含2241例心脏淀粉样变性患者和2130例对照。外部验证数据集来自美国杜克大学医疗系统(334例心脏淀粉样变性,668例左心室肥厚对照)和日本国立心脑血管中心(181例心脏淀粉样变性,222例左心室肥厚对照)。
研究中首先使用已获FDA和CE认证的人工智能软件Us2.ai自动获取超声测量值,并据此计算已建立的多参数超声评分系统,该评分包括相对室壁厚度、E/e’比值、三尖瓣环收缩期位移、整体纵向应变及室间隔心尖基底段应变比等指标。其次,研究团队开发了一个基于多尺度视觉变换器架构的深度学习模型Us2.ca,该模型仅需分析心尖四腔心切面的单个心动周期视频,即可输出心脏淀粉样变性的概率评分。模型采用双阈值策略,评分高于0.80为阳性、低于0.45为阴性、介于两者之间为不确定。模型训练采用交叉熵损失函数和Adam优化器,初始学习率为1×10-⁴,并在30个epoch时达到最佳验证准确率。模型性能通过受试者工作特征曲线下面积、灵敏度、特异度、准确率和校准度等指标进行评估,并在内外部验证集中进行了全面验证。

图1 深度学习模型的训练、验证和功能

表1 研究对象的基本特征
研究结果
基于人工智能自动测量的多参数超声评分系统在杜克大学外部验证集中,以≥6分为阈值,诊断准确率为79.5%,灵敏度为75.4%,特异度为81.5%;在日本国立心脑血管中心验证集中,准确率为79.7%,灵敏度为81.6%,特异度为78.1%。采用≥8分的高阈值时,特异性可分别提高至98.1%和91.3%,但灵敏度显著下降至27.1%和44.1%。相比之下,深度学习模型Us2.ca表现更为优越。
在内部验证集中,模型对96.6%的患者给出了确定分类,诊断准确率达96.2%,灵敏度96.8%,特异度95.7%;在内部测试集中,准确率为95.8%。在外部验证中,杜克大学数据集中有86.8%的患者获得确定分类,诊断准确率为87.5%,灵敏度86.6%,特异度87.9%;日本数据集中有87.3%的患者获得确定分类,准确率为88.4%,灵敏度92.3%,特异度85.3%。亚组分析显示,Us2.ca模型在区分心脏淀粉样变性与其他左心室肥厚表型方面表现出色,与高血压、肥厚型心肌病、主动脉瓣狭窄和慢性肾病比较的曲线下面积分别为0.92、0.91、0.93和0.93。在可与多参数评分直接比较的患者亚组中,深度学习模型的曲线下面积显著优于多参数评分(0.93对0.88,P<0.001)。
此外,模型的诊断性能在不同年龄、性别、种族、超声设备厂商及淀粉样蛋白亚型之间均保持一致。

表2 多参数超声心动图评分和深度学习模型在外部验证队列中的表现,适用于4腔切面质量达到分析要求的患者

图2 深度学习模型的受体运行特征曲线下面积(AUC)

图3 深度学习模型的受体作用特征曲线下面积(AUC),表明该模型有能力区分心脏淀粉样变性和其他肥厚表型

图4 多参数超声心动图评分与 Us2.ca 模型的比较
结 论
本研究证实,无论是基于人工智能自动测量值的多参数超声评分系统,还是全自动的深度学习模型Us2.ca,均能够在不同国家和医疗环境中准确识别心脏淀粉样变性患者。其中,深度学习模型仅需单一心尖四腔心切面视频,分析速度快、诊断准确率高,并且能够覆盖更大比例的患者。这两种人工智能技术均可无缝整合到临床工作流中,作为无需人工干预的背景筛查工具,自动提示可能存在心脏淀粉样变性的患者,从而促进早期转诊和及时启动疾病修饰治疗,具有重要的临床应用价值。
讨论
本研究是首个在国际多中心队列中验证人工智能自动测量多参数超声评分系统,并将其与全自动深度学习模型进行直接比较的研究。深度学习模型的优势在于其极高的自动化程度和诊断效率,平均每个视频分析时间不足1秒,每份报告生成约68秒,远快于传统人工测量。模型在多种亚组中保持稳定的诊断性能,表明其具有良好的泛化能力和跨人群适应性。与既往小样本研究相比,本研究的样本量更大、验证更严格,且首次将模型性能与标准化评分系统进行了比较。
然而,本研究也存在若干局限性。首先,研究为回顾性设计,结果需在前瞻性研究中进一步验证。其次,台湾马偕纪念医院的对照组主要基于影像学标准而非系统性筛查,可能存在一定的标签偏倚。第三,研究在高患病率人群中进行,模型在低患病率普通人群中的表现尚待明确。此外,多参数评分因部分患者缺乏必要的测量指标而无法分类,可能引入选择偏倚。最后,模型在校准度方面显示出一定程度的过度自信,尤其是在杜克大学数据集中,提示在临床部署时需结合概率校准或人机交互策略。
总体而言,该研究为人工智能在心脏淀粉样变性超声筛查中的应用提供了强有力的证据支持,并为未来在真实世界中的前瞻性验证和临床整合奠定了基础。