田捷教授：基础模型在医学影像智能中的应用潜力

田捷教授：基础模型在医学影像智能中的应用潜力 | 数字医学

来源：

中华医学信息导报

2026-05-13 17:28:26

田捷

医学影像智能研究的发展大致经历了从以影像组学为代表的特征工程和机器学习方法，到以深度学习为主的任务特定建模，并逐步向通用表征驱动的建模范式演进。影像组学通过对医学影像进行定量特征提取，并结合机器学习模型，在疾病分型、风险分层和疗效预测等方面得到了广泛应用，为医学影像由定性判读向定量分析转变奠定了基础。随后，端到端深度学习模型逐渐成为主流，在具体任务中显著提升了预测效果。然而，无论是影像组学还是任务导向的深度学习方法，模型性能往往依赖高质量标注数据和相对局限的数据分布，并且在跨中心、跨设备或跨人群应用时仍面临泛化和复用方面的限制。

▋基础模型的引入与技术特征

近年来，自然语言处理和计算机视觉等通用领域中，基于自监督学习和大规模预训练的基础模型取得了显著进展，使模型能够在无需明确任务标签的情况下学习稳定、可迁移的通用表征。在此背景下，医学影像智能研究逐步引入类似的建模思路，并在实践中形成了若干共性的技术特征。一方面，预训练依赖于规模相对可观的医学影像数据，这些数据可以覆盖多个器官和疾病类型，也可以聚焦于特定疾病或单一成像模态，以支持模型获取影像中相对稳定的共性表征。另一方面，模型多采用以Transformer为代表的架构，利用其长程依赖建模与表征扩展能力，在统一框架下适配分割、分类等多类下游任务。同时，预训练过程对计算资源有更高要求，需依托本地GPU服务器或计算集群，并结合云计算平台完成多卡并行训练和弹性扩展。医学影像预训练模型可作为领域内的基础模型，为多类下游任务提供共享的表征基础，并提升在不同任务与场景中的适应能力。

▋通用表征的学习机制

基础模型的关键在于通用表征的学习方式。相较于以具体任务为中心的监督学习方法，基础模型在训练阶段不再将单一临床终点作为唯一优化目标，而是通过设计与数据内在特性相关的预训练任务，引导模型学习共性规律。这类策略通常包括基于对比学习的实例区分、基于掩码重建的局部恢复以及在多模态场景下引入的跨模态对齐与协同建模等方法。例如，模型可通过观察同一器官或病灶在不同视角、不同空间裁剪或不同分辨率下的影像表现，学习在成像条件变化下保持一致的整体表征；通过在腹部CT或脑部MRI中恢复被遮挡或缺失的局部区域，强化对器官形态完整性和空间连续性的理解；通过将肿瘤影像特征与检查结论或病理报告进行对应，逐步建立影像表现与疾病语义之间的关联。通过上述机制，模型能够在不依赖明确预测标签的前提下，形成对解剖层次关系、组织形态模式、空间布局特征以及病灶与背景相对变化等方面的稳定表征。

▋基础模型的应用潜力与未来挑战

在获得通用表征后，基础模型通常通过任务适配的方式支持具体临床应用，具体形式既包括参数高效微调，即在保持模型主体结构不变的情况下，仅对少量新增或局部参数进行调整，也包括在数据和计算条件允许时进行的全量微调，而无需每次从头构建模型。由于模型已在预训练阶段学习到较为稳定的影像结构与语义表征，下游微调过程对大规模高质量标注数据的依赖明显降低，在有限标注或弱标签条件下仍可实现有效建模。同时，微调阶段通常具有更快的收敛速度，有助于缩短模型开发与迭代周期，并降低此过程的计算资源消耗。在泛化层面，共享的通用表征为模型提供了更稳定的特征基础，使其在分割、分类和预后评估等不同任务中较少依赖任务特有的偶然模式，并在跨中心应用中表现出相对一致的性能趋势。基于统一的表征基础开展多任务建模，有助于维持一致的影像理解逻辑，降低多模型并行开发与维护的系统复杂性，为模型迭代和临床部署提供更加可控的技术条件。

基础模型的通用表征能力同时也为多模态信息的统一建模提供了更加自然的技术基础。真实的临床决策过程需要综合影像、病理、内镜、实验室检查结果以及病史文本等多种信息来源。传统的多模态方法多依赖特征拼接或决策层融合，不同模态通常由相互独立的编码器分别建模，缺乏统一的表示约束，因而难以在语义层面形成一致理解，也对模态缺失或信息不完整较为敏感。以基础模型为核心的多模态建模思路，可通过共享或协同的编码架构、跨模态注意力机制以及表示对齐等策略，将来自不同模态的信息映射到统一的表示空间，使影像特征能够与文本、结构化数据在同一语义框架下进行关联。在这一框架中，即使部分模态缺失或质量受限，模型仍可在一定程度上依托共享表示空间中的上下文信息支持推理，从而提升在真实临床环境中应对数据不完整或信息不均衡问题的能力。

此外，基础模型的发展正在推动医学影像智能系统形态的演进。以往影像模型多以静态预测数值作为主要输出，其推理过程及依据难以直观呈现。通过在视觉编码器与语言表征模块之间建立对齐或跨模态映射，基础模型可与大语言模型在统一表示空间中结合，使影像智能系统具备将通用影像表征转化为可表达信息的能力。在此基础上，模型不仅能够完成影像分析任务，还可以围绕关键影像证据生成相对连贯的解释信息，以更接近临床思维的方式呈现分析结果，辅助医生理解模型关注的重点区域与主要依据，从而降低从模型输出到临床判断之间的认知转换成本。通过提升影像信息的表达性和可沟通性，人工智能得以更自然地嵌入实际诊疗流程，发挥辅助理解与决策支持的作用。

需要理性看待的是，基础模型本身尚不足以应对医学影像智能在真实应用中面临的全部问题。数据质量控制、中心间差异以及隐私与合规要求，仍然是模型训练与部署过程中的现实约束。同时，对基础模型的评估不宜局限于传统性能指标，还需系统考察其在分布外场景、不确定性以及潜在失败模式下的表现。

▋小结

总体而言，基础模型通过引入以通用表征为核心的建模思路，使医学影像智能能够在不同任务、不同模态和不同应用场景之间实现更为高效的迁移与扩展。基础模型并非医学影像智能研究的唯一方向，也不应被简单视为对既有模型的替代；但在面向长期运行、需要持续引入新任务并整合多类影像与临床信息的应用环境中，其有望成为连接方法研究与临床实践的重要支撑。

（作者：中国科学院自动化研究所北京航空航天大学方梦捷田捷）

COMMENTARY

共0条

RECOMMENDATIONS

田捷教授：基础模型在医学影像智能中的应用潜力 | 数字医学

评论

推荐内容