《医疗场景下大模型应用效果回顾性评测专家共识（2025版）》正式发布

来源：

中华医学信息导报

2025-12-16 17:48:10

导语：《医疗场景下大模型应用效果回顾性评测专家共识（2025版）》系统构建了我国医疗大模型回顾性评测技术框架，明确评测流程、指标体系与伦理要求，为模型研发、评测与临床应用提供统一、规范、可复用的技术指引。

近日，《医疗场景下大模型应用效果回顾性评测专家共识（2025版）》（以下简称“《共识》”）中、英文版本在《数字医学与健康》与《智慧医学（英文）》发布。《共识》由国家新闻出版署医学期刊知识挖掘与服务重点实验室牵头，联合《数字医学与健康》编辑委员会、《智慧医学（英文）》编辑委员会、中华医学会杂志社指南与标准研究中心、医疗人工智能研究及应用安徽省重点实验室共同制定，汇聚了医学、人工智能、伦理、法学、统计学等多领域专家力量，全面构建了我国医疗大模型回顾性评测的系统化技术框架。《共识》面向大语言模型在医疗场景实际落地前的评估需求，旨在为模型评测机构、研发机构和临床应用方提供统一、规范、可复用的技术指南，推动人工智能在医疗行业的高质量发展。

《共识》制订过程严格遵循《世界卫生组织指南制订手册》《中国制订/修订临床诊疗指南的指导原则（2022版）》等标准方法学要求，并在国际实践指南注册平台PREPARE完成注册（编号 PREPARE-2025CN503），实现了制订流程的科学化、透明化与规范化。来自全国三甲医院、科研机构与人工智能企业的数十位专家参与了问题遴选、证据评估、推荐意见制订和Delphi共识投票，全程经由专家委员会与指导委员会多轮论证，最终形成6条核心推荐意见，均获得超过80%的专家同意并达成共识。

《共识》围绕医疗场景下大模型的“回顾性评测”开展系统阐述，即在模型训练完成、参数固定后，基于真实或模拟真实的临床数据对模型的医学适配性与安全性进行验证。《共识》从评测流程、指标体系、团队建设、数据集设计、反馈更新机制和报告规范等方面构建了完整评测框架。其中，评测流程强调科学客观、真实全面与伦理合规；指标体系涵盖结构化与生成式任务的定量与定性评估；团队建设强调医学专家、工程技术人员、伦理与法律专家的协同；数据集构建突出临床真实性、全面代表性、公正性及动态扩展能力；反馈与更新机制确保评测体系的长期迭代；报告模板则规范评测结果披露与版本管理。

值得关注的是，基于国家卫生健康委办公厅、国家中医药局综合司、国家疾控局综合司联合发布的《卫生健康行业人工智能应用场景参考指引》，《共识》明确提出医疗大模型评测的六大核心能力维度，包括医疗知识问答、医疗复杂语言理解、医疗诊断与治疗推荐、医疗专业文书生成、医疗多轮对话以及医疗多模态交互，从而为不同类型模型的评测提供了清晰的应用场景定位和指标选择依据。同时，《共识》围绕患者隐私保护、数据脱敏、算法公平性、输出安全性等关键问题提出严格要求，有助于推动医疗人工智能安全、可控、可解释的发展路径。

随着大语言模型在诊断辅助、病历生成、医患沟通、慢病管理等环节的加速应用，行业迫切需要一套科学、透明、权威的评测体系。《共识》将为模型准入、行业监管、产品优化以及临床安全应用提供重要技术支撑。未来，该项工作将继续推动前瞻性研究、真实世界验证与动态评测机制的深化，持续完善评测标准体系，共同促进人工智能在医疗健康领域的安全应用和高质量发展。

扫描二维码阅读中文版指南：

扫描二维码阅读英文版指南：

COMMENTARY

共0条

RECOMMENDATIONS

《医疗场景下大模型应用效果回顾性评测专家共识（2025版）》正式发布

评论

推荐内容