医疗AI有了“评审员”!北京启动医疗人工智能应用评测服务

北京市卫健委设立医疗人工智能应用评测中心,建立涵盖6大维度、70多项具体评测任务的指标体系,为医疗AI应用装上“安全锁”。
随着人工智能技术的飞速进步,医疗AI正在加速向辅助医生、承担部分医生技术劳动的方向发展。北京市卫生健康委设立医疗人工智能应用评测中心,旨在建立医疗AI评测的制度体系与规范标准,依托首都高水平医院和专家队伍、高质量医疗数据,验证医疗AI的临床辅助决策能力和效果。
北京市卫生健康委相关负责人表示,针对辅助医生或承担部分医生技术劳动的医疗AI,也应该像对医生一样开展科学严谨的评测,规范其应用,从而防范医疗风险、确保技术造福于民。
01 评测体系:六大维度全面考核医疗AI能力
医疗人工智能应用评测不仅关注“准确率”单一指标,而是从“安全(合规伦理)、专业(医学知识)、实用(流程适配)”等多个角度综合考核。
评测中心建立了一套多维度考核标准,从百姓和医生最关心的角度出发,形成了6个核心维度的评测指标体系:医学合规伦理、医学循证与知识、通用辅助能力、专科诊疗质控管理、诊疗流程适配性、诊疗决策准确性。这一体系包含70多项具体评测任务,全面覆盖隐私保护、医学伦理、诊疗指南使用、医生工作流程适配以及诊断建议合理性等方面的考核。
评测内容旨在全面考核医疗人工智能应用有没有泄露隐私、有没有违背医学伦理;会不会用最新的医学教材、诊疗指南;是否符合医生的思考逻辑和日常工作流程;给的诊断、建议合不合理。
02 评测数据:权威专家构建高质量数据集
在评测数据上,评测中心联合重点医院、科研机构及权威专家团队,用临床案例、国内外权威医学教材和最新临床诊疗指南,共同构建高质量评测数据集。
“考题”由国内顶级专科高年资医师全程深度参与编撰与审核而成,确保评测的科学性和权威性。评测数据集不仅包含权威医学教材以确保基础知识扎实,还纳入临床诊疗指南保证与临床实践同步,典型案例覆盖常见病、罕见病及疑难病。
应用在真实世界,特别是临床诊疗场景下的人工智能产品,仅掌握医学教材、文献资料等书本知识是远远不够的。评测中心采用“真案例、真标准”进行测试,运用临床上真实的、有明确诊疗方案的案例,甚至包括一些罕见、疑难案例,并参考国内外最新诊疗指南进行评测。
03 评测方法:AI评分与专家复核相结合
在评测方法上,系统根据应用类型自动匹配评测任务并生成评测报告,由临床专家进行复核。评测中心创新引入了基于人工智能的评分机制,综合诊疗思路、推理逻辑、答题结果进行量化打分,避免只看最终结果的片面性。
评测中心严格实施用户申请、系统评测、专家复核三个环节。在计分方式上,除采用国际通用基础评测指标外,还引入“裁判模型”来判卷。当两款人工智能应用都诊断正确时,评测系统会给推理逻辑更严谨、依据更充分的那款打更高分,确保评测结果客观公正、科学可信。
这种方法克服了单纯依靠专家经验打分可能产生的主观偏差,也避免了仅靠选择题准确率或得分点计分而忽略思考过程评价的不足。
04 实施规划:从胸外科扩展到多专科领域
本次评测服务是医疗领域国家人工智能应用中试基地首次提供对外评测服务,主要聚焦胸外科诊疗领域开展专项评测。评测结果将根据参评单位意愿适时公布,表现优秀的应用将优先纳入国家人工智能应用中试基地推广渠道,向各级医疗机构重点推荐。
北京市卫健委表示,后续评测中心将陆续开展更多医学领域的评测服务,覆盖内科、外科、儿科等专业领域,助力医疗人工智能产业健康发展,更好地服务人民群众健康需求。
评测中心的建立标志着北京的国家人工智能应用中试基地(医疗领域)对外服务能力正持续拓展和深化,旨在筑牢医疗人工智能应用安全底线,同时助力医疗人工智能产品迭代优化。
随着评测中心工作的开展,医疗AI产业将迎来更加规范、健康的发展环境。评测不仅为技术创新设定了明确的安全标准,更让公众能够更加放心地享受人工智能带来的医疗进步。
医疗AI的健康发展需要技术创新与规范管理并重,北京的这一举措为全国医疗AI治理提供了重要借鉴。
