北京设立医疗AI“评审员”，六维评测体系筑牢医疗安全底线--云顶智能网

摘要：医疗AI评测不再只看“诊断准确率”，北京市卫健委设立的评测中心建立起包含70多项具体任务的六维指标体系，连AI的“推理逻辑”都要打分。北京市卫生健康委设立医疗人工智能应用评测中心，对辅助医生或承担部分医生技术劳动的医疗AI开展科学严谨的评测。该中心建立了包含6个核心维度、70多项具体评测任务的指标体系，从医学合规伦理、诊疗决策准确性等多方面对医疗AI进行考核。评测中心创新引入了基于人工智能的,北京设立医疗AI“评审员”，六维评测体系筑牢医疗安全底线

医疗AI评测不再只看“诊断准确率”，北京市卫健委设立的评测中心建立起包含70多项具体任务的六维指标体系，连AI的“推理逻辑”都要打分。

北京市卫生健康委设立医疗人工智能应用评测中心，对辅助医生或承担部分医生技术劳动的医疗AI开展科学严谨的评测。该中心建立了包含6个核心维度、70多项具体评测任务的指标体系，从医学合规伦理、诊疗决策准确性等多方面对医疗AI进行考核。

评测中心创新引入了基于人工智能的评分机制，不仅看答题结果，还对诊疗思路和推理逻辑进行量化打分。即使是诊断结果相同的AI应用，系统也会给推理逻辑更严谨的那款打更高分。

01 医疗AI需要“评审员”的必要性

随着人工智能技术的飞速进步，医疗AI正在加速向辅助医生、承担部分医生技术劳动的方向发展。如何确保这些应用的规范、安全和有效，成为公众和行业关注的焦点。

北京市卫健委相关负责人表示，针对承担医疗技术劳动的AI，应该像对医生一样开展科学严谨的评测，规范其应用。卫生健康部门对医生的教育、培训、考核、准入和执业履行严格监管职责，对医疗AI也应采取同样严格的标准。

医疗AI的评测是一项高度专业性的工作，必须依托深厚的医学知识与临床经验开展。这需要顶尖医疗专家的深度参与，汇聚医疗行业最前沿的智慧，确保评测工作既科学严谨又切合临床实际。

02 六大维度构建评测体系

评测中心建立了多维度考核标准，从百姓和医生最关心的角度出发，形成了6个核心维度的评测指标体系。这六个维度分别是医学合规伦理、医学循证与知识、通用辅助能力、专科诊疗质控管理、诊疗流程适配性、诊疗决策准确性。

该体系包含70多项具体评测任务，全面考核医疗AI应用是否泄露隐私、是否违背医学伦理；是否会使用最新的医学教材和诊疗指南；是否符合医生的思考逻辑和日常工作流程；给出的诊断和建议是否合理。

与传统的仅看“准确率”单一指标不同，该体系从“安全（合规伦理）、专业（医学知识）、实用（流程适配）”等多个角度综合评测。从患者角度，需要考虑伦理和信息安全；从医生角度，除了准确结果，更关注AI的推理过程，即“为什么得出这个结论”。

03 权威数据与科学方法保障评测质量

在评测数据上，评测中心联合重点医院、科研机构及权威专家团队，用临床案例、国内外权威医学教材和最新临床诊疗指南，共同构建高质量评测数据集。“考题”由国内顶级专科高年资医师全程深度参与编撰与审核，确保评测的科学性和权威性。

在评测方法上，系统根据应用类型自动匹配评测任务并生成评测报告，由临床专家进行复核。评测中心还创新引入了基于人工智能的评分机制，综合“诊疗思路、推理逻辑、答题结果”进行量化打分，避免只看最终结果的片面性。

这种评测方法能够有效区分AI应用在严肃医疗场景下的真实差异。即使是诊断结果相同的AI应用，系统也会给推理逻辑更严谨、依据更充分的那款打更高分，确保评测结果客观公正、科学可信。

04 评测流程与未来规划

评测中心严格实施用户申请、系统评测、专家复核三个环节。本次评测服务是医疗领域国家人工智能应用中试基地首次提供对外评测服务，主要聚焦胸外科诊疗领域开展专项评测。

评测结果将根据参评单位意愿适时公布，表现优秀的应用将优先纳入国家人工智能应用中试基地推广渠道，向各级医疗机构重点推荐。后续，评测中心将陆续开展更多医学领域的评测服务，覆盖内科、外科、儿科等专业领域。

北京市卫健委发布的《关于开展医疗领域人工智能应用评测工作的通知》，标志着北京的国家人工智能应用中试基地（医疗领域）对外服务能力正持续拓展和深化。这一举措将助力医疗人工智能产业健康发展，更好地服务人民群众健康需求。

医疗AI正在改变医疗服务形态，而科学的评测体系是确保其安全有效的关键。北京医疗人工智能应用评测中心的成立，为医疗AI装上了“安全锁”，让技术创新更好地造福于民。

北京设立医疗AI“评审员”，六维评测体系筑牢医疗安全底线

延伸阅读