AGI有了KPI：顶尖团队给智能定标准，GPT-5测评仅得58分--云顶智能网

摘要：图灵奖得主领衔的全球专家团队为AGI建立了首个量化评估体系，基于人类认知科学将智能拆解为10大维度。当前最先进的GPT-5模型在综合测试中仅获58分，而在长期记忆等关键能力上更是交了白卷。AGI（通用人工智能,AGI有了KPI：顶尖团队给智能定标准，GPT-5测评仅得58分

图灵奖得主领衔的全球专家团队为AGI建立了首个量化评估体系，基于人类认知科学将智能拆解为10大维度。当前最先进的GPT-5模型在综合测试中仅获58分，而在长期记忆等关键能力上更是交了白卷。

AGI（通用人工智能）长期以来一直是人工智能领域的“终极目标”，但也是一个定义模糊的概念。不同机构对其解释各异：OpenAI称其为“在大多数经济价值工作上超越人类的系统”，Google DeepMind则强调“在广泛任务上上达到人类水平的表现”。这种定义上的混乱使得判断AI发展水平变得困难。

2025年10月，由AI安全中心（Center for AI Safety）主任Dan Hendry克斯领衔的一个国际研究团队，在arXiv上发表了题为《A Definition of AGI》的论文。该团队包括图灵奖得主Yoshua Bengio、谷歌前CEO埃里克·施密特等顶尖专家，首次为AGI建立了可量化的评估标准。

研究团队将AGI定义为“能在认知多样性和熟练程度上匹配或超越受过良好教育的成年人的AI系统”。基于此定义，他们开发了一套评估体系，对当前最先进的AI模型进行测试。结果显示，GPT-5的总得分仅为58分（满分100），而GPT-4的得分更是只有27分。

01 智能的标准化：从模糊概念到量化指标

研究团队的核心创新是将人类认知科学中最成熟的理论框架——卡特尔-霍恩-卡罗尔（CHC）理论引入AI评估。CHC理论源于70多年的心理测量学研究，是当代智商测试的主要理论基础。

基于这一理论，团队将人类智能分解为10个等权重的认知领域，每个领域占10%的权重。这一框架涵盖了从基础感知到高阶推理的完整认知链条，包括：一般知识（K）、阅读和写作能力（RW）、数学能力（M）、临场推理（R）、工作记忆（WM）、长期记忆存储（MS）、长期记忆检索（MR）、视觉处理（V）、听觉处理（A）和处理速度（S）。

研究团队对传统人类认知测试题进行了AI适配改造，剔除了依赖人类生理感知或特定场景的题目，保留核心认知逻辑，最终形成了一套包含500余道题目的AGI评估题库。

02 当前AI的水平：严重偏科的“伪全能”选手

应用这一评估体系，研究团队对当前主流大语言模型进行了全面测试。结果显示，AI系统呈现出高度“锯齿状”的认知特征。

GPT-4（2023年发布）总得分仅为27%，而两年后发布的GPT-5总分为58分，增长超过115%，显示了大模型在认知能力上的快速迭代。然而，即使是最新的GPT-5，距离AGI的及格线100分仍有巨大差距。

AI在不同领域表现极不均衡。在知识（K）、读写（RW）和数学（M）等需要大量训练数据的领域，GPT-5表现出色，得分均超过8分（满分10分）。这些优势领域主要围绕文本符号的理解与应用，是大模型在万亿级数据训练中形成的模式匹配能力的集中体现。

然而，在长期记忆存储（MS）领域，GPT-4和GPT-5均得0分。在视觉处理（V）和听觉处理（A）领域，即使是最先进的GPT-5也仅能完成简单的图像分类和基础语音转文字任务，远未达到人类水平的复杂场景解读与情感识别能力。

03 记忆之困：AI的“健忘症”与“能力扭曲”

长期记忆的缺失是当前AI系统的核心瓶颈之一。研究表明，AI系统无法实现信息的长期稳定存储，导致其患有“健忘症”。

这种缺陷限制了AI系统的实用性，迫使它们在每次交互中重新学习上下文。尽管工程师们开发了各种变通方案——如扩大上下文窗口、使用检索增强生成（RAG）技术等——但这些本质上都是架构层面的“补丁”，而非认知层面的真正记忆。

研究团队将这种现象称为“能力扭曲”（Capability Contortions），即通过在某些领域的高强度投入来补偿其他领域的根本性弱点。例如，AI系统通过扩大上下文窗口来假装具备长期记忆能力，但本质上仍是短期工作记忆的扩展，无法实现信息的长期存储与跨场景调用。

真正的长期记忆系统，如能够持续调整模型权重的模块，被认为是实现AGI的关键。然而，这一领域的研究仍处于初步阶段。

04 视觉与推理：AI的认知短板

除了记忆问题，AI在视觉处理和推理能力方面也存在明显不足。在视觉处理（V）领域，GPT-4得分为0，GPT-5也仅得4分（满分10分）。

评估并非简单的“识别图片中有什么”，而是涉及视觉推理能力。例如，模型需要判断哪些2D展开图可以折叠成特定3D形状，这对当前AI系统极具挑战性。

在即时推理（R）领域，GPT-4得分仅为2%，GPT-5提升至7%，仍远未达到人类水平。推理能力评估包括演绎推理、归纳推理、心智理论、规划和适应等多个维度，要求系统能够灵活控制注意力以解决新颖问题。

这些短板表明，当前AI系统尚不具备人类级别的抽象思维和逻辑推理能力，更多依赖于模式匹配而非真正的理解。

05 评估框架的价值与局限

这一AGI量化评估框架的价值在于为学术界和产业界提供了统一的标尺，使不同AI系统的能力对比成为可能。它帮助研发者精准定位当前AI系统的优势和显著缺陷，为后续研究指明方向。

然而，该框架也存在一定局限性。首先，CHC理论源于人类心理测量学，可能无法完全适用于非生物智能。其次，框架聚焦于“人类水平AGI”，而非“经济水平AGI”——一个系统可能在认知测试中得分不高，但如果能自动化大量经济价值工作，其社会影响可能更为深远。

此外，等权重分配是否合理也存在争议。人类智能本身就不均衡，要求AGI在所有领域都达到均衡可能过于严格。一些研究者提出，真正的通用智能应该是能够根据任务需求灵活调配认知资源，而非在所有维度上都达到固定标准。

06 AGI实现路径与时间线的重新思考

基于这一评估结果，我们需要对AGI的实现路径和时间线进行重新思考。简单的线性外推是危险的——认知能力的最后几个百分点可能比前面的进展困难得多。

长期记忆、抽象推理、因果理解这些“硬骨头”可能需要架构层面的根本创新，而非仅仅扩大模型规模。可能的突破方向包括：模块化认知架构，将感知、记忆、推理、规划等功能分解为可组合的模块；终身学习技术，使AI能够持续学习新知识而不忘记旧知识；以及整合神经网络与符号AI的混合方法。

就时间线而言，科技领袖们的预测各不相同。马斯克预测，到2026年，AI的认知能力将超越人类个体，而到2030年，AI的智能水平将超越全人类智慧的总和。而麻省理工学院2017年的一项研究则更为保守，估计在45年内实现高级机器智能（HLMI）的可能性为50%。

无论具体时间线如何，这一量化评估框架的提出标志着AGI研究从哲学思辨向实证科学的重要转变，为全球范围内的AI安全和发展讨论提供了坚实的科学基础。

该研究首次为AGI提供了可量化的评估标准，基于人类认知科学将智能分解为10个维度。评估发现，当前最先进的GPT-5总分仅为58分，显示出AI在发展上的不均衡性：在知识和数学等领域表现优异，但在长期记忆和复杂推理等方面存在严重缺陷。

这一框架的建立使AGI研究从模糊的哲学讨论走向了精确的实证科学，为衡量AI进展提供了可靠标尺。随着评估体系的完善和应用，我们可能对AI的能力边界和未来发展路径有更清晰的认识。

实现真正的AGI仍需在长期记忆、抽象推理等核心认知能力上取得突破性进展，而这可能需要的不是简单的规模扩展，而是架构层面的根本创新。

AGI有了KPI：顶尖团队给智能定标准，GPT-5测评仅得58分

延伸阅读