1. 首页 > 人工智能

AGI有了KPI:顶尖团队给智能定标准,GPT-5测评仅得58分

作者:小小 更新时间:2025-11-25
摘要:图灵奖得主领衔的全球专家团队为AGI建立了首个量化评估体系,基于人类认知科学将智能拆解为10大维度。当前最先进的GPT-5模型在综合测试中仅获58分,而在长期记忆等关键能力上更是交了白卷。AGI(通用人工智能,AGI有了KPI:顶尖团队给智能定标准,GPT-5测评仅得58分

 

图灵奖得主领衔的全球专家团队为AGI建立了首个量化评估体系,基于人类认知科学将智能拆解为10大维度。当前最先进的GPT-5模型在综合测试中仅获58分,而在长期记忆等关键能力上更是交了白卷。

AGI(通用人工智能)长期以来一直是人工智能领域的“终极目标”,但也是一个定义模糊的概念。不同机构对其解释各异:OpenAI称其为“在大多数经济价值工作上超越人类的系统”,Google DeepMind则强调“在广泛任务上上达到人类水平的表现”。这种定义上的混乱使得判断AI发展水平变得困难。

2025年10月,由AI安全中心(Center for AI Safety)主任Dan Hendry克斯领衔的一个国际研究团队,在arXiv上发表了题为《A Definition of AGI》的论文。该团队包括图灵奖得主Yoshua Bengio、谷歌前CEO埃里克·施密特等顶尖专家,首次为AGI建立了可量化的评估标准。

研究团队将AGI定义为“能在认知多样性和熟练程度上匹配或超越受过良好教育的成年人的AI系统”。基于此定义,他们开发了一套评估体系,对当前最先进的AI模型进行测试。结果显示,GPT-5的总得分仅为58分(满分100),而GPT-4的得分更是只有27分。

01 智能的标准化:从模糊概念到量化指标

研究团队的核心创新是将人类认知科学中最成熟的理论框架——卡特尔-霍恩-卡罗尔(CHC)理论引入AI评估。CHC理论源于70多年的心理测量学研究,是当代智商测试的主要理论基础。

基于这一理论,团队将人类智能分解为10个等权重的认知领域,每个领域占10%的权重。这一框架涵盖了从基础感知到高阶推理的完整认知链条,包括:一般知识(K)、阅读和写作能力(RW)、数学能力(M)、临场推理(R)、工作记忆(WM)、长期记忆存储(MS)、长期记忆检索(MR)、视觉处理(V)、听觉处理(A)和处理速度(S)。

研究团队对传统人类认知测试题进行了AI适配改造,剔除了依赖人类生理感知或特定场景的题目,保留核心认知逻辑,最终形成了一套包含500余道题目的AGI评估题库。

02 当前AI的水平:严重偏科的“伪全能”选手

应用这一评估体系,研究团队对当前主流大语言模型进行了全面测试。结果显示,AI系统呈现出高度“锯齿状”的认知特征。

GPT-4(2023年发布)总得分仅为27%,而两年后发布的GPT-5总分为58分,增长超过115%,显示了大模型在认知能力上的快速迭代。然而,即使是最新的GPT-5,距离AGI的及格线100分仍有巨大差距。

AI在不同领域表现极不均衡。在知识(K)、读写(RW)和数学(M)等需要大量训练数据的领域,GPT-5表现出色,得分均超过8分(满分10分)。这些优势领域主要围绕文本符号的理解与应用,是大模型在万亿级数据训练中形成的模式匹配能力的集中体现。

然而,在长期记忆存储(MS)领域,GPT-4和GPT-5均得0分。在视觉处理(V)和听觉处理(A)领域,即使是最先进的GPT-5也仅能完成简单的图像分类和基础语音转文字任务,远未达到人类水平的复杂场景解读与情感识别能力。

03 记忆之困:AI的“健忘症”与“能力扭曲”

长期记忆的缺失是当前AI系统的核心瓶颈之一。研究表明,AI系统无法实现信息的长期稳定存储,导致其患有“健忘症”。

这种缺陷限制了AI系统的实用性,迫使它们在每次交互中重新学习上下文。尽管工程师们开发了各种变通方案——如扩大上下文窗口、使用检索增强生成(RAG)技术等——但这些本质上都是架构层面的“补丁”,而非认知层面的真正记忆。

研究团队将这种现象称为“能力扭曲”(Capability Contortions),即通过在某些领域的高强度投入来补偿其他领域的根本性弱点。例如,AI系统通过扩大上下文窗口来假装具备长期记忆能力,但本质上仍是短期工作记忆的扩展,无法实现信息的长期存储与跨场景调用。

真正的长期记忆系统,如能够持续调整模型权重的模块,被认为是实现AGI的关键。然而,这一领域的研究仍处于初步阶段。

04 视觉与推理:AI的认知短板

除了记忆问题,AI在视觉处理和推理能力方面也存在明显不足。在视觉处理(V)领域,GPT-4得分为0,GPT-5也仅得4分(满分10分)。

评估并非简单的“识别图片中有什么”,而是涉及视觉推理能力。例如,模型需要判断哪些2D展开图可以折叠成特定3D形状,这对当前AI系统极具挑战性。

在即时推理(R)领域,GPT-4得分仅为2%,GPT-5提升至7%,仍远未达到人类水平。推理能力评估包括演绎推理、归纳推理、心智理论、规划和适应等多个维度,要求系统能够灵活控制注意力以解决新颖问题。

这些短板表明,当前AI系统尚不具备人类级别的抽象思维和逻辑推理能力,更多依赖于模式匹配而非真正的理解。

05 评估框架的价值与局限

这一AGI量化评估框架的价值在于为学术界和产业界提供了统一的标尺,使不同AI系统的能力对比成为可能。它帮助研发者精准定位当前AI系统的优势和显著缺陷,为后续研究指明方向。

然而,该框架也存在一定局限性。首先,CHC理论源于人类心理测量学,可能无法完全适用于非生物智能。其次,框架聚焦于“人类水平AGI”,而非“经济水平AGI”——一个系统可能在认知测试中得分不高,但如果能自动化大量经济价值工作,其社会影响可能更为深远。

此外,等权重分配是否合理也存在争议。人类智能本身就不均衡,要求AGI在所有领域都达到均衡可能过于严格。一些研究者提出,真正的通用智能应该是能够根据任务需求灵活调配认知资源,而非在所有维度上都达到固定标准。

06 AGI实现路径与时间线的重新思考

基于这一评估结果,我们需要对AGI的实现路径和时间线进行重新思考。简单的线性外推是危险的——认知能力的最后几个百分点可能比前面的进展困难得多。

长期记忆、抽象推理、因果理解这些“硬骨头”可能需要架构层面的根本创新,而非仅仅扩大模型规模。可能的突破方向包括:模块化认知架构,将感知、记忆、推理、规划等功能分解为可组合的模块;终身学习技术,使AI能够持续学习新知识而不忘记旧知识;以及整合神经网络与符号AI的混合方法。

就时间线而言,科技领袖们的预测各不相同。马斯克预测,到2026年,AI的认知能力将超越人类个体,而到2030年,AI的智能水平将超越全人类智慧的总和。而麻省理工学院2017年的一项研究则更为保守,估计在45年内实现高级机器智能(HLMI)的可能性为50%。

无论具体时间线如何,这一量化评估框架的提出标志着AGI研究从哲学思辨向实证科学的重要转变,为全球范围内的AI安全和发展讨论提供了坚实的科学基础。

该研究首次为AGI提供了可量化的评估标准,基于人类认知科学将智能分解为10个维度。评估发现,当前最先进的GPT-5总分仅为58分,显示出AI在发展上的不均衡性:在知识和数学等领域表现优异,但在长期记忆和复杂推理等方面存在严重缺陷。

这一框架的建立使AGI研究从模糊的哲学讨论走向了精确的实证科学,为衡量AI进展提供了可靠标尺。随着评估体系的完善和应用,我们可能对AI的能力边界和未来发展路径有更清晰的认识。

实现真正的AGI仍需在长期记忆、抽象推理等核心认知能力上取得突破性进展,而这可能需要的不是简单的规模扩展,而是架构层面的根本创新。