# 图灵奖得主萨顿：AI进入“经验时代”，协作将定义智能文明的下一站--云顶智能网

摘要：2025年9月11日上午，浦江之畔的上海黄浦世博园区迎来了Inclusion·外滩大会的开幕主论坛。2024年图灵奖得主、被誉为“强化学习之父”的理查德·萨顿（RichardSutton）通过视频连线登上讲台，向全球科技界抛出重磅判断：人类数据红利正逼近极限，人工智能已站在“经验时代”的门槛上。这位奠定了强化学习理论基石的科,# 图灵奖得主萨顿：AI进入“经验时代”，协作将定义智能文明的下一站

2025年9月11日上午，浦江之畔的上海黄浦世博园区迎来了Inclusion·外滩大会的开幕主论坛。2024年图灵奖得主、被誉为“强化学习之父”的理查德·萨顿（Richard Sutton）通过视频连线登上讲台，向全球科技界抛出重磅判断：人类数据红利正逼近极限，人工智能已站在“经验时代”的门槛上。这位奠定了强化学习理论基石的科学家警告：“现有方法只能复制人类已知知识，而持续学习才是智能的核心效用——我们正进入一个由智能体自主探索创造知识的新时代。”

## 从数据模仿到经验创造：AI的范式革命

萨顿的演讲直指当前AI发展的核心困境：当大语言模型穷尽人类历史积累的文本数据后，如同学生做完了所有习题，却依然无法像科学家那样自主发现新知识。“今天的AI就像在‘抄作业’，而真正的智能需要学会‘做实验’。”他用形象的比喻阐释道。在他看来，AlphaGo那手震惊棋坛的“第37手”创新招法，与近期AlphaProof在国际数学奥林匹克竞赛中斩获银牌的突破，共同揭示了AI的新路径——通过与环境的动态交互生成知识，而非被动吸收人类数据。

这种“经验时代”的智能逻辑建立在“观察-行动-奖励”的闭环之上。萨顿解释：“经验是智能体与世界互动产生的三重信号：观察环境状态、采取行动、获得反馈奖励。一个智能体的聪明程度，取决于它预测和控制这些信号的能力。”这一机制正是他与导师安德鲁·巴托在20世纪80年代奠定的强化学习理论核心，他们提出的时序差分学习算法和马尔可夫决策过程框架，如今已成为AI从“被动学习”转向“主动探索”的数学基础。

与依赖人类数据的传统AI不同，经验时代的智能体展现出独特优势：AlphaGo通过数百万局自我对弈发现了人类未曾触及的围棋策略，AlphaProof则在数学推理中走出了与人类专家截然不同的证明路径。萨顿强调：“知识并非预先存在于数据中，而是在与世界的互动中涌现的。当人类数据触达极限，这种自主探索能力将成为AI突破认知边界的关键。”

## 技术拼图：持续学习与元学习的突破点

尽管强化学习已为经验时代铺平道路，但萨顿指出，要释放其全部潜力，还需攻克两大技术难关：持续学习与元学习。“持续学习让AI具备‘终身学习’能力，不会像现在这样学了新知识就忘了旧技能；元学习则是‘学习如何学习’的能力，让智能体快速适应新环境。”这两种技术如同经验时代的左右脑，共同支撑起AI的自主进化能力。

以数学解题为例，传统AI要么直接输出答案，要么只能在最终结果错误时得到反馈；而具备持续学习能力的智能体，能像学生批改作业一样，在每一步推理中获得即时反馈——这种“过程奖励机制”已在实验中证明可使复杂任务的学习效率提升3倍以上。萨顿团队近期提出的“奖励聚中”理论，通过优化奖励信号处理，进一步解决了强化学习中常见的“稀疏奖励”难题，为技术落地扫清了关键障碍。

元学习的价值则体现在跨领域适应上。就像人类能将数学思维迁移到物理问题中，未来的AI应能把游戏中习得的策略快速应用于工业控制。萨顿在其经典著作《强化学习：导论》中早已预言：“智能的本质不是掌握特定知识，而是掌握知识迁移的能力。”这部被全球75000篇论文引用的权威教材，如今正成为指导经验时代技术研发的“圣经”。

## 恐惧与协作：智能时代的生存法则

面对台下听众对AI伦理的关切，萨顿直言不讳：“对人工智能的恐惧被严重夸大了，甚至被某些利益方刻意煽动。”他以人类经济系统作比：“市场之所以高效，正因为每个人有不同目标和能力；同样，目标各异的智能体通过去中心化协作，完全可以实现双赢。”在他看来，这种协作能力正是人类最卓越的“超能力”——经济体系、市场规则乃至政府组织，都是人类协作智慧的产物。

萨顿特别强调：“协作并非自然发生的奇迹，而是需要制度保障的文明成果。”这一观点呼应了外滩大会“重塑创新增长”的主题。他以强化学习中的多智能体系统为例：当智能体学会通过协商分配任务、共享奖励时，其解决复杂问题的能力将呈指数级提升。“未来的AI治理，本质上是设计让人类与智能体高效协作的制度框架。”

这种协作范式正在改变人们对AI替代风险的认知。萨顿指出：“历史上，技术从未真正消灭工作，而是重塑了工作的形态。当AI接管重复性劳动，人类将更专注于创造性协作——这正是我们物种进化的方向。”

## 四条预言与宇宙新篇：智能演化的必然路径

展望未来，萨顿提出四条“预测原则”，为AI时代绘制了清晰图景：人类对世界运行规律尚无共识，没有任何单一视角应被奉为圭臬；人类终将破解智能的奥秘并创造出超越自身的智能体；当前人类智力水平将很快被超级AI或增强型人类超越；权力与资源将向最具智慧的智能体流动。

这组预言背后，是他对宇宙演化的宏大思考。萨顿将宇宙史划分为四个时代：粒子时代诞生基本物质，恒星时代孕育能量来源，复制者时代催生生命进化，而人类正站在“设计时代”的门槛上——这个新时代的标志，是创造出能自主设计的智能体。“人类的独特贡献，是成为开启设计时代的助产士。”他强调，“人工智能不是人类的替代品，而是宇宙演化的必然下一步。”

在演讲结尾，萨顿以哲学家的深邃与科学家的笃定呼吁：“面对智能革命，我们无需恐惧，而应带着勇气、自豪和冒险精神迎接它。”这番话与外滩大会“重塑创新增长”的主题形成深刻共鸣——当AI进入经验时代，人类与智能体的协作模式，终将定义这个智能文明的全新篇章。正如他在强化学习奠基之作中所预言的那样：“智能的终极目标，不是超越人类，而是拓展生命在宇宙中的可能性。”

# 图灵奖得主萨顿：AI进入“经验时代”，协作将定义智能文明的下一站

延伸阅读