1. 首页 > 人工智能

30B参数挑战万亿模型:MiroThinker 1.5如何用“研究式智能”重塑AGI赛道

作者:小小 更新时间:2026-01-20
摘要:在模型参数竞赛愈演愈烈的2026年,MiroThinker1.5以仅1/30的参数规模,实现了与万亿参数模型相媲美的性能,同时将推理成本降低至传统方法的1/20。一家名为MiroMind的团队正式发布其搜索智能体模型MiroThin,30B参数挑战万亿模型:MiroThinker 1.5如何用“研究式智能”重塑AGI赛道

 

在模型参数竞赛愈演愈烈的2026年,MiroThinker 1.5以仅1/30的参数规模,实现了与万亿参数模型相媲美的性能,同时将推理成本降低至传统方法的1/20。

一家名为MiroMind的团队正式发布其搜索智能体模型MiroThinker 1.5,该模型由盛大集团、天桥脑科学研究院创始人陈天桥与清华大学电子工程系副教授代季峰联合发起。这一发布标志着AI研发路径的显著转变:从单纯追求参数规模扩张,转向更加注重智能体与外部环境的交互能力。

陈天桥曾提出,真正智能的关键不在于“全知”,而在于会研究、会查证、会修正的能力。这与当前主流大模型的发展路径形成鲜明对比。

01 参数效率革命:以小博大的技术突破

MiroThinker 1.5最引人注目的特点在于其参数规模与性能的显著反差。该模型参数量为300亿的版本在部分基准测试中,展示了与参数量高出其数十倍的万亿级模型相媲美甚至更优的性能。

这种性能跃升的背后是团队对参数效率的重新定义。与传统方法不同,MiroThinker 1.5不追求将庞大的世界知识全部内化为参数,而是让模型学会在需要时快速、精准地向外部世界“借力”。

单次调用成本显著低于对比的万亿参数模型。具体来说,MiroThinker 1.5单条调用成本仅为0.07美元,是同类模型的1/20,同时推理速度更快。

这种成本优势使得高性能AI技术能够以更低的门槛向更广泛的研究者和企业开放。团队表示,这是模型不再需要将庞大世界知识全部内化为参数的结果。

02 交互式扩展:智能增长的新范式

MiroThinker 1.5的核心创新在于其提出的“交互式扩展”技术。团队认为,传统依赖扩大模型内部参数数量的扩展法则已触及边际瓶颈,因此将智能增长的焦点转向模型与外部世界信息的交互能力。

该技术通过构建 “推理—验证—修正”循环机制,引入外部信息作为校验锚点,用确定性证据流来对冲不确定性的推演,解决逻辑坍塌问题。

与主流大模型追求万亿参数、试图把整个互联网“背”在脑子里的做法不同,MiroThinker系列选择了一条反共识的路线:刻意将模型控制在30B–200B的轻量级规模。

团队不追求让模型拥有一颗“最重的脑子”,而是培养它拥有一双“最勤的手”。当模型同时具备研究式确认机制与时序因果约束,这种围绕外部信息获取的交互过程才让发现式智能真正落地。

03 研究式推理:从“做题家”到“科学家”的转变

MiroThinker 1.5的训练哲学体现了从“做题家模式”向“科学家模式”的转变。以Scaling Law为代表的传统路线更像“做题家”:试图把全人类知识尽可能背进模型里,而一旦遇到未知问题,就容易基于概率分布“编”出答案。

MiroThinker 1.5则采用了一种根本不同的方法,将模型训练成“科学家”,其核心不是死记硬背,而是勤于查证。遇到难题时,它执行慢思考的研究闭环:提出假设→向外部世界查数据/取证→发现对不上→修正假设→再查证,直到证据收敛。

在训练过程中,研发团队刻意削弱对“单次完美推理”的奖励,转而强化三种行为模式:

证据寻求(Evidence-Seeking),模型被鼓励将每一个关键判断拆解为可验证的子假设,并主动发起对外查询、检索与比对;迭代验证(Iterative Verification),推理不被视为一次性路径,而是一个可反复回溯、修正的过程;反幻觉(Anti-Hallucination),对那些看起来合理但缺乏真实依据的推理捷径保持零容忍。

04 时序敏感训练:破解因果推理的关键

MiroThinker 1.5的另一个突破在于其时序敏感训练方法。普通大模型训练常处在“上帝视角”——它在数据里早已见过结果,学到的往往是复述与剧透,而不是预测。

MiroThinker的训练则约束模型只能看过去,不能看未来,在严格的时间可见性约束下做判断,再用同样受时序约束的证据去验证与更新。

团队开发了可控数据合成引擎,构建覆盖多任务类型、难度与时间戳可控的数据合成体系。每一道题目的“正确答案”并非静态标签,而是随时间戳动态演化;模型必须在严格的信息可见性约束下,基于当时可获取的信息做出判断。

这种训练范式使模型学会在信息不完备、噪声存在、信号延迟的真实条件下进行推演与修正,而不是依赖静态数据集中的标准答案。时间由此从一个背景变量,转变为塑造模型行为与推理方式的核心约束。

05 智能密度优先:重新定义AGI发展路径

MiroThinker 1.5的成功挑战了“参数规模决定智能水平”的传统观念。团队用更小的参数规模,换来了更高的智能密度:不是让模型记住更多,而是让它学会如何找到、验证并使用信息。

这种路径选择使MiroThinker 1.5能在显著降低推理成本的同时,依然保持一线性能。对于行业来说,这意味着AI研发可能不再需要依赖极端昂贵的计算资源竞赛,而是可以通过更精巧的算法设计和训练方法实现突破。

MiroMind团队对“发现式智能”的探索,与月之暗面k1.5模型的长短转化技术、豆包1.5·深度思考模型的深度思考能力形成呼应,共同推动着AI技术向更高效、更可靠的方向发展。

这些创新表明,中国AI企业正在从单纯的技术追随者,逐步转变为具有原创技术思路的探索者,在全球人工智能领域开辟独特的发展路径。

MiroThinker 1.5的成功展示了一条不同于主流Scaling Law的AGI发展路径。陈天桥曾强调:“发现式智能的一项能力是在未知条件下重建对世界的理解,真正的智能不靠全知,而靠会研究、会查证、会修正。”

随着MiroThinker 1.5的问世,‘交互式扩展’ 可能成为继模型大小、上下文长度之后的第三个可扩展维度。