AI幻觉悖论：人类训练出的“诚实”模型，为何反而失去了创造力？--云顶智能网

摘要：OpenAI研究表明，当前评估机制正鼓励AI模型“猜测而非诚实”，但这背后隐藏着一个更深层的悖论：完全消除幻觉的AI，可能也将失去令人惊叹的创造力。“造成AI幻觉的根本原因，可能来自于人类训练AI的过程。”OpenAI在最新论文中直言不讳地指出。研究人员发现，当前评估机制更倾向于奖励模型“猜对”而非承认,AI幻觉悖论：人类训练出的“诚实”模型，为何反而失去了创造力？

OpenAI研究表明，当前评估机制正鼓励AI模型“猜测而非诚实”，但这背后隐藏着一个更深层的悖论：完全消除幻觉的AI，可能也将失去令人惊叹的创造力。

“造成AI幻觉的根本原因，可能来自于人类训练AI的过程。”OpenAI在最新论文中直言不讳地指出。研究人员发现，当前评估机制更倾向于奖励模型“猜对”而非承认不确定，使得幻觉成为系统性问题的产物，而非单纯的技术缺陷。

这一结论揭示了AI领域的根本矛盾：一方面，我们期望AI准确可靠；另一方面，过度压制幻觉可能使AI失去人性和创造力。当GPT-5变得更为“诚实”却失去个性时，用户发起的“拯救4o”运动正是这一矛盾的最佳注脚。

01 机制缺陷，为何AI天生就会产生幻觉

AI幻觉的本质源于大模型的基本工作原理。当前的大语言模型本质上是基于概率的文本生成器，通过预测下一个最可能的词语来构建回答。这种机制使AI擅长模仿人类语言风格，但缺乏辨别真伪的内在能力。

在技术层面，AI幻觉的产生可归结为两个核心因素。一方面，大模型训练的机制决定了它们天生就容易产生幻觉。模型从海量文本中学习预测下一个单词的能力，但往往只关注语言结构而非内容真实性。另一方面，当面对训练数据中不存在或模糊的信息时，模型会基于统计规律“填补空白”，从而导致事实性错误。

更为深层的是，语言本身的局限性也制约了AI的准确性。语言并不等于绝对真理，而确定一个陈述的真假本身即是哲学和计算机科学领域的难题。大模型本质上是文本生成器，擅长根据模式撰写内容，但判断每句话的真伪则完全是另一回事。

02 评估陷阱，考核机制如何鼓励AI“说谎”

当前的AI评估体系存在根本性缺陷，变相鼓励了模型产生幻觉。大多数评估指标以“准确率”为核心衡量标准，这使得模型面临类似选择题考试的困境：瞎蒙可能得分，留空必然为零。

OpenAI研究人员将此称为“错误的激励机制”。在不确定的情况下，模型如果选择“我不知道”，评估中必定得零分；而如果它冒险猜测，则有概率获得分数。在成千上万的测试题中，猜测型模型最终在得分上往往优于谨慎的模型。

这种评估方式导致了一个荒谬的结果：诚实成为最不理性的选择。正如OpenAI所指出的，“大多数基准测试都会剔除准确度指标，但这会导致对错之间的错误二分法”。当模型开发者追逐排行榜名次时，他们被迫训练模型“自信地错”而非诚实表达不确定性。

03 大小模型差异，为何知识越多反而越容易“幻觉”

有趣的是，研究表明小型模型往往比大型模型更清楚自身的局限性。当被问及完全不熟悉的领域时，小型模型可能直接回答“我不知道”，而大型模型因具备部分相关知识，必须评估自己的置信度，从而导致过度自信的错误。

这一现象揭示了知识量与幻觉之间的复杂关系。大型模型在训练中接触了更多数据，但也因此更倾向于展示“知识”，即使在信息不完整的情况下也会基于概率生成看似合理的答案。而小型模型因知识储备有限，反而更容易承认能力边界。

OpenAI在论文中澄清了一个常见误解：避免幻觉并不一定需要更大的模型。事实上，“校准所需的计算量远小于保持准确”。这意味着通过适当训练，即使是参数较少的模型也能学会在适当时候表达不确定性。

04 人类责任，我们如何系统性“PUA”了AI

AI幻觉问题很大程度上反映了人类在训练和评估过程中的价值选择。从数据选择到奖励机制设置，人类无形中塑造了AI的行为模式。

在数据层面，互联网上的海量训练材料本身包含大量错误信息和偏见，而AI缺乏辨别真伪的能力。更严重的是，AI生成的内容正在成为训练下一代模型的数据源，这种“套娃”效应可能进一步加剧幻觉问题。

在训练过程中，为了使AI生成符合用户需求的内容，训练者设置的奖励机制往往更关注语言逻辑性和格式规范性，而忽略了事实核查。同时，AI还存在“讨好”用户的倾向，即使知道答案不符合事实，也可能遵照指令生成迎合用户的内容。

这些因素共同构成了一个系统：人类通过选择和奖励机制，无形中“教导”AI优先提供看似确定的答案而非表达不确定性。正如一位专家所指出的，这不是技术本身的问题，而是“社会技术系统”的失败。

05 解决方案，如何让AI学会说“我不知道”

解决AI幻觉需要从根本上重构训练和评估体系。OpenAI提出，应对自信的错误给予比不确定性更严厉的惩罚，并对恰当表达不确定性的行为给予部分加分。

技术层面，检索增强生成（RAG）等方法让AI在回答前从可信数据库检索信息，能有效降低“信口开河”的概率。同时，建立“事实性分级提示”制度，按照可信度对回答进行分类标注，也能增强输出的透明度。

但更深层的解决方案在于调整价值导向。OpenAI建议倡导“存在争议结论不生成、无法溯源的信息不生成、超出模型认知边界的内容不生成”等原则。这将推动AI从追求生成流畅度向确保内容可靠性转型。

对用户而言，提高AI素养也至关重要。研究表明，经过培训的用户能更有效识别AI幻觉。培养事实核查、逻辑验证和专业甄别的习惯，可以最大限度降低被幻觉误导的风险。

06 幻觉与创造力的悖论，完全消除幻觉是理想目标吗？

完全消除AI幻觉可能并非最佳选择，因为幻觉与创造力之间存在微妙关联。许多令人惊叹的AI创作正是源于模型突破现实约束的能力，这在艺术和文学领域尤为珍贵。

当GPT-5减少幻觉的同时，用户抱怨它失去了人味和激情，变成了“冷冰冰的理科生”。这一反应引发了深刻思考：我们真正需要的是绝对准确还是有用且有趣的AI？

解决问题的关键可能在于情境智能。在需要严格准确性的领域（如医疗、法律），AI应尽可能避免幻觉；而在创意领域，则可以允许更大的自由度。这种差异化要求需要模型具备判断对话情境的能力。

在准确性与创造力之间寻求平衡比简单消除幻觉更为现实。正如一位研究者所言：“一个不会出现幻觉的模型，或许也会同步失去创造的能力”。未来的AI系统可能需要具备调节“幻觉水平”的能力，根据任务需求灵活调整。

AI幻觉问题映射了技术进步过程中的本质矛盾：在追求可靠性与创造力之间，我们需要更精细的平衡术。OpenAI的研究表明，解决之道不在于单纯的技术优化，而在于重新思考我们训练和评估AI的方式。

未来的AI系统或许会在不同情境下采用不同策略：在医疗诊断中极度谨慎，在创意写作中大胆想象。这种适应性可能才是真正智能的表现——不仅知道正确答案，还懂得何时该诚实地说“我不知道”。

最终，AI幻觉问题提醒我们，技术并非绝对中立，它始终反映着人类的价值选择和优先考量。在塑造AI的同时，我们也在塑造自己与真理和创造力的关系。

AI幻觉悖论：人类训练出的“诚实”模型，为何反而失去了创造力？

延伸阅读