AI 技术、安全性、性能测试·

Claude 的扩展思维 [译]

探索 Claude 3.7 Sonnet 的新功能:扩展思维模式如何提升 AI 智能,揭示其思考过程的可见性,以及在安全性和性能测试中的表现

有些事情我们几乎能瞬间想到答案,比如:「今天是星期几?」;而有些则需要更多脑力,比如解开一个复杂的填字游戏或调试一段复杂的代码。我们可以根据任务的需要选择投入多少认知努力。

现在,Claude 也拥有了同样的灵活性。借助新的 Claude 3.7 Sonnet,用户可以选择开启或关闭「扩展思维模式」,引导模型更深入地思考棘手的问题。开发者甚至还能设置「思维预算」,精确控制 Claude 在某个问题上花费的时间。

扩展思维模式并不是切换到另一个采用不同策略的模型,而是让同一模型给自己更多时间、投入更多努力来得出答案。

Claude 的新扩展思维能力显著提升了其智能水平。但这也为那些关注 AI 模型工作机制、评估方法及安全性改进的人带来了许多重要问题。在这篇文章中,我们分享了一些我们的洞察。

可视化的思维过程

除了赋予 Claude 更长时间思考并解答更难问题外,我们还决定以原始形式展示其思维过程。这带来了几个好处:

  • 信任。 能够观察 Claude 的思考方式,让用户更容易理解和验证其答案——甚至可能帮助用户获得更好的输出。
  • 对齐。 在我们之前的 Alignment Science 研究 中,我们利用模型内心所想与外在表述之间的矛盾,识别其可能出现的令人担忧的行为,比如欺骗。
  • 趣味性。 观看 Claude 思考常常令人着迷。一些拥有数学和物理背景的研究人员指出,Claude 的思维过程与其自身解决难题时的推理方式惊人地相似:探索多个角度和推理分支,反复检查答案。

但可视化的思维过程也有几个缺点。首先,用户可能会注意到,展示出来的思维显得更冷漠、更缺乏个性,这是因为我们没有对模型的思维过程进行常规的 character 训练。我们希望 Claude 在思考时有最大自由度,去想任何必要的想法以得出答案——就像人类思考一样,Claude 有时也会想到一些错误、误导或半生不熟的想法。许多用户会觉得这很有用;但也有人可能觉得这令人沮丧(包括思维过程中缺乏个性的内容)。

另一个问题是「忠实性」(faithfulness)——我们无法确定思维过程展示的内容是否真正代表模型内心的运作(例如,英语单词可能无法准确描述模型为何表现出某种行为)。忠实性问题及其保障是我们目前的研究重点之一。到目前为止,结果表明,模型通常基于其思维过程中未明确讨论的因素做出决策。这意味着我们无法仅靠监控当前模型的思维来对其安全性做出强有力的判断。

第三,这带来了一些安全性和隐私问题。恶意行为者可能利用可视化的思维过程制定更好的策略来破解 Claude。更具推测性的是,如果模型在训练中得知其内心想法将被展示,它们可能会被激励以不同、更不可预测的方式思考——甚至故意隐藏某些想法。

这些担忧对于未来更强大的 Claude 版本尤为突出——如果这些版本未被正确对齐,可能带来更大风险。我们将权衡未来版本是否继续展示思维过程的利弊。目前,Claude 3.7 Sonnet 的可视化思维过程应视为研究预览版。

Claude 思维的新测试

Claude 作为代理

Claude 3.7 Sonnet 受益于我们称之为「行动扩展」(action scaling)的能力——它能迭代调用函数、响应环境变化,并持续执行开放性任务直到完成。例如,使用计算机:Claude 可以发出虚拟鼠标点击和键盘输入,代表用户解决问题。与前代相比,Claude 3.7 Sonnet 能在计算机使用任务上分配更多轮次、更多时间和计算能力,结果往往更好。

我们在 OSWorld 测试中看到了这一点,这是一个评估多模态 AI 代理能力的基准。Claude 3.7 Sonnet 起步时表现略好,但随着与虚拟计算机的持续互动,其性能差距逐渐扩大。

Image 1

Claude 3.7 Sonnet 与前代模型在 OSWorld 测试中的表现对比,测试多模态计算机使用技能。「Pass @ 1」:模型只有一次尝试解决问题即视为通过。

Claude 的扩展思维和代理训练使其在 OSWorld 等标准评估中表现更好,同时也在一些意料之外的任务上获得显著提升。

玩《宝可梦》——具体是 Game Boy 经典游戏《宝可梦 红版》——就是这样一个任务。我们为 Claude 配备了基本记忆、屏幕像素输入和按键导航的功能调用,使其能持续玩《宝可梦》,超越通常的上下文限制,通过数万次互动维持游戏进程。

下图中,我们绘制了 Claude 3.7 Sonnet 与之前未具备扩展思维功能的 Claude Sonnet 版本在《宝可梦》中的进展。可以看到,前代版本很早就陷入停滞,Claude 3.0 Sonnet 甚至没能离开故事起点的帕尔特镇。

但 Claude 3.7 Sonnet 的改进代理能力助其走得更远,成功击败三位道馆馆主(游戏中的boss)并赢得徽章。Claude 3.7 Sonnet 擅长尝试多种策略并质疑先前假设,从而在游戏进程中不断提升自身能力。

Image 2

Claude 3.7 Sonnet 证明其是目前所有 Sonnet 模型中玩《宝可梦 红版》的最强者。X 轴是 Claude 在游戏中的互动次数;Y 轴是游戏中的重要里程碑,包括收集物品、前往特定区域和击败boss。

《宝可梦》是欣赏 Claude 3.7 Sonnet 能力的一种有趣方式,但我们期待这些能力在现实世界中的影响远超游戏。模型维持专注并完成开放性目标的能力,将帮助开发者构建各种尖端 AI 代理。

串行与并行测试时计算扩展

当 Claude 3.7 Sonnet 使用扩展思维能力时,可以说它受益于「串行测试时计算」(serial test-time compute)。即,它在得出最终输出前使用多个连续推理步骤,逐步增加计算资源。通常,这会以可预测的方式提升性能:例如,其数学问题的准确率随着允许采样的「思维 token」数量呈对数增长。

Image 3

Claude 3.7 Sonnet 在 2024 年美国邀请数学考试问题上的表现,根据每个问题允许的思维 token 数量而变化。注意,即便我们允许使用全部思维预算,Claude 通常会提前停止。图中包括用于总结最终答案的采样 token。

我们的研究人员还在尝试通过「并行测试时计算」(parallel test-time compute)提升模型性能。他们通过采样多个独立的思维过程,并在不知道正确答案的情况下挑选最佳结果来实现这一点。一种方法是使用 majority 或共识投票,选择出现最频繁的答案作为最佳答案;另一种是使用另一个语言模型(如 Claude 的副本)检查工作,或使用学习到的评分函数挑选最佳答案。此类策略(及类似工作)已在 多个 其他 AI 模型 的评估 结果 中有所报告。

我们在 GPQA 评估(生物、化学和物理的挑战性问题集)上使用并行测试时计算扩展取得了显著改进。利用相当于 256 个独立样本的计算量、一个学习评分模型和最大 64k token 的思维预算,Claude 3.7 Sonnet 取得了 84.8% 的 GPQA 得分(包括物理子项得分 96.5%),并在超出多数投票限制后仍持续受益。我们报告了评分模型方法和多数投票方法的结果。

Image 4

使用并行测试时计算扩展改进 Claude 3.7 Sonnet 在 GPQA 评估中表现的实验结果。不同线条代表不同的评分方法。「Majority @ N」:对同一提示生成多个输出,以多数投票作为最终答案;「scoring model」:使用单独模型评估被测模型表现;「pass @ N」:模型在给定尝试次数内任一次成功即通过。

此类方法让我们能提升 Claude 答案的质量,通常无需等待其完成思考。Claude 可同时进行多个不同的扩展思维过程,从而考虑更多解决问题的方法,最终大幅提高正确率。并行测试时计算扩展在新部署的模型中尚不可用,但我们将继续研究这些方法以备未来使用。

Claude 3.7 Sonnet 的安全机制

AI 安全级别

Anthropic 的 Responsible Scaling Policy 承诺,除非实施适当的安全措施,否则我们不会训练或部署模型。我们的前沿红队和对齐压力测试团队对 Claude 3.7 Sonnet 进行了广泛测试,以确定其是否需要与前代模型相同的部署和安全保障(即 AI 安全级别 ASL-2 标准),或是更严格的措施。

对 Claude 3.7 Sonnet 的全面评估确认,当前的 ASL-2 安全标准依然适用。同时,模型在所有领域展示了更高的复杂性和能力提升。在涉及化学、生物、放射性和核武(CBRN)生产的任务控制研究中,我们观察到模型辅助参与者相较于非辅助参与者在成功路上有所「提升」。即,参与者比仅使用在线信息走得更远。然而,所有尝试执行这些任务的努力均包含关键失败,完全阻碍了成功。

专家红队对模型的反馈褒贬不一。一些专家注意到模型在某些 CBRN 流程知识上的改进,但也发现关键失败的频率过高,无法成功完成端到端任务。我们正通过加速开发和部署针对性的分类器和监控系统,主动增强 ASL-2 措施。

此外,未来模型的能力可能要求我们升级至下一阶段:ASL-3 保障。我们近期在 Constitutional Classifiers 上防止破解的工作及其他努力,为我们未来实施 ASL-3 标准奠定了良好基础。

可视化思维过程

即便在 ASL-2 级别,Claude 3.7 Sonnet 的可视化扩展思维功能是全新的,因此需要新的适当保障措施。在极少数情况下,Claude 的思维过程可能包含潜在有害内容(主题包括儿童安全、网络攻击和危险武器)。在这种情况下,我们将加密思维过程:这不会阻止 Claude 在思维中包含这些内容(这些内容对生成无害回应可能仍重要),但相关部分对用户不可见,用户将看到「此响应的其余思维过程不可用」的消息。我们希望这种加密极少发生,仅在潜在危害高时触发。

计算机使用

最后,我们增强了 Claude 计算机使用能力的安全措施(即允许 Claude 查看用户屏幕并代为操作)。我们在防御「提示注入」攻击方面取得重大进展,这种攻击是指恶意第三方在 Claude 使用计算机时可能看到的地方隐藏秘密信息,可能诱导其执行用户未意图的操作。凭借新的抗提示注入训练、包含忽略此类攻击指令的新系统提示,以及在模型遭遇潜在提示注入时触发的分类器,我们现能阻止 88% 的此类攻击,相较于未采取缓解措施时的 74% 有所提升。

以上仅是我们对 Claude 3.7 Sonnet 广泛安全工作的一部分总结。更多信息、分析结果及保障措施示例,请参阅我们的完整 System Card

使用 Claude

您现在可以在 Claude.ai我们的 API 上使用 Claude 3.7 Sonnet。正如 Claude 现在能让您了解它的想法,我们也希望您能告诉我们您的看法。请将对新模型的反馈发送至 feedback@anthropic.com

原文链接:https://www.anthropic.com/research/visible-extended-thinking


© 2025 智人飞扬