Claude 3.7 Sonnet 和 Claude Code [译]

今天，我们宣布推出 Claude 3.7 Sonnet，这是我们迄今为止最智能的模型，也是市场上首个混合推理模型。Claude 3.7 Sonnet 能够提供近乎即时的响应，或进行扩展的、逐步思考的过程，并将思考过程对用户可见。API 用户还可以对模型的思考时长进行精细控制。

Claude 3.7 Sonnet 在编码和前端 Web 开发方面表现出尤为显著的改进。与该模型一同推出的还有一个用于代理式编码的命令行工具——Claude Code。Claude Code 目前以有限的研究预览形式提供，使开发者能够直接从终端将大量的工程任务委托给 Claude。

显示 Claude Code 入职的屏幕

Claude 3.7 Sonnet 现已在所有 Claude 计划中可用，包括免费版、专业版、团队版和企业版，以及 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI。扩展思考模式在除免费 Claude 层级外的所有平台上均可使用。

在标准模式和扩展思考模式下，Claude 3.7 Sonnet 的定价与其前代产品相同：每百万输入令牌 3 美元，每百万输出令牌 15 美元——其中包括思考令牌。

Claude 3.7 Sonnet：将前沿推理付诸实践

我们开发 Claude 3.7 Sonnet 的理念与市场上其他推理模型不同。正如人类使用同一个大脑进行快速反应和深度思考一样，我们认为推理应该是前沿模型的集成能力，而不应是一个完全独立的模型。这种统一的方法也为用户创造了更无缝的体验。

Claude 3.7 Sonnet 在多个方面体现了这一理念。首先，Claude 3.7 Sonnet 既是一个普通的 LLM，也是一个推理模型：您可以选择何时让模型正常回答，何时让它在回答前进行更长时间的思考。在标准模式下，Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版本。在扩展思考模式下，它会在回答前进行自我反思，从而提升其在数学、物理、指令遵循、编码等许多任务上的表现。我们通常发现，在两种模式下对模型的提示方式类似。

其次，通过 API 使用 Claude 3.7 Sonnet 时，用户还可以控制思考的预算：您可以告诉 Claude 思考不超过 N 个令牌，N 可以是高达其输出限制 128K 令牌的任意值。这使您能够在速度（和成本）与回答质量之间进行权衡。

第三，在开发我们的推理模型时，我们对数学和计算机科学竞赛问题的优化有所减少，转而将重点转向更能反映企业实际使用 LLM 方式的现实世界任务。

早期测试表明，Claude 在各个方面的编码能力均处于领先地位：Cursor 指出，Claude 再次成为现实世界编码任务的佼佼者，在处理复杂代码库到高级工具使用等领域的改进显著。Cognition 发现，它在规划代码更改和处理全栈更新方面远优于其他模型。Vercel 强调了 Claude 在复杂代理工作流程方面的卓越精度，而 Replit 则成功地使用 Claude 从头构建复杂的 Web 应用和仪表板，而其他模型则停滞不前。在 Canva 的评估中，Claude 始终如一地生成具有卓越设计品味的生产就绪代码，并大大减少了错误。

条形图显示 Claude 3.7 Sonnet 在 SWE-bench Verified 上达到最先进水平

Claude 3.7 Sonnet 在 SWE-bench Verified 上实现了最先进的性能，该基准评估 AI 模型解决现实世界软件问题的能力。有关脚手架的更多信息，请参见附录。

条形图显示 Claude 3.7 Sonnet 在 TAU-bench 上达到最先进水平

Claude 3.7 Sonnet 在 TAU-bench 上实现了最先进的性能，TAU-bench 是一个测试 AI 代理在复杂现实世界任务中与用户和工具交互的框架。有关脚手架的更多信息，请参见附录。

比较前沿推理模型的基准表

Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力和代理式编码方面表现出色，扩展思考在数学和科学领域提供了显著的提升。除了传统基准测试外，它在我们进行的 Pokémon 游戏测试中甚至超越了所有先前的模型。

Claude Code

自 2024 年 6 月以来，Sonnet 一直是全球开发者的首选模型。今天，我们通过推出 Claude Code——我们的首个代理式编码工具——进一步赋能开发者。Claude Code 目前以有限的研究预览形式提供。

Claude Code 是一个积极的协作者，能够搜索和阅读代码、编辑文件、编写和运行测试、将代码提交并推送到 GitHub，以及使用命令行工具——在每一步都让您参与其中。

Claude Code 虽然是一个早期产品，但已经对我们的团队来说不可或缺，尤其是在测试驱动开发、调试复杂问题和大规模重构方面。在早期测试中，Claude Code 能够在一次通过中完成通常需要 45 分钟以上手动工作量的任务，从而减少了开发时间和开销。

在接下来的几周内，我们计划根据我们的使用情况持续改进它：增强工具调用的可靠性，增加对长时间运行命令的支持，改进应用内渲染，以及扩展 Claude 对自身能力的理解。

我们推出 Claude Code 的目标是更好地了解开发者如何使用 Claude 进行编码，以指导未来的模型改进。通过加入此预览，您将获得我们用于构建和改进 Claude 的同样强大工具，您的反馈将直接影响其未来的发展。

在您的代码库中使用 Claude

我们还改进了 Claude.ai 上的编码体验。我们的 GitHub 集成现已在所有 Claude 计划中可用——使开发者能够将他们的代码库直接连接到 Claude。

Claude 3.7 Sonnet 是我们迄今为止最好的编码模型。它对您的个人、工作和开源项目有更深入的理解，成为您在修复 bug、开发功能和构建文档方面的更强大伙伴，覆盖您最重要的 GitHub 项目。

负责任地构建

我们对 Claude 3.7 Sonnet 进行了广泛的测试和评估，并与外部专家合作，确保其达到我们的安全性、安全性和可靠性标准。Claude 3.7 Sonnet 还能更细致地区分有害和良性请求，与前代产品相比，不必要的拒绝减少了 45%。

本次发布的系统卡涵盖了多个类别的新安全结果，详细分解了我们的负责任扩展政策评估，其他 AI 实验室和研究人员可以将其应用于他们的工作。该卡还讨论了计算机使用带来的新兴风险，特别是提示注入攻击，并解释了我们如何评估这些漏洞并训练 Claude 抵御和缓解它们。此外，它还探讨了推理模型的潜在安全益处：理解模型如何做出决策，以及模型推理是否真正可信和可靠。阅读完整的系统卡以了解更多信息。

展望未来

Claude 3.7 Sonnet 和 Claude Code 标志着向真正增强人类能力的 AI 系统迈出了重要一步。凭借其深度推理、自主工作和有效协作的能力，它们使我们更接近一个 AI 能够丰富和扩展人类成就的未来。

里程碑时间线显示 Claude 从助手发展到先驱者

我们很高兴您能探索这些新功能，并期待看到您用它们创造出什么。如往常一样，我们欢迎您的反馈，以帮助我们继续改进和演进我们的模型。

附录

1 关于命名的经验教训。

评估数据来源

TAU-bench

关于脚手架的信息

通过在航空公司代理政策中添加提示附录，指导 Claude 更好地利用「规划」工具，鼓励模型在解决问题的过程中写下其思考过程，这与我们通常的思考模式不同，以在多轮轨迹中最佳地利用其推理能力，从而实现了这些分数。为了适应 Claude 通过更多思考所产生的额外步骤，最大步数（按模型完成次数计算）从 30 增加到 100（大多数轨迹在 30 步内完成，只有一条轨迹超过 50 步）。

此外，Claude 3.5 Sonnet（新版）的 TAU-bench 分数与我们最初发布时报告的不同，因为自那时以来引入了小的数据集改进。我们在更新的数据集上重新运行了测试，以便与 Claude 3.7 Sonnet 进行更准确的比较。

SWE-bench Verified

关于脚手架的信息

解决像 SWE-bench 这样的开放式代理任务有多种方法。一些方法将决定调查或编辑哪些文件以及运行哪些测试的复杂性卸载到更传统的软件上，让核心语言模型在预定义的位置生成代码，或从更有限的行动集中选择。Agentless（Xia et al.，2024）是一个流行的框架，用于评估 Deepseek 的 R1 和其他模型，它通过基于提示和嵌入的文件检索机制、补丁定位以及针对回归测试的最佳 40 拒绝采样来增强代理。其他脚手架（如 Aide）通过重试、最佳 N 或蒙特卡洛树搜索（MCTS）等形式，进一步为模型提供额外的测试时计算。

对于 Claude 3.7 Sonnet 和 Claude 3.5 Sonnet（新版），我们采用了一种更简单的方法，脚手架最少，模型在单个会话中决定运行哪些命令和编辑哪些文件。我们的主要「无扩展思考」pass@1 结果仅为模型配备了此处描述的两种工具——一个 bash 工具和一个通过字符串替换操作的文件编辑工具——以及我们在 TAU-bench 结果中提到的「规划工具」。由于基础设施限制，在我们的内部基础设施上实际上只有 489/500 个问题是可以解决的（即，黄金解决方案通过了测试）。对于我们的 vanilla pass@1 分数，我们将 11 个无法解决的问题计为失败，以与官方排行榜保持一致。为了透明起见，我们单独发布了在我们基础设施上无法工作的测试用例。

对于我们的「高计算」数字，我们采用了额外的复杂性和并行测试时计算，如下：

我们使用上述脚手架采样多个并行尝试
我们丢弃破坏存储库中可见回归测试的补丁，类似于 Agentless 采用的拒绝采样方法；请注意，没有使用隐藏的测试信息。
然后，我们使用与我们在研究帖子中描述的 GPQA 和 AIME 结果类似的评分模型对剩余的尝试进行排名，并选择最佳的一个提交。

这在 n=489 个在我们基础设施上可行的验证任务子集上得分为 70.3%。在没有此脚手架的情况下，Claude 3.7 Sonnet 在 SWE-bench Verified 上使用相同的子集达到 63.7%。与我们内部基础设施不兼容的 11 个排除测试用例是：

scikit-learn__scikit-learn-14710
django__django-10097
psf__requests-2317
sphinx-doc__sphinx-10435
sphinx-doc__sphinx-7985
sphinx-doc__sphinx-8475
matplotlib__matplotlib-20488
astropy__astropy-8707
astropy__astropy-8872
sphinx-doc__sphinx-8595
sphinx-doc__sphinx-9711

原文链接：https://www.anthropic.com/news/claude-3-7-sonnet

从认知行为看语言模型的自我进化

探索语言模型如何通过验证、回溯、子目标设定和逆向推理等认知行为实现自我提升，揭示初始能力与改进潜力的深层联系

Claude 的扩展思维 [译]

探索 Claude 3.7 Sonnet 的新功能：扩展思维模式如何提升 AI 智能，揭示其思考过程的可见性，以及在安全性和性能测试中的表现