推理最佳实践 [译]

了解何时使用推理模型以及它们与 GPT 模型的比较。

OpenAI 提供两种类型的模型：推理模型（例如 o1 和 o3-mini）和 GPT 模型（如 GPT-4o）。这些模型家族的行为方式各不相同。

本指南涵盖：

我们的推理型和非推理型 GPT 模型之间的差异
何时使用我们的推理模型
如何有效地提示推理模型

推理模型 vs. GPT 模型

与 GPT 模型相比，我们的 o 系列模型在不同任务上表现更好，需要不同的提示。不同的模型家族并没有优劣之分——它们只是用于不同的目的。

我们训练的 o 系列模型「规划者」可以对复杂任务进行深入思考，使其在战略制定、解决复杂问题和基于大量模糊信息进行决策方面效果显著。这些模型还能够高度准确地执行任务，使其非常适合那些本来需要人类专家的领域——如数学、科学、工程、金融服务和法律服务。

另一方面，我们的低延迟、更具成本效益的 GPT 模型「工作马」专为直接执行设计。当速度和成本比完美的准确性更为重要时，应用程序可能使用 o 系列模型来规划解决问题的策略，并使用 GPT 模型执行具体任务。

如何选择

您的使用场景中最重要的是什么？

速度和成本 → GPT 模型更快且通常成本较低
执行明确定义的任务 → GPT 模型能很好地处理明确定义的任务
准确性和可靠性 → o 系列模型是可靠的决策制定者
复杂问题解决 → o 系列模型能够处理模糊性和复杂性

如果速度和成本是完成任务时最重要的因素，并且您的使用案例由简单明了的任务组成，那么我们的 GPT 模型最适合您。然而，如果准确性和可靠性是最重要的因素，且您有一个非常复杂的多步骤问题需要解决，那么我们的 o 系列模型可能对您来说是正确的选择。

大多数 AI 工作流会结合使用两种模型——在代理计划和决策制定中使用 o 系列，在任务执行中使用 GPT 系列。

GPT 模型和 o 系列模型很好地配对使用

我们的 GPT-4o 和 GPT-4o mini 模型会将订单详情与客户信息进行分类，识别订单问题和退货政策，然后将所有这些数据点反馈给 o3-mini 以根据政策做出关于退货可行性的最终决定。

何时使用我们的推理模型

以下是我们从客户和 OpenAI 内部观察到的一些成功使用模式。这并不是对所有可能用例的全面评审，而是为测试我们的 o 系列模型提供一些实用指导。

准备好使用推理模型？跳转至快速入门 →

1. 导航模糊任务

推理模型特别擅长从有限或不同的信息中，通过简单的提示来理解用户意图并处理指令中的任何缺口。实际上，推理模型通常会在做出未经教育的猜测或尝试填补信息缺口之前先询问澄清性问题。

「o1 的推理能力使我们的多代理平台 Matrix 能够在处理复杂文档时生成详尽且格式良好、详细的响应。例如，o1 能够仅通过一个简单的提示，轻松识别信贷协议中受限制付款能力下的可用篮子。没有以前的模型能如此高效。o1 在 52% 的复杂提示上产生的结果在密集信贷协议中表现优于其他模型。」
—Hebbia，法律和金融的 AI 知识平台公司

2. 大海捞针

当您传递大量非结构化信息时，推理模型在理解和提取最相关信息以回答问题方面表现出色。

「为了分析一家公司并购，o1 审查了十几份公司文件——如合同和租约——以发现可能影响交易的棘手条件。模型的任务是标记关键术语，并在此过程中在附注中识别出一个关键的「控制权变更」条款：如果公司被出售，它将需立即偿还 7500 万美元的贷款。o1 的极高细节关注度使我们的 AI 代理能够通过识别关键任务信息来支持金融专业人士。」
—Endex，AI 财务智能平台

3. 在大型数据集中发现关系和细微差别

我们发现，推理模型在推理漫长复杂的文档，如法律合同、财务报表和保险索赔，特别擅长。而这些模型在文档之间画出平行线并基于数据中表现的不言自明的真相做出决策方面表现非常强。

「税务研究需要综合多份文件以产生最终的一致答案。我们将 GPT-4o 换成 o1，发现 o1 在推理文档间的相互作用以达成逻辑结论，表现比任何单一文件都更加良好。结果是，我们通过转换到 o1，看到端到端性能提高了 4 倍——令人难以置信。」
—Blue J，AI 税务研究平台

推理模型在推理细微的政策和规则并将其有效应用于任务以达成合理结论方面也很擅长。

「在财务分析中，分析师通常处理复杂的股东权益场景，并需要掌握相关的法律细微差别。我们测试了来自不同提供商的大约 10 个模型，使用了一个具有挑战性但常见的问题：融资如何影响现有股东，尤其是当他们行使其反稀释特权时？这需要通过前后投资估值进行推理并处理循环稀释环路——这是顶尖金融分析师需要花费 20-30 分钟去弄清楚的事情。我们发现 o1 和 o3-mini 能够无误做到这一点！这些模型甚至能够生成一个清晰的计算表，展示对 100k 美元股东的影响。」
–BlueFlame AI，AI 投资管理平台

4. 多步骤代理计划

推理模型对代理计划和战略开发至关重要。当推理模型用于「规划者」时，在制定详细的多步骤解决方案并为每一步选择和分配合适的 GPT 模型「执行者」时（按需更高智能或低延迟），我们看到了成功。

「我们使用 o1 作为我们代理基础结构中的规划者，让其协调工作流程中的其他模型以完成多步骤任务。我们发现 o1 在选择数据类型和将大问题分解为更小块方面做得非常好，让其他模型专注于执行。」
—Argon AI，AI 制药行业知识平台

「o1 为许多我们在 Lindy 的工作中驱动的代理工作流提供动力。模型使用功能调用从您的日历或电子邮件中提取信息，然后可以自动帮助您安排会议、发送电子邮件并管理日常其他任务。我们将所有之前导致问题的代理步骤切换到 o1，目睹我们的代理几乎在一夜之间变得完美无缺！」
—Lindy.AI，工作 AI 助手

5. 视觉推理

截至目前，o1 是唯一支持视觉能力的推理模型。与 GPT-4o 不同的是，o1 可以掌握极具挑战性的视觉内容，如具有模糊结构的图表和表格以及图像质量不佳的照片。

「我们自动化对数百万件在线产品的风险和合规性评估，包括奢侈品珠宝仿制品、濒危物种和受控物品。GPT-4o 在我们的最难图像分类任务上达到 50% 的准确性。o1 则不需要对我们的管道进行任何修改就取得了令人印象深刻的 88% 准确率。」
—Safetykit，AI 商家监控平台

在我们自己的内部测试中，我们看到 o1 能够从高度详细的建筑图纸中识别出装置和材料以生成综合材料表。我们观察到的最令人惊讶的事情之一是，o1 能够在不同图像之间画出平行线，能够在不明确指令的情况下，从建筑图纸中的一页上接收一个示意图，并正确应用于另一页。如图你可以看到，对于 4x4 PT 木柱，o1 根据图例认识到「PT」代表压力处理。

o 系列模型正确读取建筑绘图详细信息

6. 审查、调试和提高代码质量

推理模型尤其擅长审查和提高大量代码，通常在背景中运行代码审查，鉴于这些模型的高延迟。

「我们在 GitHub 和 GitLab 等平台上提供自动化的 AI 代码审查。虽然代码审查过程本质上不是对延迟敏感，但它确实需要理解多文件间的代码差异。在这方面，o1 真正发光——它能够可靠地检测出代码库的微小变化，而这可能被人工审查员遗漏。在切换到 o 系列模型之后，我们能够将产品转化率提高三倍。」
—CodeRabbit，AI 代码审查初创公司

尽管 GPT-4o 和 GPT-4o mini 可能在由于其低延迟更适合编写代码，我们也看到 o3-mini 在延迟敏感性稍低的用例中代码生产上表现出色。

「o3-mini 一直能够产出高质量、结论性代码，并且在问题清晰定义时，即便在非常挑战的编码任务中也能非常频繁地得到正确的解决方案。其他模型可能只在小规模、快速代码迭代中有用，但 o3-mini 在规划和执行复杂的软件设计系统方面表现出色。」
—Codeium，AI 驱动的代码扩展初创公司

7. 评估和基准其他模型响应

我们还看到推理模型在基准和评估其他模型响应方面表现良好。数据验证在确保数据集质量和可靠性方面非常重要，尤其是在像医疗保健这样敏感的领域。传统验证方法采用预定义的规则和模式，但像 o1 和 o3-mini 这样的先进模型能理解上下文并对数据进行推理，以进行更加灵活和智能的验证方法。

「许多客户在 Braintrust 的评估过程中使用 LLM 作为判断者。例如，一家医疗公司可能会使用像 gpt-4o 这样的工作马模型来总结患者问题，然后用 o1 来评估总结质量。一个 Braintrust 客户看到评判者的 F1 分数从 4o 的 0.12 提高到 o1 的 0.74！在这些用例中，他们发现 o1 的推理在发现不易察觉的完成细微差别方面是革命性的，特别是在最困难且复杂的评分任务中。」
—Braintrust，AI 评估平台

如何有效提示推理模型

这些模型在明确的提示下表现最佳。一些提示工程技术，比如指导模型「逐步思考」，可能不会增强性能（有时反而会妨碍）。请查看以下最佳实践或下载提示示例以快速开始。

开发者消息是新的系统消息：从 o1-2024-12-17 开始，推理模型支持开发者消息取代系统消息，以配合模型规范中描述的指挥链行为。
保持提示简单直接：这些模型擅长理解和响应简短、清晰的指示。
避免思路链提示：由于这些模型在内部进行推理，不需要提示它们「逐步思考」或「解释推理」。
使用分隔符进行清晰标识：使用分隔符如 markdown、XML 标签和章节标题来清楚地标识输入的不同部分，帮助模型适当解释不同部分。
先尝试零样本，再在需要时使用少量样本：推理模型通常不需要少量样本来产出良好结果，尝试先写出不带示例的提示。如果您对所需输出有更复杂的要求，可能可以在提示中包括一些输入和所需输出的示例。确保示例与您的提示指令非常紧密地对齐，否则两者之间的差异可能会产生不佳结果。
提供具体指导：如果有您明确希望根据模型的响应约束的方式（如「提出预算在 500 美元以下的解决方案」），在提示中明确说明这些约束。
明确说明最终目标：在您的指令中，试着给出对成功响应的具体参数，并鼓励模型继续推理和迭代，直到符合您的成功标准。
Markdown 格式化：从 o1-2024-12-17 开始，API 中的推理模型将避免生成带有 markdown 格式化的响应。为了标识模型何时需要响应中的 markdown 格式化，请在开发者消息的第一行包含字符串 Formatting re-enabled。

其他资源

想要获取更多灵感，请访问 OpenAI Cookbook，其中包含示例代码和第三方资源链接，或了解更多关于我们的模型和推理能力的信息：

原文链接：https://platform.openai.com/docs/guides/reasoning-best-practices

ARC Prize 的副本挑战：智慧蛇对决 [译]

从 Haiku 到 o3-mini，我们测试了 50 个 LLM 之间的蛇形游戏对战

通过 DeepSeek-R1 和推理时间扩展自动生成 GPU Kernel [译]

探索 NVIDIA 工程师如何利用 DeepSeek-R1 模型及推理时间扩展技术自动生成优化的 GPU Attention Kernel。