从数学到代码：GRPO 如何重塑 AI 推理的未来

在 AI 的世界里，大型语言模型（Large Language Models，简称 LLMs）早已渗透到日常生活的方方面面：从聊天机器人到代码生成器，它们的用途广泛。然而，当任务转向复杂的数学推理或逻辑严密的代码编写时，这些模型的表现往往不尽如人意。传统训练方法虽然能解决问题，但成本高昂，效果却有限。这不禁让人思考：有没有一种更高效的方式，能让 AI 在需要深层推理的领域中脱颖而出？

DeepSeek AI 开发的一种新算法——Group Relative Policy Optimization（简称 GRPO）——提供了一个令人振奋的答案。GRPO 通过一种创新的组内比较方式，不仅显著提升了 LLMs 在数学和代码任务中的能力，还大幅降低了训练成本。这项技术揭示了一个可能性：AI 的未来或许不只依赖于更大的模型或更多的算力，而是更聪明的优化策略。

这篇文章将深入探讨 GRPO 的核心思想、运行机制以及它为何可能改变 AI 的发展轨迹。从技术细节到应用场景，再到未来的潜在影响，内容将逐步展开。如果你对 AI 如何解决复杂问题感兴趣，或者想了解一项技术如何跨越数学和代码的界限，这篇文章或许能带来一些启发。

GRPO：一种更聪明的强化学习方式

要理解 GRPO，先得谈谈强化学习（Reinforcement Learning，简称 RL）。强化学习是一种让 AI 通过试错来学习的方法：模型尝试不同的行动，根据结果获得奖励或惩罚，然后调整策略以追求更高的回报。这种方法在训练 LLMs 时被广泛使用，但传统算法，比如 Proximal Policy Optimization（PPO），有一个明显的短板：它们依赖一个单独的「批评者模型」（critic model）来评估每个行动的价值。这增加了计算负担，有时还会导致训练不稳定。

GRPO 的突破在于，它彻底放弃了批评者模型，转而采用「组内比较」的策略。它的运行机制可以分解为几个步骤：

生成多组输出：对于一个输入查询，模型会生成多组可能的答案，形成一个组。例如，面对「2 + 2 =？」这个问题，模型可能会输出「4」「5」「4」。
计算奖励：每组输出的奖励基于任务规则。在数学问题中，正确答案得 1 分，错误答案得 0 分；在代码任务中，可以通过编译器反馈或测试用例结果来评分。
组内相对优势：计算组内所有输出的平均奖励作为基线，然后每个输出的「优势」（advantage）是其奖励与平均值的差。例如，奖励分别是 1、0、1，平均值是 0.667，那么「4」的优势是 0.333，「5」的优势是 -0.667。
更新策略：基于这些相对优势，模型通过梯度上升调整策略，增加生成高优势输出的概率，同时使用剪切（clipping）和 KL 散度正则化保持更新稳定。

这个过程的核心在于，通过比较一组输出的相对表现，模型能直接学会什么是「更好的答案」，而无需额外的评估工具。这种方法的优势显而易见：它降低了计算成本，尤其适合需要长链推理的任务，比如数学推导或复杂代码逻辑。

举个例子来说明：假设训练一个模型解答「2 + 2 =？」生成三个输出「4」「5」「4」，奖励分别是 1、0、1，平均奖励为 0.667。计算相对优势后，模型会更倾向于生成「4」，减少「5」的概率。这种机制在规模化时威力更大，当面对复杂的数学或代码问题时，GRPO 能通过大量组内比较，逐步优化模型的表现。

应用场景：从数学到代码的突破

GRPO 的真正魅力在于它的广泛适用性。它不仅在数学推理领域取得了显著成果，还意外地在代码生成任务中展现了潜力。以下是它的具体表现。

数学推理：挑战顶尖模型

DeepSeek AI 将 GRPO 应用于两个模型：DeepSeekMath 和 DeepSeek-R1，结果令人瞩目。

DeepSeekMath：在 MATH 基准测试中，这个模型达到了 51.7% 的准确率，与 Gemini-Ultra 和 GPT-4 的水平相当。通过「自一致性采样」（self-consistency sampling，即多次生成答案并选择最常见的答案），准确率进一步提升至 60.9%。在 GSM8K 和 CMATH 测试中，表现分别达到了 88.2% 和 88.8%。
DeepSeek-R1：这个模型更加大胆，直接跳过了传统的监督微调阶段，仅用 GRPO 训练。在 AIME 2024 测试中，它的 Pass@1 得分（即首次尝试的正确率）达到 71.0%，通过多数投票可提升至 86.7%，足以与一些专有模型抗衡。

这些数据表明，GRPO 让开源模型在数学推理上的表现接近了顶尖专有模型。这不仅降低了研究的门槛，还为教育和科学计算等领域提供了更强大的工具。

代码生成：意外的扩展

更令人意外的是，GRPO 的应用并不局限在数学领域，它还能优化代码生成任务。在这类任务中，奖励定义相对直接：代码是否能通过编译，或者是否通过预定义的测试用例。这种基于规则的奖励机制减少了对人类反馈的依赖，也避免了强化学习中常见的「奖励黑客」问题，即模型通过作弊获得高分。

例如，假设任务是编写一个 Python 函数计算斐波那契数列，模型可能生成以下两种方案：

Python

def fibonacci(n):
    if n <= 1:
        return n
    else:
        return fibonacci(n - 1) + fibonacci(n - 2)

Python

def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        a, b = b, a + b
    return a

第一种方案使用递归，虽然正确但效率较低（时间复杂度 O(2^n)）；第二种方案采用迭代，效率更高（时间复杂度 O(n)）。通过测试用例的反馈，GRPO 计算每种方案的奖励，然后通过组内比较优化模型，倾向于生成更高效的代码。

这种方法的妙处在于，它无需复杂的奖励模型或大量人工标注，编译器或测试用例的反馈足以驱动训练。这不禁让人思考：如果 GRPO 能在数学和代码领域都表现出色，它是否还能扩展到其他需要推理的场景，比如科学计算或工程设计？

与传统方法的对比：GRPO 的独特之处

要更好地理解 GRPO 的价值，可以将其与传统强化学习方法对比：

Proximal Policy Optimization（PPO）：依赖批评者模型评估价值函数，计算成本高，训练可能不稳定。
Direct Policy Optimization（DPO）：无需批评者模型，但需要成对偏好数据，准备这些数据耗时且成本较高。
Reinforcement Learning from Human Feedback（RLHF）：通过人类反馈训练奖励模型，成本高且可能引入偏见。
Group Relative Policy Optimization（GRPO）：无需批评者模型，依靠组内相对奖励，计算成本低，适合规则明确的场景。

GRPO 的独特之处在于它的简洁高效。通过取消批评者模型，它减少了资源需求；通过组内比较，它提供了稳定的优化方式。这让人意识到，AI 的进步未必需要更复杂的工具，有时简化问题本身就能带来突破。

未来的影响：AI 的新可能性

GRPO 的出现揭示了 AI 发展的多种可能性。如果这项技术继续演进，它可能在以下方面产生深远影响：

AI 的普及化：GRPO 降低训练成本，让小型组织和研究者也能开发高性能 LLMs，丰富 AI 生态系统的多样性。
推理能力的跃升：随着 GRPO 在更多领域的应用，LLMs 或将在数学、科学和工程等任务中接近甚至超越人类水平，这既令人兴奋又值得深思。
研究新方向：组内比较的方法开启了探索不同组大小、奖励机制和任务类型的可能性，或许会催生更先进的模型。
行业应用：
- 教育：生成个性化学习内容，辅助教学，提供实时反馈。
- 医疗：助力疾病诊断、治疗规划和数据分析，提升效率。
- 科研：分析复杂数据集，生成假设，加速发现。
- 商业：支持金融预测、风险评估和战略规划。

这些可能性表明，GRPO 不只是技术上的进步，更可能是 AI 应用方式的转型。然而，随着推理能力的增强，伦理和安全问题也需引起重视，确保技术被负责任地使用。

结语：GRPO 带来的启示

探究 GRPO 的过程让人意识到，AI 的未来或许不在于更大的模型或更多的算力，而在于更聪明的优化策略。GRPO 通过组内比较，显著提升了 LLMs 在数学推理和代码生成中的能力，同时降低了成本。它的成功表明，有时候，最有效的进步来自对问题本质的重新审视。

对于那些关注 AI 推理能力的人，或者好奇一项技术如何跨越数学和代码领域的人来说，GRPO 值得关注。它不仅展示了 AI 的潜力，还为未来的发展提供了一条新路径。当然，前路漫长，仍需更多研究和讨论。但无论如何，GRPO 的出现让人对 AI 的可能性充满期待。

参考资料：

FlashMLA：DeepSeek 重塑 AI 效率的野心

DeepSeek 最新开源项目 FlashMLA 为 Hopper GPU 带来针对可变长度序列的高效 MLA 解码内核，挑战性能极限

长文本的秘密武器：MoBA 如何改变游戏规则

深入剖析 Kimi 开源的 MoBA 框架，探索其如何以稀疏块注意力革新长文本处理，并与 DeepSeek 的 NSA 对比，揭示二者的独特价值与未来潜力