AI、强化学习、评估·

AI 的下半场 [译]

我们正处于 AI 的中场休息。从专注于开发训练方法和模型的上半场,转向定义问题和重新思考评估的下半场。

要点:我们正处于 AI 的中场休息。

几十年来,AI 主要专注于开发新的训练方法和模型。这种方法奏效了:从在国际象棋和围棋上击败世界冠军,到在 SAT 和司法考试中超越大多数人类,再到获得 IMO 和 IOI 金牌。这些历史里程碑背后——深蓝、AlphaGo、GPT-4 和 o 系列——都有 AI 方法的根本性创新:搜索、深度强化学习、扩展和推理。随着时间推移,一切都在变得更好。

那么现在突然有什么不同了呢?

用三个词来说:强化学习终于奏效了。更准确地说:强化学习终于能够泛化了。经过几次重大转折和一系列里程碑的积累,我们找到了一个可行的配方,可以使用语言和推理来解决广泛的强化学习任务。即使在一年前,如果你告诉大多数 AI 研究者,一个单一的配方可以解决软件工程、创意写作、IMO 级别的数学、鼠标和键盘操作以及长篇问答——他们会嘲笑你的「幻觉」。这些任务都极其困难,许多研究者花费整个博士阶段只专注于其中一个狭窄的切片。

然而它发生了。

那么接下来会发生什么?AI 的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代,评估变得比训练更重要。我们不再只是问「我们能训练一个模型来解决 X 吗?」,而是问「我们应该训练 AI 做什么,以及我们如何衡量真正的进步?」要在下半场中茁壮成长,我们需要及时转变思维方式和技能组合,这些可能更接近产品经理。

上半场

要理解上半场,看看它的获胜者。你认为迄今为止最有影响力的 AI 论文是什么?

我在斯坦福 224N 课程中尝试了这个测验,答案并不令人意外:Transformer、AlexNet、GPT-3 等。这些论文有什么共同点?它们提出了一些基础性突破来训练更好的模型。同时,它们通过在某些基准测试上显示一些(显著的)改进来发表论文。

不过有一个潜在的共同点:这些「获胜者」都是训练方法或模型,而不是基准测试或任务。即使可以说是最有影响力的基准测试 ImageNet,其引用次数也不到 AlexNet 的三分之一。方法与基准测试的对比在其他地方甚至更加悬殊——例如,Transformer 的主要基准测试是 WMT'14,其研讨会报告有约 1,300 次引用,而 Transformer 有超过 160,000 次引用。

上半场

这说明了上半场的游戏:专注于构建新模型和方法,评估和基准测试是次要的(尽管是让论文系统运作的必要条件)。

为什么?一个重要原因是,在 AI 的上半场,方法比任务更难也更令人兴奋。从零开始创造一个新算法或模型架构——想想反向传播算法、卷积网络(AlexNet)或 GPT-3 中使用的 Transformer 这样的突破——需要非凡的洞察力和工程技术。相比之下,为 AI 定义任务通常感觉更直接:我们只是取人类已经在做的任务(如翻译、图像识别或下棋)并将它们转化为基准测试。不需要太多洞察力甚至工程技术。

方法也往往比单个任务更通用和广泛适用,使它们特别有价值。例如,Transformer 架构最终推动了 CV、NLP、RL 和许多其他领域的进步——远超其首次证明自己的单一数据集(WMT'14 翻译)。一个出色的新方法可以爬坡许多不同的基准测试,因为它简单而通用,因此影响往往超越单个任务。

这个游戏已经运作了几十年,并催生了改变世界的想法和突破,这些通过各个领域中不断提高的基准测试性能得以体现。为什么这个游戏会发生改变?因为这些想法和突破的积累在创建解决任务的工作配方方面产生了质的差异。

配方

什么是配方?不出所料,它的成分包括大规模语言预训练、规模(在数据和计算方面)以及推理和行动的想法。这些可能听起来像你在旧金山每天听到的流行词,但为什么称它们为配方呢?

我们可以通过强化学习(RL)的视角来理解这一点,强化学习通常被认为是 AI 的「终极游戏」——毕竟,理论上强化学习保证能赢得游戏,从经验上看,很难想象任何超人系统(如 AlphaGo)没有强化学习。

在强化学习中,有三个关键组件:算法、环境和先验。很长时间以来,强化学习研究者主要专注于算法(如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO…)——智能体学习的智力核心——同时将环境和先验视为固定或最小的。例如,Sutton 和 Barto 的经典教科书全是关于算法的,几乎没有涉及环境或先验。

强化学习教科书

然而,在深度强化学习时代,很明显环境在经验上非常重要:算法的性能通常高度特定于它被开发和测试的环境。如果你忽略环境,你就有构建一个只在玩具设置中表现出色的「最优」算法的风险。那么为什么我们不首先弄清楚我们真正想要解决的环境,然后找到最适合它的算法呢?

这正是 OpenAI 的初始计划。它构建了 gym,一个用于各种游戏的标准强化学习环境,然后是 World of Bits 和 Universe 项目,试图将互联网或计算机变成游戏。这是个好计划,不是吗?一旦我们将所有数字世界变成环境,用智能的强化学习算法解决它,我们就有了数字 AGI。

一个好计划,但并不完全奏效。OpenAI 在这条道路上取得了巨大进展,使用强化学习解决了 Dota机器人手 等。但它从未接近解决计算机使用或网页导航,在一个领域工作的强化学习智能体无法转移到另一个领域。有些东西缺失了。

只有在 GPT-2 或 GPT-3 之后,才发现缺失的部分是先验。你需要强大的语言预训练将一般常识和语言知识蒸馏到模型中,然后可以对其进行微调,成为网页(WebGPT)或聊天(ChatGPT)智能体(并改变世界)。事实证明,强化学习最重要的部分可能甚至不是强化学习算法或环境,而是先验,这可以通过与强化学习完全无关的方式获得。

语言预训练为聊天创造了良好的先验,但对控制计算机或玩视频游戏并不同样有效。为什么?这些领域距离互联网文本的分布更远,天真地在这些领域上进行 SFT / RL 泛化效果很差。我在 2019 年注意到了这个问题,当时 GPT-2 刚刚发布,我在其基础上进行 SFT / RL 来解决基于文本的游戏——CALM 是世界上第一个通过预训练语言模型构建的智能体。但智能体需要数百万强化学习步骤才能爬坡单个游戏,而且无法转移到新游戏。虽然这正是强化学习的特征,对强化学习研究者来说并不奇怪,但我发现这很奇怪,因为我们人类可以轻松玩新游戏,并且零样本表现明显更好。然后我迎来了我生命中第一个「顿悟」时刻——我们之所以能泛化,是因为我们可以选择做的不仅仅是「去柜子 2」或「用钥匙 1 打开箱子 3」或「用剑杀死地牢」,我们还可以选择思考诸如「地牢很危险,我需要武器与之战斗。没有可见的武器,所以也许我需要在锁着的盒子或箱子里找到一个。箱子 3 在柜子 2 里,让我先去那里解锁它」这样的事情。

推理

思考或推理是一种奇怪的行动——它不直接影响外部世界,但推理的空间是开放式的、组合上无限的——你可以思考一个词、一个句子、整个段落或 10000 个随机英文单词,但你周围的世界不会立即改变。在经典的强化学习理论中,这是一个糟糕的交易,使决策变得不可能。想象你需要从两个盒子中选择一个,只有一个盒子里有 100 万美元,另一个是空的。你期望赚到 50 万美元。现在想象我添加无限个空盒子。你期望什么都赚不到。但通过将推理添加到任何强化学习环境的行动空间中,我们利用语言预训练先验来泛化,我们能够为不同决策提供灵活的测试时间计算。这是一件真正神奇的事情,我为没有在这里完全理解它而道歉,我可能需要写另一篇博客文章专门讨论它。欢迎阅读 ReAct 了解智能体推理的原始故事和我当时的感受。现在,我的直觉解释是:即使你添加了无限个空盒子,你在生活中通过各种游戏见过它们,选择这些盒子为你在任何给定游戏中更好地选择有钱的盒子做准备。我的抽象解释是:语言通过智能体中的推理来泛化

一旦我们有了正确的强化学习先验(语言预训练)和强化学习环境(将语言推理添加为行动),事实证明强化学习算法可能是最微不足道的部分。因此我们有了 o 系列、R1、deep research、计算机使用智能体等等。多么讽刺的事件转折!这么长时间以来,强化学习研究者关心算法远超环境,没人关注先验——所有强化学习实验基本上都从零开始。但我们花了几十年的弯路才意识到也许我们的优先级应该完全颠倒。

但正如史蒂夫·乔布斯所说:你无法向前看连接这些点;你只能向后看连接它们。

下半场

这个配方完全改变了游戏。回顾上半场的游戏:

  • 我们开发新颖的训练方法或模型来爬坡基准测试。
  • 我们创造更难的基准测试并继续循环。

这个游戏正在被破坏,因为:

  • 配方基本上已经标准化和工业化了基准测试爬坡,而不需要更多新想法。随着配方的扩展和良好泛化,你针对特定任务的新颖方法可能会改进 5%,而下一个 o 系列模型可能会改进 30%,而不需要明确针对它。
  • 即使我们创造更难的基准测试,很快(而且越来越快)它们就会被配方解决。我的同事 Jason Wei 制作了一个美丽的图表来很好地可视化这个趋势:

进展

那么在下半场还剩什么可玩的?如果不再需要新颖的方法,更难的基准测试将很快得到解决,我们应该做什么?

我认为我们应该从根本上重新思考评估。这意味着不仅要创造新的、更难的基准测试,还要从根本上质疑现有的评估设置并创造新的设置,这样我们就被迫发明超越工作配方的新方法。这很难,因为人类有惯性,很少质疑基本假设——你只是把它们当作理所当然,而没有意识到它们是假设,不是定律。

为了解释惯性,假设你发明了历史上最成功的基于人类考试的评估之一。这在 2021 年是一个极其大胆的想法,但 3 年后它饱和了。你会做什么?很可能创造一个更难的考试。或者假设你解决了简单的编码任务。你会做什么?很可能找到更难的编码任务来解决,直到你达到 IOI 金牌水平。

惯性是自然的,但问题在这里。AI 已经在国际象棋和围棋上击败了世界冠军,在 SAT 和司法考试中超越了大多数人类,在 IOI 和 IMO 上达到了金牌水平。但世界并没有改变太多,至少从经济学和 GDP 来判断。

我称之为效用问题,并认为它是 AI 最重要的问题。

也许我们很快就会解决效用问题,也许不会。无论如何,这个问题的根本原因可能简单得欺骗性:我们的评估设置在许多基本方面与现实世界设置不同。举两个例子:

  • 评估「应该」自动运行,所以通常智能体接收任务输入,自主地做事情,然后接收任务奖励。但在现实中,智能体必须在整个任务过程中与人类互动——你不会只是给客服发一条超长消息,等待 10 分钟,然后期望得到详细回复来解决一切。通过质疑这种设置,新的基准测试被发明出来,要么让真实人类(如 Chatbot Arena)要么用户模拟(如 tau-bench)参与循环。tau
  • 评估「应该」独立同分布运行。 如果你有一个包含 500 个任务的测试集,你独立运行每个任务,平均任务指标,得到总体指标。但在现实中,你按顺序而不是并行解决任务。谷歌 SWE 在解决 google3 问题时会越来越好,因为她对代码库越来越熟悉,但 SWE 智能体在解决同一代码库中的许多问题时不会获得这种熟悉度。我们显然需要长期记忆方法(一些),但学术界没有合适的基准测试来证明这种需要,甚至没有合适的勇气来质疑一直是机器学习基础的独立同分布假设。

这些假设「一直」都是这样的,在这些假设下开发基准测试在 AI 的上半场是好的,因为当智能水平较低时,提高智能通常会提高效用。但现在,一般配方保证在这些假设下工作。所以下半场新游戏的玩法是:

  • 我们为现实世界效用开发新颖的评估设置或任务。
  • 我们用配方解决它们或用新颖组件增强配方。继续循环。

这个游戏很难,因为它不熟悉。但它令人兴奋。虽然上半场的玩家解决视频游戏和考试,下半场的玩家通过基于智能构建有用产品来建立数十亿或万亿美元的公司。虽然上半场充满了增量方法和模型,下半场在某种程度上过滤了它们。一般配方会粉碎你的增量方法,除非你创造打破配方的新假设。然后你就能做真正改变游戏的研究。

欢迎来到下半场!

致谢

这篇博客文章基于我在斯坦福 224N 和哥伦比亚大学的演讲。我使用 OpenAI deep research 来阅读我的幻灯片并写初稿。

原文链接:https://ysymyth.github.io/The-Second-Half/


© 2025 智人飞扬