人工智能、强化学习、经验学习·

迎接经验时代 [译]

探讨人工智能即将进入的新时代,在这个时代中,代理将通过经验学习获得超人类能力

摘要

我们正站在人工智能新时代的门槛上,这个时代有望实现前所未有的能力水平。新一代代理将主要通过经验学习获得超人类能力。本文探讨了这个即将到来的时代的关键特征。

人类数据时代

近年来,人工智能通过对海量人类生成数据的训练以及专家人类示例和偏好的微调,取得了显著进步。大型语言模型(LLMs)体现了这种方法,并达到了全面的通用性水平。如今,单个 LLM 可以执行从写诗和解决物理问题到诊断医疗问题和总结法律文件等各种任务。然而,虽然模仿人类足以在许多人类能力上达到熟练水平,但这种方法单独使用并不能也可能无法在许多重要领域和任务上实现超人类智能。在数学、编程和科学等关键领域,从人类数据中提取的知识正迅速接近极限。能够真正提高强大代理性能的高质量数据源大多已经或很快将被消耗殆尽。仅靠从人类数据监督学习推动的进步明显正在放缓,表明需要一种新方法。此外,新定理、技术或科学突破等有价值的新见解超出了当前人类理解的边界,无法通过现有人类数据捕获。

经验时代

要取得进一步的显著进步,需要一个新的数据来源。这些数据必须以一种随着代理变得更强而不断改进的方式生成;任何静态的合成数据生成程序都会很快被超越。这可以通过允许代理从自己的经验中持续学习来实现,即代理与环境交互生成的数据。人工智能正处于新时期的边缘,在这个时期,经验将成为改进的主要媒介,并最终超过今天系统中使用的人类数据规模。这种转变可能已经开始,即使对于体现以人类为中心的人工智能的大型语言模型也是如此。一个例子是数学能力。AlphaProof 20 最近成为第一个在国际数学奥林匹克竞赛中获得奖牌的程序,超越了以人类为中心的方法 27, 19 的表现。AlphaProof 最初接触了约十万个由人类数学家多年创建的形式化证明,随后其强化学习(RL)算法1通过与形式化证明系统的持续交互生成了一亿个证明。这种对交互式经验的关注使 AlphaProof 能够探索超出现有形式化证明范围的数学可能性,从而发现新颖而具有挑战性问题的解决方案。非形式化数学也通过用自生成数据替代专家生成数据取得了成功;例如,DeepSeek 最近的工作"强调了强化学习的力量和美丽:我们不是明确教导模型如何解决问题,而是简单地提供正确的激励,它就能自主开发先进的问题解决策略。"10 我们的观点是,一旦充分利用经验学习的潜力,将会出现令人难以置信的新能力。这个经验时代可能的特征是代理和环境,除了从大量经验数据中学习外,还将在以下几个方面突破以人类为中心的人工智能系统的局限性:

  • 代理将生活在经验流中,而不是短暂的交互片段。
  • 它们的行动和观察将深深扎根于环境中,而不仅仅通过人类对话进行交互。
  • 它们的奖励将建立在对环境的经验上,而不是来自人类的预先判断。
  • 它们将规划和/或推理经验,而不仅仅在人类术语中推理。

我们相信,今天的技术,结合适当选择的算法,已经提供了足够强大的基础来实现这些突破。此外,人工智能社区对这一议程的追求将促进这些方向的新创新,使人工智能朝着真正超人类的代理迅速发展。

经验型代理可以在整个生命周期中继续学习。在人类数据时代,基于语言的人工智能主要关注短交互情节:例如,用户提出问题,代理(可能经过几个思考步骤或工具使用操作后)做出响应。通常,从一个情节到下一个情节几乎没有信息传递,排除了随时间的任何适应。此外,代理仅关注当前情节中的结果,如直接回答用户的问题。相比之下,人类(和其他动物)存在于持续数年的动作和观察流中。信息在整个流中传递,他们的行为根据过去的经验进行调整以自我纠正和改进。此外,目标可能根据延伸到流的远期未来的动作和观察来指定。例如,人类可能选择行动以实现长期目标,如改善健康、学习语言或实现科学突破。

强大的代理应该拥有自己的经验流,像人类一样,在长时间尺度上发展。这将允许代理采取行动实现未来目标,并随着时间的推移不断适应新的行为模式。例如,连接到用户可穿戴设备的健康和健身代理可以在数月内监控睡眠模式、活动水平和饮食习惯。然后,它可以提供个性化建议、鼓励,并根据长期趋势和用户的特定健康目标调整指导。类似地,个性化教育代理可以跟踪用户学习新语言的进度,识别知识缺口,适应他们的学习风格,并在数月甚至数年内调整教学方法。此外,科学代理可以追求雄心勃勃的目标,如发现新材料或减少二氧化碳。这样的代理可以在较长时间内分析真实世界的观察结果,开发和运行模拟,并建议真实世界的实验或干预。

在每种情况下,代理采取一系列步骤,最大化与指定目标相关的长期成功。单个步骤可能不提供任何即时利益,甚至在短期内可能是不利的,但可能总体上有助于长期成功。这与当前的人工智能系统形成强烈对比,后者提供对请求的即时响应,而没有能力衡量或优化其行动对环境的未来影响。

行动和观察

经验时代的代理将在现实世界中自主行动。人类数据时代的 LLM 主要关注人类特权的行动和观察,向用户输出文本,并从用户输入文本回到代理。这与自然智能有着明显的不同,在自然智能中,动物通过运动控制和传感器与环境交互。虽然动物,尤其是人类,可能与其他动物交流,但这是通过与其他感觉运动控制相同的接口进行的,而不是通过特权渠道。

长期以来人们认识到,LLM 也可以调用数字世界中的行动,例如通过调用 API(例如 43)。最初,这些能力主要来自人类工具使用的示例,而不是来自代理的经验。然而,编码和工具使用能力越来越多地建立在执行反馈 17、7、12 上,代理实际运行代码并观察发生了什么。最近,一波新的原型代理开始以更一般的方式与计算机交互,使用与人类操作计算机相同的接口 3、15、24。这些变化预示着从仅限于人类特权通信转向更自主的交互,代理能够在世界上独立行动。

这些代理将能够积极探索世界,适应不断变化的环境,发现人类可能永远不会想到的策略。这些更丰富的交互将提供一种自主理解和控制数字世界的手段。代理可能使用"人类友好"的行动和观察,如用户界面,自然促进与用户的沟通和协作。代理还可能采取执行代码和调用 API 的"机器友好"行动,允许代理自主服务于其目标。

在经验时代,代理还将通过数字接口与现实世界交互。例如,科学代理可以监控环境传感器,远程操作望远镜,或控制实验室中的机械臂,自主进行实验。

奖励

如果经验型代理可以从外部事件和信号中学习,而不仅仅是人类偏好,会怎样?以人类为中心的 LLM 通常基于人类预先判断来优化奖励:专家观察代理的行动并决定它是否是一个好行动,或者在多个替代方案中选择最佳代理行动。例如,专家可能判断健康代理的建议、教育助手的教学或科学家代理建议的实验。这些奖励或偏好是由人类在没有考虑其后果的情况下确定的,而不是衡量这些行动对环境的影响,这意味着它们没有直接扎根于世界的现实。

以这种方式依赖人类预先判断通常会导致代理表现遇到难以突破的上限:代理无法发现人类评估者低估的更好策略。要发现远远超出现有人类知识的新想法,必须使用扎根的奖励:来自环境本身的信号。例如,健康助手可以将用户的健康目标建立在基于安静心率、睡眠时间和活动水平等信号组合的奖励上,而教育助手可以使用考试结果为语言学习提供扎根的奖励。类似地,以减少全球变暖为目标的科学代理可能使用基于二氧化碳水平经验观察的奖励,而发现更强材料的目标可能扎根于材料模拟器的测量组合,如抗拉强度或杨氏模量。

扎根的奖励可能来自作为代理环境一部分的人类2。例如,人类用户可以报告他们是否发现蛋糕美味、锻炼后的疲劳程度或头痛的痛苦程度,使助理代理能够提供更好的食谱、完善其健身建议或改进推荐的药物。这些奖励衡量了代理行动在其环境中的后果,并应最终导致比预先判断提议的蛋糕食谱、锻炼计划或治疗方案的人类专家更好的帮助。

如果不是来自人类数据,奖励从何而来?一旦代理通过丰富的行动和观察空间(见上文)连接到世界,将不会缺乏提供奖励基础的扎根信号。事实上,世界充满了诸如成本、错误率、饥饿、生产力、健康指标、气候指标、利润、销售、考试结果、成功、访问、产量、库存、喜欢、收入、快乐/痛苦、经济指标、准确性、功率、距离、速度、效率或能源消耗等数量。此外,还有无数额外的信号来自特定事件的发生,或者来自从原始观察和行动序列中派生的特征。

原则上,可以创建各种不同的代理,每个代理优化一个扎根信号作为其奖励。有一种观点认为,即使单一的奖励信号,如果有效优化,也可能足以诱导广泛的智能能力 343。这是因为在复杂环境中实现简单目标可能通常需要掌握各种技能。然而,追求单一奖励信号表面上似乎并不符合通用人工智能的要求,后者可以可靠地引导向用户期望的任意行为。

那么,自主优化扎根的非人类奖励信号是否与现代人工智能系统的要求相对立?我们认为不一定如此,通过勾勒一种可能满足这些需求的方法;其他方法也可能存在。

这个想法是以用户引导的方式灵活调整基于扎根信号的奖励。例如,奖励函数可以由神经网络定义,该网络将代理与用户和环境的交互作为输入,并输出标量奖励。这允许奖励以依赖于用户目标的方式选择或组合环境中的信号。例如,用户可能指定"改善我的健康状况"这样的广泛目标,奖励函数可能返回用户心率、睡眠时间和步数的函数。或者用户可能指定"帮助我学习西班牙语"的目标,奖励函数可能返回用户的西班牙语考试结果。此外,用户可以在学习过程中提供反馈,如他们的满意度,这可以用来微调奖励函数。然后,奖励函数可以随着时间的推移进行调整,以改进其选择或组合信号的方式,并识别和纠正任何不一致。

这也可以理解为一个双层优化过程,将用户反馈作为顶层目标进行优化,并在低层优化来自环境的扎根信号4。通过这种方式,少量的人类数据可能促进大量的自主学习。

规划和推理

经验时代会改变代理规划和推理的方式吗?最近,使用能够推理或用语言"思考"的 LLM 23、14、10 取得了显著进展,通过在输出响应之前遵循思考链 16。从概念上讲,LLM 可以充当通用计算机 30:LLM 可以将标记附加到自己的上下文中,允许它在输出最终结果之前执行任意算法。

在人类数据时代,这些推理方法被明确设计为模仿人类思维过程。例如,LLM 被提示发出类似人类的思维链 16,模仿人类思维的痕迹 42,或强化与人类示例匹配的思维步骤 18。推理过程可能进一步微调以产生与正确答案匹配的思维痕迹,由人类专家确定 44

然而,人类语言极不可能提供通用计算机的最佳实例。肯定存在更有效的思维机制,使用非人类语言,例如可能利用符号、分布式、连续或可微分计算。自学习系统原则上可以通过从经验中学习如何思考来发现或改进这些方法。例如,AlphaProof 学会了以与人类数学家完全不同的方式形式化证明复杂定理 20

此外,通用计算机的原理只解决了代理的内部计算;它没有将其连接到外部世界的现实。训练为模仿人类思想甚至匹配人类专家答案的代理可能继承了深植于该数据中的谬误思维方法,如错误的假设或固有偏见。例如,如果代理被训练使用 5000 年前的人类思想和专家答案进行推理,它可能会用万物有灵的方式解决物理问题;1000 年前可能会用神论术语思考;300 年前可能会用牛顿力学术语思考;50 年前可能会用量子力学术语思考。超越每种思考方法需要与真实世界互动:提出假设,进行实验,观察结果,并相应地更新原则。类似地,代理必须扎根于真实世界数据才能推翻谬误的思考方法。

这种扎根提供了一个反馈循环,允许代理测试其继承的假设与现实的对比,并发现不受当前主导人类思维模式限制的新原则。没有这种扎根,无论多么复杂的代理,都将成为现有人类知识的回音室。要超越这一点,代理必须积极与世界接触,收集观察数据,并使用这些数据迭代改进理解,这在很多方面反映了推动人类科学进步的过程。

直接扎根思考于外部世界的一种可能方式是建立世界模型 37,预测代理行动对世界的影响,包括预测奖励。例如,健康助手可能考虑推荐当地健身房或健康播客。代理的世界模型可能预测用户心率或睡眠模式如何随后变化,以及与用户未来对话的预测。这允许代理直接规划 36、29 其自身行动及其对世界的因果影响。随着代理继续在其经验流中与世界互动,其动态模型不断更新以纠正预测中的任何错误。

给定世界模型,代理可以应用可扩展的规划方法,改进代理的预测性能。规划和推理方法并不相互排斥:代理可以应用内部 LLM 计算选择规划期间的每个行动,或模拟和评估这些行动的后果。

为什么是现在?

从经验中学习并不是新事物。强化学习系统之前已经掌握了在模拟器中具有明确奖励信号的大量复杂任务(大致相当于图 1 中的"模拟时代")。例如,RL 方法通过自我博弈在棋盘游戏中达到或超过人类表现,如双陆棋 39、围棋 31、国际象棋 32、扑克 22、6 和 Stratego 26;视频游戏如 Atari 21、StarCraft II 40、Dota 2 4 和 Gran Turismo 41;灵巧操作任务如魔方 1;以及资源管理任务如数据中心冷却 13。此外,强大的 RL 代理如 AlphaZero 33 展示了令人印象深刻且潜在无限的可扩展性,与神经网络大小、交互经验数量和思考时间相关。

然而,基于这种范式的代理没有跨越从模拟(具有单一、精确定义奖励的封闭问题)到现实(具有多种看似定义不明确奖励的开放性问题)的鸿沟。人类数据时代提供了一个吸引人的解决方案。海量人类数据语料库包含各种任务的自然语言示例。在这些数据上训练的代理比模拟时代更狭窄的成功获得了更广泛的能力。因此,经验式 RL 的方法基本放弃了,支持更通用的代理,导致广泛转向以人类为中心的人工智能。

然而,在这种转变中失去了一些东西:代理自我发现知识的能力。例如,AlphaZero 发现了国际象棋和围棋的全新策略,改变了人类玩这些游戏的方式 28、45。经验时代将使这种能力与人类数据时代所实现的任务通用性相协调。当代理能够通过丰富的观察和行动自主地在现实世界经验流中交互 11,并且奖励可以灵活连接到任何扎根的现实世界信号集合时,这将成为可能。

与复杂现实世界行动空间交互的自主代理的出现 3、15、24,以及能够在丰富推理空间中解决开放性问题的强大 RL 方法 20、10,表明经验时代即将到来。

强化学习方法

强化学习(RL)有着深深植根于自主学习的丰富历史,代理通过与环境的直接交互为自己学习。早期 RL 研究产生了一套强大的概念和算法。例如,时序差分学习 35 使代理能够估计未来奖励,导致在双陆棋 39 中取得了超人类表现的突破。基于乐观或好奇心驱动的探索技术被开发出来,帮助代理发现创造性的新行为并避免陷入次优例程 2。像 Dyna 算法这样的方法使代理能够建立并从其世界模型中学习,使其能够规划和推理未来行动 36、29。选项和选项间/内学习等概念促进了时间抽象,使代理能够在更长时间尺度上推理并将复杂任务分解为可管理的子目标 38

然而,以人类为中心的 LLM 的兴起将焦点从自主学习转向利用人类知识。RLHF(基于人类反馈的强化学习)9、25 和使语言模型与人类推理保持一致的方法 44 被证明非常有效,推动了人工智能能力的快速进步。这些方法,虽然强大,但通常绕过了核心 RL 概念:RLHF 通过调用人类专家代替机器估计值来避免价值函数的需求,来自人类数据的强先验减少了对探索的依赖,以及在以人类为中心的术语中推理减少了对世界模型和时间抽象的需求。

然而,可以说范式的转变使洗澡水和婴儿一起倒掉了。虽然以人类为中心的 RL 实现了前所未有的行为广度,但它也给代理的性能设定了新的上限:代理不能超越现有的人类知识。此外,人类数据时代主要关注为短暂的、不扎根的人类交互设计的 RL 方法,不适合长时间的、扎根的自主交互流。

经验时代提供了重新审视和改进经典 RL 概念的机会。这个时代将带来新的思考奖励函数的方式,这些函数灵活地扎根于观察数据。它将重新审视价值函数和从尚不完整序列的长流中估计它们的方法。它将带来原则性但实用的现实世界探索方法,发现与人类先验截然不同的新行为。将开发捕捉扎根交互复杂性的世界模型新方法。新的时间抽象方法将允许代理在越来越长的时间跨度上进行推理。

通过建立在 RL 基础上并适应其核心原则以应对这个新时代的挑战,我们可以释放自主学习的全部潜力,为真正超人类的智能铺平道路。

结果

经验时代的到来,即人工智能代理从与世界互动中学习,预示着与我们之前所见的截然不同的未来。这种新范式虽然提供了巨大的潜力,但也带来了重要的风险和挑战,需要仔细考虑,包括但不限于以下几点。

从积极方面来看,经验学习将释放前所未有的能力。在日常生活中,个性化助手将利用持续的经验流来适应个人的健康、教育或专业需求,朝着数月或数年的长期目标努力。也许最具变革性的将是科学发现的加速。人工智能代理将自主设计和进行材料科学、医学或硬件设计等领域的实验。通过不断从自己的实验结果中学习,这些代理可以以前所未有的速度快速探索知识的新领域,导致新材料、药物和技术的开发。

然而,这个新时代也带来了重大且新颖的挑战。虽然人类能力的自动化有望提高生产力,但这些改进也可能导致工作岗位流失。代理甚至可能表现出以前被认为是人类专属领域的能力,如长期问题解决、创新和对现实世界后果的深刻理解。此外,虽然关于任何人工智能潜在滥用的一般担忧存在,但可以自主地与世界互动以实现长期目标的代理可能会带来更高的风险。默认情况下,这为人类干预和调解代理行动提供的机会较少,因此需要高度的信任和责任。

远离人类数据和人类思维模式也可能使未来的人工智能系统更难解释。然而,虽然承认经验学习将增加某些安全风险,并且肯定需要进一步研究以确保安全过渡到经验时代,我们也应该认识到它可能提供一些重要的安全益处。

首先,经验型代理意识到它所处的环境,其行为可以随着时间适应环境的变化。任何预编程系统,包括固定的人工智能系统,可能不了解其环境背景,并在部署到不断变化的世界中变得不适应。例如,关键硬件可能出现故障,大流行可能导致社会快速变化,或新的科学发现可能触发一系列快速的技术发展。相比之下,经验型代理可以观察并学会绕过故障硬件,适应快速的社会变化,或接受并建立在新科学和技术之上。也许更重要的是,代理可以认识到其行为何时引发人类关注、不满或痛苦,并适应性地修改其行为以避免这些负面后果。

其次,代理的奖励函数本身可以通过经验进行调整,例如使用前面描述的双层优化(见奖励部分)。重要的是,这意味着不一致的奖励函数通常可以通过试错逐渐纠正。例如,与其盲目优化信号,如最大化回形针 5,奖励函数可以在回形针生产消耗地球所有资源之前,基于人类关注的迹象进行修改。这类似于人类相互设定目标的方式,然后在观察到人们游戏系统、忽视长期福祉或造成不希望的负面后果时调整这些目标;尽管与人类目标设定一样,不能保证完美一致。

最后,依赖物理经验的进步本质上受到在现实世界中执行行动并观察其后果所需时间的限制。例如,即使有人工智能辅助设计,新药的开发仍然需要不可能在一夜之间完成的真实世界试验。这可能为潜在的人工智能自我改进速度提供一个自然的制动器。

结论

经验时代标志着人工智能发展的关键时刻。建立在今天坚实基础上,但超越人类衍生数据的局限,代理将越来越多地从自己与世界的互动中学习。代理将通过丰富的观察和行动自主地与环境交互。它们将在终身经验流中不断适应。它们的目标将可以指向任何扎根信号的组合。此外,代理将利用强大的非人类推理,构建扎根于代理行动对其环境影响的计划。

最终,经验数据将超越人类生成数据的规模和质量。这种范式转变,伴随着强化学习算法的进步,将在许多领域解锁新能力,超越任何人类所拥有的能力。

致谢

作者感谢 Thomas Degris、Rohin Shah、Tom Schaul 和 Hado van Hasselt 提供的有益评论和讨论。

注释

*这是将在 MIT Press 出版的《设计智能》一书中出现的章节的预印本。

1RL 算法是通过试错学习实现目标的算法,即通过与环境交互的经验调整其行为。适应可能通过任何方式发生,例如更新神经网络的权重,或基于环境反馈进行上下文内适应。

2经验和人类数据并非完全对立。例如,狗完全从经验中学习,但人类互动是其经验的一部分。

3奖励足够假设表明,智能及其相关能力可以从奖励最大化中自然产生。这可能包括包含人类互动的环境和基于人类反馈的奖励。

4在这种情况下,也可以将扎根的人类反馈视为形成代理总体目标的单一奖励函数,通过构建和优化基于丰富、扎根反馈的内在奖励函数 8 来最大化。

参考文献

Akkaya I. 等 (2019) 机器人手解魔方;Amin S. 等 (2021) 强化学习探索方法综述;Anthropic (2024) Claude 3.5 计算机使用功能发布;Berner C. 等 (2019) 深度强化学习在 Dota 2;Bostrom N. (2003) 高级 AI 伦理问题;Brown N. 和 Sandholm T. (2018) 超人 AI 扑克:Libratus;Chen X. 等 (2023) 教 LLM 自我调试;Chentanez N. 等 (2004) 内在动机强化学习;Christiano P.F. 等 (2017) 人类偏好深度强化学习;DeepSeek AI (2025) 强化学习激励 LLM 推理;Elsayed M. 等 (2024) 流式深度强化学习;Gehring J. 等 (2025) RLEF:执行反馈代码 LLM;DeepMind (2016) AI 降低 Google 冷却成本 40%;Google DeepMind (2024) Gemini 闪速思考;Google DeepMind (2024) Mariner 项目;Kojima T. 等 (2022) LLM 零样本推理;Le H. 等 (2022) CodeRL:掌握代码生成;Lightman H. 等 (2023) 逐步验证;Mahdavi H. 等 (2025) LLM 奥数评估;Masoom H. 等 (2024) AI 解决 IMO 达银牌标准;Mnih V. 等 (2015) 深度强化学习人类控制;Moravčík M. 等 (2017) DeepStack:扑克专家 AI;OpenAI (2024) O1 Mini:高效推理;OpenAI (2025) Operator 发布;Ouyang L. 等 (2022) 人类反馈训练 LLM;Perolat J. 等 (2022) 强化学习掌握 Stratego;Petrov I. 等 (2025) LLM 数学奥赛评估;Sadler M. 和 Regan N. (2019) 游戏改变者;Schrittwieser J. 等 (2019) 规划模型掌握游戏;Schurmanns D. (2023) 记忆增强 LLM 计算通用性;Silver D. 等 (2016) 深度网络掌握围棋;Silver D. 等 (2018) 自我对弈掌握棋类游戏;Silver D. 等 (2017) 无人类知识掌握围棋;Silver D. 等 (2021) 奖励足够;Sutton R.S. (1988) 时间差分预测学习;Sutton R.S. (1990) 动态规划学习架构;Sutton R.S. 和 Barto A.G. (2018) 强化学习导论;Sutton R.S. 等 (1999) 强化学习时间抽象框架;Tesauro G. (1994) TD-Gammon 达大师级;Vinyals O. 等 (2019) StarCraft II 大师级;Wurman P.R. 等 (2022) AI 超越赛车冠军;Yang M.S. 等 (2022) 思维链模仿;Yao S. 等 (2023) React:LLM 推理行动协同;Zelikman E. 等 (2022) Star:推理引导推理;Zhou Y. (2018) AlphaGo 对围棋开局影响。

原文链接:https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf


© 2025 智人飞扬