人工智能、认知行为、自我改进·

从认知行为看语言模型的自我进化

探索语言模型如何通过验证、回溯、子目标设定和逆向推理等认知行为实现自我提升,揭示初始能力与改进潜力的深层联系

语言模型的进步有时让人瞠目结舌,但其背后的奥秘却常被忽视。近年来,测试时推理(test-time inference)崭露头角,这种方法让模型在面对复杂问题时,能够投入更多时间、更审慎地推敲,颇似人类专家在棘手任务前的深思熟虑。通过强化学习(reinforcement learning,简称 RL),语言模型在可验证的任务上展现出自我改进的潜力。然而,令人困惑的是,有些模型能大幅提升性能,而另一些却很快停滞不前。例如,在数字游戏 Countdown 中,Qwen-2.5-3B 远超 Llama-3.2-3B,尽管两者的 RL 训练条件一致。这种差异引出了一个深刻的问题:究竟是什么内在特质,决定了模型能否在额外计算中变得更聪明?

与其凭空猜测,不如从人类解决问题的智慧中寻找线索。设想一位数学家面对一道难题:她不会漫无目的地尝试,而是步步验证,发现错误时果断回溯,有时将问题拆解为小块,甚至从目标倒推至起点。这些行为——验证(verification)、回溯(backtracking)、子目标设定(subgoal setting)、逆向推理(backward chaining)——并非随意堆砌,而是构成了一种动态的、非线性的搜索式思维。假如语言模型也能展现类似的特质,或许能揭示其自我进化的秘密。

研究表明,Qwen 在初始状态下已自然具备这些认知行为,而 Llama 则几乎毫无踪迹。通过实验用包含这些行为的示例对 Llama 进行预处理(priming),其在 RL 训练中的表现显著提升,甚至能与 Qwen 匹敌。更令人惊讶的是,即便预处理的示例答案错误,只要推理模式合理,改进依然可观。这暗示,驱动进步的不是答案的正确性,而是认知行为的存在。再进一步,通过筛选和调整预训练数据(如 OpenWebMath),强化这些行为后,Llama 的改进轨迹也能与 Qwen 看齐。这些发现指向一个核心洞见:模型的初始认知行为与其改进能力之间,存在着某种根本的联系。

行为的起点

要理解语言模型如何利用额外计算变得更聪明,不妨先思考人类如何应对难题。面对一个难解但并非无解的问题,人们往往会慢下来,深思熟虑。数学家验证每一步的证明,棋手在失利时调整策略,工程师将大项目拆分为小任务。这种结构化的思维并非天生,而是经验的结晶。类似地,语言模型在强化学习中也能培养出这样的能力,但前提是其初始状态中已潜伏着这些行为的影子。

以 Countdown 游戏为例,这是一个用加、减、乘、除从一组数字中凑出目标值的挑战。Qwen 在训练初期便展现出验证和回溯的倾向:尝试 84 + 83 - 72 - 34 = 61,发现不对后调整为 84 + 72 - 83 - 34 = 39,最终命中目标。而 Llama 则循规蹈矩,缺乏灵活调整的迹象。这种差异在 RL 训练中被放大:Qwen 的准确率从低点攀升至 60%,而 Llama 仅徘徊在 30%。显然,初始行为的丰富性,深刻影响了模型利用测试时计算的能力。

与其泛泛而谈,不如构建一个框架,聚焦于四种关键行为:

  1. 验证:检查中间结果是否符合预期,如「让我确认一下……」
  2. 回溯:放弃无效路径,另寻他法,如「这条路不通,换个思路……」
  3. 子目标设定:将难题拆解为小目标,如「先凑出一个接近 10 的数」
  4. 逆向推理:从目标反推步骤,如「要得 24,需先有个 8 乘以 3」

这些行为并非包罗万象,但它们跳出了语言模型常见的线性思维,展现了一种搜索式的推理方式,类似人类专家在数学或策略游戏中的表现。

干预的力量

如果初始行为如此关键,能否通过干预让缺乏这些能力的模型脱胎换骨?答案令人振奋。通过用合成数据预处理 Llama,植入回溯和验证的推理轨迹,其在 RL 训练中的表现迅速提升,足以媲美 Qwen。更不可思议的是,即使用错误的解答预处理,只要其中蕴含合理的推理模式,效果依然显著。这表明,认知行为本身才是改进的引擎,而非答案的正确性。

实验进一步揭示了这一动态。用空推理链(empty chain-of-thought)预处理时,仅增加计算步骤而不引入行为,Llama 的性能几乎纹丝不动,甚至 Qwen 的探索能力也受抑。反之,当用包含所有策略的完整推理轨迹预处理时,模型不仅提升了准确率,还能根据任务需求选择性强化某些行为(如回溯和验证),而淡化其他行为(如逆向推理)。这暗示,强化学习并非盲目放大一切,而是依赖初始状态中已有的行为种子,加以培育。

不过,这种预处理依赖特定任务(Countdown),可能限制其普适性。于是,可以转向更广域的干预:调整预训练数据。分析 OpenWebMath 后发现,即便在数学语料中,验证和回溯也极为罕见。通过筛选和重构数据,强化这些行为的频率,再对 Llama 进行持续预训练,结果令人振奋:其改进轨迹几乎与 Qwen 重合。这表明,初始行为的植入不仅可行,还能通过数据层面的精心设计实现。

从种子到果实

这些观察拼凑出一幅清晰的图景:语言模型的自我改进并非凭空降临,而是根植于其初始的认知行为。Qwen 的成功并非侥幸,而是因为其已具备验证和回溯的倾向;Llama 的停滞,则映射出其起点的贫瘠。通过预处理或数据调整,可以为模型注入这些能力,让其在强化学习中找到突破之路。

这不仅解释了模型间的差异,还为未来指明方向。人类的认知行为是漫长进化的产物,而语言模型或许也能沿类似路径,逐步发掘新的推理策略。当前的四种行为只是开端,其他模式,如类比推理或自我评估,可能同样值得挖掘。关键在于,理解并塑造这些行为,或许是通向更智能系统的基石。

当然,行为的权重因任务而异。在 Countdown 中,回溯和验证至关重要;而在编程或写作中,其他模式可能更突出。未来的探索需深入任务特性与行为的互动。此外,预训练数据的筛选虽有效,但如何在大规模、多样化的语料中实现,仍需进一步思考。

超越已知

语言模型的自我进化之旅才刚启程。人类面对难题时,靠的不仅是计算能力,更是一种结构化的思维方式。类似地,赋予模型认知行为,不仅能提升其解题能力,还可能开启新的推理维度。正如 Wittgenstein 所言:「我的语言的界限意味着我的世界的界限。」通过扩展模型的「语言」——不仅是词汇,而是推理的行为模式——或许能真正拓宽其智能的疆域。

最终,人工智能的潜力或许不只在于复制人类的智慧,而在于创造出超越我们想象的思维方式。这种可能性,既是挑战,也是希望。


© 2025 智人飞扬