缩放定律的奥秘:从物理学视角看通向人级 AI 之路
在 AI 发展的历史长河中,很少有发现能像缩放定律(Scaling Laws)这样根本性地改变我们对智能系统未来的认知。当 Anthropic 联合创始人 Jared Kaplan 从一个理论物理学家的身份转向 AI 研究时,他带来的不仅仅是科学训练的严谨性,更是一种独特的视角——用物理学家的眼光来审视 AI 的发展规律。
从宇宙的奥秘到智能的法则
Kaplan 的学术生涯始于一个颇具科幻色彩的梦想:他想要构建超光速引擎,想要理解宇宙是否是决定性的,我们是否拥有自由意志。这些深刻的哲学问题驱使他踏上了理论物理学的道路,从大型强子对撞机物理学到粒子物理学,从宇宙学到弦理论。
然而,正如许多杰出的科学家一样,Kaplan 逐渐意识到传统物理学的进展似乎过于缓慢。当他的朋友们开始告诉他 AI 正在成为"下一个大事件"时,他最初是怀疑的。"AI?人们已经研究了 50 年了,支持向量机也不过如此。"这是 2005-2009 年间他的想法。
但现实很快证明了他的朋友们是对的。当 Kaplan 真正投入到 AI 研究中时,他发现了一个令人震惊的事实:AI 的发展遵循着与物理学同样精确的数学定律。
缩放定律:AI 发展的"万有引力定律"
作为一个物理学家,Kaplan 习惯于提出"愚蠢"的问题。当整个 2010 年代都在谈论"大数据"的重要性时,他问的是:"数据到底应该有多大?它到底有多重要?能帮助多少?"当人们注意到更大的 AI 模型表现更好时,他问的是:"到底能好多少?"
这些看似简单的问题,却引导他们发现了 AI 史上最重要的规律之一。通过精确的实验,他们发现了一个令人震惊的现象:AI 模型的性能与计算量、数据集大小、神经网络规模之间存在着精确的数学关系。
这种关系的精确性让 Kaplan 和他的团队感到震惊。它们就像物理学或天文学中的定律一样精确。更重要的是,这些趋势跨越了多个数量级,意味着它们很可能会在很长时间内继续有效。
两个阶段的训练奥秘
现代 AI 模型如 Claude 和 ChatGPT 的训练包含两个基本阶段:
预训练阶段:模型学习模仿人类书面数据,理解数据中的相关性。简单来说,就是学习预测下一个词最可能是什么。这个看似简单的任务,却让模型掌握了语言的深层结构和世界知识。
强化学习阶段:通过人类反馈,模型学习什么样的行为是有用的、诚实的、无害的。这个阶段让模型从一个单纯的"预测机器"转变为有用的助手。
令人惊喜的是,这两个阶段都遵循着缩放定律。更多的计算、更大的模型、更多的数据,都能带来可预测的性能提升。
时间视野:智能任务复杂度的指数增长
也许缩放定律最令人兴奋的发现之一,是关于 AI 模型能够处理的任务时间长度。研究表明,AI 模型能够完成的任务复杂度大约每 7 个月翻倍。
这意味着什么?如果今天的 AI 模型能够完成需要几分钟的任务,那么明年它们可能能够完成需要几小时的任务,后年是几天,再后年是几周、几个月。
按照这个趋势推测,未来几年内,我们可能会看到 AI 模型能够完成需要人类组织数年才能完成的工作。想象一下,AI 系统能够独立完成整个科学研究项目,或者协作完成人类理论物理学界需要 50 年才能取得的进展。
通向 AGI 的路线图
那么,要实现真正的人级 AI(AGI),我们还需要什么?Kaplan 认为主要有几个关键要素:
1. 相关的组织知识
AI 模型需要能够在公司、组织、政府中工作,拥有那些在那里工作多年的人才有的上下文信息。
2. 记忆系统
对于长时间的任务,AI 需要能够跟踪自己的进展,建立相关记忆并有效利用它们。这正是 Claude-4 开始具备的能力。
3. 精细化监督
AI 需要理解细微差别,解决模糊的任务。目前训练 AI 编写通过测试的代码相对容易,因为对错很明确。但我们需要能够训练 AI 讲好笑话、写好诗歌、在研究中表现出好品味。
4. 多模态扩展
从文本模型到多模态模型,再到机器人技术,AI 需要在更多领域展现智能。
物理学家的智慧:简单问题的力量
Kaplan 的成功很大程度上归功于他从物理学带来的方法论:寻找最大的、最宏观的趋势,然后尽可能精确地描述它们。
他回忆起遇到杰出的 AI 研究者时,他们会说"学习收敛是指数的",而他会问:"你确定是指数的吗?不可能是幂律吗?是二次的吗?到底是如何收敛的?"这些"愚蠢"而简单的问题,最终导致了缩放定律的发现。
这种方法论的价值在于,只有当你精确地描述了趋势,你才能真正理解什么叫"移动指针"。在缩放定律中,圣杯是找到更好的斜率,因为这意味着当你投入更多计算时,你会获得比其他 AI 开发者更大的优势。
对创业者的启示
对于正在构建 AI 产品的创业者,Kaplan 给出了几个关键建议:
1. 构建暂时不太工作的产品
由于 AI 模型正在快速改进,如果你构建的产品现在因为 Claude-4 还有点"笨"而不太工作,你可以期待即将到来的 Claude-5 会让产品正常工作并产生大量价值。
2. 利用 AI 来集成 AI
AI 发展如此迅速,以至于我们还没有时间将其集成到产品、公司和其他各个方面。利用 AI 来加速 AI 集成过程将非常有价值。
3. 寻找快速采用的领域
软件工程已经看到了 AI 集成的爆炸式增长。下一个能够如此快速增长的领域是什么?这是关键问题。
人机协作的未来图景
在通向 AGI 的路上,人机协作将发挥核心作用。AI 在两个维度上展现出不同的优势:
- 深度智能:像数学中的费马大定理或哥德巴赫猜想这样的问题,需要在一个非常具体的难题上工作十年。
- 广度智能:将来自许多不同领域的信息整合起来,这在生物学、心理学或历史学中特别有用。
AI 模型在预训练阶段吸收了人类文明的所有知识,因此它们在广度方面有着独特的优势。而人类在深度思考、判断和管理方面仍然不可替代。
结语:缩放定律的哲学意蕴
Jared Kaplan 从追求超光速引擎的理论物理学家,到发现 AI 缩放定律的研究者,这个转变本身就体现了科学探索的美妙之处。有时候,最深刻的发现来自于最简单的问题,最革命性的洞察来自于跨学科的视角。
缩放定律不仅仅是一个技术发现,它更像是一面镜子,让我们看到智能本身可能遵循着某种深层的数学规律。就像牛顿的万有引力定律揭示了物理世界的秩序一样,缩放定律可能揭示了智能发展的内在逻辑。
在这个视角下,通向 AGI 的道路不再是充满不确定性的探索,而是一个有规律可循的工程问题。虽然我们还不能精确预测 AGI 的到来时间,但我们已经有了清晰的路线图。
这或许是 Kaplan 给我们最大的启示:在面对未知的复杂系统时,永远不要忘记提出最简单、最"愚蠢"的问题。因为正是这些问题,往往能够揭示最深刻的真理。
本文基于 Jared Kaplan 在 2025 年 6 月 Y Combinator AI 创业学校的演讲内容创作,融合了作者对 AI 发展趋势的思考和解读。