2025 年 8 月 18 日
彩票假说解释了为什么大规模神经网络能够成功,尽管几个世纪的理论预测它们应该失败
五年前,如果有人建议 AI 研究人员训练具有数万亿参数的神经网络,会招来同情的目光。这违背了机器学习最基本的规则:让你的模型过于庞大,它就会变成一个美化的复印机,记住训练数据却学不到任何有用的东西。
这不仅仅是惯例——这是数学定律,有着三个世纪统计理论的支撑。每一本教科书都展示着同样不可避免的曲线:小模型欠拟合,最优模型泛化,大模型灾难性过拟合。故事结束。
然而今天,那些「不可能」的大规模模型为 ChatGPT 提供动力,解码蛋白质,并引发了价值数千亿美元的全球军备竞赛。改变的不仅仅是计算能力——而是我们对学习本身的理解。这种转变背后的故事揭示了 AI 领域最大的突破是如何从那些勇于忽视自己领域基础假设的研究人员中产生的。
统治机器学习的铁律
超过 300 年来,有一个原则支配着每个学习系统:偏差-方差权衡。数学是优雅的,逻辑是无懈可击的。构建一个过于简单的模型,它会错过关键模式。构建得过于复杂,它就会记住噪声而不是信号。
想象一个学生学习算术。给他们展示数千个有答案的加法问题,他们可能会用两种方式学习。聪明的方法:掌握进位和位值的底层算法。愚蠢的方法:记住每一个例子。第二种策略在作业上能得满分,但在考试中完全失败。
神经网络似乎特别容易陷入这种记忆陷阱。拥有数百万个参数,它们可以轻易存储整个数据集。传统理论预测这些过参数化网络会表现得完全像记忆的学生——在训练数据上完美无缺,在任何新内容上毫无希望。
这种理解塑造了一切。研究人员痴迷于架构技巧、正则化技术和数学约束,以从小型、精心控制的模型中榨取性能。扩大规模被视为昂贵的愚蠢行为。
该领域最受尊敬的声音强化了这种正统观念。「更大的模型只会过拟合」成了咒语。会议论文专注于效率,而不是规模。仅仅通过添加更多参数就能解决问题的想法是学术异端。
打破规则的异端者
2019 年,一群研究人员犯下了终极罪恶:他们忽视了警告,继续扩大规模。他们没有在网络达到完美训练精度时停止——理论大声疾呼「危险」的那个点——而是进一步推向禁区。
接下来发生的事情粉碎了 300 年的学习理论。
模型没有崩溃。在最初看似记住训练数据的跌跌撞撞之后,发生了非凡的事情。性能开始再次提高。大幅提高。
这种现象被称为「双下降」——首先是模型过拟合时预期的误差上升,然后是意外的第二次下降,因为它们以某种方式完全超越了过拟合。记录这一发现的 Mikhail Belkin 和他的同事指出,这「与从偏差-方差分析中得出的传统智慧相矛盾」。
其影响波及整个 AI 研究。OpenAI 后续的工作揭示了这些好处延伸到多个数量级。更大的模型不仅仅是积累更多事实——它们正在发展质量上全新的能力,包括仅从示例中学习任务的能力。
突然间,整个领域发生了转向。Google、Microsoft、Meta 和 OpenAI 投入数十亿美元构建越来越大的模型。GPT 系列从 1.17 亿参数爆炸到 1750 亿参数。理论所禁止的「越大越好」哲学成为行业的北极星。
但有一个问题困扰着每个研究人员:为什么这些都能奏效?
拯救学习理论的彩票
答案来自一个意想不到的角落:对神经网络彩票的研究。2018 年,MIT 的 Jonathan Frankle 和 Michael Carbin 正在研究剪枝——在训练后移除不必要的权重。他们的发现将为扩展悖论提供优雅的解决方案。
在每个大型网络中,他们发现了隐藏的「中奖彩票」——能够匹配完整网络性能的微小子网络。他们可以去除 96% 的参数而不损失准确性。每个成功网络的绝大部分本质上都是死重量。
但关键洞察在于:这些获胜的子网络只有在其原始随机起始权重下才能成功。改变初始值,同样稀疏的架构就会完全失败。
彩票假说结晶了:大型网络的成功不是通过学习复杂解决方案,而是通过提供更多机会来找到简单的解决方案。每个权重子集代表不同的彩票——一个具有随机初始化的潜在优雅解决方案。大多数彩票都输了,但有了数十亿张彩票,获胜变得不可避免。
在训练过程中,网络不会搜索完美的架构。它已经包含了无数个小网络,每个都有不同的起始条件。训练变成了一次大规模抽奖,最佳初始化的小网络胜出,而数十亿个其他网络消失。
这一启示调和了经验成功与经典理论。大型模型不是在记忆——它们在广阔的参数空间中找到了隐藏的优雅简单解决方案。奥卡姆剃刀完好无损地幸存下来:最简单的解释仍然是最好的。规模只是成为了寻找这些简单解释的更精巧工具。
智能实际上的样子
其影响超越了人工智能。如果学习意味着找到解释数据的最简单模型,而更大的搜索空间能够实现更简单的解决方案,这就重新定义了智能本身。
考虑你的大脑:860 亿个神经元,数万亿个连接,按任何标准衡量都是大规模过参数化的。然而你擅长从有限的例子中学习并泛化到新情况。彩票假说表明这种神经丰富度服务于同样的目的——为任何问题提供大量潜在的简单解决方案。
智能不是关于记忆信息——它是关于找到解释复杂现象的优雅模式。规模提供了这种搜索所需的计算空间,而不是复杂解决方案的存储。
这一发现也阐明了科学进步。几十年来,研究人员避免扩展,因为理论说它不会奏效。突破来自经验勇气——测试假设而不是接受它们。
这种模式在整个科学中都有回响。大陆漂移被忽视,直到板块构造论提供了机制。量子力学看起来荒谬,直到实验变得压倒性。最重要的发现往往需要突破公认理论的边界。
然而彩票假说并没有推翻经典学习——它揭示了这些原理如何比想象的更精巧地运作。简单的解决方案仍然是最优的;我们发现了找到它们的更好方法。
对于 AI 开发,这种理解既暗示了希望也暗示了限制。扩展之所以有效,是因为更大的模型提供了更多彩票,更多找到最优解决方案的机会。但这种机制意味着自然边界。随着网络在找到最小解决方案方面变得更成功,额外的规模产生递减回报。
这与专家对当前方法限制的担忧一致。Yann LeCun 认为,无论规模如何,基础架构约束都可能阻止语言模型实现真正的理解。彩票机制解释了当前的成功,同时暗示了未来的挑战。
优雅的惊喜
彻底改变 AI 的意外发现提供了深刻的教训:对于那些勇于测试传统智慧边界的人,宇宙往往蕴含着优雅的惊喜。有时最深刻的洞察不是来自推翻既定原则,而是从发现它们以比我们想象的更精巧的方式运作。
进化本身遵循类似的原则,探索广阔的基因可能性空间以找到优雅的生存解决方案。最成功的生物不是最复杂的——它们是适应性最高效的。
对于学习理论来说,看似危机的东西成了它的辩护。偏差-方差权衡幸存下来,但我们了解到它通过比任何人怀疑的更微妙的机制运作。大型神经网络的成功不是通过打破规则——它们通过在我们从未想过的层次上遵守规则而成功。
那些敢于扩展到理论舒适区之外的研究人员不仅推进了 AI——他们提醒我们,经验现实有时蕴含着理论尚未掌握的智慧。在一个建立在数学确定性基础上的领域,最重要的发现来自于拥抱不确定性本身。
- 300 年的时间框架指的是现代偏差-方差分析基础数学原理,而不是当代术语。贝叶斯定理(1763)为用证据更新信念建立了数学框架,而拉普拉斯早期关于统计推断的工作(1780 年代-1810 年代)形式化了模型必须平衡拟合与简单性以避免虚假结论的原则。这些早期的统计洞察——过于复杂的解释往往捕捉噪声而不是信号——构成了我们现在称为偏差-方差权衡的数学基石。具体的现代表述是在 20 世纪后半叶的几十年中出现的,但核心原则已经支配统计推理几个世纪了。