人工智能、机器学习·

验证的不对称性与验证者法则 [译]

验证的不对称性是指某些任务的验证过程比解决过程要简单得多,这一理念在人工智能领域非常重要。

验证的不对称性是指某些任务的验证过程比解决过程要简单得多。随着强化学习(RL)在一个更广泛的意义上终于取得进展,验证的不对称性正成为人工智能领域最重要的理念之一。

通过例子理解验证的不对称性

如果你仔细观察,验证的不对称性无处不在。一些典型例子:

  • 数独和填字游戏的解题时间非常长,因为需要尝试许多候选答案并满足各种约束,但检查给定解是否正确却是微不足道的。
  • 编写像 Instagram 这样的网站的代码需要一支工程师团队耗费多年,但任何外行都可以很快验证该网站是否正常工作。
  • 解决 BrowseComp 问题通常需要浏览数百个网站,但验证任何给定答案可以更快进行,因为你可以直接搜索该答案是否满足约束条件。

某些任务在验证上几乎对称:验证所需时间与自己撰写解题方案的时间相似。例如,验证某些数学题的答案(例如,加法两组各 900 位数字)通常与自己解决问题所需的工作相同。另一个例子是一些数据处理程序;遵循他人的代码并验证其是否有效通常与自己编写解决方案所需的时间相当。

有趣的是,一些任务的验证反而可能比提出解决方案所需的时间更长。例如,核实一篇文章中所有陈述的真实性可能比写那篇文章本身花费的时间要长(引出 Brandolini 的法则:“反驳无稽之谈所需的能量比产生它所需的能量大一个数量级。”)。许多科学假设的验证也比提出它们更为困难。例如,陈述一种新颖的饮食方式(“只吃野牛和西兰花”)很简单,但验证这种饮食对普通人群是否有益却可能需要数年时间。

改善验证的不对称性

关于验证的不对称性,一个最重要的认识是,可以通过对任务进行前期研究来实际改善这种不对称性。例如,对于一个竞赛数学问题,如果你手头有答案,检查任何建议的最终答案是微不足道的。另一个很好的例子是一些编码问题:虽然阅读代码并检查其正确性很繁琐,但如果你有充分覆盖的测试案例,可以快速检查任何给定的解决方案;实际上,这正是 Leetcode 的做法。在某些任务中,改善验证是可能的,但还不足以使其变得微不足道。例如,对于“说出一位荷兰足球运动员”的问题,拥有一份著名荷兰足球运动员的名单会有所帮助,但在许多情况下,验证仍然需要工作。

验证者法则

验证的不对称性为何重要?如果考虑深度学习的历史,就会发现几乎所有可以测量的事物都可以被优化。从强化学习的角度来看,验证解决方案的能力与创建 RL 环境的能力等价。因此,我们有:

验证者法则:训练人工智能解决任务的难易程度与任务的可验证性成正比。所有可以解决且易于验证的任务都将被人工智能解决。

更具体地说,训练人工智能解决任务的能力与任务是否具备以下特征成正比:

  1. 客观真实:所有人对良好解决方案的理解一致。
  2. 快速验证:任何给定的解决方案可以在几秒钟内进行验证。
  3. 可扩展验证:许多解决方案可以同时进行验证。
  4. 低噪音:验证尽可能与解决方案质量密切相关。
  5. 连续奖励:对于单个问题,容易对多个解决方案的优劣进行排序。

不难相信验证者法则是成立的:迄今为止,提出的绝大多数人工智能基准都是易于验证的,因此都已被解决。请注意,过去十年几乎所有流行的基准都符合第 1 至 4 条标准;不符合这些标准的基准很难流行。值得注意的是,尽管大多数基准不符合第 5 条标准(解决方案要么是完全正确,要么不是),但你可以通过对多个例子的二元奖励进行平均来计算连续奖励。

验证性为何如此重要?在我看来,最根本的原因是,当满足上述标准时,神经网络中的学习量得到了最大化;你可以进行大量的梯度步,每一步都有很强的信号。迭代速度至关重要——这是数字世界相比物理世界进展如此迅速的原因。

AlphaEvolve

近年来,利用验证的不对称性的最伟大的公开实例或许是 AlphaEvolve,由谷歌开发。简而言之,AlphaEvolve 可以被视为一种非常聪明的猜测和检查实例,允许对目标进行无情的优化,从而产生了许多数学和操作上的创新。

AlphaEvolve 优化的一个简单问题是“找到可以适配 11 个单位六边形的最小外六边形”。要注意,这个问题符合验证者法则的所有五个期望属性。实际上,我相信在未来几年内,任何符合这五个属性的可解问题都将被解决。

关于 AlphaEvolve 解决的问题类型,有一点可以被视为是对单一问题的“过拟合”。在传统的机器学习中,我们已经知道训练集中的标签,重要的测试是测量对未见问题的泛化能力。然而,在科学创新中,我们处于一个完全不同的领域,因为我们只关心解决单一问题(训练=测试!),因为这是一个未解决的问题且潜在价值极高。

影响

一旦你了解了这一点,你会发现验证的不对称性无处不在。设想一个我们所能测量的任何事物都能被解决的世界是令人兴奋的。我们可能会拥有一个智能的锯齿型边缘,其中人工智能在可验证任务上的智力显著更高,因为解决可验证任务要容易得多。未来的前景令人兴奋。

关于这一主题的更多相关阅读,我推荐 Alperen Keles 的这篇博文

原文链接:https://www.jasonwei.net/blog/asymmetry-of-verification-and-verifiers-law


© 2025 智人飞扬