AI、工程、论文·

2025 年 AI 工程师必读清单 [译]

为 AI 工程师精心策划的年度必读论文与技术资料

我们在 2024 年度最佳系列 中邀请的所有演讲者都为 2024 年做了总结。自从我们发布了 Paper Clubs 的文章后,经常有人询问是否有一个推荐阅读清单,供那些在工作中或与朋友一起从零开始学习的人使用。我们最初参考了 2023 年的 a16z 必读经典,但它需要更新到 2025 年,并且需要更注重实践。

在此,我们为 AI 工程师策划了「必读」论文清单。我们的设计目标是:

  • 挑选约 50 篇论文(一年大约每周一篇),可选择性阅读其他额外内容。这是一个任意的限制。
  • 说明为什么这篇论文很重要,而不是仅仅点名而不提供有用的背景信息
  • 对 AI 工程师来说要非常实用;不会浪费时间在《Attention is All You Need》这样的论文上,因为:1)每个人 都是 从那里开始的,2)大多数人在工作中并不会真正需要它

我们最终为每个版块选择了 5 篇「论文」:

  • 第 1 节:前沿大语言模型
  • 第 2 节:基准和评测
  • 第 3 节:提示工程、上下文学习和思维链
  • 第 4 节:检索增强生成
  • 第 5 节:代理
  • 第 6 节:代码生成
  • 第 7 节:视觉
  • 第 8 节:语音
  • 第 9 节:图像/视频扩散
  • 第 10 节:微调

第 1 节:前沿大语言模型

  1. GPT1GPT2GPT3CodexInstructGPTGPT4 论文。不言自明。GPT3.54oo1o3 倾向于发布启动活动和系统卡片,而不是论文。
  2. Claude 3Gemini 1 论文用于了解竞争对手。最新版本是 Claude 3.5 SonnetGemini 2.0 Flash / Flash Thinking。还有 Gemma 2
  3. LLaMA 1Llama 2Llama 3 论文用于了解领先的开源模型。你也可以将 Mistral 7BMixtralPixtral 视为 Llama 家族树的一个分支。
  4. DeepSeek V1CoderMoEV2V3 论文。领先的(相对)开源模型实验室。
  5. Apple Intelligence 论文。它存在于每台 Mac 和 iPhone 中。

第 2 节:基准和评测

  1. MMLU 论文:主要的「知识」基准测试,还有 GPQABIG-Bench。2025 年前沿实验室使用 MMLU ProGPQA DiamondBIG-Bench Hard
  2. MuSR 论文:评估「长上下文」,还有 LongBenchBABILongRULER。解决 Lost in The Middle 和其他问题,使用 Needle in a Haystack
  3. MATH 论文:一个「数学竞赛问题」的集合。前沿实验室专注于 MATH 的子集:MATH Level 5、AIMEFrontierMathAMC10/AMC12
  4. IFEval 论文:领先的「指令跟随」评估工具,也是唯一被 Apple 采用的外部基准。另见 MT-Bench,它可以视为一种指令跟随评估形式。
  5. ARC AGI 挑战:一个著名的「抽象推理」IQ 测试基准,比许多快速饱和的基准存在更长时间。

第 3 节:提示工程、上下文学习和思维链

  1. The Prompt Report 论文:提示工程论文的综述(播客)。
  2. Chain-of-Thought 论文:多篇声称普及「思维链」的论文之一,还有 ScratchpadsLet’s Think Step By Step
  3. Tree of Thought 论文:引入「前瞻」和「回溯」(播客)。
  4. Prompt Tuning 论文:当提示不够用时,可以采用 Prefix-Tuning调整解码(例如通过熵)或表征工程
  5. Automatic Prompt Engineering 论文:越来越明显的是,人类在零样本提示方面表现不佳,而「提示本身」可以通过 LLM 增强。这方面最著名的实现是 DSPy 论文/框架。

第 4 节:检索增强生成

  1. 信息检索导论:推荐一本书可能有些不公平,但我们想强调的是 RAG 是一个 IR 问题,而 IR 已经有 60 年的历史,其中包括 TF-IDFBM25FAISSHNSW 等众多「无聊」但重要的技术。
  2. Meta RAG 论文:首次提出了检索增强生成的概念。原作者现已创立 Contextual 并提出了 RAG 2.0。现代 RAG 的「标配」包括 HyDE分块重排序器多模态数据 等。
  3. MTEB:大规模文本嵌入基准 论文:目前事实上的领导者,尽管存在一些已知问题。嵌入技术有众多相关论文,选择适合你的方法,如 OpenAINomic Embed、Jina v3、cde-small-v1 等。
  4. GraphRAG 论文:微软尝试为 RAG 添加知识图谱的研究,目前已经开源。2024 年 RAG 的重要趋势之一,与 ColBERT、ColPali 和 ColQwen 并列。
  5. RAGAS 论文:一个简单但实用的 RAG 评估工具,被 OpenAI 推荐。另见 Nvidia FACTS 框架LLM 中的外生幻觉

第 5 节:代理

  1. SWE-Bench 论文:现被 Anthropic、Devin 和 OpenAI 采用,可能是目前最高知名度的代理基准。技术上是一个编码基准,但更多用于测试代理而非原始 LLM。另见 SWE-AgentSWE-Bench MultimodalKonwinski Prize
  2. ReAct 论文:首次对工具使用和函数调用 LLM 进行了长期研究。这一领域的历史性贡献包括 ToolformerHuggingGPT
  3. MemGPT 论文:模拟长期运行代理记忆的方法之一,被 ChatGPTLangGraph 采用。
  4. Voyager 论文:Nvidia 提出的认知架构尝试,涵盖了课程、技能库、沙盒三个主要组件,目标是提高性能。
  5. Anthropic 关于构建有效代理的文章:2024 年的重要回顾,强调了「链接、路由、并行化、编排、评估和优化」的意义。另见 OpenAI Swarm

第 6 节:代码生成

  1. The Stack 论文:一个开放的数据集,与专注于代码的 The Pile 配对,开启了从 The Stack v2StarCoder 的优秀开源代码生成工作。
  2. 开源代码模型论文:例如 DeepSeek-CoderQwen2.5-CoderCodeLlama
  3. HumanEval/Codex 论文:代码生成领域的重要基准。尽管该基准已趋于饱和,但仍需了解它的核心意义。
  4. AlphaCodeium 论文:展示了如何通过「流程工程」来提升任何基础模型的性能。
  5. CriticGPT 论文:OpenAI 开发的工具,用于发现可能存在安全问题的代码。另见 Anthropic 的 SAE 分析

第 7 节:视觉

  1. 非 LLM 视觉工作:例如 YOLO 论文(现已更新至 v11),但需要注意其谱系。此外,越来越多的 Transformer 模型如 DETR 已超越 YOLO。
  2. CLIP 论文:Alec Radford 开创的第一个成功的视觉 Transformer (ViT),现已被 BLIPPaliGemma 等模型取代。
  3. MMVP 基准:用于量化 CLIP 的问题,等效于视觉版 MMLU。
  4. Segment Anything ModelSAM 2 论文:非常成功的图像和视频分割基础模型。
  5. 早期融合研究:例如 FlamingoChameleonReka Core。相比「后期融合」方法(如 LLaVA),早期融合表现出更大的潜力。

第 8 节:语音

  1. Whisper 论文:由 Alec Radford 开发的成功语音识别模型,其后续版本包括 v2v3distil-whisper,以及 v3 Turbo
  2. AudioPaLM 论文:在 PaLM 成为 Gemini 之前,这是谷歌语音研究的最后一次主要更新。另见 Meta 的 Llama 3 语音探索
  3. NaturalSpeech 论文:几种领先语音合成方法之一。其最新版本 v3 展示了更多创新。
  4. Kyutai Moshi 论文:一个令人印象深刻的全双工语音-文本开放权重模型,其高知名度演示令人关注。另见 Hume OCTAVE
  5. OpenAI 实时 API:缺失的手册:尽管前沿语音模型大多没有发表论文,但我们尽最大努力记录了 OpenAI 的实时 API。

第 9 节:图像/视频扩散

  1. Latent Diffusion 论文:即 Stable Diffusion 论文,其后续版本包括 SD2SDXLSD3。团队现正在开发 BFL Flux
  2. DALL-E / DALL-E-2 / DALL-E-3 论文:OpenAI 的图像生成模型。
  3. Imagen / Imagen 2 / Imagen 3 论文:谷歌的图像生成模型。另见 Ideogram
  4. Consistency Models 论文:这项蒸馏研究催生了 2023 年的快速绘画病毒传播,现已更新为 sCM
  5. Sora 博客文章:尽管文本转视频模型大多没有论文,但 DiT 论文 展示了相关方法。OpenSora 等竞争者正在快速崛起(Lilian Weng 的综述提供了更多背景)。

第 10 节:微调

  1. LoRA/QLoRA 论文:事实上的廉价模型微调方法,无论是在本地模型还是大型模型上都非常流行。
  2. DPO 论文:作为 PPO 的替代方案,现被 OpenAI 用于偏好微调。
  3. ReFT 论文:提出了聚焦于特征而非微调层的新方法。
  4. Orca 3/AgentInstruct 论文:探讨如何通过合成数据提升微调性能。
  5. RL/推理微调论文Let’s Verify Step By Step 提供了新方法,而 Noam Brown 的公开演讲 则进一步展示了实际应用。

我们建议查看 Unsloth 笔记本 和 HuggingFace 的如何在 2025 年微调开源 LLM 来了解完整流程。这显然是一个永无止境的深度话题,在极端情况下与研究科学家轨道重叠。


我们是否遗漏了什么明显的内容?这很有可能。请在下面评论,我们会更新并致谢以帮助社区。

阅读愉快!

感谢 Eugene YanVibhu Sapra 对这个清单提出的精彩建议。

原文链接:https://www.latent.space/p/2025-papers


© 2025 智人飞扬