2025 年 AI 工程师必读清单 [译]

我们在 2024 年度最佳系列中邀请的所有演讲者都为 2024 年做了总结。自从我们发布了 Paper Clubs 的文章后，经常有人询问是否有一个推荐阅读清单，供那些在工作中或与朋友一起从零开始学习的人使用。我们最初参考了 2023 年的 a16z 必读经典，但它需要更新到 2025 年，并且需要更注重实践。

在此，我们为 AI 工程师策划了「必读」论文清单。我们的设计目标是：

挑选约 50 篇论文（一年大约每周一篇），可选择性阅读其他额外内容。这是一个任意的限制。
说明为什么这篇论文很重要，而不是仅仅点名而不提供有用的背景信息
对 AI 工程师来说要非常实用；不会浪费时间在《Attention is All You Need》这样的论文上，因为：1）每个人都是从那里开始的，2）大多数人在工作中并不会真正需要它

我们最终为每个版块选择了 5 篇「论文」：

第 1 节：前沿大语言模型
第 2 节：基准和评测
第 3 节：提示工程、上下文学习和思维链
第 4 节：检索增强生成
第 5 节：代理
第 6 节：代码生成
第 7 节：视觉
第 8 节：语音
第 9 节：图像/视频扩散
第 10 节：微调

第 1 节：前沿大语言模型

GPT1、GPT2、GPT3、Codex、InstructGPT、GPT4 论文。不言自明。GPT3.5、4o、o1 和 o3 倾向于发布启动活动和系统卡片，而不是论文。
Claude 3 和 Gemini 1 论文用于了解竞争对手。最新版本是 Claude 3.5 Sonnet 和 Gemini 2.0 Flash / Flash Thinking。还有 Gemma 2。
LLaMA 1、Llama 2、Llama 3 论文用于了解领先的开源模型。你也可以将 Mistral 7B、Mixtral 和 Pixtral 视为 Llama 家族树的一个分支。
DeepSeek V1、Coder、MoE、V2、V3 论文。领先的（相对）开源模型实验室。
Apple Intelligence 论文。它存在于每台 Mac 和 iPhone 中。

第 2 节：基准和评测

MMLU 论文：主要的「知识」基准测试，还有 GPQA 和 BIG-Bench。2025 年前沿实验室使用 MMLU Pro、GPQA Diamond 和 BIG-Bench Hard。
MuSR 论文：评估「长上下文」，还有 LongBench、BABILong 和 RULER。解决 Lost in The Middle 和其他问题，使用 Needle in a Haystack。
MATH 论文：一个「数学竞赛问题」的集合。前沿实验室专注于 MATH 的子集：MATH Level 5、AIME、FrontierMath、AMC10/AMC12。
IFEval 论文：领先的「指令跟随」评估工具，也是唯一被 Apple 采用的外部基准。另见 MT-Bench，它可以视为一种指令跟随评估形式。
ARC AGI 挑战：一个著名的「抽象推理」IQ 测试基准，比许多快速饱和的基准存在更长时间。

第 3 节：提示工程、上下文学习和思维链

The Prompt Report 论文：提示工程论文的综述（播客）。
Chain-of-Thought 论文：多篇声称普及「思维链」的论文之一，还有 Scratchpads 和 Let’s Think Step By Step。
Tree of Thought 论文：引入「前瞻」和「回溯」（播客）。
Prompt Tuning 论文：当提示不够用时，可以采用 Prefix-Tuning、调整解码（例如通过熵）或表征工程。
Automatic Prompt Engineering 论文：越来越明显的是，人类在零样本提示方面表现不佳，而「提示本身」可以通过 LLM 增强。这方面最著名的实现是 DSPy 论文/框架。

第 4 节：检索增强生成

信息检索导论：推荐一本书可能有些不公平，但我们想强调的是 RAG 是一个 IR 问题，而 IR 已经有 60 年的历史，其中包括 TF-IDF、BM25、FAISS、HNSW 等众多「无聊」但重要的技术。
Meta RAG 论文：首次提出了检索增强生成的概念。原作者现已创立 Contextual 并提出了 RAG 2.0。现代 RAG 的「标配」包括 HyDE、分块、重排序器、多模态数据等。
MTEB：大规模文本嵌入基准论文：目前事实上的领导者，尽管存在一些已知问题。嵌入技术有众多相关论文，选择适合你的方法，如 OpenAI、Nomic Embed、Jina v3、cde-small-v1 等。
GraphRAG 论文：微软尝试为 RAG 添加知识图谱的研究，目前已经开源。2024 年 RAG 的重要趋势之一，与 ColBERT、ColPali 和 ColQwen 并列。
RAGAS 论文：一个简单但实用的 RAG 评估工具，被 OpenAI 推荐。另见 Nvidia FACTS 框架 和 LLM 中的外生幻觉。

第 5 节：代理

SWE-Bench 论文：现被 Anthropic、Devin 和 OpenAI 采用，可能是目前最高知名度的代理基准。技术上是一个编码基准，但更多用于测试代理而非原始 LLM。另见 SWE-Agent、SWE-Bench Multimodal 和 Konwinski Prize。
ReAct 论文：首次对工具使用和函数调用 LLM 进行了长期研究。这一领域的历史性贡献包括 Toolformer 和 HuggingGPT。
MemGPT 论文：模拟长期运行代理记忆的方法之一，被 ChatGPT 和 LangGraph 采用。
Voyager 论文：Nvidia 提出的认知架构尝试，涵盖了课程、技能库、沙盒三个主要组件，目标是提高性能。
Anthropic 关于构建有效代理的文章：2024 年的重要回顾，强调了「链接、路由、并行化、编排、评估和优化」的意义。另见 OpenAI Swarm。

第 6 节：代码生成

The Stack 论文：一个开放的数据集，与专注于代码的 The Pile 配对，开启了从 The Stack v2 到 StarCoder 的优秀开源代码生成工作。
开源代码模型论文：例如 DeepSeek-Coder、Qwen2.5-Coder 和 CodeLlama。
HumanEval/Codex 论文：代码生成领域的重要基准。尽管该基准已趋于饱和，但仍需了解它的核心意义。
AlphaCodeium 论文：展示了如何通过「流程工程」来提升任何基础模型的性能。
CriticGPT 论文：OpenAI 开发的工具，用于发现可能存在安全问题的代码。另见 Anthropic 的 SAE 分析。

第 7 节：视觉

非 LLM 视觉工作：例如 YOLO 论文（现已更新至 v11），但需要注意其谱系。此外，越来越多的 Transformer 模型如 DETR 已超越 YOLO。
CLIP 论文：Alec Radford 开创的第一个成功的视觉 Transformer (ViT)，现已被 BLIP 或 PaliGemma 等模型取代。
MMVP 基准：用于量化 CLIP 的问题，等效于视觉版 MMLU。
Segment Anything Model 和 SAM 2 论文：非常成功的图像和视频分割基础模型。
早期融合研究：例如 Flamingo、Chameleon 和 Reka Core。相比「后期融合」方法（如 LLaVA），早期融合表现出更大的潜力。

第 8 节：语音

Whisper 论文：由 Alec Radford 开发的成功语音识别模型，其后续版本包括 v2、v3 和 distil-whisper，以及 v3 Turbo。
AudioPaLM 论文：在 PaLM 成为 Gemini 之前，这是谷歌语音研究的最后一次主要更新。另见 Meta 的 Llama 3 语音探索。
NaturalSpeech 论文：几种领先语音合成方法之一。其最新版本 v3 展示了更多创新。
Kyutai Moshi 论文：一个令人印象深刻的全双工语音-文本开放权重模型，其高知名度演示令人关注。另见 Hume OCTAVE。
OpenAI 实时 API：缺失的手册：尽管前沿语音模型大多没有发表论文，但我们尽最大努力记录了 OpenAI 的实时 API。

第 9 节：图像/视频扩散

Latent Diffusion 论文：即 Stable Diffusion 论文，其后续版本包括 SD2、SDXL 和 SD3。团队现正在开发 BFL Flux。
DALL-E / DALL-E-2 / DALL-E-3 论文：OpenAI 的图像生成模型。
Imagen / Imagen 2 / Imagen 3 论文：谷歌的图像生成模型。另见 Ideogram。
Consistency Models 论文：这项蒸馏研究催生了 2023 年的快速绘画病毒传播，现已更新为 sCM。
Sora 博客文章：尽管文本转视频模型大多没有论文，但 DiT 论文展示了相关方法。OpenSora 等竞争者正在快速崛起（Lilian Weng 的综述提供了更多背景）。

第 10 节：微调

LoRA/QLoRA 论文：事实上的廉价模型微调方法，无论是在本地模型还是大型模型上都非常流行。
DPO 论文：作为 PPO 的替代方案，现被 OpenAI 用于偏好微调。
ReFT 论文：提出了聚焦于特征而非微调层的新方法。
Orca 3/AgentInstruct 论文：探讨如何通过合成数据提升微调性能。
RL/推理微调论文：Let’s Verify Step By Step 提供了新方法，而 Noam Brown 的公开演讲则进一步展示了实际应用。

我们建议查看 Unsloth 笔记本和 HuggingFace 的如何在 2025 年微调开源 LLM 来了解完整流程。这显然是一个永无止境的深度话题，在极端情况下与研究科学家轨道重叠。

我们是否遗漏了什么明显的内容？这很有可能。请在下面评论，我们会更新并致谢以帮助社区。

阅读愉快！

感谢 Eugene Yan 和 Vibhu Sapra 对这个清单提出的精彩建议。

原文链接：https://www.latent.space/p/2025-papers

2024 年大语言模型发展总结 [译]

2024 年大语言模型领域重大突破与关键主题回顾

构建高效的智能代理 [译]

从大量实践案例中总结如何构建简单而高效的 LLM 智能代理系统