FlashMLA：DeepSeek 重塑 AI 效率的野心

技术的进步往往悄无声息，直到某一天，人们发现一切都被改变了。DeepSeek 最新开源的项目 FlashMLA 就是这样一种存在，一个专为 NVIDIA Hopper GPU 打造的 MLA（多层注意力）解码内核，针对可变长度序列进行了优化。在 H800 SXM5 上，它在内存受限场景下达到 3000 GB/s 的吞吐量，在计算受限场景下高达 580 TFLOPS。这些数字不是炫耀，而是对 AI 潜力的重新定义。

问题的根源

深度学习的世界里，注意力机制是语言模型的支柱。Transformer 依赖多头注意力（Multi-Head Attention），而 MLA 通过在多个层级上应用注意力机制，增强了对复杂序列的建模能力。可这能力是有代价的。传统方法要求将输入序列填充到统一长度，以便 GPU 并行处理。填充（padding）占用了额外内存，增加了无谓的计算开销。对于可变长度序列，比如对话系统中的短句与长段，这种浪费令人头疼。

核心问题很简单：如何在保持高性能的同时，灵活应对序列长度的变化？这是一个技术难题，更是对效率的拷问。FlashMLA 是 DeepSeek 的回答。

Hopper GPU 的舞台

要搞清楚 FlashMLA 的意义，得先看看它的搭档，Hopper GPU。NVIDIA 的 Hopper 架构是为 AI 和高性能计算设计的新一代产品，带来了 Transformer Engine 和 FP8 计算支持，以更低精度执行运算却不失精度，简直是为深度学习量身定制。FlashMLA 抓住了这些特性，比如 TMA（Tensor Memory Accelerator）和 WGMMA（Warp Group Matrix Multiply-Accumulate）指令，让矩阵乘法和注意力计算更快、更省内存。

Hopper GPU 是一个高效的工作坊，FlashMLA 则是那个熟练运用每件工具的匠人。两者结合，效率惊人。

FlashMLA 的本质

FlashMLA 不是凭空冒出来的。它从 FlashAttention 中汲取灵感，那个库通过重新组织计算流程减少了内存开销。DeepSeek 在此基础上推进了一步，针对 MLA 和可变长度序列进行了优化，并将其开源。几个关键点值得注意：

分页式 KV 缓存。用块大小为 64 的分页式键值（Key-Value）缓存，动态适应不同长度序列，无需填充，削减了内存和计算的浪费。
Hopper 专用优化。利用 Hopper 的 BF16 精度和 Transformer Engine，平衡了性能与效率。
高吞吐量。内存受限场景下 3000 GB/s，计算受限场景下 580 TFLOPS，能在更短时间处理更多数据。

这些特性直指一个问题：如何让 GPU 在真实世界的数据面前，发挥全部潜力？

用起来有多简单

FlashMLA 的设计既强大又简洁。安装只要一行命令：

Bash

python setup.py install

想测测它的实力？运行测试脚本就行：

Bash

python tests/test_flash_mla.py

实际应用中，FlashMLA 提供了一个直观的 Python 接口，能轻松融入 PyTorch 项目。看看这个例子：

Python

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers):
    o_i, lse_i = flash_mla_with_kvcache(
        q_i, kvcache_i, block_table, cache_seqlens, dv,
        tile_scheduler_metadata, num_splits, causal=True,
    )

代码展示了如何在多层 Transformer 中用 FlashMLA 处理注意力计算。get_mla_metadata 准备调度信息，flash_mla_with_kvcache 执行 MLA 解码。简洁却威力无穷。

参考资料：https://github.com/deepseek-ai/FlashMLA

2025 年巴菲特致股东信 [译]

巴菲特年度信：剖析 2024 年业绩，解读投资哲学，展望伯克希尔未来

从数学到代码：GRPO 如何重塑 AI 推理的未来

探索 DeepSeek 的 GRPO 算法如何通过组内比较优化大型语言模型，显著提升数学推理和代码生成能力，并展望其对 AI 发展的深远影响

FlashMLA：DeepSeek 重塑 AI 效率的野心

问题的根源

Hopper GPU 的舞台

FlashMLA 的本质

用起来有多简单

数字说话

为什么重要

下一步是什么