FlashAttention-4解析：Blackwell架构如何重塑LLM注意力计算

当注意力机制成为LLM的推理瓶颈，硬件架构的演进正在给出新的答案。NVIDIA Blackwell带来了更大的Tensor Core，但负责指数运算的SFU却没有同步升级——softmax的exp()首次变得和矩阵乘法一样贵。FlashAttention-4用Tile级「双缓冲」化解：交替执行矩阵乘法与指数运算，最大化GPU占用率。更深层的改变在内存访问。Blackwell引入TMEM（Tensor Memory），将数据移动与矩阵运算彻底异步化。Kernel必须深度流水线化——部分warp处理同步softmax，另一些warp调度异步加载。PyTorch团队与Tri Dao合作，将FA4改造为FlexAttention后端，自定义注意力变体也能逼近硬件上限。值得关注的是CuTeDSL——NVIDIA用Python DSL重写CUTLASS核心，使JIT风格Attention流水线首次进入生产级实现。PyTorch通过Inductor自动生成CuTeDSL代码，用户无需写CUDA即可调用FA4级优化。这意味着：更长上下文、更低成本推理的工程路径已清晰。