当注意力机制成为LLM的推理瓶颈,硬件架构的演进正在给出新的答案。NVIDIA Blackwell带来了更大的Tensor Core,但负责指数运算的SFU却没有同步升级——softmax的exp()首次变得和矩阵乘法一样贵。FlashAttention-4用Tile级「双缓冲」化解:交替执行矩阵乘法与指数运算,最大化GPU占用率。 更深层的改变在内存访问。Blackwell引入TMEM(Tensor Memory),将数据移动与矩阵运算彻底异步化。Kernel必须深度流水线化——部分warp处理同步softmax,另一些warp调度异步加载。PyTorch团队与Tri Dao合作,将FA4改造为FlexAttention后端,自定义注意力变体也能逼近硬件上限。 值得关注的是CuTeDSL——NVIDIA用Python DSL重写CUTLASS核心,使JIT风格Attention流水线首次进入生产级实现。PyTorch通过Inductor自动生成CuTeDSL代码,用户无需写CUDA即可调用FA4级优化。 这意味着:更长上下文、更低成本推理的工程路径已清晰。