因果归因剪枝 CAP：让 LLM 推理能力不再随稀疏化而流失

arXiv 2606.19350（已被 ICLR 2026 Workshop on LLM Reasoning 接收）提出 Causal Attribution Pruning（CAP）。它针对的核心痛点是：传统 Wanda、SparseGPT 一类基于激活或幅值相关性的剪枝方法，长期主导 LLM 压缩，但相关性并不等于因果——少数 attention head 实际承担了关键的逻辑跳跃，而幅值标准对它们并不敏感。CAP 的做法是把每个 attention head 在 calibration 推理集上前向时 mask 掉，直接测量其对下游性能的下行幅度，即 "interventional" 因果分数，再把 head 级因果分数映射回 QKV/O 投影矩阵，得到细粒度权重重要性。在 Llama-3-8B-Instruct 和 Mistral-7B-Instruct 上评估 GSM8K、StrategyQA、ARC-Challenge，覆盖 10%、20%、50% 三档稀疏度：20% 稀疏下，CAP 在 ARC-Challenge 上相对 Wanda 取得最高 61% 的相对精度增益；10–20% 区间，CAP 在大多数 (model, benchmark) 配置上都跑赢 Wanda。作者也坦诚 CAP 在 50% 稀疏度上被 MLP 层粗粒度因果归因拖累。