arXiv 2606.19350(已被 ICLR 2026 Workshop on LLM Reasoning 接收)提出 Causal Attribution Pruning(CAP)。它针对的核心痛点是:传统 Wanda、SparseGPT 一类基于激活或幅值相关性的剪枝方法,长期主导 LLM 压缩,但相关性并不等于因果——少数 attention head 实际承担了关键的逻辑跳跃,而幅值标准对它们并不敏感。CAP 的做法是把每个 attention head 在 calibration 推理集上前向时 mask 掉,直接测量其对下游性能的下行幅度,即 "interventional" 因果分数,再把 head 级因果分数映射回 QKV/O 投影矩阵,得到细粒度权重重要性。在 Llama-3-8B-Instruct 和 Mistral-7B-Instruct 上评估 GSM8K、StrategyQA、ARC-Challenge,覆盖 10%、20%、50% 三档稀疏度:20% 稀疏下,CAP 在 ARC-Challenge 上相对 Wanda 取得最高 61% 的相对精度增益;10–20% 区间,CAP 在大多数 (model, benchmark) 配置上都跑赢 Wanda。作者也坦诚 CAP 在 50% 稀疏度上被 MLP 层粗粒度因果归因拖累。