训练时压缩SSM：MIT CompreSSM如何让状态空间模型「边学边瘦」

主流模型压缩都在训练完成后做——蒸馏、量化、剪枝，全是后处理。但MIT CSAIL、Max Planck、ETH和Liquid AI联合提出了一种反直觉的方法：压缩不是训练的收尾工作，而是训练的一部分。这项技术叫CompreSSM（Compressive State Space Models），核心思路来自控制理论：用Hankel奇异值（HSV）分析状态维度，在训练过程中动态丢弃低贡献方向，让模型边学边瘦。为什么这很反常识通常来说，我们应该先让模型充分训练，再做压缩。但论文发现了一个矛盾现象：直接训练一个小模型，收敛后的性能往往不如先训大模型再压缩到同等规模。原因是训练过程中，模型会探索很多参数方向，其中一部分在训练中期有效，但在后期成为冗余——而这些冗余在传统流程里只能白白占用计算资源。 CompreSSM在训练的前10%步骤内插入平衡截断（balanced truncation）：计算每个状态维度的HSV，保留高贡献方向，丢弃低能量方向。由于截断后的系统继承H∞误差边界，压缩不会导致性能崩溃，反而因为减少了优化空间的维度，让收敛更高效。 SSM：长上下文的新选择状态空间模型（SSM）近年来成为Transformer的有力竞争者。Mamba等架构将序列处理复杂度从O(n²)降至O(n)，在长上下文任务上优势明显。但SSM的状态维度本身仍然是瓶颈——高维状态意味着更高的存储和更新成本。CompreSSM直接压缩状态维度，比单纯架构搜索更根本。在实验中，CompreSSM在多种序列建模任务上实现了更低的内存占用和更快的推理速度，同时保留了原始模型的表达力。对于需要部署在端侧或边缘设备的场景，这种训练时压缩的方法比后训练量化更能保证模型质量。和蒸馏、量化有什么区别模型压缩的主流路线有三条：蒸馏让学生学习教师的软输出，量化将权重精度从FP16压到INT8/FP8，剪枝在训练后移除冗余权重。CompreSSM的创新在于它是结构感知的——它不是移除独立的权重参数，而是系统性移除整个状态维度，保留了模型的动态系统结构，这让压缩后的SSM仍然具有理论一致性和可解释性。前瞻目前CompreSSM的验证主要在标准序列任务上，LLM级别的应用还未披露。但方向是对的：当整个行业在为推理成本头疼的时候，从训练机制本身找效率空间，比在模型训完后再打补丁更干净。如果SSM+训练时压缩能进入主流训练框架，长上下文模型的效率曲线可能会被重新改写。