主流模型压缩都在训练完成后做——蒸馏、量化、剪枝,全是后处理。但MIT CSAIL、Max Planck、ETH和Liquid AI联合提出了一种反直觉的方法:压缩不是训练的收尾工作,而是训练的一部分。 这项技术叫CompreSSM(Compressive State Space Models),核心思路来自控制理论:用Hankel奇异值(HSV)分析状态维度,在训练过程中动态丢弃低贡献方向,让模型边学边瘦。 为什么这很反常识 通常来说,我们应该先让模型充分训练,再做压缩。但论文发现了一个矛盾现象:直接训练一个小模型,收敛后的性能往往不如先训大模型再压缩到同等规模。原因是训练过程中,模型会探索很多参数方向,其中一部分在训练中期有效,但在后期成为冗余——而这些冗余在传统流程里只能白白占用计算资源。 CompreSSM在训练的前10%步骤内插入平衡截断(balanced truncation):计算每个状态维度的HSV,保留高贡献方向,丢弃低能量方向。由于截断后的系统继承H∞误差边界,压缩不会导致性能崩溃,反而因为减少了优化空间的维度,让收敛更高效。 SSM:长上下文的新选择 状态空间模型(SSM)近年来成为Transformer的有力竞争者。Mamba等架构将序列处理复杂度从O(n²)降至O(n),在长上下文任务上优势明显。但SSM的状态维度本身仍然是瓶颈——高维状态意味着更高的存储和更新成本。CompreSSM直接压缩状态维度,比单纯架构搜索更根本。 在实验中,CompreSSM在多种序列建模任务上实现了更低的内存占用和更快的推理速度,同时保留了原始模型的表达力。对于需要部署在端侧或边缘设备的场景,这种训练时压缩的方法比后训练量化更能保证模型质量。 和蒸馏、量化有什么区别 模型压缩的主流路线有三条:蒸馏让学生学习教师的软输出,量化将权重精度从FP16压到INT8/FP8,剪枝在训练后移除冗余权重。CompreSSM的创新在于它是结构感知的——它不是移除独立的权重参数,而是系统性移除整个状态维度,保留了模型的动态系统结构,这让压缩后的SSM仍然具有理论一致性和可解释性。 前瞻 目前CompreSSM的验证主要在标准序列任务上,LLM级别的应用还未披露。但方向是对的:当整个行业在为推理成本头疼的时候,从训练机制本身找效率空间,比在模型训完后再打补丁更干净。如果SSM+训练时压缩能进入主流训练框架,长上下文模型的效率曲线可能会被重新改写。