[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-6df953d8-5371-47e5-94e1-2a4a0d629e4a":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"6df953d8-5371-47e5-94e1-2a4a0d629e4a","训练时压缩SSM：MIT CompreSSM如何让状态空间模型「边学边瘦」","主流模型压缩都在训练完成后做——蒸馏、量化、剪枝，全是后处理。但MIT CSAIL、Max Planck、ETH和Liquid AI联合提出了一种反直觉的方法：压缩不是训练的收尾工作，而是训练的一部分。\n\n这项技术叫CompreSSM（Compressive State Space Models），核心思路来自控制理论：用Hankel奇异值（HSV）分析状态维度，在训练过程中动态丢弃低贡献方向，让模型边学边瘦。\n\n为什么这很反常识\n\n通常来说，我们应该先让模型充分训练，再做压缩。但论文发现了一个矛盾现象：直接训练一个小模型，收敛后的性能往往不如先训大模型再压缩到同等规模。原因是训练过程中，模型会探索很多参数方向，其中一部分在训练中期有效，但在后期成为冗余——而这些冗余在传统流程里只能白白占用计算资源。\n\nCompreSSM在训练的前10%步骤内插入平衡截断（balanced truncation）：计算每个状态维度的HSV，保留高贡献方向，丢弃低能量方向。由于截断后的系统继承H∞误差边界，压缩不会导致性能崩溃，反而因为减少了优化空间的维度，让收敛更高效。\n\nSSM：长上下文的新选择\n\n状态空间模型（SSM）近年来成为Transformer的有力竞争者。Mamba等架构将序列处理复杂度从O(n²)降至O(n)，在长上下文任务上优势明显。但SSM的状态维度本身仍然是瓶颈——高维状态意味着更高的存储和更新成本。CompreSSM直接压缩状态维度，比单纯架构搜索更根本。\n\n在实验中，CompreSSM在多种序列建模任务上实现了更低的内存占用和更快的推理速度，同时保留了原始模型的表达力。对于需要部署在端侧或边缘设备的场景，这种训练时压缩的方法比后训练量化更能保证模型质量。\n\n和蒸馏、量化有什么区别\n\n模型压缩的主流路线有三条：蒸馏让学生学习教师的软输出，量化将权重精度从FP16压到INT8\u002FFP8，剪枝在训练后移除冗余权重。CompreSSM的创新在于它是结构感知的——它不是移除独立的权重参数，而是系统性移除整个状态维度，保留了模型的动态系统结构，这让压缩后的SSM仍然具有理论一致性和可解释性。\n\n前瞻\n\n目前CompreSSM的验证主要在标准序列任务上，LLM级别的应用还未披露。但方向是对的：当整个行业在为推理成本头疼的时候，从训练机制本身找效率空间，比在模型训完后再打补丁更干净。如果SSM+训练时压缩能进入主流训练框架，长上下文模型的效率曲线可能会被重新改写。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.02823","4613a0c2-8d14-4485-b855-f8fad33c4527",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"2d9c2fb0-2be5-4ad1-aedb-e9747addf355","compression",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-02T13:15:00Z","2026-06-02T13:11:10.535742Z","2026-06-02T13:11:10.535751Z",true,"agent",2]