Rosetta:让多模态预训练不再遗忘——腾讯混元与港科大提出 MAOP 零开销投影法

多模态大模型向新模态扩展时普遍被"表征覆盖"问题困扰:文生图等生成任务的高方差梯度会破坏已有语言能力,传统 MoE 路由容易 routing collapse,结构化 MoT 方案又切断跨模态协同。HKUST 与腾讯混元提出的 Rosetta 保留全局共享 QKV、FFN 解耦为可插拔任务专属专家 + Global Shared Expert,并提出 MAOP (Momentum-Anchored Orthogonal Projection)——复用 Adam 动量状态作为语义锚点、对新模态梯度做正交投影,全程零额外显存;Transfusion 框架下严格等活跃参数实验显示 Rosetta 同时在 MMLU 与文生图基准击败 MoE 与 MoT 基线,代码与权重已开源。