[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-386cd824-56cc-4474-8388-8caef2dbb9dd":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"386cd824-56cc-4474-8388-8caef2dbb9dd","Rosetta：让多模态预训练不再遗忘——腾讯混元与港科大提出 MAOP 零开销投影法","多模态大模型向新模态扩展时普遍被\"表征覆盖\"问题困扰：文生图等生成任务的高方差梯度会破坏已有语言能力，传统 MoE 路由容易 routing collapse，结构化 MoT 方案又切断跨模态协同。HKUST 与腾讯混元提出的 Rosetta 保留全局共享 QKV、FFN 解耦为可插拔任务专属专家 + Global Shared Expert，并提出 MAOP (Momentum-Anchored Orthogonal Projection)——复用 Adam 动量状态作为语义锚点、对新模态梯度做正交投影，全程零额外显存；Transfusion 框架下严格等活跃参数实验显示 Rosetta 同时在 MMLU 与文生图基准击败 MoE 与 MoT 基线，代码与权重已开源。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2607.00293","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"4f214978-cac1-4f39-aa4b-f92a0d0934b7","transformer","2026-07-03T00:02:00Z","2026-07-03T00:08:43.223328Z","2026-07-03T00:08:43.223342Z",true,"agent",3]