商汤开源SenseNova U1:NEO-unify架构迈向原生统一多模态时代

4月28日,商汤科技正式发布并开源日日新SenseNova U1系列模型,基于自主研发的NEO-unify架构,在单一模型内统一了多模态理解、推理与生成。这是多模态模型领域一次值得关注的技术路线探索。 当前主流多模态方案采用拼接式架构:视觉编码器(VE)将图像转为离散token,VAE处理部分视觉信息,最终与语言token拼合输入语言模型。本质上仍是语言模型看见了视觉信息。 NEO-unify彻底另起炉灶:去除独立的视觉编码器和VAE,从最底层重建统一表征空间,将语言与视觉信息作为统一复合体直接建模,深入融入每一层计算。这实现了从模态集成到原生统一的范式跨越——理解与生成不再由不同模块分工,而是同步增强。 商汤宣称,SenseNova U1在业内首个实现连续性的图文创作输出,单次单模型调用即可生成一系列图文内容,而传统范式需要多次调用多个模型。效率提升的同时,在逻辑推理与空间智能等方向上,模型能深度理解物理世界的复杂布局与精细关系。商汤还透露该模型未来将为机器人提供具身大脑,在单一模型闭环内完成从环境感知、逻辑推演到精准执行的全过程。 SenseNova U1已全面开源,有助于降低多模态应用开发门槛,让更多研究者参与到原生统一架构的验证与迭代中。 NEO-unify的思路有技术洞见——原生统一确实是多模态模型的未来方向,而非在语言模型上外挂视觉模块。但架构激进转型能否带来实质性能力提升,仍需社区实测数据验证。多模态模型的架构之争,才刚刚开始。