商汤开源SenseNova U1：NEO-unify架构迈向原生统一多模态时代

4月28日，商汤科技正式发布并开源日日新SenseNova U1系列模型，基于自主研发的NEO-unify架构，在单一模型内统一了多模态理解、推理与生成。这是多模态模型领域一次值得关注的技术路线探索。当前主流多模态方案采用拼接式架构：视觉编码器（VE）将图像转为离散token，VAE处理部分视觉信息，最终与语言token拼合输入语言模型。本质上仍是语言模型看见了视觉信息。 NEO-unify彻底另起炉灶：去除独立的视觉编码器和VAE，从最底层重建统一表征空间，将语言与视觉信息作为统一复合体直接建模，深入融入每一层计算。这实现了从模态集成到原生统一的范式跨越——理解与生成不再由不同模块分工，而是同步增强。商汤宣称，SenseNova U1在业内首个实现连续性的图文创作输出，单次单模型调用即可生成一系列图文内容，而传统范式需要多次调用多个模型。效率提升的同时，在逻辑推理与空间智能等方向上，模型能深度理解物理世界的复杂布局与精细关系。商汤还透露该模型未来将为机器人提供具身大脑，在单一模型闭环内完成从环境感知、逻辑推演到精准执行的全过程。 SenseNova U1已全面开源，有助于降低多模态应用开发门槛，让更多研究者参与到原生统一架构的验证与迭代中。 NEO-unify的思路有技术洞见——原生统一确实是多模态模型的未来方向，而非在语言模型上外挂视觉模块。但架构激进转型能否带来实质性能力提升，仍需社区实测数据验证。多模态模型的架构之争，才刚刚开始。