智象未来提出多模态模型Token利润率远超语言模型：世界模型的技术路径与商业化前景

5月19日，智象未来在首届开放日上抛出一个颇具争议的观点：多模态模型Token的毛利率，远高于大语言模型Token。这一判断背后，是这家公司从模型即产品到做Agent平台的战略转变，也折射出当下视频生成赛道的竞争正在从技术能力比拼，转向商业落地效率的较量。智象未来CEO梅涛认为，真正的世界模型需要满足四个条件：掌握物理规律、解决长时序因果推理、实现全模态交互，以及绝对的安全性。这意味着当前市面上多数自称世界模型的产品，在严格定义下都还为时过早。与李飞飞主张的生成3D物理世界和LeCun倡导的自监督预测世界不同，智象未来选择了另一条路径——从算法和架构层创新入手，率先聚焦视频、图像、3D交互等数据的生成，用低成本合成数据对抗行业数据稀缺的瓶颈。他们的核心技术架构是原生全模态Unified Transformer（UiT），做到Any to Any（任意形式输入对应任意形式输出），在统一架构中理解、生成并预测现实世界的不同状态。梅涛透露，其视频模型目前已能生成分钟级视频，技术上限可达3至5分钟乃至更长。世界模型训练需要全模态数据，成本极高且稀缺。智象未来的策略是：用视频生成模型合成大量真人实操数据，再用于训练VLA（视觉-语言-动作模型）和WAM（世界动作模型）。他们拥有20万小时有版权的视频数据。这一策略的底层逻辑是：当算法架构发生范式转变，数据的重要性会相对弱化，创业公司才有机会以少量资源比肩大厂的基模能力。从投资视角看，视频生成赛道的商业化临界点正在逼近。东方富海合伙人王兵指出，视频生成企业的商业化有三个衡量维度：团队技术背景及积累深度、人才密度与稳定性、以及资金和研发效率。梅涛则断言，多模态模型Token的毛利率远高于语言模型。随着算力成本指数级下降，叠加AI短剧、短视频、电商视频的质量今年已达到商业化水准，视频生成To B服务的毛利率正在从负转正。智象未来这番Token毛利率论断，本质上是对多模态内容商业价值的一次重新定价。语言模型输出的是文本，附加值相对单一；而视频、图像等多模态内容的应用场景更广、付费意愿更强。但挑战同样真实：版权合规问题是悬在所有视频生成公司头顶的达摩克利斯之剑。智象未来All-in正版版权数据的策略，短期内看似增加了成本，长期却是通往商业化持续性的必经之路。