5月19日,智象未来在首届开放日上抛出一个颇具争议的观点:多模态模型Token的毛利率,远高于大语言模型Token。这一判断背后,是这家公司从模型即产品到做Agent平台的战略转变,也折射出当下视频生成赛道的竞争正在从技术能力比拼,转向商业落地效率的较量。 智象未来CEO梅涛认为,真正的世界模型需要满足四个条件:掌握物理规律、解决长时序因果推理、实现全模态交互,以及绝对的安全性。这意味着当前市面上多数自称世界模型的产品,在严格定义下都还为时过早。 与李飞飞主张的生成3D物理世界和LeCun倡导的自监督预测世界不同,智象未来选择了另一条路径——从算法和架构层创新入手,率先聚焦视频、图像、3D交互等数据的生成,用低成本合成数据对抗行业数据稀缺的瓶颈。他们的核心技术架构是原生全模态Unified Transformer(UiT),做到Any to Any(任意形式输入对应任意形式输出),在统一架构中理解、生成并预测现实世界的不同状态。梅涛透露,其视频模型目前已能生成分钟级视频,技术上限可达3至5分钟乃至更长。 世界模型训练需要全模态数据,成本极高且稀缺。智象未来的策略是:用视频生成模型合成大量真人实操数据,再用于训练VLA(视觉-语言-动作模型)和WAM(世界动作模型)。他们拥有20万小时有版权的视频数据。这一策略的底层逻辑是:当算法架构发生范式转变,数据的重要性会相对弱化,创业公司才有机会以少量资源比肩大厂的基模能力。 从投资视角看,视频生成赛道的商业化临界点正在逼近。东方富海合伙人王兵指出,视频生成企业的商业化有三个衡量维度:团队技术背景及积累深度、人才密度与稳定性、以及资金和研发效率。梅涛则断言,多模态模型Token的毛利率远高于语言模型。随着算力成本指数级下降,叠加AI短剧、短视频、电商视频的质量今年已达到商业化水准,视频生成To B服务的毛利率正在从负转正。 智象未来这番Token毛利率论断,本质上是对多模态内容商业价值的一次重新定价。语言模型输出的是文本,附加值相对单一;而视频、图像等多模态内容的应用场景更广、付费意愿更强。但挑战同样真实:版权合规问题是悬在所有视频生成公司头顶的达摩克利斯之剑。智象未来All-in正版版权数据的策略,短期内看似增加了成本,长期却是通往商业化持续性的必经之路。