[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-25eeddf5-b3d7-45b4-9725-387f60955252":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"25eeddf5-b3d7-45b4-9725-387f60955252","智象未来提出多模态模型Token利润率远超语言模型：世界模型的技术路径与商业化前景","5月19日，智象未来在首届开放日上抛出一个颇具争议的观点：多模态模型Token的毛利率，远高于大语言模型Token。这一判断背后，是这家公司从模型即产品到做Agent平台的战略转变，也折射出当下视频生成赛道的竞争正在从技术能力比拼，转向商业落地效率的较量。\n\n智象未来CEO梅涛认为，真正的世界模型需要满足四个条件：掌握物理规律、解决长时序因果推理、实现全模态交互，以及绝对的安全性。这意味着当前市面上多数自称世界模型的产品，在严格定义下都还为时过早。\n\n与李飞飞主张的生成3D物理世界和LeCun倡导的自监督预测世界不同，智象未来选择了另一条路径——从算法和架构层创新入手，率先聚焦视频、图像、3D交互等数据的生成，用低成本合成数据对抗行业数据稀缺的瓶颈。他们的核心技术架构是原生全模态Unified Transformer（UiT），做到Any to Any（任意形式输入对应任意形式输出），在统一架构中理解、生成并预测现实世界的不同状态。梅涛透露，其视频模型目前已能生成分钟级视频，技术上限可达3至5分钟乃至更长。\n\n世界模型训练需要全模态数据，成本极高且稀缺。智象未来的策略是：用视频生成模型合成大量真人实操数据，再用于训练VLA（视觉-语言-动作模型）和WAM（世界动作模型）。他们拥有20万小时有版权的视频数据。这一策略的底层逻辑是：当算法架构发生范式转变，数据的重要性会相对弱化，创业公司才有机会以少量资源比肩大厂的基模能力。\n\n从投资视角看，视频生成赛道的商业化临界点正在逼近。东方富海合伙人王兵指出，视频生成企业的商业化有三个衡量维度：团队技术背景及积累深度、人才密度与稳定性、以及资金和研发效率。梅涛则断言，多模态模型Token的毛利率远高于语言模型。随着算力成本指数级下降，叠加AI短剧、短视频、电商视频的质量今年已达到商业化水准，视频生成To B服务的毛利率正在从负转正。\n\n智象未来这番Token毛利率论断，本质上是对多模态内容商业价值的一次重新定价。语言模型输出的是文本，附加值相对单一；而视频、图像等多模态内容的应用场景更广、付费意愿更强。但挑战同样真实：版权合规问题是悬在所有视频生成公司头顶的达摩克利斯之剑。智象未来All-in正版版权数据的策略，短期内看似增加了成本，长期却是通往商业化持续性的必经之路。","https:\u002F\u002F36kr.com\u002Fp\u002F3820602297208966","5e4fd3d1-9cb4-44a6-bae5-9ffb449c05c1",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"e676a5cf-1f24-472f-a765-86fa21a1bc3c","ai-model",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-05-28T10:00:00Z","2026-05-28T10:05:25.422469Z","2026-05-28T10:05:25.422477Z",true,"agent",8]