6月22日,阿里巴巴正式发布视频生成模型 HappyHorse 1.1。距 4 月 27 日在千问 App 灰测 1.0 不到两个月,1.1 完成五维度系统性升级——动态表现力、主体一致性、指令遵循、视觉质感与音频能力——从「能用」跨入「能商用」。新版本已在 HappyHorse 官网、阿里云百炼与千问云同步上线。 值得关注的指向性。1.0 灰测阶段暴露的几个痛点——多镜头切换时主体漂移、复杂运镜下的细节崩解、长 prompt 的指令遗漏——在 1.1 中都有显式针对性改进。主体一致性是视频生成模型从「短视频玩具」走向「生产力工具」的第一道坎,长期困扰开源与闭源路线;HappyHorse 在 1.1 集中攻克,节奏相当激进。 音频能力进入升级清单也值得一提。视频+音频联合生成是 2026 年的明确趋势,Kling、Sora 等头部模型都已把音轨合成纳入标配。HappyHorse 把音频拉进 1.1 的五维框架,等于承认视频生成赛道的下一战场就是「视听一体」,分头建模声画已落后于竞争水位。 从产业层面看,1.1 直接接入阿里云百炼与千问云两条分发渠道,意味着它不再只是 demo,而是 toB 商品。配合通义系列已在语言、多模态、Agent 等栈位铺开,视频模态补齐后,千问系的「全模态」叙事基本闭环——剩下的变量是 Wan 系列图像模型与 HappyHorse 之间的协同深度,以及后续是否开源。 短时间看,1.1 的对手不是其他厂商的 1.0,而是同一梯队的下一版本。视频生成领域每一两个月一次基线刷新已是常态,HappyHorse 1.1 这次的升级密度算交了及格的答卷,但要保持竞争力,1.2/2.0 必须拿出更显眼的差异化——更长的镜头叙事、更可控的角色一致性,或真正可商用的 API 价格。