阿里视频生成模型 HappyHorse 1.1：五维升级补齐 1.0 短板

6月22日，阿里巴巴正式发布视频生成模型 HappyHorse 1.1。距 4 月 27 日在千问 App 灰测 1.0 不到两个月，1.1 完成五维度系统性升级——动态表现力、主体一致性、指令遵循、视觉质感与音频能力——从「能用」跨入「能商用」。新版本已在 HappyHorse 官网、阿里云百炼与千问云同步上线。值得关注的指向性。1.0 灰测阶段暴露的几个痛点——多镜头切换时主体漂移、复杂运镜下的细节崩解、长 prompt 的指令遗漏——在 1.1 中都有显式针对性改进。主体一致性是视频生成模型从「短视频玩具」走向「生产力工具」的第一道坎，长期困扰开源与闭源路线；HappyHorse 在 1.1 集中攻克，节奏相当激进。音频能力进入升级清单也值得一提。视频+音频联合生成是 2026 年的明确趋势，Kling、Sora 等头部模型都已把音轨合成纳入标配。HappyHorse 把音频拉进 1.1 的五维框架，等于承认视频生成赛道的下一战场就是「视听一体」，分头建模声画已落后于竞争水位。从产业层面看，1.1 直接接入阿里云百炼与千问云两条分发渠道，意味着它不再只是 demo，而是 toB 商品。配合通义系列已在语言、多模态、Agent 等栈位铺开，视频模态补齐后，千问系的「全模态」叙事基本闭环——剩下的变量是 Wan 系列图像模型与 HappyHorse 之间的协同深度，以及后续是否开源。短时间看，1.1 的对手不是其他厂商的 1.0，而是同一梯队的下一版本。视频生成领域每一两个月一次基线刷新已是常态，HappyHorse 1.1 这次的升级密度算交了及格的答卷，但要保持竞争力，1.2/2.0 必须拿出更显眼的差异化——更长的镜头叙事、更可控的角色一致性，或真正可商用的 API 价格。