美团开源LongCat-Video-Avatar 1.5:数字人视频生成从「SOTA」走向「真商用」

美团 LongCat 团队于 5 月 25 日正式开源 LongCat-Video-Avatar 1.5,一款面向商业级应用的数字人视频生成模型。作为前代开源 SOTA 模型的升级版本,1.5 在唇形同步、物理合理性、长视频稳定性、多人互动和推理效率五个维度实现了全面跃升。 核心技术升级首先体现在音频编码器:从 Wav2Vec2 升级为 Whisper-large,更大的参数量和更丰富的多语言先验使模型能够更细致地捕捉音素变化与韵律特征,从而让唇形与语音的协同更精准,面部表情、头部姿态与肢体动作的时序稳定性同步提升,有效减少了长视频中的抖动与身份漂移问题。 数据体系是另一大亮点。美团构建了一套多阶段数据处理流程,包括离线标注、在线验证,以及针对多人场景、沉默状态和情绪变化的专项增强数据,有效解决了开放域数字人生成中角色多样性与表达自然度的核心难题。 在偏好对齐层面,1.5 引入逐帧级 GRPO(Group Relative Policy Optimization),将奖励信号细化到逐帧层面,精准修正动作不连贯、手部变形等局部缺陷。同时采用 DMD(Distribution Matching Distillation)将生成步数从 50 步压缩至 8 步,配合「基础模型 + LoRA 适配器」方案,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。 综合评测结果显示,LongCat-Video-Avatar 1.5 在用户偏好上优于 Kling Avatar 2.0(胜率 65.9%)、OmniHuman-1.5(61.1%)和 HeyGen(54.3%)。其跳帧问题率仅 0.8%,唇形同步问题率 29.8%,均为对比模型中最低。 数字人视频生成赛道正在经历从「展示效果」到「真实部署」的转折。1.5 的开源价值不只在于模型本身,而在于将高效率生成方案开放给社区,让更多开发者可以在电商直播、在线教育、虚拟主播等场景中验证技术边界。这条从「实验室 SOTA」到「可落地的 SOTA」的路,才是开源数字人视频模型真正需要回答的问题。