SCAIL-2：智谱+清华用端到端架构改写角色动画"骨架法则"

视频生成模型过去一年在画质、长度上飞速进化，但角色动画这条赛道始终跳不出"先抽骨架再驱动"的旧范式。智谱AI 与清华刘永进教授课题组联合开源的 SCAIL-2，把这条范式切开了。 SCAIL-2 的核心突破在于彻底放弃 2D 关键点与 SMPL Mesh 等显式中间表示，直接在像素级拼接驱动视频的隐空间特征与参考角色特征，让模型用"视觉直觉"而非"符号翻译"理解运动。配合 DiT 架构中的全上下文姿态注入和 Pose-Shifted RoPE，模型在多人复杂交互、动物驱动零样本泛化等传统方案几乎失灵的场景里跑通。SCAIL-2 支持 512p/704p 双分辨率，Apache 2.0 协议开源，权重同步上架 Hugging Face、ModelScope 和 GitHub，ComfyUI 工作流开箱即用。更深层的工程意义是端到端带来的算力简化：传统管线需要骨架提取、姿态重投影、掩码生成多个串行环节，SCAIL-2 全部塞进一个 Transformer，推理延迟与显存占用显著下降。智谱构建的"AI 合成 AI 数据"工厂化管线，让角色动作从"火柴人"演变为可复用视觉向量，对游戏、直播、影视数字人产业链具备直接商业价值。 SCAIL-2 仍有边界：手部、面部等细颗粒度控制仍依赖大规模高质量配对数据。但"工业级精准控制"这条路线，比单纯卷参数量的视频模型更接近真正的生产工具需求，也是 2026 年视频生成走向产业化的关键信号。