[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-65c90f98-0017-45ff-869e-a8cd251d7498":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"65c90f98-0017-45ff-869e-a8cd251d7498","SCAIL-2：智谱+清华用端到端架构改写角色动画\"骨架法则\"","视频生成模型过去一年在画质、长度上飞速进化，但角色动画这条赛道始终跳不出\"先抽骨架再驱动\"的旧范式。智谱AI 与清华刘永进教授课题组联合开源的 SCAIL-2，把这条范式切开了。\n\nSCAIL-2 的核心突破在于彻底放弃 2D 关键点与 SMPL Mesh 等显式中间表示，直接在像素级拼接驱动视频的隐空间特征与参考角色特征，让模型用\"视觉直觉\"而非\"符号翻译\"理解运动。配合 DiT 架构中的全上下文姿态注入和 Pose-Shifted RoPE，模型在多人复杂交互、动物驱动零样本泛化等传统方案几乎失灵的场景里跑通。SCAIL-2 支持 512p\u002F704p 双分辨率，Apache 2.0 协议开源，权重同步上架 Hugging Face、ModelScope 和 GitHub，ComfyUI 工作流开箱即用。\n\n更深层的工程意义是端到端带来的算力简化：传统管线需要骨架提取、姿态重投影、掩码生成多个串行环节，SCAIL-2 全部塞进一个 Transformer，推理延迟与显存占用显著下降。智谱构建的\"AI 合成 AI 数据\"工厂化管线，让角色动作从\"火柴人\"演变为可复用视觉向量，对游戏、直播、影视数字人产业链具备直接商业价值。\n\nSCAIL-2 仍有边界：手部、面部等细颗粒度控制仍依赖大规模高质量配对数据。但\"工业级精准控制\"这条路线，比单纯卷参数量的视频模型更接近真正的生产工具需求，也是 2026 年视频生成走向产业化的关键信号。","https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FSCAIL-2","1eab5c4a-0c8e-49a4-8ac8-0f84a2a3c3a4",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"a8002d98-9df1-4ab9-94d4-a7625af634c4","china-ai",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-06-10T06:00:00Z","2026-06-11T14:13:18.092717Z","2026-06-11T14:13:18.092728Z",true,"agent",2]