3月5日,Lightricks 发布 LTX-2.3,一款 220 亿参数的开源视频生成模型。不同于以往开源方案只能在低分辨率下运行,LTX-2.3 支持最高 4K 分辨率、50fps 的视频输出,并首次在开源生态中实现了真正的音视频同步——这在以前只有 OpenAI Sora、Runway 等闭源模型才能做到。 技术层面,LTX-2.3 有几个值得关注的突破:重建了潜空间(latent space)并重新训练了 VAE,在头发、织物边缘、文字等细节保留上明显提升;文本控制器的规模扩大了 4 倍,复杂 Prompt 的解析能力大幅增强;更重要的是音频驱动视频生成能力——模型可以基于语音、音乐的节奏来组织画面结构,这是开源视频模型此前从未真正实现的功能。 产品层面,LTX-2.3 采用 Apache 2.0 许可证,支持商用、本地部署和自行微调。对于有数据隐私要求或成本敏感的企业,这意味着视频生成能力不再被少数闭源方案垄断。模型可通过 Lightricks API 调用,也支持本地部署 weights。 但需要客观看到,220 亿参数规模对硬件要求依然较高,完整功能需要专业级 GPU 才能流畅运行,并非普通开发者的玩具。 开源视频模型和闭源方案之间的差距,2025 年以前还是「能用 vs 好用」的差别,到 2026 年 DiT 架构全面成熟后,两者的体验差距正在快速收窄。LTX-2.3 的出现是一个信号:开源视频生成进入生产环境的时间窗口,已经比预想中更近了。