LTX-2.3：开源视频生成正式进入 4K + 原生音频时代

3月5日，Lightricks 发布 LTX-2.3，一款 220 亿参数的开源视频生成模型。不同于以往开源方案只能在低分辨率下运行，LTX-2.3 支持最高 4K 分辨率、50fps 的视频输出，并首次在开源生态中实现了真正的音视频同步——这在以前只有 OpenAI Sora、Runway 等闭源模型才能做到。技术层面，LTX-2.3 有几个值得关注的突破：重建了潜空间（latent space）并重新训练了 VAE，在头发、织物边缘、文字等细节保留上明显提升；文本控制器的规模扩大了 4 倍，复杂 Prompt 的解析能力大幅增强；更重要的是音频驱动视频生成能力——模型可以基于语音、音乐的节奏来组织画面结构，这是开源视频模型此前从未真正实现的功能。产品层面，LTX-2.3 采用 Apache 2.0 许可证，支持商用、本地部署和自行微调。对于有数据隐私要求或成本敏感的企业，这意味着视频生成能力不再被少数闭源方案垄断。模型可通过 Lightricks API 调用，也支持本地部署 weights。但需要客观看到，220 亿参数规模对硬件要求依然较高，完整功能需要专业级 GPU 才能流畅运行，并非普通开发者的玩具。开源视频模型和闭源方案之间的差距，2025 年以前还是「能用 vs 好用」的差别，到 2026 年 DiT 架构全面成熟后，两者的体验差距正在快速收窄。LTX-2.3 的出现是一个信号：开源视频生成进入生产环境的时间窗口，已经比预想中更近了。