近日,同济大学等机构的研究者在arXiv发表论文,提出了一种名为DiT-ST的创新框架,通过分文本条件(Split-Text Conditioning)显著提升了扩散Transformer在文本到图像生成中的表现。 **技术突破点**: 传统文本到图像扩散模型存在完整文本理解缺陷,由于文本长度限制、softmax竞争和位置偏差等问题,导致属性绑定错误、语义混乱等问题。DiT-ST通过三个关键创新解决了这一挑战: 1. **文本解析**:利用大型语言模型(LLM)将复杂文本解析为语义基元(对象、关系、属性)并构建层次化图谱 2. **层次化输入**:将完整文本转换为简化的分文本输入,降低语法复杂度 3. **增量注入**:根据去噪阶段对不同语义类型的敏感性,按对象-关系-属性的优先级顺序在不同时间步注入语义信息 **性能提升**: - 在GenEval基准测试上达到69%的整体准确率,接近SDv3.5 Large(71%) - COCO-5K数据集CLIPScore达34.09,超越SDv3.5 Large约4.1% - 对复杂长文本表现更加鲁棒,解决了现有模型对文本长度的敏感性 这项研究不仅提升了生成质量,更重要的是揭示了扩散模型在不同去噪阶段对不同语义类型敏感性的内在规律,为理解扩散模型的语义建立过程提供了新视角。这种基于语义分解的方法有望推动多模态生成技术的进一步发展。