Qwen 3.5 原生多模态新思路：DeepStack Vision Transformer 多层特征融合解析

阿里 Qwen 3.5 的视觉编码器设计走了一条不同于主流的路线。传统 Vision Transformer 如 LLaVA、MiniGPT 等，主要依赖单层输出特征，再通过投影层与语言模型对齐。Qwen 3.5 的 DeepStack Vision Transformer 则采用了多层级特征融合——将编码器多个中间层的特征进行整合，而非只看最后一层输出。同时，它用 Conv3D 将视频作为第三维度处理，实现原生时序建模，而非事后拼接帧序列。这种设计的核心收益在于：细粒度纹理与全局语义不再对立，可以同时保留。对于视频问答、时序推理等任务，提升效果显著。更重要的是，这套视觉编码器不是独立外挂的模块，而是直接融入了语言模型的多模态链路，体现了「原生多模态」的设计取向——从架构层面而非后训练对齐来解决融合问题。