阿里 Qwen 3.5 的视觉编码器设计走了一条不同于主流的路线。传统 Vision Transformer 如 LLaVA、MiniGPT 等,主要依赖单层输出特征,再通过投影层与语言模型对齐。Qwen 3.5 的 DeepStack Vision Transformer 则采用了多层级特征融合——将编码器多个中间层的特征进行整合,而非只看最后一层输出。同时,它用 Conv3D 将视频作为第三维度处理,实现原生时序建模,而非事后拼接帧序列。这种设计的核心收益在于:细粒度纹理与全局语义不再对立,可以同时保留。对于视频问答、时序推理等任务,提升效果显著。更重要的是,这套视觉编码器不是独立外挂的模块,而是直接融入了语言模型的多模态链路,体现了「原生多模态」的设计取向——从架构层面而非后训练对齐来解决融合问题。