V-Zero:把「证据对比」塞进蒸馏,让多模态大模型不再借语言先验蒙混过关

在多模态大模型的视觉问答训练里有个老毛病:模型看似答得不错,其实是在「借语言先验蒙混过关」——根本没看图里那个小区域,只是顺着语料里的常见表达硬给答案。四川大学、西安交大、中国电信 TeleAI 与北大联合发布的 V-Zero 论文正是冲着这个痛点来。 V-Zero 的核心思路:不要答案标签,让学生在完整图像上自采样一条推理轨迹(on-policy rollout),教师模型在「相关证据 crop」和「无关 crop」两个视图下分别 replay 同一轨迹。两者 log p 之差就是「证据分」——一个 token 输出到底几成是被对应图像区域托住的,而不是被语言先验推着走。差分再被变换成 token 级门控权重,套在稠密的 token 级蒸馏上。 工程意义:训练不再依赖人工答案;on-policy 让模型优化自己推理时会抵达的状态;推理时仍吃原图,证据 crop 只在训练时出现。论文与代码已在 GitHub(eVI-group-SCU/V-Zero)和 HF 博客开源。对做细粒度视觉问答的团队来说,「用证据做门控」的蒸馏范式把 SFT、RL 与标准蒸馏各自的短板各打掉一截,值得抄作业。