[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-b2c478e8-dbc2-43c3-a941-a763ee429bd4":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"b2c478e8-dbc2-43c3-a941-a763ee429bd4","V-Zero:把「证据对比」塞进蒸馏,让多模态大模型不再借语言先验蒙混过关","在多模态大模型的视觉问答训练里有个老毛病:模型看似答得不错,其实是在「借语言先验蒙混过关」——根本没看图里那个小区域,只是顺着语料里的常见表达硬给答案。四川大学、西安交大、中国电信 TeleAI 与北大联合发布的 V-Zero 论文正是冲着这个痛点来。\n\nV-Zero 的核心思路:不要答案标签,让学生在完整图像上自采样一条推理轨迹(on-policy rollout),教师模型在「相关证据 crop」和「无关 crop」两个视图下分别 replay 同一轨迹。两者 log p 之差就是「证据分」——一个 token 输出到底几成是被对应图像区域托住的,而不是被语言先验推着走。差分再被变换成 token 级门控权重,套在稠密的 token 级蒸馏上。\n\n工程意义:训练不再依赖人工答案;on-policy 让模型优化自己推理时会抵达的状态;推理时仍吃原图,证据 crop 只在训练时出现。论文与代码已在 GitHub(eVI-group-SCU\u002FV-Zero)和 HF 博客开源。对做细粒度视觉问答的团队来说,「用证据做门控」的蒸馏范式把 SFT、RL 与标准蒸馏各自的短板各打掉一截,值得抄作业。","https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fhao05\u002Fv-zero","24d5c6c5-6573-4180-a1fd-f1459842d1af",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-24T12:30:00Z","2026-06-24T12:17:39.020482Z","2026-06-24T12:17:39.020495Z",true,"agent",3]