V-Zero:无需答案标签,北大等提出对比证据门控蒸馏
V-Zero: Answer-Label-Free On-Policy Distillation with Contrastive Evidence Gating for Fine-Grained Visual Reasoning作者Haoxiang Sun, Zhihang Yi, Langxuan Deng, Yuhao Zhou, Peiqi Jia, Jian Zhao, Li Yuan, Jiancheng Lv, Tao Wang核心发表机构Sichuan University、Xi’an Jiaotong University、TeleAI of China Telecom、Peking University论文链接arXiv:2606.25319v1发布于arXiv 预印本cs.CV---------------|------------|--------|-----------|| VStar | 84.3 |91.6| 89.0 || HR-4K | 84.4 | 82.1 |87.8|| HR-8K | 80.1 | 79.6 |82.6|| ZoomBench | 52.2 | 52.5 |57.8|| MME-RW | 69.2 | 68.5 |69.8|| MMStar (OOD) | 71.8 | 71.1 |74.4||平均| 73.7 | 74.2 |76.9|V-Zero-4B 平均得分 76.9超 Qwen3.5-4B 3.2 点超 ZwZ-4B 2.7 点甚至超 ZwZ-8B76.4。在除 VStar 外的所有基准上均达到最高。VStar 上低于 ZwZ-4B 是因为 ZwZ 在该基准上可能存在过拟合。训练成本方面V-Zero 在 8×RTX PRO 6000 GPU 上仅需 4.8 小时而 ZwZ (8×H100) 需约 1 天、DeepEyes (8×H100) 需约 2 天考虑到硬件差异V-Zero 的实际加速比 SFT 方法 5×、RL 方法 10×。注意力可视化进一步定性验证了 V-Zero 的效果在三个典型细粒度样例中海报标题、限速标志、卡车与电车空间关系V-Zero 不仅准确覆盖正确视觉区域而且激活性更强下图中的红色区域而基线方法常忽略关键区域或激活分散。4.3 消融实验 / Ablation Study对比证据门控的有效性源码笔记 2 表 2移除门控None 变体即标准 OPD后感知平均VStar、HR-4K、HR-8K、ZoomBench 平均从 79.2 降至 78.0如果使用随机正负视图Rand. 变体平均进一步骤降至 72.5说明有意义的正视图配对和对比门控缺一不可。HR-8K 上的收益较小因为高分辨率输入本身已提供丰富信息门控的区分作用被削弱在视觉约束更强低分辨率或小区域的场景下收益更明显。教师大小的影响源码笔记 2 表 3使用 9B 教师与 4B 学生时感知平均为 78.9使用 27B 教师则提升至 79.2尤其在 ZoomBench 上提升显著54.8→57.7。不同教师在不同子任务上各有优势9B 教师在 VStar 和 HR-8K 更强但 27B 总体更优。Rollout 组大小G GG源码笔记 2 表 4G 4 G4G4时感知平均 78.1G 8 G8G8时 79.2主要增益来自 ZoomBench54.1→57.7表明更大的组内对比能更精确地识别高质量轨迹。训练步数的影响源码笔记 2 表 5从基座step 0感知平均 75.3开始第 30 步升至 77.2第 60 步达到峰值 79.2第 70 步回落至 77.8。不同基准的最优步不同HR-4K/HR-8K 在 50 步最佳ZoomBench 在 60 步最佳说明存在子能力权衡实际应用需监控感知平均选择 checkpoint。五、相关工作 / Related Work现有细粒度视觉推理工作主要分为三类1基于监督微调SFT的方法如 DeepEyes、Pixel-Reasoner、Thyme需要大规模人工标注推理轨迹训练成本高且易遗忘2基于强化学习RL的方法如 DeepEyesV2、ZwZ依赖可验证奖励或规则探索成本高昂且需要推理时额外工具调用如区域裁剪、外部定位模型3标准在线蒸馏OPD方法如 Video-OPD仅提供 token 级校正缺乏轨迹级判别无法区分错误推理路径。V-Zero 与以上所有方法的关键区别在于完全不使用任何标注文本答案通过教师对正/负视觉证据视图的对比在训练时对学生的自采样轨迹进行轨迹级区分和加权蒸馏推理时保持标准全图流水线。与 ZwZoff-policy 区域到图像蒸馏相比V-Zero 采用 on-policy 机制且仅训练时使用裁剪具有更强的泛化能力。与自蒸馏不同V-Zero 使用固定的更大教师27B核心创新在于视觉对比而非文本标签。六、局限性与展望 / Limitations Future Work对高分辨率输入的收益递减消融实验显示在 HR-8K 等极高分辨率场景下对比证据门控的增益较小。这是因为模型本身已能通过高分辨率图像获得足够视觉证据正负视图的区分作用被淹灭。未来可探索自适应门控策略根据输入分辨率或任务难度动态调整门控强度。训练步数敏感性不同基准的最优保存步数不一致且训练过长反而导致平均性能下降第 70 步回落。这可能是因为蒸馏过程中某些子能力退化。未来可考虑多任务学习或动态早停策略避免过拟合单一 benchmark。对区域裁剪的依赖训练时需要预先获取问题相关区域的正裁剪和无关区域的负裁剪。尽管本文使用 ZwZ 的高质量样本但对于更模糊的提问如“描述场景中所有细节”如何自动生成有意义的正负视图仍是一个开放问题。未来可结合视觉定位模型或注意力机制在线生成裁剪。门控机制对噪声的鲁棒性对比证据门控基于组内归一化和线性 clip当采样轨迹数量较少或质量波动大时门控可能不稳定。更平滑的归一化方式如 softmax 温度调节值得探索。跨系统比较的局限本文的主要对比方法使用不同基座Qwen3 vs Qwen2.5因此数值比较仅为横向参考严格消融应在统一基座上进行。七、总结 / ConclusionV-Zero 提出了第一个完全无答案标签的在线蒸馏框架专门用于细粒度视觉推理。其核心创新——对比证据门控——通过教师侧正/负视觉视图的对比赋予了 OPD 缺失的轨迹级判别能力从而在不使用任何标注文本答案、不引入 RL 探索成本的前提下显著提升了模型在多个细粒度基准上的推理精度。实验表明V-Zero 在 Qwen3.5-4B 上平均提升 3.1 点训练速度比 SFT 方法快 5 倍以上、比 RL 方法快 10 倍以上且推理时无需额外操作。消融研究系统验证了门控、组大小、教师容量和训练步数的作用同时也揭示了其在极高分辨率场景下增益有限、对裁剪依赖等局限性。V-Zero 为高效、可泛化的细粒度视觉推理开辟了新道路未来工作可围绕自适应门控和在线裁剪生成进一步拓展。原文摘要:Fine-grained visual reasoning requires multimodal large language models (MLLMs) to identify task-relevant visual evidence and ground their reasoning in local image regions. Existing agentic methods typically rely on reinforcement learning with verifiable rewards or supervised fine-tuning on large-scale annotated reasoning traces, leading to costly exploration, hand-designed verification rules, or heavy dependence on textual supervision. A natural way to avoid such external answer labels is to learn from trajectories sampled by the student itself, which points to On-Policy Distillation (OPD). To understand what OPD can and cannot provide for visual reasoning, we revisit it as negative-free stop-gradient alignment. This perspective shows that, although OPD provides effective token-level correction, its ceiling is constrained by the absence of trajectory-level discrimination. Motivated by these observations, we propose V-Zero, an answer-label-free framework for visual reasoning with contrastive evidence gating. V-Zero uses no annotated textual answer labels; instead, during training it pairs a question-relevant regional crop with a negative visual view to evaluate student-sampled trajectories and gate dense token-level distillation. Experiments on multiple visual reasoning benchmarks show that V-Zero consistently improves fine-grained visual reasoning while preserving strong generalization. Notably, V-Zero is more than 5× \times×faster than previous supervised fine-tuning methods and more than 10× \times×faster than reinforcement learning baselines. Code and dataset will be released at https://github.com/eVI-group-SCU/V-ZeroPDF链接:https://arxiv.org/pdf/2606.25319v1部分平台可能图片显示异常请以我的博客内容为准

相关新闻

第25篇 动态内存管理

第25篇 动态内存管理

一、动态内存管理:从静态局限到堆区自主分配1.1 栈区内存的局限性在掌握数组和局部变量时,我们习惯于在栈区(Stack)分配内存。例如 int arr[10] 或 int val 20。这种静态分配方式虽然高效,但存在两个致命缺陷&#xf…

2026/6/27 3:19:23阅读更多 →
Shell编程基础与进程管理

Shell编程基础与进程管理

写在前面 今天学两块内容——Shell编程基础和进程管理。前者是"怎么让Linux帮我干活",后者是"Linux里面的事都是怎么跑的"。看起来不相关,但其实是一条线:你写Shell脚本让系统干活,系统靠进程来执行这些活。…

2026/6/27 3:19:23阅读更多 →
LocalChatRoom 项目——客户端界面与交互层实现

LocalChatRoom 项目——客户端界面与交互层实现

一、概述在 LocalChatRoom 局域网聊天室项目中,我负责客户端界面与交互层的开发。这一层是用户直接面对的前端,承担着登录引导、消息展示、交互操作和状态反馈等全部 UI 职责。我负责的三个核心文件分别是:文件职责LoginDialog.java登录对话框…

2026/6/27 3:19:23阅读更多 →
YOLO + Qwen3-VL-Seg 深度诊断:双引擎协同完成AI质检

YOLO + Qwen3-VL-Seg 深度诊断:双引擎协同完成AI质检

YOLO + Qwen3-VL-Seg 深度诊断:双引擎协同完成AI质检 本文从工业质检的实际需求出发,设计了一套双引擎架构:YOLO负责实时检测定位,Qwen3-VL-Seg承担精细化语义诊断,真正实现从“看见”到“看懂”再到“审断”的全链路智能。该方案基于阿里通义开源的Qwen3-VL-Seg,通过仅…

2026/6/27 4:49:28阅读更多 →
Engram联合创始人:AI下一个瓶颈是记忆,训练模型记住你可节省百倍token!

Engram联合创始人:AI下一个瓶颈是记忆,训练模型记住你可节省百倍token!

“我们的模型始终在训练”——打破预训练与后训练的边界Engram联合创始人Dan Biderman认为,把提示词调到极致,也比不上等一个新版本。这一判断成为了这家公司创立的起点。当整个行业都在专注于上下文工程、RAG、工具调用时,Biderman和搭档Jes…

2026/6/27 4:49:28阅读更多 →
AI生成图片商用指南:版权归属、水印风险与素材合规全解析

AI生成图片商用指南:版权归属、水印风险与素材合规全解析

AI生成图片的版权迷雾与法律界定AIGC技术爆发引发了设计行业的版权地震。传统版权法保护的是人类的智力成果,而AI生成内容是否具有独创性成了争议焦点。目前全球范围内,关于AI作品的版权归属尚无统一标准。美国版权局多次拒绝授予纯AI生成图像版权&#…

2026/6/27 4:49:28阅读更多 →
豆包、千问获客怎么做?关于GEO合规增长方法论

豆包、千问获客怎么做?关于GEO合规增长方法论

企业想通过豆包、通义千问获客,首先要明确一个前提:AI问答平台不是传统竞价搜索平台,不能简单理解为“买广告位、买排名、买推荐”。更稳妥的路径,是通过GEO生成式引擎优化,让品牌在AI回答用户问题时,被准确…

2026/6/27 4:49:28阅读更多 →
STK12.6下载安装教程(附安装包)STK 保姆级安装教程

STK12.6下载安装教程(附安装包)STK 保姆级安装教程

前言 做航天仿真这一行,Excel是随身带的瑞士军刀,那 STK (Systems Tool Kit) 就是我们的主战装备。 航天仿真为什么离不开 STK STK 是航天仿真领域公认的行业标准工具。对热控设计来说,它解决三件事: 光照分析:卫星…

2026/6/27 4:49:28阅读更多 →
十大 AI 社区|官网 + 入门使用(可直接收藏)

十大 AI 社区|官网 + 入门使用(可直接收藏)

整理不易 求关注 点赞 收藏 👍 ❤️ ⭐ 1. Hugging Face(全球第一开源模型社区) …

2026/6/27 4:44:27阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/26 11:03:22阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/26 4:15:25阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/26 9:29:01阅读更多 →
10分钟AI语音克隆与实时变声:Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声:Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声&#xff1a;Retrieval-based-Voice-Conversion-WebUI完整指南 【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrie…

2026/6/27 0:04:03阅读更多 →
Layerdivider:3分钟AI智能分层,彻底告别手动抠图时代

Layerdivider:3分钟AI智能分层,彻底告别手动抠图时代

Layerdivider&#xff1a;3分钟AI智能分层&#xff0c;彻底告别手动抠图时代 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 还在为复杂的图像分层工作烦…

2026/6/27 0:04:03阅读更多 →
Tomcat中X-Frame-Options配置实战:防御点击劫持的四种方法与最佳实践

Tomcat中X-Frame-Options配置实战:防御点击劫持的四种方法与最佳实践

1. 项目概述&#xff1a;为什么X-Frame-Options是Web安全的“防盗门”&#xff1f;最近在排查一个老项目的安全审计报告时&#xff0c;又被提到了“点击劫持”风险&#xff0c;矛头直指缺失的X-Frame-Options响应头。这已经不是第一次了&#xff0c;很多开发团队&#xff0c;尤…

2026/6/27 0:04:03阅读更多 →