缓解模型关系幻觉（关系感知视觉增强）-拓冰网站优化

论文文章Mitigating Action-Relation Hallucinations in LVLMs via Relation-aware Visual Enhancement核心针对LVLM中的动作关系幻觉提出一种不训练模型、只在推理阶段修改attention的关系感知视觉增强方法。它解决的不是“图像里有没有某个物体”这种对象幻觉而是主体 - 动作关系 - 客体 subject - action relation - object例如woman - ride - bicycle woman - push - bicycle man - kiss - woman man - not kiss - woman man - hold - surfboard man - ride - surfboard论文认为LVLM之所以容易产生动作关系幻觉主要原因是模型在生成答案时过度依赖语言先验而对真正关键的视觉区域关注不足。论文观察到虽然图像token在输入序列中占大多数但模型分配给图像token的attention明显低于文本token文本token获得的attention约为图像token的10到100倍。流程图一句话的解释推理过程中模型更加关注视觉中的关系Action-Relation-Sensitive Head Identification:找到LVLM中对关系敏感的头Action-Contrastive Pair Construction构建一张图片两个对话只有关系改变控制变量可以看到后续哪个头变化大那么这个头是对关系敏感LVLM Architecture图片和文字编码和进入LVLMCalculate ARS Score统计每一层中每一个头的分数变化Relation-Aware Visual Enhancement用上述找到的对关系敏感的头增强对图片中关系的关注\对关系不敏感的头减少对图中的关注Relation-Aware Visual Enhancement选中top-k个对关系敏感的头对他们关注的patch取后用射到图中\选中bottom-k个对关系不敏感的头对他们关注的patch取后映射到图中Attention Mask Construction and Enhancement对他们关注的patch取平均后得到图中关注的像素点\选中bottom-k个对关系不敏感的头对他们关注的patch取平均后得到图中不关注的像素点然后让模型更加关注top-k的关注的patch\不关注bottom-k的关注的patch。

缓解模型关系幻觉（关系感知视觉增强）

相关新闻

JS逆向入门：加密参数定位与算法还原实战

如何用浏览器脚本打造个人专属小说图书馆：novel-downloader完全指南

低代码+CRM，是如何赋能中小微型企业构建数字化平台的？

Teleport Ultra整站下载工具包：带定时任务调度与中文操作手册

自主智能体核心原理：任务分解、工具调用与记忆管理实战

19-审批策略详解

JMeter分布式压测实战：多机联测与负载均衡性能验证

性能测试实战：从基准测试到TPS瓶颈排查的系统性方法

API网关全链路安全审计实战：基于Dify与Kong构建纵深防御体系

管理者的六个层次

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

YOLOv8推理性能优化：从1.2FPS到35FPS的全链路加速实践

Coze与Dify对比指南：低代码AI应用开发从入门到实战

AI生图工具怎么选？2026年6月版实测对比

YOLOv8推理性能优化：从1.2FPS到35FPS的全链路加速实践

Coze与Dify对比指南：低代码AI应用开发从入门到实战

AI生图工具怎么选？2026年6月版实测对比