缓解模型关系幻觉(关系感知视觉增强)
论文文章Mitigating Action-Relation Hallucinations in LVLMs via Relation-aware Visual Enhancement核心针对LVLM中的动作关系幻觉提出一种不训练模型、只在推理阶段修改attention的关系感知视觉增强方法。它解决的不是“图像里有没有某个物体”这种对象幻觉而是主体 - 动作关系 - 客体 subject - action relation - object例如woman - ride - bicycle woman - push - bicycle man - kiss - woman man - not kiss - woman man - hold - surfboard man - ride - surfboard论文认为LVLM之所以容易产生动作关系幻觉主要原因是模型在生成答案时过度依赖语言先验而对真正关键的视觉区域关注不足。论文观察到虽然图像token在输入序列中占大多数但模型分配给图像token的attention明显低于文本token文本token获得的attention约为图像token的10到100倍。流程图一句话的解释推理过程中模型更加关注视觉中的关系Action-Relation-Sensitive Head Identification:找到LVLM中对关系敏感的头Action-Contrastive Pair Construction构建一张图片两个对话只有关系改变控制变量可以看到后续哪个头变化大那么这个头是对关系敏感LVLM Architecture图片和文字编码和进入LVLMCalculate ARS Score统计每一层中每一个头的分数变化Relation-Aware Visual Enhancement用上述找到的对关系敏感的头增强对图片中关系的关注\对关系不敏感的头减少对图中的关注Relation-Aware Visual Enhancement选中top-k个对关系敏感的头对他们关注的patch取后用射到图中\选中bottom-k个对关系不敏感的头对他们关注的patch取后映射到图中Attention Mask Construction and Enhancement对他们关注的patch取平均后得到图中关注的像素点\选中bottom-k个对关系不敏感的头对他们关注的patch取平均后得到图中不关注的像素点然后让模型更加关注top-k的关注的patch\不关注bottom-k的关注的patch。

相关新闻

JS逆向入门:加密参数定位与算法还原实战

JS逆向入门:加密参数定位与算法还原实战

JS逆向入门:加密参数定位与算法还原实战 写给刚入行、看到加密参数就发懵的同学。不讲虚的,从"这个参数到底是怎么来的"到"我把它在本地跑出来",一条完整链路走通。 目录 一、JS逆向到底是什么 1.1 一个你一定遇到过的场…

2026/7/1 16:16:13阅读更多 →
如何用浏览器脚本打造个人专属小说图书馆:novel-downloader完全指南

如何用浏览器脚本打造个人专属小说图书馆:novel-downloader完全指南

如何用浏览器脚本打造个人专属小说图书馆:novel-downloader完全指南 【免费下载链接】novel-downloader 一个可扩展的通用型小说下载器。 项目地址: https://gitcode.com/gh_mirrors/no/novel-downloader 你是否曾经遇到过这样的困境:追更多年的小…

2026/7/1 16:16:13阅读更多 →
低代码+CRM,是如何赋能中小微型企业构建数字化平台的?

低代码+CRM,是如何赋能中小微型企业构建数字化平台的?

导读多数中小微企业始终对数字化转型望而却步:预算紧张、无专职IT团队、商用系统无法贴合自身业务。而低代码CRM的轻量化组合,精准适配小微企业经营现状,凭借低成本、高灵活、易落地的优势,成为中小微企业搭建专属数字化平台的优质…

2026/7/1 16:11:11阅读更多 →
Teleport Ultra整站下载工具包:带定时任务调度与中文操作手册

Teleport Ultra整站下载工具包:带定时任务调度与中文操作手册

本文还有配套的精品资源,点击获取 简介:Windows平台下开箱即用的网页镜像抓取工具,主打整站离线保存,支持多层链接深度遍历、图片CSSJS等资源自动归类、断点续传不丢数据。内置scheduler.exe可设置每日/每周定时抓取&#xff0…

2026/7/1 21:17:26阅读更多 →
自主智能体核心原理:任务分解、工具调用与记忆管理实战

自主智能体核心原理:任务分解、工具调用与记忆管理实战

1. 项目概述:当大模型不再“等指令”,而是主动拆解目标、调用工具、迭代执行你有没有试过这样一种状态:在ChatGPT里输入“帮我调研2024年国内AI芯片初创公司的融资情况,整理成带估值和核心技术的表格,再生成一份300字的…

2026/7/1 21:17:26阅读更多 →
19-审批策略详解

19-审批策略详解

19 — 审批策略详解 系列导读 | 本文是 Codex 安全与权限系列的第五篇(共四篇),深入解析 Codex CLI 的四种审批策略模式,以及如何在不同场景下平衡安全性与生产效率。 一、为什么需要审批策略? 沙盒模式解决了 “Agent 能做什么” 的问题(文件系统、网络、进程等系统级权…

2026/7/1 21:17:26阅读更多 →
JMeter分布式压测实战:多机联测与负载均衡性能验证

JMeter分布式压测实战:多机联测与负载均衡性能验证

1. 项目概述:从单机到集群的性能测试跃迁如果你已经用JMeter在本地跑过一些简单的接口测试,看着聚合报告里那几十、几百的并发数,可能会觉得性能测试不过如此。但当你真正面对一个需要模拟上万、甚至十万级并发用户的压测场景时,单…

2026/7/1 21:17:26阅读更多 →
性能测试实战:从基准测试到TPS瓶颈排查的系统性方法

性能测试实战:从基准测试到TPS瓶颈排查的系统性方法

1. 项目概述:从“TPS上不去”说起 干了十几年性能测试,最常被问到的问题之一就是:“老师,我们系统TPS死活上不去,压测结果很难看,怎么办?” 这个问题背后,往往混杂着对性能测试目的、…

2026/7/1 21:17:26阅读更多 →
API网关全链路安全审计实战:基于Dify与Kong构建纵深防御体系

API网关全链路安全审计实战:基于Dify与Kong构建纵深防御体系

1. 项目概述:为什么API网关安全审计在今天如此重要?如果你正在使用Dify这类AI应用开发平台,或者任何涉及API调用的微服务架构,那么“API网关安全”这个词组对你来说,可能已经从“重要”升级到了“生死攸关”。我最近花…

2026/7/1 21:12:25阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/1 4:42:14阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/7/1 5:19:01阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/1 0:01:44阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/1 0:01:44阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/1 0:01:44阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/1 0:01:44阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/1 0:01:44阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/1 0:01:44阅读更多 →