CUE: Concept-Aware Multi-Label Expansion to Mitigate Concept Confusion in Long-Tailed Learning
CUE面向长尾学习中概念混淆问题的概念感知多标签扩展方法主要解决基础模型在长尾学习微调过程中出现的概念混淆问题本文中还指出在使用 CLIP 等基础模型进行长尾微调时模型不仅会受到类别不均衡的影响还会破坏原有的语义结构从而导致相似类别之间的错误分类为了解决这两个问题本文提出 CUE通过 VLM 和 LLM 构造概念相关类别将原本的单标签监督扩展为概念感知的多标签监督从而缓解长尾微调中的概念混淆问题。会议CVPR 2026代码地址https://github. com/zhangruichi/CUE创新点1.提出长尾微调中的概念混淆问题以往方法主要关注 class imbalance但本文发现基础模型在长尾数据上微调时会破坏原有的类间语义关系导致尾部类样本被错分到语义相近类别中2.提出 CUE模型将原本的单标签监督扩展为概念感知的多标签监督使模型在学习真实类别的同时也保留与该类别相关的视觉和语义关系3.设计两种互补的 cueVLM-based Instance-Level Cue 用 CLIP zero-shot 预测找到当前图像视觉上最相似的类别LLM-based Class-Level Cue 用大语言模型为每个类别构造语义邻居类别。整体框架CUE整体框架图1.VLM-based Instance-Level Cue基于 VLM 的实例级提示首先对于每一张训练图像使用冻结的 CLIP 进行 zero-shot 分类而文本端使用标准 prompt然后计算图像特征和所有类别文本特征之间的相似度结果可能会出现多个相似的类别CUE 会从非真实类别中选出 Top-k 个相似类别作为实例级 cue然后构造多标签监督此模块对于当前图像而言这些类别虽然不是正确的但它们和当前图像在 CLIP 语义空间中很接近训练时不应该把它们全部强行压成负类否则会破坏视觉相似类别之间的关系因此此模块主要缓解的是实例级概念混淆更关注这张图像看起来像哪些类别。2.LLM-based Class-Level Cue基于大语言模型的类别提示主要作用是利用大语言模型构建类别之间的语义邻居关系VLM cue 是针对每一张图像动态生成的而 LLM cue 是针对类别本身构建的对于某一类别LLM会给出一些相关的类别这些类别之间存在语义层面的相似性或概念关联进而真实类别和它的语义邻居都被作为辅助正标签此模块主要缓解的是类别级概念混淆更关注这个类别在语义上接近哪些类别。3.BLA损失Binary Logit Adjustment因为 CUE 构造了多标签辅助监督所以不能直接用普通交叉熵损失对于多标签目标更适合使用 BCE Loss但普通 BCE 没有考虑长尾类别分布所以作者提出了 BLA损失也就是在 sigmoid 之前对每个类别的 logit 加入类别先验调整主要就是防止辅助标签训练时仍然被头部类主导以及让 VLM cue 和 LLM cue 可以稳定参与优化。

相关新闻

独立开发实战:学生管理+考试防作弊机制设计

独立开发实战:学生管理+考试防作弊机制设计

独立开发实战:学生管理 考试防作弊机制设计 一、问题起源 在上一篇我分享了在线考试系统的整体搭建过程。但在实际使用中,老师和学生都反馈了一些问题: 老师反馈: 「学生关了浏览器,后台还显示在作答,这…

2026/7/4 19:55:27阅读更多 →
终极指南:40+经典DSGE模型库如何加速你的宏观经济研究

终极指南:40+经典DSGE模型库如何加速你的宏观经济研究

终极指南:40经典DSGE模型库如何加速你的宏观经济研究 【免费下载链接】DSGE_mod A collection of Dynare models 项目地址: https://gitcode.com/gh_mirrors/ds/DSGE_mod 你是否曾在经济学研究中为复现经典模型而苦恼?是否想验证理论结果却被技术…

2026/7/4 19:55:27阅读更多 →
华硕笔记本轻量级控制中心:释放硬件潜力的终极解决方案

华硕笔记本轻量级控制中心:释放硬件潜力的终极解决方案

华硕笔记本轻量级控制中心:释放硬件潜力的终极解决方案 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, E…

2026/7/4 19:55:26阅读更多 →
关注点之(五)大畸变pinhole/fisheye场景的重建及渲染

关注点之(五)大畸变pinhole/fisheye场景的重建及渲染

0.概述 对较大的畸变场景重建及渲染,若先将鱼眼图像 “去畸变” 为针孔图像,会裁剪边缘区域,丢失大量场景信息(鱼眼图像边缘信息密度高,对深度估计至关重要,这种方式不可取,且无法与后续重建流程端到端优化,导致最终重建误差无法最小化。对于fisheye-gs这种做法采用对…

2026/7/4 20:55:46阅读更多 →
Json-Function源码解析:核心方法的实现原理与设计思想

Json-Function源码解析:核心方法的实现原理与设计思想

Json-Function源码解析:核心方法的实现原理与设计思想 【免费下载链接】Json-Function It allows you to use methods such as schema, innerJoin, where, limit, select, orderBy on JSON data. 项目地址: https://gitcode.com/gh_mirrors/js/Json-Function …

2026/7/4 20:55:46阅读更多 →
【计算机Java毕业设计案例】剧本杀题材分类与智能推荐管理系统的设计与实现 基于 SpringBoot 的剧本杀玩家档案管理系统(程序+文档+讲解+定制)

【计算机Java毕业设计案例】剧本杀题材分类与智能推荐管理系统的设计与实现 基于 SpringBoot 的剧本杀玩家档案管理系统(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/4 20:55:46阅读更多 →
Atcoder Better 下载+AI翻译使用教程(保姆级教程,永远不开会员,2026新)

Atcoder Better 下载+AI翻译使用教程(保姆级教程,永远不开会员,2026新)

Atcoder Better AI翻译配置下载 第一步 访问插件市场下载篡改猴后点这(如果没有下载就多刷新几遍,或下载fastgithub---- fastgithub使用教程后试一试) 第二步 访问这个链接并注册账号 进行实名认证(现在没有免费模型,是必须验证,教程提供的模型很便宜,除非超多使用量,否则不…

2026/7/4 20:55:46阅读更多 →
如何在Windows 10/11中快速离线加入或退出Insider预览计划:OfflineInsiderEnroll终极指南

如何在Windows 10/11中快速离线加入或退出Insider预览计划:OfflineInsiderEnroll终极指南

如何在Windows 10/11中快速离线加入或退出Insider预览计划:OfflineInsiderEnroll终极指南 【免费下载链接】offlineinsiderenroll OfflineInsiderEnroll - A script to enable access to the Windows Insider Program on machines not signed in with Microsoft Acc…

2026/7/4 20:55:46阅读更多 →
终极指南:如何使用MusicBrainz Picard插件系统扩展音频标签编辑功能

终极指南:如何使用MusicBrainz Picard插件系统扩展音频标签编辑功能

终极指南:如何使用MusicBrainz Picard插件系统扩展音频标签编辑功能 【免费下载链接】picard Picard is a cross-platform music tagger powered by the MusicBrainz database 项目地址: https://gitcode.com/gh_mirrors/pi/picard MusicBrainz Picard是一款…

2026/7/4 20:50:46阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/4 14:25:39阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/7/4 14:57:00阅读更多 →
端到端自动驾驶:从GTC‘26看工程可信落地的核心逻辑

端到端自动驾驶:从GTC‘26看工程可信落地的核心逻辑

1. 项目概述:当算法工程师走进GTC26展厅,看到的不是芯片,而是“端到端”的呼吸节奏“端到端”这三个字,在GTC’26现场出现的频率,高得像NVLink带宽测试时的峰值曲线——它不再是一个论文里的技术路径选项,而…

2026/7/4 0:02:48阅读更多 →
缺牙修复科普:常见义齿类型与选择参考

缺牙修复科普:常见义齿类型与选择参考

缺牙修复科普:常见义齿类型与选择参考牙齿缺失是中老年人群中较为常见的口腔问题,不仅会造成咀嚼不便、进食受影响,长期还可能对营养摄入与日常社交带来困扰。义齿是改善缺牙问题的常用方式,目前市面上的义齿种类较多,…

2026/7/4 0:02:48阅读更多 →
STM32F091RC与LTC6904实现高精度方波信号生成

STM32F091RC与LTC6904实现高精度方波信号生成

1. 项目概述:LTC6904与STM32F091RC的精准方波生成方案在嵌入式系统开发中,精确的时钟信号和定时控制往往是项目成败的关键。LTC6904作为一款低功耗、高精度的可编程振荡器芯片,与STM32F091RC这款ARM Cortex-M0内核微控制器的组合,…

2026/7/4 0:02:48阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/4 1:16:56阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/4 2:33:55阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/4 2:33:55阅读更多 →