[论文学习]LLM Unlearning Benchmarks 是进展的薄弱衡量指标:CMU 论文深度分析
LLM Unlearning Benchmarks are Weak Measures of Progres核心问题与动机机器学习中的「Unlearning」遗忘/抹除旨在让模型在训练后移除特定资料的影响而无需从头重新训练全部资料。这在LLM大型语言模型中特别重要因为涉及隐私保护例如移除敏感个人资料、安全移除有害知识以及法规合规如 GDPR 的「被遗忘权」。然而LLM 规模庞大完整重新训练不切实际因此研究社群转向近似 unlearning 方法并依赖**经验基准empirical benchmarks**来评估成效。主要问题现有 LLM unlearning 基准如 TOFU、WMDP、Who’s Harry Potter?、TDEC、PKU-SafeRLHF 等普遍过于乐观且具误导性。它们通常将评估拆分成两个独立部分Forget Set测量是否成功遗忘特定知识准确率应降低。Retain Set测量是否保留其他无关知识准确率应维持。作者Pratiksha Thaker 等CMU透过广泛实验发现这些基准忽略了现实查询中forget 与 retain 资料之间的依赖关係也容易鼓励方法过拟合测试查询本身而非真正解决 unlearning 问题。动机作者调查了 2024 年 72 篇 unlearning 论文发现 82% 使用 forget/retain 结构前五大基准佔近半数评估和 80% 引用。这使得基准成为社群进展的关键驱动因素但若基准本身薄弱将误导整个领域。论文强调即使没有统一的形式化定义至少应确保基准符合高层直觉unlearning 应在真实、多样查询下有效而非仅在特定测试集上表现良好。这反映了更广泛的 LLM 评估挑战基准脆弱性但 unlearning 在隐私关键情境下风险更高——错误的「成功」可能导致实际隐私洩露。结果/成果作者对多个流行基准进行简单、非对抗性修改揭示了现有方法的失效Forget-Retain 依赖性漏洞Section IVTOFU将 forget 作者与 retain 作者的问题合併询问。许多 unlearning 方法如基于 DPO 的偏好优化、ECO在单独 retain 查询时表现良好但在组合查询时要么拒答破坏 retain 效用要么错误处理两者。Gradient Ascent 较稳定但整体分数较低。WMDP在 retain 集的多选题中将一个错误选项替换为 forget 相关关键词如 “SARS-CoV-2”。RMU 等方法 retain 准确率大幅崩溃接近随机甚至比未 unlearning 的基底模型更脆弱。过拟合测试集Section VTOFU简单关键字过滤搜寻 forget 作者姓名即可完美通过基准但这在现实中难以泛化。WMDPECO 方法的分类器过拟合提示中的 spurious feature如 “college” 关键字移除后表现崩溃。PKU-SafeRLHF有些工作直接在测试集上训练缺乏 held-out 集。改变查询类型e.g., 多选改成开放式也容易重新引出已「遗忘」资讯。这些修改暴露了基准的乐观偏差方法看似成功但面对轻微真实世界变异即失效。作者也讨论了 forget 集定义不明确的基准如 RWKU导致评估模糊。分析与洞见多角度分析基准设计根本缺陷Forget/Retain 分离假设两者完全独立但现实查询常有交叉依赖e.g., 同时问 forget 与 retain 实体。这鼓励「分类器式」解决方案而非真正移除影响。过拟合风险基准鼓励 pre/post-processing 过滤或直接针对测试查询优化而非泛化 unlearning。无 held-out 集或多样查询格式加剧此问题。与一般 LLM 评估的差异一般基准脆弱性主要影响可靠性在 unlearning 中则可能直接违反隐私或安全目标。Unlearning 还涉及额外複杂性如威胁模型不明确、forget 资料是否必须来自训练集等。边缘案例与细微差别某些方法在特定基准上稳定如 Gradient Ascent但整体效用低强健性训练如 LAT有时反而增加脆弱性。基准也未充分区分「unlearning 特定训练资料」 vs. 「一般审查/对齐」。更广影响这类似其他 LLM 基准批判e.g., 查询翻译、格式变化但在隐私领域后果更严重。社群压力快速发表、排行榜进一步放大问题。专案导向洞见在开发 unlearning 工具时勿仅依赖单一基准需自建 perturbation 测试如组合查询、关键词替换、格式变更。考虑实作 membership inference attacks 作为额外指标或聚焦 finetuning 资料的 exact unlearning 以建立可靠 baseline。专案可扩展建立更 robust 的 benchmark 套件包含 held-out 集、多格式查询、依赖性测试案例。结论与建议主要立场现有 LLM unlearning 基准在最佳情况下是有限的进展衡量在最坏情况下具误导性。社群应谨慎解读基准结果而非视为可靠证据。推荐Section VI基准设计避免过度依赖测试集提供 held-out、多格式查询明确指定 forget 资料纳入 forget-retain 依赖测试。区分问题将严格 unlearning移除训练资料影响与一般审查/对齐分开。威胁模型明确定义查询分布、权重存取、API 限制等以利公平比较。方法开发优先高效 exact unlearning、provable 方法使用 membership inference 等更强指标。整体聚焦实用情境定义与泛化而非窄基准分数。此论文为 unlearning 领域敲响警钟呼吁从基准驱动转向更严谨、实务导向的研究。它不仅指出问题还提供可操作建议对未来 LLM 隐私、安全与可信 AI 专案极具参考价值。文章连结CMU ML Bloghttps://blog.ml.cmu.edu/2025/04/18/llm-unlearning-benchmarks-are-weak-measures-of-progress/arXiv 论文Position Paperhttps://arxiv.org/abs/2410.02879或 PDFhttps://arxiv.org/pdf/2410.02879

相关新闻

Buzz语音转录引擎深度解析:多后端架构设计与性能优化实践

Buzz语音转录引擎深度解析:多后端架构设计与性能优化实践

Buzz语音转录引擎深度解析:多后端架构设计与性能优化实践 【免费下载链接】buzz Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAIs Whisper. 项目地址: https://gitcode.com/GitHub_Trending/buz/buzz 在数字内…

2026/6/26 0:32:19阅读更多 →
AppGen:基于Groq LPU的确定性AI应用编译范式

AppGen:基于Groq LPU的确定性AI应用编译范式

1. 项目概述:这不是又一个低代码平台,而是一次应用生成范式的迁移“Introducing AppGen from Groq”——光看这个标题,你可能会下意识划走:又一个AI公司推的“一键生成App”工具?名字里带“Gen”,大概率是套…

2026/6/26 0:27:19阅读更多 →
Apache mod_rewrite 高级实战:生产环境重写引擎深度解析

Apache mod_rewrite 高级实战:生产环境重写引擎深度解析

1. 项目概述:这不是“又一个 rewrite 教程”,而是 Apache 重写引擎的实战手术室你打开浏览器,输入https://example.com/blog/2024/06/my-post-title,几毫秒后页面加载完成——背后没有魔法,只有一段被反复锤炼、压测、…

2026/6/26 0:27:19阅读更多 →
OpenAI与Broadcom联合推出专为AI推理打造的定制芯片Jalapeno

OpenAI与Broadcom联合推出专为AI推理打造的定制芯片Jalapeno

OpenAI今日正式发布了一款名为Jalapeno的定制芯片,将用于驱动其旗下的大语言模型。该处理器由OpenAI与Broadcom联合开发。Broadcom在定制芯片设计领域经验丰富,此前曾协助谷歌开发TPU系列AI加速器,谷歌还于今年4月将与Broadcom的芯片合作协议…

2026/6/26 1:47:28阅读更多 →
数据治理平台效能升级:五大厂商多智能体协同与全链路自动化水平全景扫描

数据治理平台效能升级:五大厂商多智能体协同与全链路自动化水平全景扫描

2026年,数据治理市场的竞争逻辑正在发生根本性转变。过去两年,行业讨论的焦点还集中在“数据中台建不建”,如今已经转向“数据治理怎么做才真正有效”——标准能否自动匹配、质量规则能否智能推荐、治理流程能否从人工驱动转向AI驱动&#xf…

2026/6/26 1:47:28阅读更多 →
AI 存储风向标:美光指引再超预期,费半盘后全线修复

AI 存储风向标:美光指引再超预期,费半盘后全线修复

2026 年 6 月 24 日美东盘后,存储芯片龙头美光科技(NASDAQ: MU)公布截至 5 月 28 日的 2026 财年第三财季业绩:营收 414.6 亿美元,同比增长 345.7%;非 GAAP 口径下调整后每股收益 25.11 美元,同…

2026/6/26 1:47:28阅读更多 →
显式MPC参考轨迹压缩:降维原理、方法与实践指南

显式MPC参考轨迹压缩:降维原理、方法与实践指南

1. 项目概述:当显式MPC遇上“臃肿”的参考轨迹在工业过程控制、机器人运动规划这些领域,模型预测控制(MPC)早已不是什么新鲜词。它那种“走一步,看三步”的优化思想,确实能解决很多传统PID搞不定的复杂约束…

2026/6/26 1:47:28阅读更多 →
AI 辅助团队协作:智能项目管理中的任务分配与进度预测实践

AI 辅助团队协作:智能项目管理中的任务分配与进度预测实践

AI 辅助团队协作:智能项目管理中的任务分配与进度预测实践 一、项目管理的核心矛盾:信息不对称与决策延迟 团队协作的效率瓶颈,本质上不是工具问题,而是信息不对称问题。项目经理不知道每个成员的真实工作负载,成员不知…

2026/6/26 1:47:28阅读更多 →
游戏开发资源大全:一个仓库搞定所有学习资料

游戏开发资源大全:一个仓库搞定所有学习资料

文章目录游戏开发资源大全:一个仓库搞定所有学习资料覆盖范围有多广不只是链接堆砌实际怎么用适合什么人持续更新中游戏开发资源大全:一个仓库搞定所有学习资料 做游戏开发最头疼的事情之一,就是找资料。引擎文档分散在各个官网,…

2026/6/26 1:42:28阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/25 9:39:54阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/25 2:52:24阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/25 9:01:34阅读更多 →
HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

一、前言:企业运维痛点与资源价值自博通收购 VMware 之后,原 VMware 公开免费下载渠道全面关闭,企业运维人员想要获取适配 HPE 慧与服务器的 ESXi 9 原厂镜像,必须注册博通账号、绑定有效授权才能下载,无授权账号无法获…

2026/6/26 0:02:15阅读更多 →
Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin作为一门现代编程语言,与Java的互操作性一直是其核心优势之一。为了让Kotlin代码能够无缝对接Java,Kotlin提供了多种注解来优化互操作体验,其中JvmStatic和JvmField是两个关键注解。它们分别用于解决静态成员和字段在Java中的访问问题&…

2026/6/26 0:02:15阅读更多 →
深入解析musl libc中的mmap实现源码

深入解析musl libc中的mmap实现源码

最近在阅读musl libc源码时,发现其mmap的实现非常精妙,特分享给大家。 一、代码整体结构 这段代码实现了__mmap函数,并通过weak_alias导出为mmap。这是典型的musl libc风格——提供弱符号以便用户可以重写。 weak_alias(__mmap, mmap); 二…

2026/6/26 0:02:15阅读更多 →