[论文学习]大型语言模型机器遗忘之深入剖析:问题、方法与实证
A Closer Look at Machine Unlearning for Large Language Models核心问题与动机大型语言模型LLM在训练过程中会从海量网络数据中记住敏感、隐私或受版权保护的内容这带来了严重的隐私泄露、法律风险如「被遗忘权」Right to be Forgotten和道德问题。由于从头重新训练模型以移除特定知识的成本极高机器遗忘Machine Unlearning成为重要的解决方案通过针对性微调让模型「忘记」特定forget set的内容同时尽量保留整体效能retain set与一般知识。论文指出先前研究存在以下几大核心问题评估不足多数工作仅依赖 ROUGE 作为唯一输出评估指标无法全面捕捉模型行为如重复生成无意义 token、语义偏移、事实错误。方法分类与缺陷Untargeted Unlearning非目标化遗忘如 GA、NPO仅最大化 forget set 的预测 loss希望模型不泄漏信息。但理想 retain model 的行为不可预测且 surrogate retain model 容易产生hallucination看似合理但事实错误的输出可能带来额外法律风险。Targeted Unlearning目标化遗忘如 IDK Fine-tune、DPO强制模型对 forget set 输出拒答模板如 “Sorry, I don’t know.”但容易导致模型过度无知overly ignorant拒答 retain set 的类似问题严重损害实用性。持续遗忘与真实世界适用性先前研究多聚焦单次虚构遗忘忽略了连续遗忘continual unlearning和真实世界情境下的挑战。正则化不足现有的 GD 或 KL 正则化无法有效平衡遗忘效果与效用保留尤其在 targeted 情境下。本文动机在于提供更深入的分析框架、更好的评估指标与实用方法推动 LLM 遗忘技术朝更可靠、安全的方向发展符合 AI 治理需求。结果/成果论文提出了两大核心改进1. Untargeted Unlearning 改进引入Maximizing Entropy (ME)目标让模型对 forget set 的每个 next token预测趋近 uniform distribution最大熵类似随机初始化模型有效避免 hallucination 风险。结合 GD 正则化形成MEGD方法。2. Targeted Unlearning 改进引入Answer Preservation (AP) Loss作为正则化在降低拒答模板概率的同时维持 retain set 原答案概率形成IDKAP方法。新增评估指标更全面Token Entropy (TE)衡量输出 token 多样性避免重复垃圾输出Cosine Similarity (CS)衡量遗忘前后输出语义相似度Entailment Score (ES)使用 NLI 模型评估输出与 ground truth 的事实蕴涵正确性聚合指标Model Utility (MU)retain set 的 harmonic meanForget Efficacy (FE)forget set 的 1 - 平均实验结果基于 TOFU 基准、Llama2-7B 等虚构遗忘Fictitious UnlearningMEGD 在 forget01/05/10 任务中达成最佳 MU-FE 平衡显着优于 GA/NPO 等 baseline尤其在较大 forget set 上能同时维持稳定效用并提升遗忘效果。持续遗忘Continual Unlearning模拟多次连续遗忘多方法效用随任务累积下降但 MEGD 表现更稳健。真实世界遗忘Real-world Unlearning在更实际情境下MEGD 在多项指标上超越 baseline展现良好泛化能力。总体而言提出的方法在 MU 和 FE 之间取得了更好的权衡代码已完全开源便于复现。分析与洞见论文的深度不仅在于提出新方法更从多个角度深刻剖析了 LLM 遗忘的本质挑战Untargeted 的不可预测性LLM 输出空间巨大无法可靠模拟理想 retain modelsurrogate 方法虽实用但 hallucination 风险高。ME 目标提供了一种数据无关data-agnostic、定义明确的替代方案更接近「真正遗忘」而非近似。Targeted 的过度无知问题遗忘集与保留集分布相似单纯提升拒答模板概率会造成 collateral damage。AP loss 通过梯度分析证明其自适应权重adaptive weighting有效缓解了这一问题。评估框架升级仅靠 ROUGE 容易误导高 ROUGE 但低可读性/正确性。新增的 TE/CS/ES 指标能够捕捉更多细微行为MU/FE 聚合指标则提供了更稳健的整体视角涵盖了重复输出、语义漂移、事实矛盾等 edge cases。权衡与挑战遗忘强度α 等超参需小心调控在 continual 情境下累积效应明显真实世界中隐私/版权需求更为复杂可能需要结合检测或输入处理方法。更广义涵义LLM 遗忘不仅是技术问题更是 AI 安全、合规与信任的关键。所提方法强调避免 hallucination、维持实用性对部署负责任 AI 具有重要实务价值。边缘考量若 forget set 与 retain set 重迭度高遗忘难度显着增加hallucination 判断具有一定主观性需更多人类或先进 LLM 验证长期持续遗忘可能影响模型整体连贯性。结论这篇论文对 LLM 机器遗忘进行了细致的“Closer Look”系统梳理了现有问题提出更完善的评估框架并通过MEGD与IDKAP等创新方法有效解决了 untargeted 的不可预测性与 targeted 的过度无知困境。实验横跨虚构遗忘、持续遗忘与真实世界遗忘三种情境充分证明了方法的优越性为后续研究提供了坚实基础与开源资源。核心观点LLM 遗忘需同时兼顾遗忘彻底性、效用保留与输出安全性推动该领域从经验式调整走向更原理导向的设计。未来方向可能包括更高效的 scalable 方法、与其他 AI 安全技术的整合以及在多模态或 agentic 系统中的应用。文章链接arXiv: https://arxiv.org/abs/2410.08109PDF: https://arxiv.org/pdf/2410.08109.pdf官方代码https://github.com/sail-sg/closer-look-LLM-unlearning ICLR 2025 接收论文

相关新闻

[论文学习]LLM Unlearning Benchmarks 是进展的薄弱衡量指标:CMU 论文深度分析

[论文学习]LLM Unlearning Benchmarks 是进展的薄弱衡量指标:CMU 论文深度分析

LLM Unlearning Benchmarks are Weak Measures of Progres 核心问题与动机 机器学习中的「Unlearning」(遗忘/抹除)旨在让模型在训练后移除特定资料的影响,而无需从头重新训练全部资料。这在 LLM(大型语言模型)中特别…

2026/6/26 0:32:19阅读更多 →
Buzz语音转录引擎深度解析:多后端架构设计与性能优化实践

Buzz语音转录引擎深度解析:多后端架构设计与性能优化实践

Buzz语音转录引擎深度解析:多后端架构设计与性能优化实践 【免费下载链接】buzz Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAIs Whisper. 项目地址: https://gitcode.com/GitHub_Trending/buz/buzz 在数字内…

2026/6/26 0:32:19阅读更多 →
AppGen:基于Groq LPU的确定性AI应用编译范式

AppGen:基于Groq LPU的确定性AI应用编译范式

1. 项目概述:这不是又一个低代码平台,而是一次应用生成范式的迁移“Introducing AppGen from Groq”——光看这个标题,你可能会下意识划走:又一个AI公司推的“一键生成App”工具?名字里带“Gen”,大概率是套…

2026/6/26 0:27:19阅读更多 →
OpenAI与Broadcom联合推出专为AI推理打造的定制芯片Jalapeno

OpenAI与Broadcom联合推出专为AI推理打造的定制芯片Jalapeno

OpenAI今日正式发布了一款名为Jalapeno的定制芯片,将用于驱动其旗下的大语言模型。该处理器由OpenAI与Broadcom联合开发。Broadcom在定制芯片设计领域经验丰富,此前曾协助谷歌开发TPU系列AI加速器,谷歌还于今年4月将与Broadcom的芯片合作协议…

2026/6/26 1:47:28阅读更多 →
数据治理平台效能升级:五大厂商多智能体协同与全链路自动化水平全景扫描

数据治理平台效能升级:五大厂商多智能体协同与全链路自动化水平全景扫描

2026年,数据治理市场的竞争逻辑正在发生根本性转变。过去两年,行业讨论的焦点还集中在“数据中台建不建”,如今已经转向“数据治理怎么做才真正有效”——标准能否自动匹配、质量规则能否智能推荐、治理流程能否从人工驱动转向AI驱动&#xf…

2026/6/26 1:47:28阅读更多 →
AI 存储风向标:美光指引再超预期,费半盘后全线修复

AI 存储风向标:美光指引再超预期,费半盘后全线修复

2026 年 6 月 24 日美东盘后,存储芯片龙头美光科技(NASDAQ: MU)公布截至 5 月 28 日的 2026 财年第三财季业绩:营收 414.6 亿美元,同比增长 345.7%;非 GAAP 口径下调整后每股收益 25.11 美元,同…

2026/6/26 1:47:28阅读更多 →
显式MPC参考轨迹压缩:降维原理、方法与实践指南

显式MPC参考轨迹压缩:降维原理、方法与实践指南

1. 项目概述:当显式MPC遇上“臃肿”的参考轨迹在工业过程控制、机器人运动规划这些领域,模型预测控制(MPC)早已不是什么新鲜词。它那种“走一步,看三步”的优化思想,确实能解决很多传统PID搞不定的复杂约束…

2026/6/26 1:47:28阅读更多 →
AI 辅助团队协作:智能项目管理中的任务分配与进度预测实践

AI 辅助团队协作:智能项目管理中的任务分配与进度预测实践

AI 辅助团队协作:智能项目管理中的任务分配与进度预测实践 一、项目管理的核心矛盾:信息不对称与决策延迟 团队协作的效率瓶颈,本质上不是工具问题,而是信息不对称问题。项目经理不知道每个成员的真实工作负载,成员不知…

2026/6/26 1:47:28阅读更多 →
游戏开发资源大全:一个仓库搞定所有学习资料

游戏开发资源大全:一个仓库搞定所有学习资料

文章目录游戏开发资源大全:一个仓库搞定所有学习资料覆盖范围有多广不只是链接堆砌实际怎么用适合什么人持续更新中游戏开发资源大全:一个仓库搞定所有学习资料 做游戏开发最头疼的事情之一,就是找资料。引擎文档分散在各个官网,…

2026/6/26 1:42:28阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/25 9:39:54阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/25 2:52:24阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/25 9:01:34阅读更多 →
HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

一、前言:企业运维痛点与资源价值自博通收购 VMware 之后,原 VMware 公开免费下载渠道全面关闭,企业运维人员想要获取适配 HPE 慧与服务器的 ESXi 9 原厂镜像,必须注册博通账号、绑定有效授权才能下载,无授权账号无法获…

2026/6/26 0:02:15阅读更多 →
Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin作为一门现代编程语言,与Java的互操作性一直是其核心优势之一。为了让Kotlin代码能够无缝对接Java,Kotlin提供了多种注解来优化互操作体验,其中JvmStatic和JvmField是两个关键注解。它们分别用于解决静态成员和字段在Java中的访问问题&…

2026/6/26 0:02:15阅读更多 →
深入解析musl libc中的mmap实现源码

深入解析musl libc中的mmap实现源码

最近在阅读musl libc源码时,发现其mmap的实现非常精妙,特分享给大家。 一、代码整体结构 这段代码实现了__mmap函数,并通过weak_alias导出为mmap。这是典型的musl libc风格——提供弱符号以便用户可以重写。 weak_alias(__mmap, mmap); 二…

2026/6/26 0:02:15阅读更多 →