[论文学习]大型语言模型机器遗忘之深入剖析:问题、方法与实证
A Closer Look at Machine Unlearning for Large Language Models核心问题与动机大型语言模型LLM在训练过程中会从海量网络数据中记住敏感、隐私或受版权保护的内容这带来了严重的隐私泄露、法律风险如「被遗忘权」Right to be Forgotten和道德问题。由于从头重新训练模型以移除特定知识的成本极高机器遗忘Machine Unlearning成为重要的解决方案通过针对性微调让模型「忘记」特定forget set的内容同时尽量保留整体效能retain set与一般知识。论文指出先前研究存在以下几大核心问题评估不足多数工作仅依赖 ROUGE 作为唯一输出评估指标无法全面捕捉模型行为如重复生成无意义 token、语义偏移、事实错误。方法分类与缺陷Untargeted Unlearning非目标化遗忘如 GA、NPO仅最大化 forget set 的预测 loss希望模型不泄漏信息。但理想 retain model 的行为不可预测且 surrogate retain model 容易产生hallucination看似合理但事实错误的输出可能带来额外法律风险。Targeted Unlearning目标化遗忘如 IDK Fine-tune、DPO强制模型对 forget set 输出拒答模板如 “Sorry, I don’t know.”但容易导致模型过度无知overly ignorant拒答 retain set 的类似问题严重损害实用性。持续遗忘与真实世界适用性先前研究多聚焦单次虚构遗忘忽略了连续遗忘continual unlearning和真实世界情境下的挑战。正则化不足现有的 GD 或 KL 正则化无法有效平衡遗忘效果与效用保留尤其在 targeted 情境下。本文动机在于提供更深入的分析框架、更好的评估指标与实用方法推动 LLM 遗忘技术朝更可靠、安全的方向发展符合 AI 治理需求。结果/成果论文提出了两大核心改进1. Untargeted Unlearning 改进引入Maximizing Entropy (ME)目标让模型对 forget set 的每个 next token预测趋近 uniform distribution最大熵类似随机初始化模型有效避免 hallucination 风险。结合 GD 正则化形成MEGD方法。2. Targeted Unlearning 改进引入Answer Preservation (AP) Loss作为正则化在降低拒答模板概率的同时维持 retain set 原答案概率形成IDKAP方法。新增评估指标更全面Token Entropy (TE)衡量输出 token 多样性避免重复垃圾输出Cosine Similarity (CS)衡量遗忘前后输出语义相似度Entailment Score (ES)使用 NLI 模型评估输出与 ground truth 的事实蕴涵正确性聚合指标Model Utility (MU)retain set 的 harmonic meanForget Efficacy (FE)forget set 的 1 - 平均实验结果基于 TOFU 基准、Llama2-7B 等虚构遗忘Fictitious UnlearningMEGD 在 forget01/05/10 任务中达成最佳 MU-FE 平衡显着优于 GA/NPO 等 baseline尤其在较大 forget set 上能同时维持稳定效用并提升遗忘效果。持续遗忘Continual Unlearning模拟多次连续遗忘多方法效用随任务累积下降但 MEGD 表现更稳健。真实世界遗忘Real-world Unlearning在更实际情境下MEGD 在多项指标上超越 baseline展现良好泛化能力。总体而言提出的方法在 MU 和 FE 之间取得了更好的权衡代码已完全开源便于复现。分析与洞见论文的深度不仅在于提出新方法更从多个角度深刻剖析了 LLM 遗忘的本质挑战Untargeted 的不可预测性LLM 输出空间巨大无法可靠模拟理想 retain modelsurrogate 方法虽实用但 hallucination 风险高。ME 目标提供了一种数据无关data-agnostic、定义明确的替代方案更接近「真正遗忘」而非近似。Targeted 的过度无知问题遗忘集与保留集分布相似单纯提升拒答模板概率会造成 collateral damage。AP loss 通过梯度分析证明其自适应权重adaptive weighting有效缓解了这一问题。评估框架升级仅靠 ROUGE 容易误导高 ROUGE 但低可读性/正确性。新增的 TE/CS/ES 指标能够捕捉更多细微行为MU/FE 聚合指标则提供了更稳健的整体视角涵盖了重复输出、语义漂移、事实矛盾等 edge cases。权衡与挑战遗忘强度α 等超参需小心调控在 continual 情境下累积效应明显真实世界中隐私/版权需求更为复杂可能需要结合检测或输入处理方法。更广义涵义LLM 遗忘不仅是技术问题更是 AI 安全、合规与信任的关键。所提方法强调避免 hallucination、维持实用性对部署负责任 AI 具有重要实务价值。边缘考量若 forget set 与 retain set 重迭度高遗忘难度显着增加hallucination 判断具有一定主观性需更多人类或先进 LLM 验证长期持续遗忘可能影响模型整体连贯性。结论这篇论文对 LLM 机器遗忘进行了细致的“Closer Look”系统梳理了现有问题提出更完善的评估框架并通过MEGD与IDKAP等创新方法有效解决了 untargeted 的不可预测性与 targeted 的过度无知困境。实验横跨虚构遗忘、持续遗忘与真实世界遗忘三种情境充分证明了方法的优越性为后续研究提供了坚实基础与开源资源。核心观点LLM 遗忘需同时兼顾遗忘彻底性、效用保留与输出安全性推动该领域从经验式调整走向更原理导向的设计。未来方向可能包括更高效的 scalable 方法、与其他 AI 安全技术的整合以及在多模态或 agentic 系统中的应用。文章链接arXiv: https://arxiv.org/abs/2410.08109PDF: https://arxiv.org/pdf/2410.08109.pdf官方代码https://github.com/sail-sg/closer-look-LLM-unlearning ICLR 2025 接收论文

相关新闻

[论文学习]LLM Unlearning Benchmarks 是进展的薄弱衡量指标:CMU 论文深度分析

[论文学习]LLM Unlearning Benchmarks 是进展的薄弱衡量指标:CMU 论文深度分析

LLM Unlearning Benchmarks are Weak Measures of Progres 核心问题与动机 机器学习中的「Unlearning」(遗忘/抹除)旨在让模型在训练后移除特定资料的影响,而无需从头重新训练全部资料。这在 LLM(大型语言模型)中特别…

2026/6/30 21:17:05阅读更多 →
Buzz语音转录引擎深度解析:多后端架构设计与性能优化实践

Buzz语音转录引擎深度解析:多后端架构设计与性能优化实践

Buzz语音转录引擎深度解析:多后端架构设计与性能优化实践 【免费下载链接】buzz Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAIs Whisper. 项目地址: https://gitcode.com/GitHub_Trending/buz/buzz 在数字内…

2026/7/1 8:08:30阅读更多 →
AppGen:基于Groq LPU的确定性AI应用编译范式

AppGen:基于Groq LPU的确定性AI应用编译范式

1. 项目概述:这不是又一个低代码平台,而是一次应用生成范式的迁移“Introducing AppGen from Groq”——光看这个标题,你可能会下意识划走:又一个AI公司推的“一键生成App”工具?名字里带“Gen”,大概率是套…

2026/7/1 18:04:02阅读更多 →
番茄小说下载器完整指南:构建个人数字图书馆的终极方案

番茄小说下载器完整指南:构建个人数字图书馆的终极方案

番茄小说下载器完整指南:构建个人数字图书馆的终极方案 【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版 项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 你是否曾遇到过这样的情况:在番茄小说上找到一部…

2026/7/2 4:53:48阅读更多 →
Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin

Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin

paper: https://arxiv.org/pdf/2510.06477 ICLR 2026 一句话概括 这篇论文想说明:LLM 中的 attention sink 和 compression valley 不是两个孤立现象,而是同一个底层机制的两种表现,这个机制就是 residual stream 中某些 token,尤…

2026/7/2 4:53:48阅读更多 →
操作系统复习(一)

操作系统复习(一)

操作系统复习(一) 记录一下复习。 操作系统中的不确定性 程序运行结果的不确定性执行顺序的不确定性 操作系统的两个基本特征 并发执行资源共享 分时系统 分时系统(Time-Sharing System)是指:一台计算机同时连接多个终…

2026/7/2 4:53:48阅读更多 →
终极指南:NFD云解析如何一键解析20+网盘直链

终极指南:NFD云解析如何一键解析20+网盘直链

终极指南:NFD云解析如何一键解析20网盘直链 【免费下载链接】netdisk-fast-download 聚合多种主流网盘的直链解析下载服务, 一键解析下载,已支持夸克网盘/uc网盘/蓝奏云/蓝奏优享/小飞机盘/123云盘等. 支持文件夹分享解析. 体验地址: https://lz.qaiu.to…

2026/7/2 4:53:48阅读更多 →
AI集群的Scale-out与Scale-up:解构“万卡互联”与“超节点”的网络架构

AI集群的Scale-out与Scale-up:解构“万卡互联”与“超节点”的网络架构

新华三集团解决方案部 郑上闽本文刊于新华三集团《数字化领航》第34期摘要本文系统阐述了AI算力集群中Scale-up与Scale-out网络技术的发展现状、技术特点及应用场景。分析大语言模型对算力的需求呈指数级增长,推动算力加速卡性能提升及多卡互联技术的演进。Scale-u…

2026/7/2 4:53:48阅读更多 →
【课程设计/毕业设计】基于 SpringBoot 的周边文创线上交易服务系统的设计与实现 基于 SpringBoot 的智能手办周边电商管理系统【附源码、数据库、万字文档】

【课程设计/毕业设计】基于 SpringBoot 的周边文创线上交易服务系统的设计与实现 基于 SpringBoot 的智能手办周边电商管理系统【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/2 4:48:48阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/1 4:42:14阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/7/1 5:19:01阅读更多 →
塞尔达传说旷野之息存档修改器:3分钟掌握海拉鲁世界自由定制技巧

塞尔达传说旷野之息存档修改器:3分钟掌握海拉鲁世界自由定制技巧

塞尔达传说旷野之息存档修改器:3分钟掌握海拉鲁世界自由定制技巧 【免费下载链接】BOTW-Save-Editor-GUI A Work in Progress Save Editor for BOTW 项目地址: https://gitcode.com/gh_mirrors/bo/BOTW-Save-Editor-GUI 想在《塞尔达传说:旷野之息…

2026/7/2 0:03:01阅读更多 →
告别 AccessKey:多云平台 CLI OAuth 免密认证完全指南

告别 AccessKey:多云平台 CLI OAuth 免密认证完全指南

在本地开发环境使用云厂商 CLI 时,传统的 AccessKey(AK)方式需要手动创建、下载和保管密钥,不仅繁琐,还存在泄漏风险。其实,主流云平台都已提供基于 OAuth 2.0 的免密认证方案,让开发者可以通过浏览器登录一次性完成授权,CLI 自动管理临时凭证的刷新,兼顾了便利与安全…

2026/7/2 0:03:01阅读更多 →
基于13DOF传感器与PIC32MZ的高精度嵌入式导航系统设计

基于13DOF传感器与PIC32MZ的高精度嵌入式导航系统设计

1. 项目背景与核心价值在嵌入式系统开发领域,高精度定位与导航一直是极具挑战性的技术方向。传统方案往往面临成本、精度和实时性难以兼顾的困境。这个项目通过13DOF(13自由度)传感器组合与PIC32MZ2048EFH100高性能MCU的协同工作,…

2026/7/2 0:03:01阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/2 0:33:58阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/2 1:32:11阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/2 1:50:13阅读更多 →