Variance in Adversarial Attack for Customized Diffusion Models
一种对抗性噪声编码器用于防范保留身份的图像生成Related WorksTuning-based Customized GenerationDreamBooth, Custom Diffusion, LoRA and Textual Inversion需要多图像微调它们需要大量的计算资源和时间Encoder-based ID-Preserving Generation基于编码器的定制生成方法利用预训练编码器提取外观特征促进实时的零样本生成。这些方法从领域无关的编码器发展到了领域特定的编码器。InstantID包含三个关键组件1一个捕获鲁棒语义面部信息的ID嵌入工业级预训练人脸识别模型作为 ID 嵌入的提取基础论文中明确使用的是antelopev22一个具有解耦交叉注意力的轻量级适配模块便于将图像用作视觉提示3一个IdentityNet通过额外的空间控制对参考面部图像的细节特征进行编码。Problem Definition研究目标给定一幅包含人像的图像x我们的目标是生成对抗性扰动δ以防止身份保留生成。我们旨在最大化未受扰动的生成图像与受扰动的生成图像之间的身份一致性差异其中g是身份保留生成器。为了统一对不同模型的保护我们可以找到一个能同时干扰多个特征空间的δ降低相似度值的总和。因此我们训练了一个噪声编码器网络求解约束条件为。这里S表示身份相似性度量我们使用ArcFace和CLIP特征空间中的余弦相似度进行评估。Method我们方法的整体示意图。我们方法的关键设计包括噪声编码器、损失函数以及允许反向传播的梯度优化路径。Noise Encoder该网络以224×224的RGB图像作为输入输出三通道的对抗性扰动。这些扰动被投射到[-1, 1]范围内然后进行反归一化处理调整为原始图像的尺寸后添加到图像中。我们使用视觉TransformerViT来生成对抗性噪声其输入和输出维度均设置为224×224。从经验来看我们发现添加一个额外的先验掩码通道用于指示人脸位置有助于训练。这个人脸定位掩码是由InsightFace管道基于面部特征点生成的这些特征点指定了图像中人脸的区域。该掩码作为第四个输入通道与图像拼接省去了网络从零开始学习人脸定位能力的过程从而降低了训练难度。Adversarial ID Protection为了实现身份保护我们可以使从受保护图像中提取的特征与原始特征有显著差异从而阻止生成模型获取正确的面部特征。基于这一原理我们分析了InstantID、IP-Adapter、IP-Adapter-Plus和PhotoMaker的具体流程以设计有针对性的攻击目标和损失函数。InstantID通过两个步骤获取面部特征如图2所示。首先它将人脸对齐到预定义的位置然后将对齐后的人脸输入ArcFace特征提取器以获取面部信息。我们选择欺骗ArcFace模型最小化原始图像与受保护图像的ArcFace特征之间的余弦相似度。IP-Adapter、IP-Adapter-Plus和PhotoMaker均依赖于CLIP视觉编码器提取的面部特征尽管它们使用的CLIP视觉版本不同。IP-Adapter和PhotoMaker利用CLIP视觉的输出而IP-Adapter-Plus则采用CLIP视觉倒数第二层之前的特征。如图2所示来自不同层的嵌入提供了不同的攻击面。我们根据三个原则选择用于攻击的目标嵌入1阻断所有潜在路径确保任何从左到右的信息流都至少经过一个目标嵌入以保证所有信息流都会被中断2在网络中尽早选择特征图2中越靠左的位置以缩短反向传播路径长度从而简化优化过程3以具有密集语义信息的嵌入为目标以便更有效地进行操控。最终我们选择图2中标记为红色的嵌入作为主要攻击目标。与InstantID类似其目标是最大化受扰动嵌入与原始嵌入之间的余弦相似度从而在攻击后有效地使它们对齐。因此最终的对抗损失是所有损失的加权平均值给出其中和分别表示干净图像和受保护图像的人脸嵌入。Imperceptibility (不可感知性)为了将对图像质量的视觉影响降至最低我们对预测的对抗性噪声δ施加了正则化。我们进一步对任何超过ϵ球边界的噪声值引入了辅助惩罚。这些项共同构成了我们的正则化损失如下所示因此最终损失是对抗性损失和正则化的总和具体如下第一项 是标准的L1 正则化。它惩罚噪声 的绝对值之和。特性L1 正则化L2 正则化效果稀疏性很多像素0平滑性所有像素都小几何形状菱形有尖角圆形光滑视觉表现局部集中噪声全局均匀噪声L1 正则化倾向于让大部分像素点的噪声为 0 或接近 0只在关键区域如面部特征边缘产生噪声。这比 L2 正则化更能保持图像的原始纹理减少“雾状”模糊感。人眼特性人眼对全局均匀的微弱噪声比局部稀疏的噪声更敏感第二项 (硬边界软约束)表示将噪声值强制截断在 范围内计算的是超出边界的那部分噪声。允许网络在训练时“试探”边界但一旦越界就会受到惩罚从而引导网络主动学习生成始终在 范围内的噪声。Robustness (鲁棒性)InstantID 等模型在提取特征前会先进行人脸对齐 (Face Alignment)。这是一个仿射变换Affine Transformation会根据关键点计算一个矩阵 把脸“摆正”。如果在训练时假设矩阵 是固定的但在实际推理时由于添加了噪声 人脸关键点检测可能会发生微小偏移导致实际使用的对齐矩阵 与训练时的 不同。这种错位会导致精心设计的噪声失效。(带噪声的仿射矩阵)原始计算出的标准仿射变换矩阵。添加到矩阵上的高斯噪声均值为 0方差为 文中设定 。模拟“关键点检测不准”或“图像轻微变形”的情况。(模拟的对齐后坐标)使用这个“被污染”的矩阵去变换人脸关键点 得到新的坐标 。这意味着网络在训练时看到的“对齐后的人脸”是带有轻微几何形变的。实验设置数据集训练集CelebA(190,000 张未裁剪图像)包含任意尺寸和长宽比的人脸。测试集CelebA(50 张未见过的图像)。VGG Face(50 张图像)用于评估跨数据集泛化能力。模型架构核心网络ViT-S/8(Vision Transformer Small, patch size 8)。输入224×224 RGB 图像 1 通道人脸掩码 (Face Mask) (由 InsightFace 生成辅助定位)。输出3 通道对抗噪声 范围限制在 。训练策略分3 个阶段训练逐步缩小噪声允许范围 () 并调整损失权重。Stage 1: , 120 epochs.Stage 2: , 20 epochs.Stage 3: (即 9/255), 20 epochs.优化器设置Warm-up: 前 2,500 步线性预热。梯度裁剪: L2 范数最大值为 10。Batch Size: 112。硬件: 4 × NVIDIA H100 (80GB)训练耗时约10 天。鲁棒性增强在 InstantID 分支的仿射变换矩阵 中加入高斯噪声 () 进行数据增强。评估指标保护效果ISM (Identity Score Matching): 原始图与生成图的 ArcFace 特征余弦相似度 (越低越好)。FDR (Face Detection Rate): 生成图中检测到人脸的比例 (越低越好反映是否导致无法生成人脸)。图像质量PSNR / SSIM: 原始图与保护后图像的相似度 (越高越好)。SER-FIQ: 生成图像的质量评分。效率单张图像保护耗时 (秒)。对比基线ACE, AdvDM, Anti-DreamBooth, PhotoGuard, SimAC。以及作者方法的 PGD 变体 (Ours-PGD用于验证上限但速度慢)。PID: Prompt-Independent Data Protection Against Latent Diffusion ModelsRelated Work1. 基于代理模型的对抗样本生成这类方法的核心思想是“以攻代守”通过模拟攻击者的训练过程来生成能够干扰模型学习的对抗性图像。构建代理模型防御者首先使用干净的原始数据微调一个代理模型surrogate model, 使其模拟潜在的攻击者模型。最大化损失在获得代理模型后防御者在原始图像 上添加扰动生成对抗样本 最大化该代理模型在扰动数据上的训练损失。其中 是条件扩散模型的训练损失 是文本提示词 是视觉编码器 限制扰动的不可见性。2. 基于双层优化的不可学习样本生成这类方法借鉴了经典“不可学习样本”Unlearnable Examples的思想旨在生成一种特殊的数据使得模型即使在上面进行训练也无法学到任何有用的概念。特性对抗样本 (Adversarial Examples)不可学习样本 (Unlearnable Examples)主要目标欺骗推理 (Inference)破坏训练 (Training)应用场景模型已训练好输入扰动图片让模型预测错误。模型正在训练中输入扰动图片让模型学不到特征。采用最小 - 最大Min-Max的双层优化策略。内层优化Min模拟攻击者试图找到最优的模型参数 以最小化训练损失。外层优化Max防御者寻找最优的扰动图像 使得即使攻击者找到了最优模型其训练损失依然尽可能大。Anti-DreamBooth的两种变体即全训练替代模型引导FSMG和交替替代与扰动学习ASPL。这两种方法都使用投影梯度下降PGD来生成对抗性噪声δ以最大化替代模型的重建损失。左图FSMG使用在小型干净图像集上完全微调的固定替代模型来指导PGD优化。右图ASPL在以下两个步骤之间交替进行i在干净图像上微调克隆替代模型ii使用该克隆模型通过PGD为当前图像集生成δ。然后在下次迭代之前在扰动图像上微调实际的替代模型θ。

相关新闻

5种高效方案:VisualCppRedist AIO解决Windows软件兼容性问题的完整指南

5种高效方案:VisualCppRedist AIO解决Windows软件兼容性问题的完整指南

5种高效方案:VisualCppRedist AIO解决Windows软件兼容性问题的完整指南 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 在Windows生态系统中&#xf…

2026/6/25 18:40:47阅读更多 →
女神异闻录3 重制版|豪华中文特典+全DLC

女神异闻录3 重制版|豪华中文特典+全DLC

下载链接 架构重构与双轨制状态机:解析《女神异闻录3 重制版》底座设计与核心玩法 一、 开发团队与技术底座(Developer & Tech Stack) 《女神异闻录3 重制版》(Persona 3 Reload,以下简称 P3R)由 SEG…

2026/6/25 18:40:47阅读更多 →
Balena Etcher终极指南:零数据丢失的系统镜像烧录神器

Balena Etcher终极指南:零数据丢失的系统镜像烧录神器

Balena Etcher终极指南:零数据丢失的系统镜像烧录神器 【免费下载链接】etcher Flash OS images to SD cards & USB drives, safely and easily. 项目地址: https://gitcode.com/GitHub_Trending/et/etcher 核心关键词:Balena Etcher系统镜像…

2026/6/25 18:40:47阅读更多 →
直击VivaTech 2026:远景发布“Mission Gobi”,用AI驯服戈壁风光,为算力“解渴”

直击VivaTech 2026:远景发布“Mission Gobi”,用AI驯服戈壁风光,为算力“解渴”

当大模型厂商为GPU“一卡难求”而焦虑时,一个更根本的瓶颈正在浮现——电力。在巴黎VivaTech 2026现场,远景科技集团亮出了一张雄心勃勃的“技术牌”:Mission Gobi计划。其核心目标,是利用自研的AI电力系统,将全球太阳…

2026/6/25 20:11:13阅读更多 →
Android应用抓包实战:绕过反代理与SSL证书绑定检测

Android应用抓包实战:绕过反代理与SSL证书绑定检测

1. 项目概述:当APP安全机制成为“拦路虎”在移动应用安全测试或逆向分析的过程中,我们常常会遇到一个令人头疼的局面:当你兴致勃勃地打开抓包工具,准备一窥APP的网络通信时,却发现应用要么直接闪退,要么弹出…

2026/6/25 20:11:13阅读更多 →
告别iTunes臃肿:如何在Windows上快速安装苹果设备驱动

告别iTunes臃肿:如何在Windows上快速安装苹果设备驱动

告别iTunes臃肿:如何在Windows上快速安装苹果设备驱动 【免费下载链接】Apple-Mobile-Drivers-Installer Powershell script to easily install Apple USB and Mobile Device Ethernet (USB Tethering) drivers on Windows! 项目地址: https://gitcode.com/gh_mir…

2026/6/25 20:11:13阅读更多 →
HDMI数据的接收发送实验(十五)

HDMI数据的接收发送实验(十五)

一、概况 在数据传输过程中,时钟或数据会在传输过程中发生偏移,所以用了PLL的时钟动态相移配置,这样就可以实现时钟与数据的对齐,接下来讲述怎样配置PLL时钟来实现动态相移。 二、IP核配置 步骤1:打开VIVADO的clocking…

2026/6/25 20:11:13阅读更多 →
捕蚊灯真的有用吗?室内灭蚊器哪个牌子好?2026精选高性价比灭蚊器汇总分享!任你选!

捕蚊灯真的有用吗?室内灭蚊器哪个牌子好?2026精选高性价比灭蚊器汇总分享!任你选!

​灭蚊器哪个牌子好?当心!不专业灭蚊器比蚊子更“要命”全球多地拉响基孔肯雅热疫情警报——这种由伊蚊传播的病毒性疾病,已在南美、东南亚等地造成大规模感染,患者突发高热、关节剧痛,严重者症状可持续数月之久。世界…

2026/6/25 20:11:13阅读更多 →
Prompt Injection攻击原理与三层纵深防御实战

Prompt Injection攻击原理与三层纵深防御实战

1. 项目概述:当大模型“听错话”时,谁在替你担风险?Prompt Injection(提示词注入)这个词,现在听起来可能还带着点技术圈的陌生感,但它的实际危害,已经不亚于十年前第一次听说SQL注入…

2026/6/25 20:06:12阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/25 9:39:54阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/25 2:52:24阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/25 9:01:34阅读更多 →
面试辅助工具横评:我试了5款AI面试工具,最后留下了OfferGo

面试辅助工具横评:我试了5款AI面试工具,最后留下了OfferGo

上半年跳槽,面了十几家公司。说句实话,不是能力不行,是面试现场太容易崩了。 明明准备了一周,面试官换个问法脑子就一片白。面完之后那个懊悔——其实我会的。 后来开始试市面上的AI面试辅助工具。前前后后装了5款,踩…

2026/6/25 11:52:11阅读更多 →
Claude Code 提示词设计:从塑造“人格”到建立“状态机”

Claude Code 提示词设计:从塑造“人格”到建立“状态机”

当前 AI Agent 设计的核心痛点在于:大模型不缺写代码的能力,缺的是克制力、边界感和验证逻辑。Prompt 不再是用来塑造“人格”的,而是用来建立“状态机(State Machine)”和“行为门禁(Guardrails&#xff0…

2026/6/25 11:52:11阅读更多 →
MC-037 | 自定义 Skill 开发:创建你的AI能力模块

MC-037 | 自定义 Skill 开发:创建你的AI能力模块

MONKEYCODE 教程系列 MonkeyCode教程及推广系列 MC-037 自定义 Skill 开发:创建你的AI能力模块 >官网链接注册更放心哦https://monkeycode-ai.com/?ic019e0aed-c823-783c-b08a-4f030f891e4e 系列: 不爱土豆唯爱马铃薯 MonkeyCode 教程系列 字数: 约 1400 字…

2026/6/25 11:52:11阅读更多 →