(论文速读)PFGM++:释放受物理启发的生成模型的潜力
论文题目PFGM: Unlocking the Potential of Physics-Inspired Generative ModelsPFGM释放受物理启发的生成模型的潜力会议ICML2023摘要我们介绍了一类新的受物理启发的生成模型称为PFGM它统一了扩散模型和泊松流动生成模型(PFGM)。这些模型通过在ND维空间中嵌入路径来实现N维数据的生成轨迹同时仍然用D个附加变量的简单标量范数来控制级数。当D1时新模型简化为PFGM模型当D→∞时新模型简化为扩散模型。选择D的灵活性允许我们在稳健性和刚性之间进行权衡因为增加D会导致数据和附加变量规范之间更集中的耦合。我们摒弃了PFGM中使用的有偏大批量场目标而是提供了一个类似于扩散模型的基于扰动的无偏目标。为了探索D的不同选择我们提供了一种直接对齐方法用于将经过良好调整的超参数从扩散模型(D→∞)转换到任意有限的D值。实验表明在CIFAR-10/FFHQ×数据集上具有有限D的模型可以优于已有的扩散模型当D2048/128时FID得分为1.91/2.43。在类别条件设置中D2048在CIFAR-10上得出当前最先进的FID为1.74。此外我们还证明了D越小的模型对建模误差的稳健性越好。代码可在https://github.com/Newbeeer/pfgmpp上获得PFGM用一个参数D统一扩散模型与泊松流生成模型一、研究背景两类物理启发的生成模型近年来受物理学启发的深度生成模型取得了令人瞩目的进展其中两个代表性方向是扩散模型Diffusion Models受热力学启发通过逐步去噪生成样本以 EDMKarras et al., 2022为代表在图像生成上取得了极高质量但对估计误差极为敏感鲁棒性较差。泊松流生成模型PFGM受静电学启发将N维数据视为电荷在N1维增广空间中学习电场线方向沿电场线轨迹生成新样本对误差更鲁棒——但仅在1维增广空间中定义训练时需要大批量样本近似积分有偏且与条件生成不兼容。这两类模型此前被视为相互独立的方法缺乏理论联系也无法系统地在两者之间进行性能权衡。本文的核心问题能否构建一个统一框架将PFGM和扩散模型纳入同一体系并从中找到性能更优的中间点二、核心思想把增广维度D变成一个连续旋钮【此处配图Fig 1 PFGM统一框架概览图D轴从PFGM到扩散模型的谱】PFGM 的核心洞察极为简洁将PFGM中固定的1维增广空间推广为D维增广空间D成为一个可调超参数。当 D1 时退化为原始 PFGM当时等价于扩散模型中间的有限D值如D128、D2048则是两者之间的甜蜜点这个看似简单的推广实际上蕴含了深刻的物理意义和数学结构。三、PFGM 的数学框架3.1 高维增广空间中的电场将N维数据视为电荷在ND维增广空间中定义电场关键的对称性简化增广变量 z 的D个分量在 D维柱面上具有 SO(D) 旋转对称性因此只需追踪增广变量的标量范数将高维问题降维为标量ODE这个ODE定义了从先验分布大处到数据分布r0 处的双射即生成过程。3.2 基于扰动核的无偏训练目标原始PFGM需要大批量样本来近似电场积分有偏本文设计了一个扰动核从而将训练目标转化为类似去噪得分匹配的无偏平方损失这一目标的三大优势无需大批量近似计算高效最小化器是电场方向的无偏估计天然支持条件生成的配对样本训练。3.3 超参数对齐从扩散模型零样本迁移到任意D扩散模型的超参数、等已被前人大量调优。本文证明了相变对齐公式在此公式下不同D的中间分布的相保持近似不变从而可以直接将 EDM/DDPM 的超参数迁移到任意有限D——只需令。【此处配图Fig 3 相对齐前后不同D的TVD曲线对比图】3.4 D→∞ 等价扩散模型定理4.1本文严格证明当固定时PFGM 的电场方向收敛到扩散模型的得分函数方向且两者的采样ODE轨迹完全一致。其根本原因是扰动核在时收敛到高斯核四、D 控制鲁棒性与刚性的权衡【此处配图Fig 4 (a)(b)(c) 不同D下的电场差异、半径分布方差、训练样本范数密度图】D 的选择决定了模型在两个对立属性之间的平衡鲁棒性Robustness指模型对估计误差的不敏感程度。小D → 训练样本范数分布宽泛重尾采样轨迹偏离时不会灾难性崩溃大DD→∞→ 训练样本范数高度集中对偏差极为敏感刚性Rigidity指训练是否容易收敛。大D → 扰动核接近高斯分布集中学习目标稳定清晰小D → 重尾输入使有限容量的神经网络难以全面覆盖两者此消彼长既不是D1也不是D→∞提供最优平衡中间存在一个甜蜜点。五、实验结果5.1 图像生成质量【此处配表Table 1 CIFAR-10 FID和NFE对比表】【此处配表Table 2 FFHQ 64×64 FID对比表】主要发现中间D超越扩散模型在 CIFAR-10 无条件生成中D2048 取得 FID1.91D128 取得 FID1.92均优于 EDMD→∞FID1.98均使用 35 次函数估计NFE。在类条件生成中D2048 以 FID1.74刷新 CIFAR-10 SOTA超过 EDM 的 1.79。FFHQ 64×64D128 取得 FID2.43D2048 取得 2.46均优于 EDM 的 2.53。甜蜜点存在D64/128/2048 均优于 D→∞而极小的 D如D1因重尾问题性能下降确认了中间甜蜜点的存在。理论验证D3072000 ≫ N3072 时模型性能与扩散模型完全一致FID均为1.90验证了D→∞等价性定理。5.2 鲁棒性对比【此处配图Fig 5 FID vs 噪声注入系数α 和 FID vs NFE 曲线图】实验在三种误差源下验证鲁棒性1控制噪声注入在每个ODE步骤注入噪声。当时D64/128 仍能生成清晰图像而扩散模型D→∞FID 从 1.98 崩溃到92.41。2后训练量化对卷积权重进行量化压缩不重训练。【此处配表Table 3 不同量化比特宽度下的FID对比表】在 5-bit 量化下D64 的 FID 为 28.50而 D→∞ 为50.09有限 D 的优势随量化强度增加而扩大。3减少采样步数增大离散化误差减少 NFE即增大步长时D128 与扩散模型的 FID 差距逐渐扩大显示出更强的抗离散化误差能力。【此处配图Fig 8 CIFAR-10上不同D和不同α的生成图像对比直观展示鲁棒性差异】【此处配图Fig 9 FFHQ 64×64上D128 vs EDM生成图像对比】六、PFGM 与 EDM 的训练/采样算法对比PFGM 对 EDM 的改动极为轻量仅改变训练时的扰动噪声采样方式采样阶段的 for 循环完全不变训练差异EDM加高斯噪声PFGM加非高斯噪声从扰动核采样半径从均匀球面分布采样方向其中采样差异EDM初始点PFGM初始点从处的超柱面采样for 循环与 EDM 完全相同这意味着已有的 EDM 代码只需修改约 3 行就能变成 PFGM工程实现极为简洁。七、结论与展望PFGM 的核心贡献是用一个参数 D 将 PFGM 和扩散模型统一在同一框架内D1 → PFGM最鲁棒训练最难D→∞ → 扩散模型训练最容易最脆弱中间 D如 128、2048→ 甜蜜点在 CIFAR-10/FFHQ 上超越扩散模型 SOTA同时保持更强鲁棒性更深远的意义在于PFGM 提供了一个可解释的旋钮让研究者可以根据任务需求计算资源、网络规模、对误差的容忍度灵活选择 D而不必在 PFGM 和扩散模型之间二选一。未来方向为 PFGM 开发随机采样器类比扩散模型的 SDE在生物学数据等新兴领域发挥更大优势结合网络剪枝和低比特训练进一步压缩小 D 模型。代码开源GitHub - Newbeeer/pfgmpp: Code for ICML 2023 paper, PFGM: Unlocking the Potential of Physics-Inspired Generative Models · GitHub

相关新闻

3步解锁Roblox帧率限制:完整教程与优化指南

3步解锁Roblox帧率限制:完整教程与优化指南

3步解锁Roblox帧率限制:完整教程与优化指南 【免费下载链接】rbxfpsunlocker FPS Unlocker for Roblox 项目地址: https://gitcode.com/gh_mirrors/rb/rbxfpsunlocker 还在为Roblox游戏的60帧限制而烦恼吗?想要在高性能显示器上享受更流畅的游戏体…

2026/6/25 23:47:13阅读更多 →
新能源工程师培训哪家好?电工转行光伏储能实操避坑

新能源工程师培训哪家好?电工转行光伏储能实操避坑

双碳风口下光伏、户用储能、工商业储能项目遍地开花,市场急需持证新能源工程师,论坛不少水电工、装修师傅、机房运维发帖询问新能源工程师培训哪家好,市面上低价线上速成课层出不穷,踩坑之后既浪费金钱又耽误转行节奏。市面上大部…

2026/6/25 23:47:13阅读更多 →
Azure ML数据与模型漂移检测实战:从告警到闭环治理

Azure ML数据与模型漂移检测实战:从告警到闭环治理

1. 项目概述:为什么“抓牢”数据与模型漂移是生产环境里最硬的生存技能在 Azure Machine Learning 平台上部署一个准确率 92% 的故障预测模型,和让这个模型在产线连续稳定运行 18 个月、持续支撑设备停机决策——这是两件完全不同的事。前者是数据科学实…

2026/6/25 23:42:13阅读更多 →
界面控件DevExpress v26.1 正式发布!跨平台基建全面升级 + 全栈 AI 能力重磅更新

界面控件DevExpress v26.1 正式发布!跨平台基建全面升级 + 全栈 AI 能力重磅更新

DevExpress 2026 年第一个重磅版本 v26.1 现已全面上线,本次更新一改以往单组件小迭代模式,优先完成全产品线跨平台底层基建重构,同时打通 WinForms/WPF/Blazor/DevExtreme Web 全平台统一 AI 开发体系,大幅降低多端项目维护成本、…

2026/6/26 1:02:22阅读更多 →
机器学习新手生存指南:从环境配置到模型部署的实操路径

机器学习新手生存指南:从环境配置到模型部署的实操路径

1. 这不是又一本“机器学习速成课”,而是一份我带过37个转行学员、踩过21次环境坑、重装过14次CUDA驱动后,亲手写给真实初学者的生存指南 “Step by Step Guide to Learn Machine Learning”——光看这个标题,你脑子里可能已经浮现出那种封面…

2026/6/26 1:02:22阅读更多 →
GPT-4o实战指南:参数调优、多模态落地与企业级避坑手册

GPT-4o实战指南:参数调优、多模态落地与企业级避坑手册

我需要明确告知您:GPT-5目前并不存在,OpenAI也从未发布、命名或确认过所谓“GPT-5”这一模型。截至2024年7月(当前可验证的最新公开信息),OpenAI正式发布的最先进通用大语言模型是GPT-4o(发布于2024年5月&a…

2026/6/26 1:02:22阅读更多 →
容器云入门学习心得:基于 Docker 实现 Web 应用容器化部署实践

容器云入门学习心得:基于 Docker 实现 Web 应用容器化部署实践

TOC 在本学期容器云部署与应用课程的学习中,我从容器技术的基础概念入手,逐步掌握了 Docker 核心操作与应用容器化部署的完整流程。从最初对 “容器” 概念的模糊认知,到独立完成 Web 应用的镜像构建、容器运行与端口映射,每一次…

2026/6/26 1:02:22阅读更多 →
Java Web应用安全审计实战:从漏洞挖掘到权限提升的完整攻防路径

Java Web应用安全审计实战:从漏洞挖掘到权限提升的完整攻防路径

1. 项目概述:从代码到控制权的实战路径在红队评估或渗透测试中,Web应用往往是突破内网的第一道关口。面对一个庞大的Java Web应用,如何快速定位漏洞,并利用它实现从外部访问到服务器控制权的跨越,是每个安全从业者需要…

2026/6/26 1:02:22阅读更多 →
Hugging Face Transformers:从模型加载到AI流水线的框架级实践

Hugging Face Transformers:从模型加载到AI流水线的框架级实践

1. 项目概述:不只是“调包”,而是一套重塑AI工作流的基础设施你第一次听说 Hugging Face,大概率是在某篇教程里看到这行代码:from transformers import AutoModel, AutoTokenizer。几秒钟加载一个预训练模型,十几行代码…

2026/6/26 0:57:22阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/25 9:39:54阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/25 2:52:24阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/25 9:01:34阅读更多 →
HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

一、前言:企业运维痛点与资源价值自博通收购 VMware 之后,原 VMware 公开免费下载渠道全面关闭,企业运维人员想要获取适配 HPE 慧与服务器的 ESXi 9 原厂镜像,必须注册博通账号、绑定有效授权才能下载,无授权账号无法获…

2026/6/26 0:02:15阅读更多 →
Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin作为一门现代编程语言,与Java的互操作性一直是其核心优势之一。为了让Kotlin代码能够无缝对接Java,Kotlin提供了多种注解来优化互操作体验,其中JvmStatic和JvmField是两个关键注解。它们分别用于解决静态成员和字段在Java中的访问问题&…

2026/6/26 0:02:15阅读更多 →
深入解析musl libc中的mmap实现源码

深入解析musl libc中的mmap实现源码

最近在阅读musl libc源码时,发现其mmap的实现非常精妙,特分享给大家。 一、代码整体结构 这段代码实现了__mmap函数,并通过weak_alias导出为mmap。这是典型的musl libc风格——提供弱符号以便用户可以重写。 weak_alias(__mmap, mmap); 二…

2026/6/26 0:02:15阅读更多 →