LearnIR突破传统限制:多数据集实验PSNR大幅提升,5步采样高效复原图像!
LearnIR能否解决真实场景图像复原难题ICLRInternational Conference on Learning Representations是聚焦机器学习与深度学习等领域的国际顶级学术会议致力于推动人工智能理论与方法的前沿研究与创新发展。本文入选ICLR 2026ICLR 2026有19525篇投稿接收率约27.4%。1. 论文聚焦的问题本文主要针对真实世界图像复原问题即从受到复杂退化如雾霾、阴影、噪声、运动模糊等影响的图像中恢复出高质量、高保真的清晰图像。真实世界中的成像环境往往引入多种异质退化且这些退化常常同时出现并相互交织使得图像复原成为一个经典的病态逆问题。现有基于扩散模型的图像复原方法存在三类核心限制条件生成方法难以在忠实复原和真实生成之间取得平衡基于反演的方法将退化图像反演到潜空间的过程中会累积误差导致与输入明显偏差且效率低下后验采样方法如DPS需要精确已知的前向测量算子A例如高斯模糊核、随机掩码等但在真实场景中该算子通常不可获得严重限制了实际应用。2. 核心贡献与效果概览2.1 核心贡献一是提出可学习的扩散后验采样框架LearnIR通过训练轻量级网络直接预测后验采样中的梯度校正项分布无需已知前向退化算子即可实现扩散后验采样校正从根本上突破了传统DPS方法的关键限制。二是提出扩散后验采样校正DPSC利用高斯分布的封闭性证明了前向过程真实后验与模型预测反向分布之间的偏差服从高斯分布进而可以通过训练一个轻量网络来拟合该偏差的均值作为即插即用的正则化项校正扩散轨迹消除采样过程中的结构偏差和色偏等不一致性。三是设计动态分辨率模块DRM采用时间依赖的动态分辨率调度策略在像素空间中实现“从粗到细”的采样过程——高噪声阶段使用低分辨率捕获全局上下文低噪声阶段恢复高分辨率精修纹理细节无需预训练VAE即可简化端到端流水线并降低计算开销。2.2 关键理论论文的核心定理Theorem 1证明在DRM潜空间中DPS梯度正比于模型预测的反向分布与真实前向后验之间的偏差。利用高斯分布的封闭性该偏差可以建模其中均值μ和方差σ²均有解析闭式解。通过训练网络μ_θ去拟合解析均值μ可以有效地引导采样轨迹与真实后验对齐。2.3 效果预览本文公式推导比较多想了解细节的同学可以直接看原文附录推导过程。第一排是原始图第二排是对应处理后的图。在去雾和去阴影数据集上和一些其他模型也有对比效果。3. 论文提出的方法3.1 动态分辨率模块DRM定义时间依赖的缩放因子s(t)在不同扩散时间步将图像映射到不同分辨率的潜空间。早期阶段t≥T/2对图像进行大尺度下采样SSdown聚焦全局结构建模后期阶段t≤T/2恢复原始分辨率SSup精修高频纹理细节。使用高效的非可训练双线性插值实现无需预训练VAE显著降低计算成本。3.2 扩散后验采样校正DPSC在标准去噪损失之外引入一致性正则化项去噪损失约束噪声预测网络ε_θ准确估计残差噪声一致性损失约束校正网络μ_θ拟合前向 - 反向后验偏差的解析均值。总损失函数有特定公式。推理时DPSC作为即插即用模块在每个采样步骤通过μ_θ预测梯度校正自适应修正扩散轨迹。3.3 训练与推理训练采用两阶段策略Stage 1固定分辨率训练DRM关闭聚焦学习DPSC梯度校正Stage 2开启DRM以更小学习率在动态分辨率下微调。推理基于残差扩散的平滑等效变换确定稳定采样起点T仅需5步采样即可生成高质量结果。4. 实验结果展示4.1 数据集与设置实验在5个数据集上进行ISTD阴影去除、O - HAZE/HazyDet/REVIDE去雾以及新构建的FaceShadow数据集人脸阴影去除含30,000对合成数据 1,000对真实数据。所有评估在单张A100 GPU上完成采样步数仅为5步。4.2 阴影去除ISTD数据集LearnIR在mask - based方法中取得最佳表现与mask - free最优方法相比也具有竞争力。4.3 去雾任务O - HAZE / HazyDet / REVIDELearnIR在三个去雾数据集上全面超越所有对比方法在O - HAZE上PSNR提升 2.27 dB在HazyDet上PSNR提升 1.65 dB且SSIM提升 0.124。4.4 人脸阴影去除自建的FaceShadow数据集LearnIR在合成和真实人脸阴影数据上均大幅领先PSNR分别提升 2.44 dB和 1.71 dB。4.5 消融实验消融实验验证了DPSC和DRM两个模块的有效性。去除DPSC导致PSNR下降4.4 dB说明后验采样校正对消除轨迹不一致至关重要去除DRM导致PSNR下降1.27 dB验证了动态分辨率策略对全局结构保持的重要性同时去除两者性能大幅下降至22.86 dB证明两个模块协同配合才能达到最优效果。4.6 计算效率DRM使用非可训练的双线性插值计算开销几乎为零。完整模型仅需5步采样总推理时间约1.6秒。蓝图实验室主要负责移动影像算法创新包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。它致力于不断提升vivo移动影像的算法能力使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用努力为用户提供更加丰富和便捷的影像体验。那么LearnIR未来是否会在更多场景得到应用呢这值得大家持续关注。

相关新闻

软考高级论文摘要写作:从“凑字数”到“定乾坤”的7天蜕变训练营(含3套命题预测摘要范本)

软考高级论文摘要写作:从“凑字数”到“定乾坤”的7天蜕变训练营(含3套命题预测摘要范本)

更多请点击: https://intelliparadigm.com 第一章:软考高级论文摘要的核心定位与价值认知 软考高级信息系统项目管理师论文的摘要,绝非全文的简单缩写,而是整篇论文的“战略锚点”与“价值门禁”。它承担着在300–500字内精准传递…

2026/7/3 10:09:56阅读更多 →
原神抽卡记录导出工具:5分钟掌握完整数据分析技巧 [特殊字符]

原神抽卡记录导出工具:5分钟掌握完整数据分析技巧 [特殊字符]

原神抽卡记录导出工具:5分钟掌握完整数据分析技巧 🎮 【免费下载链接】genshin-wish-export Easily export the Genshin Impact wish record. 项目地址: https://gitcode.com/GitHub_Trending/ge/genshin-wish-export 还在为记不住自己的抽卡历史…

2026/7/3 10:09:56阅读更多 →
GHelper完全指南:华硕笔记本性能控制的终极解决方案

GHelper完全指南:华硕笔记本性能控制的终极解决方案

GHelper完全指南:华硕笔记本性能控制的终极解决方案 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expe…

2026/7/3 10:04:53阅读更多 →
明明每天接待上千咨询,店铺复购却毫无起色?答案藏在这套全域服务体系里

明明每天接待上千咨询,店铺复购却毫无起色?答案藏在这套全域服务体系里

不少全域电商商家都陷入一个百思不解的怪圈:前台流量充足,客服每日接待上千条用户咨询,询单转化看似平稳,但月度复购数据始终停滞不前,店铺口碑分时高时低,持续投放的引流预算很难沉淀忠实客户。 运营反复优…

2026/7/3 13:50:44阅读更多 →
GLM-5.2 对中文金融文本的理解能力突出

GLM-5.2 对中文金融文本的理解能力突出

对DeepSeek-V4在金融文本上的处理能力进行全方位评测,使用 CFLUE 测试集对各模型能力进行评测,CFLUE是一个开源的测评基准,由阿里云与苏州大 学联合构建,其中金融应用评估数据集包括125道应用类样题目,囊括文本分类、机…

2026/7/3 13:50:44阅读更多 →
2024开源大模型实战手册:Qwen2/Llama3/Phi-3等8大模型本地部署与中文优化

2024开源大模型实战手册:Qwen2/Llama3/Phi-3等8大模型本地部署与中文优化

1. 项目概述:为什么2024年必须亲手跑通一个开源大模型去年冬天,我在给一家做工业设备预测性维护的客户做技术方案时,对方CTO直接把笔记本推到我面前:“别讲PPT了,现场给我跑一个能读懂我们维修手册PDF、还能生成故障排…

2026/7/3 13:50:43阅读更多 →
基于Si4731与STM32F439ZI的数字收音机系统设计

基于Si4731与STM32F439ZI的数字收音机系统设计

1. 项目概述:基于Si4731和STM32F439ZI的收音机系统设计在数字音频处理领域,构建一个高性能的收音机系统一直是电子爱好者和工程师感兴趣的项目。本项目采用Si4731数字收音机芯片与STM32F439ZI微控制器相结合的方式,打造一个可编程、多功能的高…

2026/7/3 13:50:43阅读更多 →
揭秘openeuler/seccom-tee:基于TEE的终极安全计算框架,开启隐私保护新时代

揭秘openeuler/seccom-tee:基于TEE的终极安全计算框架,开启隐私保护新时代

揭秘openeuler/seccom-tee:基于TEE的终极安全计算框架,开启隐私保护新时代 【免费下载链接】seccom-tee A TEE-based secure computing framework providing cryptographic primitives and privacy-preserving computation capabilities, including MPC,…

2026/7/3 13:50:43阅读更多 →
STM32F413RH+74HC32实现高效键盘矩阵方案

STM32F413RH+74HC32实现高效键盘矩阵方案

1. 为什么选择74HC32STM32F413RH方案在嵌入式系统中管理小型键盘矩阵时,工程师通常面临三种主流方案选择:专用键盘管理芯片、纯软件扫描方案以及本文采用的"逻辑门MCU"混合方案。经过对STM32F413RH芯片特性的深入分析和实际项目验证&#xff0…

2026/7/3 13:45:42阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/2 12:10:34阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/7/2 12:10:34阅读更多 →
LV3296与PIC18F45K22的UART通信与USB扩展方案

LV3296与PIC18F45K22的UART通信与USB扩展方案

1. LV3296与PIC18F45K22的硬件搭档解析在嵌入式数据采集系统中,LV3296条形码扫描模块与PIC18F45K22微控制器的组合堪称经典搭配。LV3296作为一款工业级条码扫描头,其核心是一颗高性能CMOS图像传感器,配合专用解码芯片,能自动识别包…

2026/7/3 0:03:41阅读更多 →
AI初创生存指南:6个月完成可信度验证闭环

AI初创生存指南:6个月完成可信度验证闭环

1. 这不是“逆袭指南”,而是一份AI初创公司真实生存手记“How To Beat Odds As an AI Startup?”——这个标题乍看像一句热血口号,但在我带过7个从0到1的AI产品团队、亲手踩过融资失败、技术债崩盘、客户POC卡在最后一公里等23类典型坑之后,…

2026/7/3 0:03:41阅读更多 →
多模态+推理链+RAG 2.0+智能体:工业级AI系统落地四支柱

多模态+推理链+RAG 2.0+智能体:工业级AI系统落地四支柱

1. 这不是又一篇“AI趋势速览”,而是一份实操者手记:当多模态、推理链、检索增强与智能体协作真正撞进工程现场“LAI #73”这个编号本身就像一个暗号——它不属于某家大厂的白皮书,也不是学术会议的议程表,而是长期泡在模型训练集…

2026/7/3 0:03:41阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/3 1:12:46阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/3 1:36:36阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/3 2:08:15阅读更多 →