领域
分类
图像超分辨率

感知、理解与复原: 基于自回归多模态生成模型的真实世界图像超分辨率研究

作者:Hongyang Wei, Shuaizheng Liu, Chun Yuan, Lei Zhang

时间:2025

刊物:IEEE International Conference on Computer Vision (ICCV)

屏幕截图 2025-07-07 170342.jpg

通过利用预训练的文本到图像扩散模型中的生成先验,真实世界图像超分辨率(Real-ISR)取得了显著进展。然而,由于这些方法在感知和理解输入低质量图像方面的能力有限,在处理复杂或严重退化的场景时,往往会生成不准确且不自然的复原图像。为了解决上述问题,我们首次提出将预训练的自回归多模态模型(如 Lumina-mGPT)适配为一个鲁棒的真实图像超分辨率模型,称为PURE,即能够感知(Perceive)、理解(Understand)并复原(Restore)输入的低质量图像。具体而言,我们对 Lumina-mGPT 进行指令调优,使其能够感知图像的退化程度及已生成图像标记与下一个标记之间的关系,理解图像内容(通过生成图像的语义描述),并据此以自回归方式生成高质量图像标记,实现图像复原。此外,我们发现图像标记的熵反映了图像的结构信息,因此提出一种基于熵的 Top-k 采样策略,用于在推理过程中优化图像的局部结构。实验结果表明,PURE 在保留图像内容的同时能够生成真实细节,特别是在包含多个物体的复杂场景中表现出色,展示了自回归多模态生成模型在真实图像超分辨率任务中的强大潜力。

阅读原文
查看代码
通用图像复原

通过退化分类实现通用图像复原预训练

作者:JiaKui Hu, Lujia Jin, Zhengjian Yao, Yanye Lu

时间:2025

刊物:International Conference on Learning Representations (ICLR)

分图14.jpg

本文提出了退化分类预训练(Degradation Classification Pre-Training,DCPT)方法,使模型能够通过分类输入图像的退化类型来实现通用图像复原的预训练。不同于现有的自监督预训练方法,DCPT 利用输入图像的退化类型作为一种极弱的监督信号,该信息在所有图像复原数据集中都易于获取甚至内在存在。DCPT 包含两个主要阶段:首先,从编码器提取图像特征;随后,利用轻量级解码器(如 ResNet18)仅基于第一阶段提取的特征对输入图像的退化类型进行分类,而不直接使用输入图像。编码器通过简洁而有效的 DCPT 进行预训练,用于通用图像复原任务,并取得了优异性能。实验表明,经过 DCPT 预训练后,卷积神经网络(CNN)和变换器(Transformer)均表现出显著提升,在10种退化类型的一体化复原任务中,性能提升最高达2.55 dB,在混合退化场景中提升达6.53 dB。此外,以往的自监督预训练方法如掩码图像建模在预训练后会舍弃解码器,而我们的 DCPT 更有效地利用了预训练参数。这种优势源于 DCPT 过程中获得的退化分类器,有助于实现同一架构模型在不同退化类型间的迁移学习。

阅读原文
查看代码
通用图像复原

基于视觉-语言梯度下降驱动的一体化深度展开网络

作者:Haijin Zeng, Xiangming Wang, Yongyong Chen, Jingyong Su, Jie Liu

时间:2025

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

分图12.jpg

动态图像退化问题,包括噪声、模糊和光照不一致,常因传感器限制或恶劣环境条件而带来图像复原的重大挑战。现有的深度展开网络(Deep Unfolding Networks,DUNs)虽然能提供稳定的复原效果,但需要针对每种退化类型手动选择退化矩阵,限制了其在多样化场景下的适应能力。为了解决这一问题,我们提出了视觉-语言引导的展开网络(Vision-Language-guided Unfolding Network,VLU-Net),这是一个统一的DUN框架,能够同时处理多种退化类型。VLU-Net 利用基于退化图像-文本对微调的视觉语言模型(Vision Language Model, VLM),将图像特征与退化描述对齐,自动选择针对目标退化的合适变换。通过将自动的基于VLM的梯度估计策略整合进近端梯度下降(Proximal Gradient Descent, PGD)算法,VLU-Net 有效应对复杂的多退化复原任务,同时保持良好的可解释性。此外,我们设计了分层特征展开结构,提升了VLU-Net框架的效率,能够在多个层次上合成退化模式。VLU-Net 是首个通用的一体化深度展开网络框架,在SOTS去雾数据集上超越了当前领先的单任务和一体化端到端方法3.74dB,在Rain100L去雨数据集上提升1.70dB,展现出优越的性能。

阅读原文
查看代码
图像视频复原

EAMamba: 面向图像复原的高效全向视觉状态空间模型

作者:Yu-Cheng Lin, Yu-Syuan Xu, Hao-Wei Chen, Hsien-Kai Kuo, Chun-Yi Lee

时间:2025

刊物:IEEE International Conference on Computer Vision (ICCV)

1 (1).jpg

图像复原作为底层计算机视觉的核心任务,其目标是从质量退化的输入图像中重建出高质量的视觉内容。近年来,基于先进状态空间模型Mamba发展而来的Vision Mamba架构在该领域取得了重要突破,其通过线性计算复杂度实现的长程依赖建模能力为图像复原任务带来了显著优势。然而,该架构在应用于底层视觉任务时仍存在计算复杂度随扫描序列数量线性增长以及局部像素遗忘等关键性技术挑战。为解决这些问题,本研究提出了高效全向Mamba框架(EAMamba),该框架创新性地整合了具有全向扫描机制的多头选择性扫描模块(MHSSM)。该模块通过并行化扫描序列聚合策略,在维持参数效率的同时避免了计算复杂度的提升,其全向扫描策略采用多模式互补机制实现了对空间信息的全面捕获,有效解决了局部像素遗忘问题。实验结果表明,在超分辨率、去噪、去模糊和去雾等多个图像复原任务中,EAMamba在显著降低31-89%计算量(FLOPs)的同时,其性能表现优于现有的基于Vision Mamba的方法。具体而言,在Urban100数据集的4倍超分辨率任务中实现了1.2dB的PSNR提升,在SIDD去噪基准测试中获得了0.03的SSIM改进。

阅读原文
查看代码
图像超分辨率

PiSA-SR: 一种双LoRA方法用于像素级与语义级可调节的超分辨率

作者:Lingchen Sun, Rongyuan Wu, Zhiyuan Ma, Shuaizheng Liu, Qiaosi Yi, Lei Zhang

时间:2025

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

分图55.jpg

基于扩散先验的方法在现实世界的图像超分辨率(SR)中展现出了令人印象深刻的结果。然而,大多数现有方法在训练过程中将像素级和语义级的超分辨率目标纠缠在一起,难以平衡像素级保真度和感知质量。与此同时,用户对超分辨率结果有不同的偏好,因此需要开发一种可调节的超分辨率模型,该模型能够在推理过程中根据不同的保真度-感知偏好进行调整,而无需重新训练。我们提出了像素级和语义级可调超分辨率(PiSA-SR),它在预训练的稳定扩散(SD)模型上学习两个LoRA模块,以实现改进和可调节的超分辨率结果。我们首先将基于SD的超分辨率问题表述为学习低质量输入和高质量输出之间的残差,然后表明学习目标可以解耦为两个不同的LoRA权重空间:一个以ℓ2损失为特征,用于像素级回归;另一个以LPIPS和分类器分数蒸馏损失为特征,从预训练的分类和SD模型中提取语义信息。在其默认设置中,PiSA-SR可以在单次扩散步骤中执行,实现在质量和效率方面领先的现实世界超分辨率结果。通过在两个LoRA模块上引入两个可调节的引导尺度,以在推理过程中控制像素级保真度和语义级细节的强度,PiSA-SR可以根据用户偏好提供灵活的超分辨率结果,而无需重新训练。

阅读原文
查看代码
1 2 3 ... 46 跳转到