AAAI 2026 Deadline | 摘要注册截稿于7月26日晚上19:59(北京时间)
WAIC 2025 | 世界人工智能大会青年优秀论文奖公布!
CVPR 2025 | 牛津华人博士生夺最佳论文奖!
00/00
共414条结果
重置
作者:Hongyang Wei, Shuaizheng Liu, Chun Yuan, Lei Zhang
时间:2025
刊物:IEEE International Conference on Computer Vision (ICCV)
通过利用预训练的文本到图像扩散模型中的生成先验,真实世界图像超分辨率(Real-ISR)取得了显著进展。然而,由于这些方法在感知和理解输入低质量图像方面的能力有限,在处理复杂或严重退化的场景时,往往会生成不准确且不自然的复原图像。为了解决上述问题,我们首次提出将预训练的自回归多模态模型(如 Lumina-mGPT)适配为一个鲁棒的真实图像超分辨率模型,称为PURE,即能够感知(Perceive)、理解(Understand)并复原(Restore)输入的低质量图像。具体而言,我们对 Lumina-mGPT 进行指令调优,使其能够感知图像的退化程度及已生成图像标记与下一个标记之间的关系,理解图像内容(通过生成图像的语义描述),并据此以自回归方式生成高质量图像标记,实现图像复原。此外,我们发现图像标记的熵反映了图像的结构信息,因此提出一种基于熵的 Top-k 采样策略,用于在推理过程中优化图像的局部结构。实验结果表明,PURE 在保留图像内容的同时能够生成真实细节,特别是在包含多个物体的复杂场景中表现出色,展示了自回归多模态生成模型在真实图像超分辨率任务中的强大潜力。
作者:JiaKui Hu, Lujia Jin, Zhengjian Yao, Yanye Lu
刊物:International Conference on Learning Representations (ICLR)
本文提出了退化分类预训练(Degradation Classification Pre-Training,DCPT)方法,使模型能够通过分类输入图像的退化类型来实现通用图像复原的预训练。不同于现有的自监督预训练方法,DCPT 利用输入图像的退化类型作为一种极弱的监督信号,该信息在所有图像复原数据集中都易于获取甚至内在存在。DCPT 包含两个主要阶段:首先,从编码器提取图像特征;随后,利用轻量级解码器(如 ResNet18)仅基于第一阶段提取的特征对输入图像的退化类型进行分类,而不直接使用输入图像。编码器通过简洁而有效的 DCPT 进行预训练,用于通用图像复原任务,并取得了优异性能。实验表明,经过 DCPT 预训练后,卷积神经网络(CNN)和变换器(Transformer)均表现出显著提升,在10种退化类型的一体化复原任务中,性能提升最高达2.55 dB,在混合退化场景中提升达6.53 dB。此外,以往的自监督预训练方法如掩码图像建模在预训练后会舍弃解码器,而我们的 DCPT 更有效地利用了预训练参数。这种优势源于 DCPT 过程中获得的退化分类器,有助于实现同一架构模型在不同退化类型间的迁移学习。
作者:Haijin Zeng, Xiangming Wang, Yongyong Chen, Jingyong Su, Jie Liu
刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
动态图像退化问题,包括噪声、模糊和光照不一致,常因传感器限制或恶劣环境条件而带来图像复原的重大挑战。现有的深度展开网络(Deep Unfolding Networks,DUNs)虽然能提供稳定的复原效果,但需要针对每种退化类型手动选择退化矩阵,限制了其在多样化场景下的适应能力。为了解决这一问题,我们提出了视觉-语言引导的展开网络(Vision-Language-guided Unfolding Network,VLU-Net),这是一个统一的DUN框架,能够同时处理多种退化类型。VLU-Net 利用基于退化图像-文本对微调的视觉语言模型(Vision Language Model, VLM),将图像特征与退化描述对齐,自动选择针对目标退化的合适变换。通过将自动的基于VLM的梯度估计策略整合进近端梯度下降(Proximal Gradient Descent, PGD)算法,VLU-Net 有效应对复杂的多退化复原任务,同时保持良好的可解释性。此外,我们设计了分层特征展开结构,提升了VLU-Net框架的效率,能够在多个层次上合成退化模式。VLU-Net 是首个通用的一体化深度展开网络框架,在SOTS去雾数据集上超越了当前领先的单任务和一体化端到端方法3.74dB,在Rain100L去雨数据集上提升1.70dB,展现出优越的性能。
作者:Wenyang Luo, Haina Qin, Zewen Chen, Libin Wang, Dandan Zheng, Yuming Li, Yufan Liu, Bing Li, Weiming Hu
图像复原任务如去模糊、去噪和去雾,通常需要针对每种退化类型训练不同的模型,这限制了它们在真实场景中处理混合或未知退化的泛化能力。在本工作中,我们提出了一种新颖的通用图像复原框架——Defusion,该框架利用视觉指令引导的退化扩散技术。与依赖特定任务模型或模糊文本先验的现有方法不同,Defusion 构建了与视觉退化模式相匹配的明确视觉指令。这些指令通过将退化作用于标准化视觉元素而获得,捕捉了退化的内在特征且不依赖图像语义。随后,Defusion 利用这些视觉指令指导一个基于扩散的模型,直接在退化空间中工作,通过对退化效果进行去噪,实现高质量图像的重建,提升了稳定性和泛化能力。大量实验表明,Defusion 在包括复杂和真实退化的多种图像复原任务中均优于现有最先进的方法。
作者:Yu-Cheng Lin, Yu-Syuan Xu, Hao-Wei Chen, Hsien-Kai Kuo, Chun-Yi Lee
图像复原作为底层计算机视觉的核心任务,其目标是从质量退化的输入图像中重建出高质量的视觉内容。近年来,基于先进状态空间模型Mamba发展而来的Vision Mamba架构在该领域取得了重要突破,其通过线性计算复杂度实现的长程依赖建模能力为图像复原任务带来了显著优势。然而,该架构在应用于底层视觉任务时仍存在计算复杂度随扫描序列数量线性增长以及局部像素遗忘等关键性技术挑战。为解决这些问题,本研究提出了高效全向Mamba框架(EAMamba),该框架创新性地整合了具有全向扫描机制的多头选择性扫描模块(MHSSM)。该模块通过并行化扫描序列聚合策略,在维持参数效率的同时避免了计算复杂度的提升,其全向扫描策略采用多模式互补机制实现了对空间信息的全面捕获,有效解决了局部像素遗忘问题。实验结果表明,在超分辨率、去噪、去模糊和去雾等多个图像复原任务中,EAMamba在显著降低31-89%计算量(FLOPs)的同时,其性能表现优于现有的基于Vision Mamba的方法。具体而言,在Urban100数据集的4倍超分辨率任务中实现了1.2dB的PSNR提升,在SIDD去噪基准测试中获得了0.03的SSIM改进。
作者:Mingde Yao, Menglu Wang, King-Man Tam, Lingen Li, Tianfan Xue, Jinwei Gu
反射移除是一项具有挑战性的任务,因为复杂的光照交互使得反射会遮挡重要的图像细节,从而阻碍对场景的理解。偏振信息天然地提供了一个强有力的线索,可以区分反射光与透射光,从而实现更准确的反射去除。然而,现有方法通常依赖于规模较小或合成的数据集,难以覆盖真实场景中多样且复杂的情况。为此,我们构建了一个大规模的偏振反射去除RGB图像数据集——PolaRGB,该数据集支持训练能够在各种真实场景中具备良好泛化能力的模型。PolaRGB包含6,500对高精度对齐的混合透射图像对,数据量是现有偏振数据集的8倍,也是首个涵盖RGB图像与偏振图像,且在多种室内与室外环境、不同光照条件下采集的数据集。此外,为了充分挖掘偏振线索在反射去除中的潜力,我们提出了PolarFree方法,该方法利用扩散过程生成无反射的线索,从而实现更精确的反射去除。大量实验表明,PolarFree在具有挑战性的高反射场景中显著提升了图像清晰度,为偏振成像与反射去除设立了新的基准。
作者:Linwei Dong, Qingnan Fan, Yihong Guo, Zhonghao Wang, Qi Zhang, Jinwei Chen, Yawei Luo, Changqing Zou
预训练的文本到图像扩散模型越来越多地被应用于现实世界的图像超分辨率(Real ISR)任务。鉴于扩散模型的迭代细化特性,大多数现有方法在计算上代价高昂。尽管像SinSR和OSEDiff这样的方法已经出现,通过蒸馏来压缩推理步骤,但它们在图像恢复或细节恢复方面的表现并不令人满意。为了解决这一问题,我们提出了TSD-SR,这是一个为现实世界图像超分辨率专门设计的新型蒸馏框架,旨在构建一个高效且有效的一步模型。我们首先引入了目标分数蒸馏,它利用扩散模型的先验知识和真实图像参考来实现更逼真的图像恢复。其次,我们提出了一个分布感知采样模块,使细节导向的梯度更容易获取,解决了恢复精细细节的挑战。大量的实验结果表明,与基于预训练扩散先验的以往Real-ISR方法相比,我们的TSD-SR具有优越的恢复结果和最快的推理速度.
作者:Wei Long, Xingyu Zhou, Leheng Zhang, Shuhang Gu
基于Transformer的方法在图像超分辨率任务中取得了显著的成果,因为它们能够捕捉低质量输入图像中的非局部依赖关系。然而,这种以特征密集为特点的建模方法在计算上代价高昂,因为在获取注意力权重时,它会计算与查询特征无关的众多特征之间的相似性。这些不必要的相似性计算不仅降低了重建性能,还引入了显著的计算开销。如何准确识别对当前查询特征重要的特征,并避免在无关特征之间进行相似性计算,仍然是一个亟待解决的问题。为了解决这一问题,我们提出了一种新颖且有效的渐进式聚焦Transformer(PFT),它通过渐进式聚焦注意力(PFA)将网络中所有孤立的注意力图连接起来,将注意力集中在最重要的标记上。PFA不仅使网络能够捕捉到更多关键的相似特征,而且通过在计算相似性之前过滤掉无关特征,显著降低了整个网络的计算成本。大量的实验结果证明了所提方法的有效性,在各种单图像超分辨率基准测试中均达到了最先进的性能。
作者:Lingchen Sun, Rongyuan Wu, Zhiyuan Ma, Shuaizheng Liu, Qiaosi Yi, Lei Zhang
基于扩散先验的方法在现实世界的图像超分辨率(SR)中展现出了令人印象深刻的结果。然而,大多数现有方法在训练过程中将像素级和语义级的超分辨率目标纠缠在一起,难以平衡像素级保真度和感知质量。与此同时,用户对超分辨率结果有不同的偏好,因此需要开发一种可调节的超分辨率模型,该模型能够在推理过程中根据不同的保真度-感知偏好进行调整,而无需重新训练。我们提出了像素级和语义级可调超分辨率(PiSA-SR),它在预训练的稳定扩散(SD)模型上学习两个LoRA模块,以实现改进和可调节的超分辨率结果。我们首先将基于SD的超分辨率问题表述为学习低质量输入和高质量输出之间的残差,然后表明学习目标可以解耦为两个不同的LoRA权重空间:一个以ℓ2损失为特征,用于像素级回归;另一个以LPIPS和分类器分数蒸馏损失为特征,从预训练的分类和SD模型中提取语义信息。在其默认设置中,PiSA-SR可以在单次扩散步骤中执行,实现在质量和效率方面领先的现实世界超分辨率结果。通过在两个LoRA模块上引入两个可调节的引导尺度,以在推理过程中控制像素级保真度和语义级细节的强度,PiSA-SR可以根据用户偏好提供灵活的超分辨率结果,而无需重新训练。