领域
分类
图像超分辨率

迈向真实世界的红外图像超分辨率:一个统一的自回归框架与基准数据集

作者:Yang Zou, Jun Ma, Zhidong Jiao, Xingyuan Li, Zhiying Jiang, Jinyuan Liu

时间:2026

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

ScreenShot_2026-03-06_133410_704.jpg

真实环境下的红外图像超分辨率(IISR)是一项具有实际意义但很少被研究的任务。开创性的研究通常在模拟数据集上进行训练和评估,或者忽略了红外成像与可见光成像之间的固有差异。然而,在实际应用中,真实的红外图像会受到光学和传感退化的耦合影响,这些退化共同降低了结构清晰度和热保真度。 为了应对这些挑战,我们提出了Real-IISR,这是一个用于真实环境下IISR的统一自回归框架,它通过热结构引导的视觉自回归,以逐级缩放的方式逐步重建细粒度的热结构和清晰的背景。具体来说,热结构引导模块对热先验进行编码,以减轻热辐射与结构边缘之间的不匹配。由于非均匀退化通常会导致量化偏差,Real-IISR采用了条件自适应码本,该码本基于退化感知的热先验动态调制离散表示。此外,热顺序一致性损失强制温度和像素强度之间存在单调关系,确保相对亮度顺序而非绝对值,以在空间错位和热漂移情况下保持物理一致性。 我们构建了FLIR-IISR,这是一个真实世界的IISR数据集,包含通过自动聚焦变化和运动模糊获取的成对低分辨率-高分辨率红外图像。大量实验证明了Real-IISR的良好性能,为真实环境下的IISR和基准测试提供了统一的基础。数据集和代码可在以下网址获取:this https URL。

阅读原文
查看代码
图像视频压缩

Parallax to Align Them All: 用于分布式多视图图像压缩的全视差注意力机制

作者:Haotian Zhang, Feiyue Long, Yixin Yu, Jian Xue, Haocheng Tang, Tongda Xu, Zhenning Shi, Yan Wang, Siwei Ma, Jiaqi Zhang

时间:2026

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

ScreenShot_2026-03-05_113651_148.jpg

多视图图像压缩(MIC)旨在通过利用图像间的相关性来实现高压缩效率,在3D应用中发挥着关键作用。作为MIC的一个子领域,分布式多视图图像压缩(DMIC)在编码器端无需视图间信息的情况下,仍能提供与MIC相当的性能。然而,现有的DMIC方法通常对所有图像一视同仁,忽略了解码过程中不同视图之间不同程度的相关性,这导致了次优的编码性能。为了解决这一局限性,我们提出了一种新颖的(OPAM),它是一种用于明确建模任意信息源对之间相关性和对齐特征的通用机制。基于OPAM,我们提出了一种视差多信息融合模块(PMIFM),以自适应地整合来自不同源的信息。PMIFM被整合到联合解码器和熵模型中,构建了我们的端到端DMIC框架。大量实验表明,在保持较低计算开销的同时,显著超越了最先进的MIC编解码器。随着输入视图数量的增加,性能提升更为明显。与LDMIC相比,在WildTrack(3)上实现了的比特率节省,在WildTrack(6)上的比特率节省高达,同时显著提高了编码效率(解码方面高达,编码方面高达)。

阅读原文
图像超分辨率

SPR2Q: 基于静态优先级的整流器路由量化用于图像超分辨率

作者:Jingwei Xin, Wenhao Li, Nannan Wang, Jie Li, Xinbo Gao

时间:2026

刊物:International Conference on Learning Representations (ICLR)

SPR2Q Static Priority-based Rectifier Routing Quantization for Image Super-Resolution.jpg

低比特量化在图像超分辨率领域取得了显著进展。然而,现有的量化方法在处理不同组件的异质性方面存在明显局限性。特别是在极端低比特压缩情况下,信息丢失问题尤为突出。在这项工作中,我们提出了一种新颖的低比特训练后量化方法,即基于静态优先级的整流器路由量化(SPR²Q)。本研究的出发点是尝试在量化前向模型中注入丰富且全面的补偿信息,从而提升量化后模型的推理性能。首先,我们构建了一个低秩整流器组,并将其嵌入到模型的微调过程中。通过整合从每个整流器学到的权重增量,模型在增强骨干网络的同时,最大限度地减少了轻量化过程中的信息丢失。此外,我们引入了静态整流器优先级路由机制,该机制评估每个整流器的离线能力并生成固定的路由表。在量化过程中,它会根据每个整流器的优先级更新权重,在不增加推理额外开销的情况下,增强模型的容量和表征能力。大量实验表明,所提出的SPR²Q在五个基准数据集上的性能显著优于现有最先进方法,在Set5(X2)数据集上,4比特和2比特设置下的峰值信噪比(PSNR)分别提升了0.55分贝和1.31分贝。

阅读原文
图像超分辨率

VARestorer: 用于真实世界图像超分辨率的一步式VAR蒸馏法

作者:Yixuan Zhu, Shilin Ma, Haolin Wang, Ao Li, Yanzhe Jing, Yansong Tang, Lei Chen, Jiwen Lu, Jie Zhou

时间:2026

刊物:International Conference on Learning Representations (ICLR)

VARestore One-Step VAR Distillation for Real-World Image Super-Resolution.jpg

视觉自回归模型(VAR)的最新进展已经证明了其在图像生成方面的有效性,凸显了其在真实世界图像超分辨率(Real-ISR)领域的潜力。然而,将VAR应用于ISR面临着严峻的挑战。受因果注意力限制的下一级预测机制无法充分利用全局低质量(LQ)上下文,导致生成的高质量(HQ)输出模糊且不一致。此外,迭代预测中的误差累积严重降低了ISR任务中的连贯性。为解决这些问题,我们提出了VARestorer,这是一种简单却高效的蒸馏框架,可将预训练的文本到图像VAR模型转换为单步ISR模型。通过利用分布匹配,我们的方法无需进行迭代优化,显著减少了误差传播并缩短了推理时间。此外,我们引入了带有跨尺度注意力的金字塔图像条件调节,这使得双向的尺度间交互成为可能,并在适应自回归机制的同时充分利用输入图像信息。这避免了Transformer中后续的LQ标记被忽略。通过参数高效适配器仅微调1.2%的模型参数,我们的方法在保持原始VAR模型表达能力的同时,显著提高了效率。大量实验表明,VARestorer在DIV2K数据集上实现了最先进的性能,MUSIQ得分为72.32,CLIPIQA得分为0.7669,同时与传统的VAR推理相比,将推理速度提升了10倍。

阅读原文
查看代码
图像视频去模糊

FideDiff: 用于高保真图像运动去模糊的高效扩散模型

作者:Xiaoyang Liu, Zhengyan Zhou, Zihang Xu, Jiezhang Cao, Zheng Chen, Yulun Zhang

时间:2026

刊物:International Conference on Learning Representations (ICLR)

ScreenShot_2026-03-03_124129_785 (1).jpg

在卷积神经网络(CNNs)和Transformer的推动下,图像运动去模糊领域的最新进展取得了显著成果。大规模预训练扩散模型具有丰富的真实世界建模能力,在去模糊等高质量图像恢复任务中展现出巨大潜力,其生成能力强于基于CNN和Transformer的方法。然而,推理时间过长和保真度下降等挑战仍然限制了扩散模型充分发挥潜力。为解决这些问题,我们提出了FideDiff,这是一种专为高保真去模糊设计的新型单步扩散模型。我们将运动去模糊重新表述为类扩散过程,其中每个时间步代表一张逐渐模糊的图像,并训练一个一致性模型,使所有时间步都与同一清晰图像对齐。通过重建具有匹配模糊轨迹的训练数据,该模型学习到时间一致性,从而实现精确的单步去模糊。我们通过集成核控制网络(Kernel ControlNet)进行模糊核估计,并引入自适应时间步预测,进一步提升了模型性能。我们的模型在全参考指标上取得了优异性能,超越了以往基于扩散的方法,并且与其他最先进模型的性能相当。FideDiff为将预训练扩散模型应用于高保真图像恢复任务提供了新方向,为在实际工业应用中进一步推进扩散模型奠定了坚实的基线。我们的数据集和代码将在https://github.com/xyLiu339/FideDiff上发布。

阅读原文
查看代码
视频超分辨率

用于真实世界视频超分辨率的改进对抗性扩散压缩

作者:Bin Chen, Weiqi Li, Shijie Zhao, Xuanyu Zhang, Junlin Li, Li zhang, Jian Zhang

时间:2026

刊物:International Conference on Learning Representations (ICLR)

Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution.jpg

虽然许多扩散模型在真实世界视频超分辨率(Real-VSR)任务中通过生成丰富且逼真的细节取得了令人瞩目的成果,但它们对多步采样的依赖导致推理速度较慢。像SeedVR2、DOVE和DLoRAL这类单步网络通过将生成过程压缩到单个步骤来缓解这一问题,然而它们仍然较为庞大,拥有数十亿参数且存在数秒的延迟。最近的对抗性扩散压缩(ADC)技术通过剪枝和蒸馏这些模型,将其转化为紧凑的AdcSR网络,为解决该问题提供了一条有前景的路径,但由于缺乏时间感知能力以及标准对抗学习存在局限性,将其直接应用于Real-VSR难以平衡空间细节和时间一致性。为了应对这些挑战,我们提出了一种改进的适用于Real-VSR的ADC方法。我们的方法将一个配备了3D时空注意力机制的大型扩散Transformer(DiT)教师模型DOVE,蒸馏到一个基于剪枝后的2D稳定扩散(SD)的AdcSR骨干网络中,并辅以轻量级的1D时间卷积,从而显著提高了效率。此外,我们引入了一种双头对抗蒸馏方案,其中像素域和特征域的鉴别器将对细节和一致性的判别明确分离到两个头中,使得两个目标都能得到有效优化,而不会顾此失彼。实验表明,由此得到的压缩后的AdcVSR模型在参数方面降低了95%的复杂度,与它的DiT教师模型DOVE相比,实现了8倍的加速,同时保持了具有竞争力的视频质量和效率。

阅读原文
1 2 3 ... 212 跳转到