ECCV2026-补充材料
ICML2026-反驳开始
ACM MM2026-摘要提交
ICML2026-反驳结束
ACM MM2026-正文提交
IJCAI2026-反驳开始
ACM MM2026-补充材料
IJCAI2026-反驳结束
IJCAI2026-论文开奖
ICML2026-论文开奖
00天 00: 00: 00
00/00
共1908条结果
重置
作者:Yang Zou, Jun Ma, Zhidong Jiao, Xingyuan Li, Zhiying Jiang, Jinyuan Liu
时间:2026
刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
真实环境下的红外图像超分辨率(IISR)是一项具有实际意义但很少被研究的任务。开创性的研究通常在模拟数据集上进行训练和评估,或者忽略了红外成像与可见光成像之间的固有差异。然而,在实际应用中,真实的红外图像会受到光学和传感退化的耦合影响,这些退化共同降低了结构清晰度和热保真度。 为了应对这些挑战,我们提出了Real-IISR,这是一个用于真实环境下IISR的统一自回归框架,它通过热结构引导的视觉自回归,以逐级缩放的方式逐步重建细粒度的热结构和清晰的背景。具体来说,热结构引导模块对热先验进行编码,以减轻热辐射与结构边缘之间的不匹配。由于非均匀退化通常会导致量化偏差,Real-IISR采用了条件自适应码本,该码本基于退化感知的热先验动态调制离散表示。此外,热顺序一致性损失强制温度和像素强度之间存在单调关系,确保相对亮度顺序而非绝对值,以在空间错位和热漂移情况下保持物理一致性。 我们构建了FLIR-IISR,这是一个真实世界的IISR数据集,包含通过自动聚焦变化和运动模糊获取的成对低分辨率-高分辨率红外图像。大量实验证明了Real-IISR的良好性能,为真实环境下的IISR和基准测试提供了统一的基础。数据集和代码可在以下网址获取:this https URL。
作者:Haotian Zhang, Feiyue Long, Yixin Yu, Jian Xue, Haocheng Tang, Tongda Xu, Zhenning Shi, Yan Wang, Siwei Ma, Jiaqi Zhang
多视图图像压缩(MIC)旨在通过利用图像间的相关性来实现高压缩效率,在3D应用中发挥着关键作用。作为MIC的一个子领域,分布式多视图图像压缩(DMIC)在编码器端无需视图间信息的情况下,仍能提供与MIC相当的性能。然而,现有的DMIC方法通常对所有图像一视同仁,忽略了解码过程中不同视图之间不同程度的相关性,这导致了次优的编码性能。为了解决这一局限性,我们提出了一种新颖的(OPAM),它是一种用于明确建模任意信息源对之间相关性和对齐特征的通用机制。基于OPAM,我们提出了一种视差多信息融合模块(PMIFM),以自适应地整合来自不同源的信息。PMIFM被整合到联合解码器和熵模型中,构建了我们的端到端DMIC框架。大量实验表明,在保持较低计算开销的同时,显著超越了最先进的MIC编解码器。随着输入视图数量的增加,性能提升更为明显。与LDMIC相比,在WildTrack(3)上实现了的比特率节省,在WildTrack(6)上的比特率节省高达,同时显著提高了编码效率(解码方面高达,编码方面高达)。
作者:Qianfeng Yang, Qiyuan Guan, Xiang Chen, Jiyu Jin, Guiyue Jin, Jiangxin Dong
尽管在图像去雨方面已经取得了显著进展,但我们注意到,大多数现有方法往往仅针对特定类型的雨致退化情况而开发,无法在各种真实世界的雨天场景中实现泛化。如何在一个通用框架内有效建模不同的雨致退化情况,对于真实世界的图像去雨而言至关重要。在本文中,我们提出了UniRain,这是一个高效的统一图像去雨框架,能够对在白天和夜间条件下受雨线和雨滴影响而退化的图像进行恢复。为了更好地增强统一模型的泛化能力,我们构建了一个基于智能检索增强生成(RAG)的数据集约简管道,该管道从所有公开的去雨数据集中挑选高质量的训练样本,以用于更好的混合训练。此外,我们将一种简单却有效的多目标重加权优化策略融入非对称专家混合(MoE)架构中,以促进在不同场景下的性能一致性并提高稳健性。大量实验表明,我们的框架在我们提出的基准测试和多个公开数据集上,性能优于最先进的模型。
作者:Aro Kim, Myeongjin Jang, Chaewon Moon, Youngjin Shin, Jinwoo Jeong, Sang-hyo Park
基于扩散的方法近年来在真实世界图像超分辨率(SR)领域取得了显著进展。然而,现有方法仍难以同时保留精细细节并确保高保真重建,往往导致视觉质量欠佳。在本文中,我们提出了FiDeSR,这是一个高保真且保留细节的单步扩散超分辨率框架。在训练过程中,我们引入了一种细节感知加权策略,能自适应地强调模型表现出较高预测误差的区域。在推理过程中,低频和高频自适应增强器进一步优化重建结果,且无需重新训练模型,从而实现灵活的增强控制。为进一步提高重建精度,FiDeSR融入了残差嵌套噪声细化模块,该模块可修正扩散噪声中的预测误差并增强精细细节的恢复。与现有基于扩散的方法相比,FiDeSR在真实世界超分辨率任务中表现更优,所生成的输出兼具高感知质量和忠实的内容还原。
作者:Xiaolong Zeng, Yitong Yu, Shiyao Xiong, Jinhua Hao, Ming Sun, Chao Zhou, Bin Wang
基于查找表(LUT)的方法已成为高效图像恢复任务中一个颇具前景的方向。近年来,基于LUT的方法着重通过扩大感受野来提升其性能。然而,这不可避免地带来了额外的计算和存储开销,阻碍了它们在边缘设备中的部署。为解决这一问题,我们提出了ShiftLUT——一种新颖的框架,它在所有基于LUT的方法中实现了最大的感受野,同时保持了高效率。我们的核心见解体现在三个互补的组件中。首先,引入可学习空间偏移模块(LSS),通过在特征图上应用可学习的、逐通道的空间偏移来扩大感受野。其次,我们提出一种非对称双分支架构,将更多计算资源分配给信息密集的分支,在不影响恢复质量的情况下大幅减少推理延迟。最后,我们融入了一种名为误差有界自适应采样(EAS)的特征级LUT压缩策略,以最大限度降低存储开销。与之前的最先进方法TinyLUT相比,ShiftLUT实现了3.8倍大的感受野,在多个标准基准测试中平均峰值信噪比(PSNR)提升超过0.21分贝,同时保持了较小的存储规模和推理时间。
作者:Jingwei Xin, Wenhao Li, Nannan Wang, Jie Li, Xinbo Gao
刊物:International Conference on Learning Representations (ICLR)
低比特量化在图像超分辨率领域取得了显著进展。然而,现有的量化方法在处理不同组件的异质性方面存在明显局限性。特别是在极端低比特压缩情况下,信息丢失问题尤为突出。在这项工作中,我们提出了一种新颖的低比特训练后量化方法,即基于静态优先级的整流器路由量化(SPR²Q)。本研究的出发点是尝试在量化前向模型中注入丰富且全面的补偿信息,从而提升量化后模型的推理性能。首先,我们构建了一个低秩整流器组,并将其嵌入到模型的微调过程中。通过整合从每个整流器学到的权重增量,模型在增强骨干网络的同时,最大限度地减少了轻量化过程中的信息丢失。此外,我们引入了静态整流器优先级路由机制,该机制评估每个整流器的离线能力并生成固定的路由表。在量化过程中,它会根据每个整流器的优先级更新权重,在不增加推理额外开销的情况下,增强模型的容量和表征能力。大量实验表明,所提出的SPR²Q在五个基准数据集上的性能显著优于现有最先进方法,在Set5(X2)数据集上,4比特和2比特设置下的峰值信噪比(PSNR)分别提升了0.55分贝和1.31分贝。
作者:Yixuan Zhu, Shilin Ma, Haolin Wang, Ao Li, Yanzhe Jing, Yansong Tang, Lei Chen, Jiwen Lu, Jie Zhou
视觉自回归模型(VAR)的最新进展已经证明了其在图像生成方面的有效性,凸显了其在真实世界图像超分辨率(Real-ISR)领域的潜力。然而,将VAR应用于ISR面临着严峻的挑战。受因果注意力限制的下一级预测机制无法充分利用全局低质量(LQ)上下文,导致生成的高质量(HQ)输出模糊且不一致。此外,迭代预测中的误差累积严重降低了ISR任务中的连贯性。为解决这些问题,我们提出了VARestorer,这是一种简单却高效的蒸馏框架,可将预训练的文本到图像VAR模型转换为单步ISR模型。通过利用分布匹配,我们的方法无需进行迭代优化,显著减少了误差传播并缩短了推理时间。此外,我们引入了带有跨尺度注意力的金字塔图像条件调节,这使得双向的尺度间交互成为可能,并在适应自回归机制的同时充分利用输入图像信息。这避免了Transformer中后续的LQ标记被忽略。通过参数高效适配器仅微调1.2%的模型参数,我们的方法在保持原始VAR模型表达能力的同时,显著提高了效率。大量实验表明,VARestorer在DIV2K数据集上实现了最先进的性能,MUSIQ得分为72.32,CLIPIQA得分为0.7669,同时与传统的VAR推理相比,将推理速度提升了10倍。
作者:Xiaoyang Liu, Zhengyan Zhou, Zihang Xu, Jiezhang Cao, Zheng Chen, Yulun Zhang
在卷积神经网络(CNNs)和Transformer的推动下,图像运动去模糊领域的最新进展取得了显著成果。大规模预训练扩散模型具有丰富的真实世界建模能力,在去模糊等高质量图像恢复任务中展现出巨大潜力,其生成能力强于基于CNN和Transformer的方法。然而,推理时间过长和保真度下降等挑战仍然限制了扩散模型充分发挥潜力。为解决这些问题,我们提出了FideDiff,这是一种专为高保真去模糊设计的新型单步扩散模型。我们将运动去模糊重新表述为类扩散过程,其中每个时间步代表一张逐渐模糊的图像,并训练一个一致性模型,使所有时间步都与同一清晰图像对齐。通过重建具有匹配模糊轨迹的训练数据,该模型学习到时间一致性,从而实现精确的单步去模糊。我们通过集成核控制网络(Kernel ControlNet)进行模糊核估计,并引入自适应时间步预测,进一步提升了模型性能。我们的模型在全参考指标上取得了优异性能,超越了以往基于扩散的方法,并且与其他最先进模型的性能相当。FideDiff为将预训练扩散模型应用于高保真图像恢复任务提供了新方向,为在实际工业应用中进一步推进扩散模型奠定了坚实的基线。我们的数据集和代码将在https://github.com/xyLiu339/FideDiff上发布。
作者:Bin Chen, Weiqi Li, Shijie Zhao, Xuanyu Zhang, Junlin Li, Li zhang, Jian Zhang
虽然许多扩散模型在真实世界视频超分辨率(Real-VSR)任务中通过生成丰富且逼真的细节取得了令人瞩目的成果,但它们对多步采样的依赖导致推理速度较慢。像SeedVR2、DOVE和DLoRAL这类单步网络通过将生成过程压缩到单个步骤来缓解这一问题,然而它们仍然较为庞大,拥有数十亿参数且存在数秒的延迟。最近的对抗性扩散压缩(ADC)技术通过剪枝和蒸馏这些模型,将其转化为紧凑的AdcSR网络,为解决该问题提供了一条有前景的路径,但由于缺乏时间感知能力以及标准对抗学习存在局限性,将其直接应用于Real-VSR难以平衡空间细节和时间一致性。为了应对这些挑战,我们提出了一种改进的适用于Real-VSR的ADC方法。我们的方法将一个配备了3D时空注意力机制的大型扩散Transformer(DiT)教师模型DOVE,蒸馏到一个基于剪枝后的2D稳定扩散(SD)的AdcSR骨干网络中,并辅以轻量级的1D时间卷积,从而显著提高了效率。此外,我们引入了一种双头对抗蒸馏方案,其中像素域和特征域的鉴别器将对细节和一致性的判别明确分离到两个头中,使得两个目标都能得到有效优化,而不会顾此失彼。实验表明,由此得到的压缩后的AdcVSR模型在参数方面降低了95%的复杂度,与它的DiT教师模型DOVE相比,实现了8倍的加速,同时保持了具有竞争力的视频质量和效率。