AAAI2026-第一阶段开奖
NeurIPS2025-论文开奖
ICLR2026-摘要注册
ICLR2026-正文提交
00天 00: 00: 00
点击访问 | arXiv.CV每日最新论文列表
ICCV 2025 Accepted Papers List (点击查阅)
00/00
共446条结果
重置
作者:Wontae Kim, Keuntek Lee, Nam Ik Cho
时间:2025
刊物:IEEE International Conference on Computer Vision (ICCV)
基于三维查找表(3D LUT)的图像增强方法通过插值预计算顶点值,有效缩减了模型尺寸与运行时间。然而,由于采用逐点色彩值转换机制,传统3D LUT方法存在空间信息缺失的局限性。尽管空间感知型3D LUT方法尝试突破这一限制,但其引入的附加模块需要大量参数,导致运行时间随图像分辨率提升而显著增加。针对这一问题,我们提出通过聚焦查找表中的冗余部分来生成图像自适应LUT的新方法。该高效框架将三维查找表分解为低维查找表的线性组合,并采用奇异值分解(SVD)进行优化。此外,我们改进了空间特征融合模块的设计,使其具备更高的缓存效率。大量实验结果表明,本方案在保持空间感知能力与性能的同时,有效降低了参数数量与运行时间。
作者:Xuhong Huang, Shiqi Liu, Kai Zhang, Ying Tai, Jian Yang, Hui Zeng, Lei Zhang
卷积和转置卷积是神经网络中广泛使用的基础算子。然而,由于数学原理的本质差异,转置卷积(又称反卷积)并不能真正实现卷积的逆运算。迄今为止,反向卷积算子尚未成为神经网络架构中的标准组件。本文提出了一种新颖的深度可分离反向卷积算子,通过构建并求解正则化最小二乘优化问题,首次实现了对深度可分离卷积的有效逆运算。我们系统研究了其核初始化、填充策略等关键要素以确保有效实施。基于该算子,我们进一步构建了反向卷积模块,将其与层归一化、1×1卷积和GELU激活函数相结合,形成类Transformer结构。所提出的算子与模块可直接替换现有架构中的传统卷积和转置卷积层,从而构建ConverseNet网络。针对DnCNN、SRResNet和USRNet等典型图像复原模型,我们分别训练了ConverseNet的三个变体用于高斯去噪、超分辨率和去模糊任务。大量实验证明,该反向卷积算子作为基础构建模块具有显著有效性。我们期待这项工作能为开发深度学习模型设计与应用中的新型算子开辟新途径。
作者:Shihao Zhou, Dayu Li, Jinshan Pan, Juncheng Zhou, Jinglei Shi, Jufeng Yang
基于 Transformer 的方法在图像复原领域受到广泛关注,其中核心组件——多头注意力机制(Multi-Head Attention, MHA)在捕获多样化特征和恢复高质量结果方面起着关键作用。在 MHA 中,各个注意力头在均匀划分的子空间中独立进行注意力计算,这种机制会引发冗余问题,从而阻碍模型获得理想的输出效果。本文旨在通过探索多样化的学习器并引入不同的注意力头交互方式来改进 MHA,由此提出了一种分层多头注意力驱动的 Transformer 模型,命名为 HINT,用于图像复原。HINT 包含两个模块,即分层多头注意力(Hierarchical Multi-Head Attention, HMHA)模块和查询-键缓存更新(Query-Key Cache Updating, QKCU)模块,专门用于解决原始 MHA 中的冗余问题。具体而言,HMHA 通过让各个注意力头在不同大小且包含不同信息的子空间中学习,从而提取多样化的上下文特征;此外,QKCU 模块通过包含层内与层间两种机制,促进注意力头在层内和层间的交互,进一步减少冗余问题。我们在 5 个图像复原任务(包括低光照增强、去雾、去雪、去噪和去雨)上的 12 个基准数据集上进行了大量实验,结果充分证明了 HINT 的优越性。源码将发布在 [https://github.com/joshyZhou/HINT](https://github.com/joshyZhou/HINT)。
作者:Mo Zhou, Keren Ye, Mauricio Delbracio, Peyman Milanfar, Vishal M. Patel, Hossein Talebi
真实世界中的图像复原受到多种退化的影响,这些退化源自不同的拍摄条件、拍摄设备以及后处理流程。现有方法通常通过模拟这些退化并利用图像生成先验来提升性能,但在真实复杂环境(in-the-wild)中的泛化能力问题仍未解决。本文针对复杂退化展开研究,即在真实场景中经常出现的多种已知退化类型的任意组合。为此,我们提出了一种简单而灵活的基于扩散模型的框架——UniRes,能够以端到端的方式应对此类退化。该框架在扩散采样步骤中结合多个专用模型,从而将多个相对独立的图像复原任务中的知识迁移到复杂真实退化的复原任务中。该方法仅需针对几种退化类型提供相对独立的训练数据即可。此外,该框架具有高度的扩展性,可通过统一的公式引入新的退化类型,并能够通过一种新的范式调节保真度与质量之间的权衡。我们在复杂退化与单一退化的图像复原数据集上对该方法进行了评估,大量的定性与定量实验结果表明,该方法在复杂退化图像上的性能提升尤为显著。
作者:Junlong Tong, Wei Zhang, Yaohui Jin, Xiaoyu Shen
条件熵模型通过利用时空上下文有效地减少视频中的冗余信息。然而,引入时间上下文通常会带来额外的模型复杂度并增加计算成本。同时,许多现有的空间上下文建模方法缺乏对空间依赖顺序的显式建模,这可能会限制解码过程中可用的相关上下文信息。为了解决这些问题,我们提出了一种上下文引导的变换器(Context Guided Transformer, CGT)熵模型,该模型在重采样的时间上下文和依赖加权的空间上下文的条件下,对当前帧的概率质量函数进行估计。具体而言,我们设计了一个时间上下文重采样器,利用变换器编码器从预定义的潜在查询中提取关键的时间信息,从而降低后续计算开销。同时,我们设计了一个师生网络作为空间上下文依赖加权模块,用于显式建模空间上下文的依赖顺序。教师网络通过对输入进行随机遮挡,生成表征token重要性的注意力图和反映预测不确定性的熵图,引导学生网络从中选择具有最高空间依赖的加权top-k个token。在推理阶段,仅使用学生网络,根据高依赖上下文预测尚未解码的token。实验结果表明,CGT模型在保持准确性的同时,将熵建模时间减少约65%,并在BD-Rate上相较于此前最先进的条件熵模型实现了11%的提升。
作者:Yuhwan Jeong, Yunseo Yang, Youngjo Yoon, Kuk-Jin Yoon
恶劣天气会导致多样且复杂的退化模式,促使All-in-One(AiO)模型的发展。然而,现有的AiO方法仍难以有效捕捉多样化的退化特征,因为诸如频域直接操作等全局滤波方法难以应对高度变化且局部性强的失真问题。为了解决这一问题,我们提出了一种新的方法——基于频谱的空间分组Transformer(SSGformer),该方法结合频谱分解与分组注意力机制,用于多种天气条件下的图像恢复。SSGformer首先通过传统的边缘检测提取图像的高频边缘特征,并通过奇异值分解获取低频信息。我们采用多头线性注意力机制,有效建模这些特征之间的关系。随后,将融合后的特征与原始输入结合,用以生成分组掩码,根据空间相似性和图像纹理对区域进行聚类。为充分利用该掩码,我们引入了一种分组注意力机制,实现对恶劣天气下图像的稳健恢复,并确保在多种天气条件下都具备一致的性能表现。此外,我们还提出了一个空间分组Transformer模块,结合通道注意力与空间注意力,在特征层级关系与空间依赖之间实现有效平衡。大量实验结果验证了我们方法在处理多样且复杂的恶劣天气退化方面的优越性和有效性。
作者:Qiaosi Yi, Shuai Li, Rongyuan Wu, Lingchen Sun, Yuhui Wu, Lei Zhang
在真实图像超分辨(Real-ISR)任务中,利用预训练的稳定扩散(Stable Diffusion, SD)模型已取得显著成果。然而,此类方法存在一个关键问题,即在重建图像细节结构(如小字符和纹理)方面表现不佳,主要原因在于SD模型中的变分自编码器(VAE)采用了过于激进的分辨率压缩(例如8倍下采样)。一种解决方案是使用较低下采样率的VAE进行扩散,但在此基础上适配预训练UNet并控制计算开销,仍面临新的挑战。为了解决这些问题,我们提出了一种迁移VAE训练(Transfer VAE Training, TVT)策略,用于将8×下采样的VAE迁移为4×下采样,同时实现对预训练UNet的适配。具体而言,我们首先基于原始VAE编码器的输出特征训练一个4×的解码器,然后在保持该解码器固定的情况下训练4×的编码器。该TVT策略在对齐新编码器-解码器对与原始VAE潜在空间的同时,增强了图像细节的恢复能力。此外,我们还通过优化网络结构,引入了一个紧凑型VAE和计算高效的UNet,以降低计算成本并更好地捕捉高分辨率的细粒度特征。实验结果表明,我们提出的TVT方法在保持较低FLOPs的同时,相较其他基于SD的方法显著提升了细节结构的重建效果。
作者:Yuqi Li, Haotian Zhang, Li Li, Dong Liu
上下文建模在学习式图像压缩中起着关键作用,它有助于对潜变量的分布进行准确估计。尽管近年来的先进方法提升了上下文建模能力,但它们在有效捕捉长距离依赖关系以及充分利用不同编码步骤之间的多样上下文信息方面仍存在困难。为此,本文提出了一种新颖的分层渐进上下文模型(Hierarchical Progressive Context Model, HPCM),以更高效地获取上下文信息。具体而言,HPCM 采用分层编码策略,在多尺度上顺序建模潜变量之间的上下文依赖关系,从而实现更有效的长距离上下文建模。此外,我们还引入了一种渐进式上下文融合机制,将前一编码步骤中的上下文信息融入当前步骤,从而更充分地挖掘多样的上下文线索。实验结果表明,本文方法在率失真性能方面达到了当前最先进水平,并在压缩性能与计算复杂度之间实现了更优的平衡。
作者:Jingxi Liao, Shijie Hao, Richang Hong, Meng Wang
低照度图像增强(Low-light Image Enhancement, LLIE)旨在提升在光照不良条件下拍摄图像的视觉质量。在监督式LLIE研究中,增强后的图像整体亮度与其真实标签图像之间存在一个显著却常被忽视的不一致性,本文称之为亮度不匹配(brightness mismatch)。亮度不匹配会误导模型训练,从而对监督式LLIE模型产生负面影响。然而,该问题在当前研究中普遍被忽略。针对这一问题,本文提出了一种简单而有效的损失函数——GT-mean loss,该方法从概率角度直接对图像的均值进行建模。GT-mean loss 具有良好的灵活性,它可以在几乎不增加额外计算成本的情况下,将现有的监督式LLIE损失函数扩展为GT-mean形式。大量实验表明,引入GT-mean loss 能在多种方法和数据集上带来持续稳定的性能提升。