领域
分类
图像视频复原

细节决定成败: 探索Transformer中的多样化学习器用于图像复原

作者:Shihao Zhou, Dayu Li, Jinshan Pan, Juncheng Zhou, Jinglei Shi, Jufeng Yang

时间:2025

刊物:IEEE International Conference on Computer Vision (ICCV)

屏幕截图 2025-08-11 184321.jpg

基于 Transformer 的方法在图像复原领域受到广泛关注,其中核心组件——多头注意力机制(Multi-Head Attention, MHA)在捕获多样化特征和恢复高质量结果方面起着关键作用。在 MHA 中,各个注意力头在均匀划分的子空间中独立进行注意力计算,这种机制会引发冗余问题,从而阻碍模型获得理想的输出效果。本文旨在通过探索多样化的学习器并引入不同的注意力头交互方式来改进 MHA,由此提出了一种分层多头注意力驱动的 Transformer 模型,命名为 HINT,用于图像复原。HINT 包含两个模块,即分层多头注意力(Hierarchical Multi-Head Attention, HMHA)模块和查询-键缓存更新(Query-Key Cache Updating, QKCU)模块,专门用于解决原始 MHA 中的冗余问题。具体而言,HMHA 通过让各个注意力头在不同大小且包含不同信息的子空间中学习,从而提取多样化的上下文特征;此外,QKCU 模块通过包含层内与层间两种机制,促进注意力头在层内和层间的交互,进一步减少冗余问题。我们在 5 个图像复原任务(包括低光照增强、去雾、去雪、去噪和去雨)上的 12 个基准数据集上进行了大量实验,结果充分证明了 HINT 的优越性。源码将发布在 [https://github.com/joshyZhou/HINT](https://github.com/joshyZhou/HINT)。

阅读原文
查看代码
图像视频压缩

基于上下文引导的Transformer熵建模用于视频压缩

作者:Junlong Tong, Wei Zhang, Yaohui Jin, Xiaoyu Shen

时间:2025

刊物:IEEE International Conference on Computer Vision (ICCV)

屏幕截图 2025-08-05 104159.jpg

条件熵模型通过利用时空上下文有效地减少视频中的冗余信息。然而,引入时间上下文通常会带来额外的模型复杂度并增加计算成本。同时,许多现有的空间上下文建模方法缺乏对空间依赖顺序的显式建模,这可能会限制解码过程中可用的相关上下文信息。为了解决这些问题,我们提出了一种上下文引导的变换器(Context Guided Transformer, CGT)熵模型,该模型在重采样的时间上下文和依赖加权的空间上下文的条件下,对当前帧的概率质量函数进行估计。具体而言,我们设计了一个时间上下文重采样器,利用变换器编码器从预定义的潜在查询中提取关键的时间信息,从而降低后续计算开销。同时,我们设计了一个师生网络作为空间上下文依赖加权模块,用于显式建模空间上下文的依赖顺序。教师网络通过对输入进行随机遮挡,生成表征token重要性的注意力图和反映预测不确定性的熵图,引导学生网络从中选择具有最高空间依赖的加权top-k个token。在推理阶段,仅使用学生网络,根据高依赖上下文预测尚未解码的token。实验结果表明,CGT模型在保持准确性的同时,将熵建模时间减少约65%,并在BD-Rate上相较于此前最先进的条件熵模型实现了11%的提升。

阅读原文
查看代码
通用天气去除

基于谱空间分组实现稳健的恶劣天气去除

作者:Yuhwan Jeong, Yunseo Yang, Youngjo Yoon, Kuk-Jin Yoon

时间:2025

刊物:IEEE International Conference on Computer Vision (ICCV)

屏幕截图 2025-07-31 234007.jpg

恶劣天气会导致多样且复杂的退化模式,促使All-in-One(AiO)模型的发展。然而,现有的AiO方法仍难以有效捕捉多样化的退化特征,因为诸如频域直接操作等全局滤波方法难以应对高度变化且局部性强的失真问题。为了解决这一问题,我们提出了一种新的方法——基于频谱的空间分组Transformer(SSGformer),该方法结合频谱分解与分组注意力机制,用于多种天气条件下的图像恢复。SSGformer首先通过传统的边缘检测提取图像的高频边缘特征,并通过奇异值分解获取低频信息。我们采用多头线性注意力机制,有效建模这些特征之间的关系。随后,将融合后的特征与原始输入结合,用以生成分组掩码,根据空间相似性和图像纹理对区域进行聚类。为充分利用该掩码,我们引入了一种分组注意力机制,实现对恶劣天气下图像的稳健恢复,并确保在多种天气条件下都具备一致的性能表现。此外,我们还提出了一个空间分组Transformer模块,结合通道注意力与空间注意力,在特征层级关系与空间依赖之间实现有效平衡。大量实验结果验证了我们方法在处理多样且复杂的恶劣天气退化方面的优越性和有效性。

阅读原文
查看代码
图像超分辨率

通过迁移VAE训练实现细节结构保留的真实图像超分辨率

作者:Qiaosi Yi, Shuai Li, Rongyuan Wu, Lingchen Sun, Yuhui Wu, Lei Zhang

时间:2025

刊物:IEEE International Conference on Computer Vision (ICCV)

屏幕截图 2025-07-29 222105.jpg

在真实图像超分辨(Real-ISR)任务中,利用预训练的稳定扩散(Stable Diffusion, SD)模型已取得显著成果。然而,此类方法存在一个关键问题,即在重建图像细节结构(如小字符和纹理)方面表现不佳,主要原因在于SD模型中的变分自编码器(VAE)采用了过于激进的分辨率压缩(例如8倍下采样)。一种解决方案是使用较低下采样率的VAE进行扩散,但在此基础上适配预训练UNet并控制计算开销,仍面临新的挑战。为了解决这些问题,我们提出了一种迁移VAE训练(Transfer VAE Training, TVT)策略,用于将8×下采样的VAE迁移为4×下采样,同时实现对预训练UNet的适配。具体而言,我们首先基于原始VAE编码器的输出特征训练一个4×的解码器,然后在保持该解码器固定的情况下训练4×的编码器。该TVT策略在对齐新编码器-解码器对与原始VAE潜在空间的同时,增强了图像细节的恢复能力。此外,我们还通过优化网络结构,引入了一个紧凑型VAE和计算高效的UNet,以降低计算成本并更好地捕捉高分辨率的细粒度特征。实验结果表明,我们提出的TVT方法在保持较低FLOPs的同时,相较其他基于SD的方法显著提升了细节结构的重建效果。

阅读原文
查看代码
1 2 3 ... 50 跳转到