领域
分类
图像视频复原

Vivid-VR: 从文生视频扩散Transformer中蒸馏概念的逼真视频复原

作者:Haoran Bai, Xiaoxu Chen, Canqian Yang, Zongyao He, Sibin Deng, Ying Chen

时间:2026

刊物:International Conference on Learning Representations (ICLR)

ScreenShot_2026-01-27_104008_362 (1).jpg

我们提出了 Vivid-VR,这是一种基于DiT的生成式视频复原方法,构建于先进的文生视频(T2V)基础模型之上,并利用ControlNet控制生成过程以确保内容一致性。然而,由于多模态对齐的不完善,此类可控流程的传统微调常面临分布漂移的问题,进而导致纹理真实感和时序连贯性的下降。为应对这一挑战,我们提出了一种概念蒸馏训练策略,利用预训练的 T2V 模型合成内嵌文本概念的训练样本,从而蒸馏其概念认知能力,以有效保留纹理细节和时序质量。为了增强生成的可控性,我们通过两个关键组件重构了控制架构。控制特征投影器(Control Feature Projector):用于从输入视频的潜变量中滤除退化伪影,最大限度地减少其在生成流程中的传播;新型 ControlNet 连接器(ControlNet Connector):采用双分支设计,协同融合了基于 MLP 的特征映射与交叉注意力机制,用于动态控制特征检索,从而兼顾内容保持与自适应控制信号调制。大量实验表明,Vivid-VR在合成数据集、真实世界基准以及 AIGC 视频上的表现均优于现有方法,实现了令人印象深刻的纹理真实感、视觉生动性与时序一致性。

阅读原文
查看代码
图像视频去雨

DeLiVR: 用于高效视频去雨的差分时空李群偏差

作者:Shuning Sun, Jialang Lu, Xiang Chen, Jichao Wang, Dianjie Lu, Guijuan Zhang, Guangwei Gao, Zhuoran Zheng

时间:2026

刊物:International Conference on Learning Representations (ICLR)

ScreenShot_2026-01-27_103050_348 (1).jpg

自然场景下采集的视频常受雨痕、模糊和噪声的干扰。此外,即便是微小的相机姿态变化,也会加剧帧间错位和时序伪影。现有方法通常依赖光流或启发式对齐,不仅计算开销大,且鲁棒性不足。为应对这些挑战,李群(Lie groups)为表示连续几何变换提供了一种理论严谨的方法,使其非常适用于在视频建模中保持时空一致性。基于这一思路,我们提出了 DeLiVR,一种高效的视频去雨方法,它将时空李群微分偏置(spatiotemporal Lie-group differential biases)直接注入到网络的注意力分数中。具体而言,该方法引入了两个互补的组件。旋转受限李群相对偏置(Rotation-bounded Lie relative bias)利用轻量级预测模块预测每一帧的平面内旋转角,通过旋转归一化坐标并将其与基准坐标对比,在特征聚合前实现几何一致的对齐。微分群位移(Differential group displacement): 通过计算相邻帧之间的角度差来估计速度。该偏置计算结合了时间衰减与注意力掩码,在聚焦帧间关系的同时,精准匹配雨痕的方向。在公开基准数据集上的大量实验结果证明了该方法的有效性。

阅读原文
图像视频复原

正交解耦对比正则化: 面向非配对图像复原的不相关特征解耦

作者:Zhongze Wang, Jingchao Peng, Haitao Zhao, Lujian Yao, Kaijie Zhao

时间:2026

刊物:IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Orthogonal Decoupling Contrastive Regularization Toward Uncorrelated Feature Decoupling for Unpaired Image Restoration.jpg

非配对图像恢复(UIR)是一项重要任务,因为获取具有相同背景的配对退化/清晰图像存在困难。在本文中,我们提出了一种新颖的UIR方法,该方法基于这样一种假设:图像既包含与退化相关的特征(这些特征会影响退化程度),也包含与退化无关的特征(如纹理和语义信息)。我们的方法旨在确保恢复结果中与退化相关的特征与清晰图像的相关特征高度相似,同时使与退化无关的特征与输入的退化图像的相关特征保持一致。具体而言,我们引入了一个在斯蒂费尔流形上优化的特征正交化模块,用于解耦图像特征,确保特征不相关。我们提出了一种任务驱动的深度特征分类器,根据不相关特征与退化预测的相关性为其分配权重。为了避免训练过程依赖于单对输入数据中清晰图像的质量,我们提议维护多个描述清晰图像退化程度的与退化相关的代理,以增强模型的鲁棒性。最后,我们引入了加权PatchNCE损失,将输出图像中与退化相关的特征向清晰图像的相关特征靠拢,同时使与退化无关的特征接近退化输入图像的相关特征。

阅读原文
图像超分辨率

用于图像细节超分辨率的局部纹理模式估计

作者:Fan Fan, Yang Zhao, Yuan Chen, Nannan Li, Wei Jia, Ronggang Wang

时间:2025

刊物:IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Local Texture Pattern Estimation for Image Detail Super-Resolution.jpg

在图像超分辨率(SR)领域,恢复缺失的高频纹理一直是一个重要目标。然而,基于像素级约束的深度超分辨率网络往往侧重于稳定的边缘细节,无法有效恢复随机的高频纹理。直到生成对抗网络(GAN)出现后,基于GAN的超分辨率模型才实现了逼真的纹理恢复,并迅速成为纹理超分辨率的主流方法。但基于GAN的超分辨率模型仍存在一些缺点,例如依赖大量参数,以及生成与真实情况不一致的虚假纹理。受传统纹理分析研究的启发,本文提出了一种基于局部纹理模式估计(LTPE)的新型超分辨率网络,该网络无需GAN即可恢复精细的高频纹理细节。首先,设计了一个可微分的局部纹理算子来提取局部纹理结构,并利用纹理增强分支基于LTPE预测高分辨率的局部纹理分布。然后,将预测的高分辨率纹理结构图作为纹理融合超分辨率分支的参考,以获得高质量的纹理重建结果。最后,同时使用L1损失和Gram损失来优化网络。实验结果表明,所提方法无需使用GAN结构就能有效恢复高频纹理。此外,恢复的高频细节受到局部纹理分布的约束,从而减少了纹理生成中的显著误差。

阅读原文
查看代码
图像超分辨率

用于中文文本图像超分辨率的增强型生成结构先验

作者:Xiaoming Li, Wangmeng Zuo, Chen Change Loy

时间:2025

刊物:IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Enhanced Generative Structure Prior for Chinese Text Image Super-Resolution.jpg

忠实的文本图像超分辨率(SR)具有挑战性,因为每个字符都有独特的结构,并且通常呈现出多样的字体样式和布局。尽管现有方法主要关注英文文本,但对中文等更复杂的文字关注较少。在本文中,我们提出了一个高质量的文本图像超分辨率框架,旨在恢复低分辨率(LR)中文字符的精确笔画。与依赖字符识别先验来规范超分辨率任务的方法不同,我们提出了一种新颖的结构先验,该先验提供结构层面的指导以提升视觉质量。我们的框架将这种结构先验融入StyleGAN模型中,利用其生成能力进行恢复。为了在适应各种字体样式和布局的同时保持字符结构的完整性,我们实现了一种基于码本的机制,以限制StyleGAN的生成空间。码本中的每个代码代表特定字符的结构,而StyleGAN中的向量w则控制字符的样式,包括字体、方向和位置。通过码本和样式之间的协同作用,我们生成了一个在空间和结构上都与低分辨率字符对齐的高分辨率结构先验。实验表明,这种结构先验提供了强大的、特定于字符的指导,能够准确恢复受损字符的清晰笔画,即使对于具有不规则布局的真实世界低分辨率中文文本也是如此。

阅读原文
查看代码
图像超分辨率

用于高光谱图像超分辨率的测试时训练

作者:Ke Li, Luc Van Gool, Dengxin Dai

时间:2025

刊物:IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Test-Time Training for Hyperspectral Image Super-Resolution.jpg

高光谱图像(HSI)超分辨率(SR)的研究进展仍落后于RGB图像超分辨率的研究。高光谱图像通常具有大量的光谱波段,因此为高光谱图像超分辨率精确建模光谱波段间的相互作用十分困难。此外,高光谱图像超分辨率的训练数据难以获取,所以数据集通常规模较小。在这项研究中,我们提出了一种新的测试时训练方法来解决这一问题。具体而言,我们开发了一种新颖的自训练框架,该框架能生成更准确的伪标签和更精确的低分辨率-高分辨率关系,从而使模型能够利用这些内容进行进一步训练,以提升性能。为了更好地支持我们的测试时训练方法,我们还提出了一种新的网络架构,无需建模光谱波段间的相互作用即可学习高光谱图像超分辨率;同时提出了一种新的数据增强方法——光谱混合(Spectral Mixup),以在测试时增加训练数据的多样性。我们还收集了一个新的高光谱图像数据集,其中包含多种有趣物体的图像,涵盖食物、植被、材料以及一般场景等。在多个数据集上进行的大量实验表明,我们的方法经过测试时训练后,能够显著提升预训练模型的性能,并且在高光谱图像方面显著优于其他竞争方法。

阅读原文
图像超分辨率

旋转等变任意尺度图像超分辨率

作者:Qi Xie, Jiahong Fu, Zongben Xu, Deyu Meng

时间:2025

刊物:IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Rotation Equivariant Arbitrary-Scale Image Super-Resolution.jpg

任意尺度图像超分辨率(ASISR)是计算机视觉领域近期的一个热门课题,其目标是从低分辨率输入图像中实现任意尺度的高分辨率恢复。这项任务通过将图像表示为一个连续的隐式函数来实现,该过程涉及两个基本模块:一个基于深度网络的编码器和一个隐式神经表示(INR)模块。尽管已经取得了显著进展,但这种高度不适定场景下的一个关键挑战是,许多常见的几何图案,如重复纹理、边缘或形状,在低分辨率图像中会发生严重的扭曲和变形,这自然导致在其高分辨率恢复结果中出现意想不到的伪影。因此,将旋转等变性嵌入到ASISR网络中是必要的,因为大量研究表明,这种增强能够使恢复结果忠实地保持输入图像中几何图案的原始方向和结构完整性。基于此,本研究致力于构建一种具有旋转等变性的ASISR方法。具体而言,我们精心重新设计了INR和编码器模块的基本架构,使其具备超越传统ASISR网络的内在旋转等变能力。通过这样的改进,ASISR网络首次能够实现从输入到输出端到端的旋转等变性保持。我们还提供了扎实的理论分析来评估其内在等变性误差,证明了其嵌入这种等变结构的固有性质。在模拟数据集和真实数据集上进行的实验证实了所提方法的优越性。我们还验证了所提框架能够以即插即用的方式轻松集成到当前的ASISR方法中,以进一步提升它们的性能。

阅读原文
查看代码
图像超分辨率

基于双回归学习的轻量级超分辨率研究

作者:Yong Guo, Mingkui Tan, Zeshuai Deng, Jingdong Wang, Qi Chen, Jiezhang Cao

时间:2025

刊物:IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Towards Lightweight Super-Resolution With Dual Regression Learning.jpg

深度神经网络通过学习从低分辨率(LR)图像到高分辨率(HR)图像的映射,在图像超分辨率(SR)任务中展现出了卓越的性能。然而,超分辨率问题通常是一个不适定问题,现有方法存在诸多局限性。首先,超分辨率可能的映射空间会极大,因为从同一低分辨率图像可能超分辨出许多不同的高分辨率图像。因此,很难从如此大的空间中直接学习到理想的超分辨率映射。其次,为了产生理想的超分辨率性能,往往不可避免地需要开发非常大的模型,其计算成本极高。在实际应用中,可以通过模型压缩技术减少模型冗余,从而获得紧凑的模型。尽管如此,由于超分辨率映射空间极大,现有模型压缩方法很难准确识别冗余组件。为了缓解第一个挑战,我们提出了一种双回归学习方案,以缩小可能的超分辨率映射空间。具体而言,除了从低分辨率到高分辨率图像的映射外,我们还学习了一种额外的双回归映射,用于估计下采样核并重建低分辨率图像。通过这种方式,双映射起到了约束作用,从而缩小了可能的映射空间。为了解决第二个挑战,我们提出了一种双回归压缩(DRC)方法,基于通道剪枝在层级别和通道级别上减少模型冗余。具体来说,我们首先开发了一种通道数量搜索方法,通过最小化双回归损失来确定每一层的冗余度。在得到搜索到的通道数量后,我们进一步利用双回归方式评估通道的重要性,并剪枝冗余通道。大量实验表明,我们的方法在获得精确且高效的超分辨率模型方面是有效的。

阅读原文
查看代码
图像超分辨率

用于引导图像超分辨率的双层次跨模态神经架构搜索

作者:Zhiwei Zhong, Xianming Liu, Junjun Jiang, Debin Zhao, Shiqi Wang

时间:2025

刊物:IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Dual-Level Cross-Modality Neural Architecture Search for Guided Image Super-Resolution.jpg

引导式图像超分辨率(GISR)旨在借助另一模态的高分辨率(HR)图像,从对应的低分辨率(LR)图像中重建出高分辨率目标图像。现有的基于学习的方法通常采用对称的双流网络,从引导图像和目标图像中提取特征,然后通过人工设计的模块在早期或晚期对这些特征进行融合,以促进联合推理。尽管这些方法性能显著,但仍存在几个问题:1)对称架构将不同模态的图像同等对待,可能忽略了它们之间的固有差异;2)低级特征包含详细信息,而高级特征捕捉语义结构。然而,确定哪些层应该融合以及选择哪些融合操作仍未得到解决;3)大多数方法以增加计算复杂度为代价来获得性能提升,因此平衡计算复杂度和模型性能之间的权衡仍然是一个关键问题。为了解决这些问题,我们提出了一种双级跨模态神经架构搜索(DCNAS)框架,用于自动设计高效的GISR模型。具体而言,我们提出了一个双级搜索空间,使NAS算法能够识别有效的架构和最优的融合策略。此外,我们提出了一种超网络训练策略,该策略采用经过 pairwise 排序损失训练的性能预测器来指导超网络训练过程。据我们所知,这是首次尝试将NAS算法引入GISR任务。大量实验表明,所发现的模型系列DCNAS-Tiny和DCNAS在多个GISR任务上取得了显著改进,包括引导式深度图超分辨率、引导式显著图超分辨率、引导式热成像超分辨率和 pansharpening(全色锐化)。此外,我们分析了通过我们的方法搜索到的架构,并为未来的研究提供了一些新的见解。

阅读原文
1 2 3 ... 207 跳转到