论文精选-底层视觉领域顶会顶刊论文-熵视

图像视频去雨

通过可学习的颜色空间转换重新思考夜间图像去雨

作者：Qiyuan Guan, Xiang Chen, Guiyue Jin, Jiyu Jin, Shumin Fan, Tianyu Song, Jinshan Pan

时间：2025

刊物：Annual Conference on Neural Information Processing Systems (NeurIPS)

与白天图像去雨相比，夜间图像去雨面临更大的挑战，这主要源于夜间场景自身的复杂性，以及缺乏能够准确反映雨与照明耦合效应的高质量数据集。本文重新思考了夜间图像去雨这一任务，并提出了一个高质量的基准数据集 HQ-NightRain，其在视觉一致性和真实性方面均优于现有数据集。此外，我们设计了一种高效的颜色空间变换网络CST-Net，用于更有效地去除夜间场景中的复杂雨迹。具体而言，我们提出了一个可学习颜色空间转换模块，以在 Y 通道中更好地实现去雨，因为相比于 RGB 空间，夜间雨迹在 Y 通道中表现得更加明显。为了利用照明信息来引导夜间去雨，我们进一步引入了隐式照明引导，使模型能够在复杂场景下通过学习到的特征增强鲁棒性。

阅读原文

查看代码

图像视频复原

InstructRestore: 基于人类指令的区域自定义图像复原

作者：Shuaizheng Liu, Jianqi Ma, Lingchen Sun, Xiangtao Kong, Lei Zhang

时间：2025

刊物：Annual Conference on Neural Information Processing Systems (NeurIPS)

尽管基于扩散先验的图像复原技术已取得显著进展，但现有大多数方法仍对整幅图像进行统一处理，缺乏根据用户指令进行区域自定义复原的能力。为此，本文提出了一种新的框架——InstructRestore，能够依据人类指令实现可调节的区域化图像复原。具体而言，我们首先设计了一个数据生成引擎，用于合成训练三元组，每个样本包含一张高质量图像、目标区域描述以及对应的区域掩码。借助该引擎并结合严格的数据筛选，我们构建了一个包含536,945 个三元组的综合数据集，用于支持该任务的训练与评估。随后，我们研究了如何在ControlNet架构下有效融合低质量图像特征，以调节图像细节增强的程度。基于此，我们构建了一种类似 ControlNet 的模型，能够识别目标区域，并为目标区域与周围区域分配不同的融合比例，从而实现与用户指令一致的区域自定义图像复原。实验结果表明，所提出的 InstructRestore方法能够有效实现基于人类指令的图像复原任务，如具有散景（bokeh）效果的图像生成和用户指令驱动的局部增强。我们的研究推动了交互式图像复原与增强技术的发展。

阅读原文

查看代码

图像视频去雨

PRE-Mamba: 一种用于超高频事件相机去雨的四维状态空间模型

作者：Ciyu Ruan, Ruishan Guo, Zihang Gong, Jingao Xu, Wenhan Yang, Xinlei Chen

时间：2025

刊物：IEEE International Conference on Computer Vision (ICCV)

事件相机具有极高的时间分辨率和宽动态范围，但在雨天条件下会受到密集噪声的严重影响。现有的事件去雨方法在时间精度、去雨效果和计算效率之间存在权衡。本文提出了一种新的点云式事件相机去雨框架——PRE-Mamba，该方法充分利用了原始事件与雨滴的时空特性。我们引入了一种四维事件云表示，结合双时间尺度以保持高时间精度；设计了一个时空解耦与融合模块（STDF），通过浅层解耦与时空信息交互来增强去雨能力；并提出了一个多尺度状态空间模型（MS3M），以线性计算复杂度在双时间和多空间尺度上捕获更深层的雨动态。借助频域正则化的进一步增强，PRE-Mamba 在 EventRain-27K 数据集上取得了卓越表现（0.95 SR、0.91 NR、0.4 s/M events），且模型仅包含 0.26M 参数。此外，该方法在不同雨强、视角甚至雪天条件下均表现出良好的泛化能力。

阅读原文

查看代码

图像超分辨率

PatchVSR: 基于Patch的视频超分来突破视频扩散分辨率极限

作者：Shian Du, Menghan Xia, Chang Liu, Xintao Wang, Jing Wang, Pengfei Wan, Di Zhang, Xiangyang Ji

时间：2025

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

预训练视频生成模型在生成式视频超分辨率（VSR）中具有巨大潜力。然而，大多数现有方法将其直接应用于整幅视频的超分辨率任务，这不仅导致了不必要的高强度全局注意力计算，还限制了输出分辨率的灵活性。为克服这些局限，我们首次探索了在块级别上利用视频扩散先验进行 VSR。这并非易事，因为预训练的视频扩散模型并不天然适用于块级细节生成。为此，我们提出了一种创新方法 PatchVSR，通过双流适配器实现条件引导。具体来说，局部块分支从输入块中提取特征，以保持内容的保真度；全局分支则从缩放后的视频中提取上下文特征，以弥合因块语义不完整而产生的生成差距。尤其是，我们还将块的位置信息注入模型，使生成结果能更好地结合全局视频帧的语境。实验结果表明，我们的方法能够在块级别合成高保真、高分辨率的细节。同时，我们设计了一种专门的多块联合调制机制，以确保各个独立增强的块在整体视频中具有视觉一致性。得益于这种灵活的块级范式，我们能够基于一个 512×512 分辨率的基础模型，实现极高效率的 4K 视频超分辨率，并取得高度竞争力的效果。

阅读原文

图像视频去噪

利用跨域频率相关性实现近红外辅助图像去噪

作者：Yuchen Wang, Hongyuan Wang, Lizhi Wang, Xin Wang, Lin Zhu, Wanxuan Lu, Hua Huang

时间：2025

刊物：IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

现有的单幅图像去噪算法在处理复杂噪声图像时往往难以有效恢复细节。近红外（NIR）图像的引入为RGB图像去噪提供了新的可能性。然而，由于NIR与RGB图像之间存在不一致性，现有方法在图像融合过程中仍难以平衡两者的贡献。为此，本文提出了一种跨域频率相关性利用网络（FCENet），用于NIR辅助图像去噪。我们首先基于对NIR-RGB图像对的深入频率统计分析，提出了频率相关先验，该先验揭示了NIR与RGB图像在频率域中的互补相关性。在此基础上，我们构建了一个频率学习框架，包括频率动态选择机制（FDSM）和频率穷尽融合机制（FEFM）。其中，FDSM能够在频率域中动态选择NIR与RGB图像的互补信息，而FEFM则在NIR与RGB特征融合过程中强化了对共性与差异特征的控制。大量在模拟和真实数据上的实验结果验证了所提方法优于其他现有的先进方法。

阅读原文

查看代码

视频超分辨率

MedVSR: 基于跨状态空间传播的医学视频超分辨率

作者：Xinyu Liu, Guolei Sun, Cheng Wang, Yixuan Yuan, Ender Konukoglu

时间：2025

刊物：IEEE International Conference on Computer Vision (ICCV)

高分辨率（HR）医学视频对准确诊断至关重要，但由于硬件限制和生理约束，获取难度较大。在临床实践中，采集到的低分辨率（LR）医学视频给视频超分辨率（VSR）模型带来了独特挑战，包括摄像头抖动、噪声以及突发的帧切换，这些问题会导致显著的光流误差和对齐困难。此外，组织与器官通常具有连续而细微的结构，但现有的VSR模型容易引入伪影和失真特征，可能误导医生。为此，我们提出了一个专门面向医学VSR的框架——MedVSR。该框架首先通过跨状态空间传播（Cross State-Space Propagation, CSSP）来解决不精确的对齐问题：将远距离帧投影为状态空间模型中的控制矩阵，从而实现稳定且信息丰富的特征向邻近帧的选择性传播，以达到有效对齐的目的。其次，我们设计了一个内部状态空间重建（Inner State-Space Reconstruction, ISSR）模块，通过结合长距离空间特征学习与大卷积核的短距离信息聚合，来增强组织结构并减少伪影。我们在涵盖内窥镜和白内障手术等多种医学场景的四个数据集上进行了实验，结果表明，MedVSR在重建性能和效率方面均显著优于现有的VSR模型。

阅读原文

查看代码

通用图像复原

DGSolver: 面向图像复原的通用后验采样扩散通才求解器

作者：Hebaixu Wang, Jing Zhang, Haonan Guo, Di Wang, Jiayi Ma, Bo Du

时间：2025

刊物：Annual Conference on Neural Information Processing Systems (NeurIPS)

扩散模型在通用图像复原领域取得了显著进展。然而，现有方法通常在逆向过程中采用朴素的推理模式，这导致在有限采样步长和较大步长间隔下会产生累积误差。此外，这些方法难以平衡退化表示的通用性与复原质量，往往需要依赖复杂的补偿机制，以牺牲效率为代价来提升保真度。针对这些挑战，我们提出了DGSolver——一种具备通用后验采样能力的扩散通用求解器。我们首先推导出通用扩散模型的精确常微分方程，以统一退化表示；随后设计了定制化的高阶求解器，结合基于队列的加速采样策略，同步提升精度与效率。接着引入通用后验采样技术，以更好地逼近流形约束梯度，从而获得更准确的噪声估计并修正逆向推理中的误差。大量实验表明，DGSolver在复原精度、稳定性和扩展性方面均优于当前最先进方法，在定性与定量评估中均表现出色。

阅读原文

查看代码

图像超分辨率

4KAgent: 智能体驱动的任意图像到4K超分辨率

作者：Yushen Zuo, Qi Zheng, Mingyang Wu, Xinrui Jiang, Renjie Li, Jian Wang, Yide Zhang, Gengchen Mai, Lihong V. Wang, James Zou, Xiaoyu Wang, Ming-Hsuan Yang, Zhengzhong Tu

时间：2025

刊物：Annual Conference on Neural Information Processing Systems (NeurIPS)

我们推出一个统一的智能体式超分辨率通用系统——4KAgent，旨在将任意图像全方位提升至4K分辨率（若采用迭代处理，甚至可实现更高分辨率）。该系统能将极端低分辨率且存在严重劣化的图像（例如高度失真的256×256像素输入）转化为细节清晰、具有照片级真实感的4K输出。4KAgent包含三大核心组件：（1）画像分析模块：根据定制化用例个性化配置4KAgent处理流程；（2）感知智能体：依托视觉-语言模型与图像质量评估专家分析输入图像，制定针对性修复方案；（3）修复智能体：遵循"执行-反思"递归范式，通过质量驱动的专家混合策略逐步筛选最优输出，精准执行修复方案。此外，4KAgent还集成了专用人脸修复流程，显著增强肖像与自拍照片的面部细节。我们在涵盖26个多样化基准测试的11个任务类别中进行了严格评估，在包括自然图像、人像摄影、AI生成内容、卫星影像、荧光显微成像以及眼底摄影、超声、X光等医学影像的广阔成像领域创下多项最新技术纪录。评估结果表明，该系统在感知质量指标（如NIQE、MUSIQ）与保真度指标（如PSNR）上均实现卓越表现。通过为底层视觉任务建立全新的智能体范式，我们期望激发跨学科研究社区对以视觉为中心的自主体技术更广泛的关注与创新。

阅读原文

查看代码

图像视频去模糊

DeblurDiff: 基于生成扩散模型的真实图像去模糊

作者：Lingshun Kong, Jiawei Zhang, Dongqing Zou, Jimmy Ren, Xiaohe Wu, Jiangxin Dong, Jinshan Pan

时间：2025

刊物：Annual Conference on Neural Information Processing Systems (NeurIPS)

扩散模型在图像生成领域取得了显著进展。预训练的Stable Diffusion（SD）模型通过提供清晰的图像先验知识，对图像去模糊任务具有重要价值。然而，直接使用模糊图像或预去模糊图像作为SD的条件控制，要么会阻碍准确的结构提取，要么会使结果过度依赖去模糊网络。本研究提出潜在核预测网络（LKPN），以实现鲁棒的实景图像去模糊。具体而言，我们将LKPN与条件扩散模型在潜在空间中协同训练：LKPN通过学习空间变异核来指导潜在空间中清晰图像的恢复过程；通过应用元素级自适应卷积（EAC），所学习的核能自适应处理输入特征，有效保留输入的结构信息。这一机制能更有效地引导Stable Diffusion的生成过程，同时提升去模糊效果和细节重建质量。此外，该方法利用扩散过程中每一步的输出结果迭代优化LKPN的核估计，通过EAC实现更精准的潜在清晰图像恢复。这种迭代优化机制显著增强了去模糊过程的准确性与鲁棒性。大量实验结果表明，所提出方法在基准数据集和实景图像上的去模糊性能均优于当前最先进的图像去模糊方法。

阅读原文

查看代码