领域
分类
图像视频复原

InstructRestore: 基于人类指令的区域自定义图像复原

作者:Shuaizheng Liu, Jianqi Ma, Lingchen Sun, Xiangtao Kong, Lei Zhang

时间:2025

刊物:Annual Conference on Neural Information Processing Systems (NeurIPS)

屏幕截图 2025-10-20 200649.jpg

尽管基于扩散先验的图像复原技术已取得显著进展,但现有大多数方法仍对整幅图像进行统一处理,缺乏根据用户指令进行区域自定义复原的能力。为此,本文提出了一种新的框架——InstructRestore,能够依据人类指令实现可调节的区域化图像复原。具体而言,我们首先设计了一个数据生成引擎,用于合成训练三元组,每个样本包含一张高质量图像、目标区域描述以及对应的区域掩码。借助该引擎并结合严格的数据筛选,我们构建了一个包含536,945 个三元组的综合数据集,用于支持该任务的训练与评估。随后,我们研究了如何在ControlNet架构下有效融合低质量图像特征,以调节图像细节增强的程度。基于此,我们构建了一种类似 ControlNet 的模型,能够识别目标区域,并为目标区域与周围区域分配不同的融合比例,从而实现与用户指令一致的区域自定义图像复原。实验结果表明,所提出的 InstructRestore方法能够有效实现基于人类指令的图像复原任务,如具有散景(bokeh)效果的图像生成和用户指令驱动的局部增强。我们的研究推动了交互式图像复原与增强技术的发展。

阅读原文
查看代码
图像超分辨率

PatchVSR: 基于Patch的视频超分来突破视频扩散分辨率极限

作者:Shian Du, Menghan Xia, Chang Liu, Xintao Wang, Jing Wang, Pengfei Wan, Di Zhang, Xiangyang Ji

时间:2025

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

屏幕截图 2025-10-01 213407.jpg

预训练视频生成模型在生成式视频超分辨率(VSR)中具有巨大潜力。然而,大多数现有方法将其直接应用于整幅视频的超分辨率任务,这不仅导致了不必要的高强度全局注意力计算,还限制了输出分辨率的灵活性。为克服这些局限,我们首次探索了在块级别上利用视频扩散先验进行 VSR。这并非易事,因为预训练的视频扩散模型并不天然适用于块级细节生成。为此,我们提出了一种创新方法 PatchVSR,通过双流适配器实现条件引导。具体来说,局部块分支从输入块中提取特征,以保持内容的保真度;全局分支则从缩放后的视频中提取上下文特征,以弥合因块语义不完整而产生的生成差距。尤其是,我们还将块的位置信息注入模型,使生成结果能更好地结合全局视频帧的语境。实验结果表明,我们的方法能够在块级别合成高保真、高分辨率的细节。同时,我们设计了一种专门的多块联合调制机制,以确保各个独立增强的块在整体视频中具有视觉一致性。得益于这种灵活的块级范式,我们能够基于一个 512×512 分辨率的基础模型,实现极高效率的 4K 视频超分辨率,并取得高度竞争力的效果。

阅读原文
视频超分辨率

MedVSR: 基于跨状态空间传播的医学视频超分辨率

作者:Xinyu Liu, Guolei Sun, Cheng Wang, Yixuan Yuan, Ender Konukoglu

时间:2025

刊物:IEEE International Conference on Computer Vision (ICCV)

屏幕截图 2025-09-26 132823.jpg

高分辨率(HR)医学视频对准确诊断至关重要,但由于硬件限制和生理约束,获取难度较大。在临床实践中,采集到的低分辨率(LR)医学视频给视频超分辨率(VSR)模型带来了独特挑战,包括摄像头抖动、噪声以及突发的帧切换,这些问题会导致显著的光流误差和对齐困难。此外,组织与器官通常具有连续而细微的结构,但现有的VSR模型容易引入伪影和失真特征,可能误导医生。为此,我们提出了一个专门面向医学VSR的框架——MedVSR。该框架首先通过跨状态空间传播(Cross State-Space Propagation, CSSP)来解决不精确的对齐问题:将远距离帧投影为状态空间模型中的控制矩阵,从而实现稳定且信息丰富的特征向邻近帧的选择性传播,以达到有效对齐的目的。其次,我们设计了一个内部状态空间重建(Inner State-Space Reconstruction, ISSR)模块,通过结合长距离空间特征学习与大卷积核的短距离信息聚合,来增强组织结构并减少伪影。我们在涵盖内窥镜和白内障手术等多种医学场景的四个数据集上进行了实验,结果表明,MedVSR在重建性能和效率方面均显著优于现有的VSR模型。

阅读原文
查看代码
图像超分辨率

4KAgent: 智能体驱动的任意图像到4K超分辨率

作者:Yushen Zuo, Qi Zheng, Mingyang Wu, Xinrui Jiang, Renjie Li, Jian Wang, Yide Zhang, Gengchen Mai, Lihong V. Wang, James Zou, Xiaoyu Wang, Ming-Hsuan Yang, Zhengzhong Tu

时间:2025

刊物:Annual Conference on Neural Information Processing Systems (NeurIPS)

1.jpg

我们推出一个统一的智能体式超分辨率通用系统——4KAgent,旨在将任意图像全方位提升至4K分辨率(若采用迭代处理,甚至可实现更高分辨率)。该系统能将极端低分辨率且存在严重劣化的图像(例如高度失真的256×256像素输入)转化为细节清晰、具有照片级真实感的4K输出。4KAgent包含三大核心组件:(1)画像分析模块:根据定制化用例个性化配置4KAgent处理流程;(2)感知智能体:依托视觉-语言模型与图像质量评估专家分析输入图像,制定针对性修复方案;(3)修复智能体:遵循"执行-反思"递归范式,通过质量驱动的专家混合策略逐步筛选最优输出,精准执行修复方案。此外,4KAgent还集成了专用人脸修复流程,显著增强肖像与自拍照片的面部细节。我们在涵盖26个多样化基准测试的11个任务类别中进行了严格评估,在包括自然图像、人像摄影、AI生成内容、卫星影像、荧光显微成像以及眼底摄影、超声、X光等医学影像的广阔成像领域创下多项最新技术纪录。评估结果表明,该系统在感知质量指标(如NIQE、MUSIQ)与保真度指标(如PSNR)上均实现卓越表现。通过为底层视觉任务建立全新的智能体范式,我们期望激发跨学科研究社区对以视觉为中心的自主体技术更广泛的关注与创新。

阅读原文
查看代码
图像视频去模糊

DeblurDiff: 基于生成扩散模型的真实图像去模糊

作者:Lingshun Kong, Jiawei Zhang, Dongqing Zou, Jimmy Ren, Xiaohe Wu, Jiangxin Dong, Jinshan Pan

时间:2025

刊物:Annual Conference on Neural Information Processing Systems (NeurIPS)

屏幕截图 2025-09-18 233021.jpg

扩散模型在图像生成领域取得了显著进展。预训练的Stable Diffusion(SD)模型通过提供清晰的图像先验知识,对图像去模糊任务具有重要价值。然而,直接使用模糊图像或预去模糊图像作为SD的条件控制,要么会阻碍准确的结构提取,要么会使结果过度依赖去模糊网络。本研究提出潜在核预测网络(LKPN),以实现鲁棒的实景图像去模糊。具体而言,我们将LKPN与条件扩散模型在潜在空间中协同训练:LKPN通过学习空间变异核来指导潜在空间中清晰图像的恢复过程;通过应用元素级自适应卷积(EAC),所学习的核能自适应处理输入特征,有效保留输入的结构信息。这一机制能更有效地引导Stable Diffusion的生成过程,同时提升去模糊效果和细节重建质量。此外,该方法利用扩散过程中每一步的输出结果迭代优化LKPN的核估计,通过EAC实现更精准的潜在清晰图像恢复。这种迭代优化机制显著增强了去模糊过程的准确性与鲁棒性。大量实验结果表明,所提出方法在基准数据集和实景图像上的去模糊性能均优于当前最先进的图像去模糊方法。

阅读原文
查看代码
1 2 3 ... 51 跳转到