领域
分类
图像视频复原

InstructRestore: 基于人类指令的区域自定义图像复原

作者:Shuaizheng Liu, Jianqi Ma, Lingchen Sun, Xiangtao Kong, Lei Zhang

时间:2025

刊物:Annual Conference on Neural Information Processing Systems (NeurIPS)

屏幕截图 2025-10-20 200649.jpg

尽管基于扩散先验的图像复原技术已取得显著进展,但现有大多数方法仍对整幅图像进行统一处理,缺乏根据用户指令进行区域自定义复原的能力。为此,本文提出了一种新的框架——InstructRestore,能够依据人类指令实现可调节的区域化图像复原。具体而言,我们首先设计了一个数据生成引擎,用于合成训练三元组,每个样本包含一张高质量图像、目标区域描述以及对应的区域掩码。借助该引擎并结合严格的数据筛选,我们构建了一个包含536,945 个三元组的综合数据集,用于支持该任务的训练与评估。随后,我们研究了如何在ControlNet架构下有效融合低质量图像特征,以调节图像细节增强的程度。基于此,我们构建了一种类似 ControlNet 的模型,能够识别目标区域,并为目标区域与周围区域分配不同的融合比例,从而实现与用户指令一致的区域自定义图像复原。实验结果表明,所提出的 InstructRestore方法能够有效实现基于人类指令的图像复原任务,如具有散景(bokeh)效果的图像生成和用户指令驱动的局部增强。我们的研究推动了交互式图像复原与增强技术的发展。

阅读原文
查看代码
图像超分辨率

PatchVSR: 基于Patch的视频超分来突破视频扩散分辨率极限

作者:Shian Du, Menghan Xia, Chang Liu, Xintao Wang, Jing Wang, Pengfei Wan, Di Zhang, Xiangyang Ji

时间:2025

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

屏幕截图 2025-10-01 213407.jpg

预训练视频生成模型在生成式视频超分辨率(VSR)中具有巨大潜力。然而,大多数现有方法将其直接应用于整幅视频的超分辨率任务,这不仅导致了不必要的高强度全局注意力计算,还限制了输出分辨率的灵活性。为克服这些局限,我们首次探索了在块级别上利用视频扩散先验进行 VSR。这并非易事,因为预训练的视频扩散模型并不天然适用于块级细节生成。为此,我们提出了一种创新方法 PatchVSR,通过双流适配器实现条件引导。具体来说,局部块分支从输入块中提取特征,以保持内容的保真度;全局分支则从缩放后的视频中提取上下文特征,以弥合因块语义不完整而产生的生成差距。尤其是,我们还将块的位置信息注入模型,使生成结果能更好地结合全局视频帧的语境。实验结果表明,我们的方法能够在块级别合成高保真、高分辨率的细节。同时,我们设计了一种专门的多块联合调制机制,以确保各个独立增强的块在整体视频中具有视觉一致性。得益于这种灵活的块级范式,我们能够基于一个 512×512 分辨率的基础模型,实现极高效率的 4K 视频超分辨率,并取得高度竞争力的效果。

阅读原文
视频超分辨率

MedVSR: 基于跨状态空间传播的医学视频超分辨率

作者:Xinyu Liu, Guolei Sun, Cheng Wang, Yixuan Yuan, Ender Konukoglu

时间:2025

刊物:IEEE International Conference on Computer Vision (ICCV)

屏幕截图 2025-09-26 132823.jpg

高分辨率(HR)医学视频对准确诊断至关重要,但由于硬件限制和生理约束,获取难度较大。在临床实践中,采集到的低分辨率(LR)医学视频给视频超分辨率(VSR)模型带来了独特挑战,包括摄像头抖动、噪声以及突发的帧切换,这些问题会导致显著的光流误差和对齐困难。此外,组织与器官通常具有连续而细微的结构,但现有的VSR模型容易引入伪影和失真特征,可能误导医生。为此,我们提出了一个专门面向医学VSR的框架——MedVSR。该框架首先通过跨状态空间传播(Cross State-Space Propagation, CSSP)来解决不精确的对齐问题:将远距离帧投影为状态空间模型中的控制矩阵,从而实现稳定且信息丰富的特征向邻近帧的选择性传播,以达到有效对齐的目的。其次,我们设计了一个内部状态空间重建(Inner State-Space Reconstruction, ISSR)模块,通过结合长距离空间特征学习与大卷积核的短距离信息聚合,来增强组织结构并减少伪影。我们在涵盖内窥镜和白内障手术等多种医学场景的四个数据集上进行了实验,结果表明,MedVSR在重建性能和效率方面均显著优于现有的VSR模型。

阅读原文
查看代码
1 2 3 ... 51 跳转到