AAAI2026-最终开奖
ICLR2026-反驳开始
CVPR2026-正文截稿
00天 00: 00: 00
点击访问 | arXiv.CV每日最新论文列表
00/00
共459条结果
重置
作者: Marcos V. Conde, Zihao Lu, Radu Timofte
时间:2025
刊物:IEEE International Conference on Computer Vision (ICCV)
文本引导的图像生成与编辑正逐渐成为计算机视觉领域的一个基础性问题。然而,大多数现有方法缺乏可控性,生成的结果与专业摄影的质量标准仍有较大差距。为此,我们提出了一种全新的方法——PixTalk,这是首个在图像处理与编辑流程中引入语言指令与显式控制的方案。PixTalk 是一个由文本指令引导的视觉-语言多任务图像处理模型,能够执行超过 40 种转换操作,涵盖摄影中最常用的编辑技术,其生成效果可媲美专业级摄影编辑软件。该模型可在消费级 GPU 上以实时速度(低于 1 秒)处理 1200 万像素图像。此外,我们还提出了一个新的数据集与基准,用于推动多模态图像处理与编辑方向的研究发展。
作者:Hainuo Wang, Qiming Hu, Xiaojie Guo
刊物:Annual Conference on Neural Information Processing Systems (NeurIPS)
在恶劣天气条件下复原受退化影响的图像仍然是一项重大挑战,因为天气引起的退化具有高度非均匀和空间异质性的特征,例如细粒度的雨纹与大范围的雾霾等。若能准确估计潜在的退化形式,便可为复原模型提供更具针对性和有效性的指导,从而实现自适应的处理策略。为此,我们提出了一种用于恶劣天气图像复原的Morton 顺序退化估计机制(MODEM)。MODEM 的核心是Morton 顺序二维选择扫描模块(MOS2D),该模块将 Morton 编码的空间排序与选择性状态空间模型相结合,在保持局部结构一致性的同时捕获长程依赖关系。作为补充,我们还设计了双重退化估计模块(DDEM),用于分离并估计全局与局部的退化先验。这些先验动态调节 MOS2D 模块,实现自适应且具上下文感知的图像复原。大量实验与消融研究表明,MODEM 在多个基准测试和多种天气类型上均取得了当前最优的性能,充分验证了其在建模复杂退化动态方面的有效性。
作者:Qiyuan Guan, Xiang Chen, Guiyue Jin, Jiyu Jin, Shumin Fan, Tianyu Song, Jinshan Pan
与白天图像去雨相比,夜间图像去雨面临更大的挑战,这主要源于夜间场景自身的复杂性,以及缺乏能够准确反映雨与照明耦合效应的高质量数据集。本文重新思考了夜间图像去雨这一任务,并提出了一个高质量的基准数据集 HQ-NightRain,其在视觉一致性和真实性方面均优于现有数据集。此外,我们设计了一种高效的颜色空间变换网络CST-Net,用于更有效地去除夜间场景中的复杂雨迹。具体而言,我们提出了一个可学习颜色空间转换模块,以在 Y 通道中更好地实现去雨,因为相比于 RGB 空间,夜间雨迹在 Y 通道中表现得更加明显。为了利用照明信息来引导夜间去雨,我们进一步引入了隐式照明引导,使模型能够在复杂场景下通过学习到的特征增强鲁棒性。
作者:Shuaizheng Liu, Jianqi Ma, Lingchen Sun, Xiangtao Kong, Lei Zhang
尽管基于扩散先验的图像复原技术已取得显著进展,但现有大多数方法仍对整幅图像进行统一处理,缺乏根据用户指令进行区域自定义复原的能力。为此,本文提出了一种新的框架——InstructRestore,能够依据人类指令实现可调节的区域化图像复原。具体而言,我们首先设计了一个数据生成引擎,用于合成训练三元组,每个样本包含一张高质量图像、目标区域描述以及对应的区域掩码。借助该引擎并结合严格的数据筛选,我们构建了一个包含536,945 个三元组的综合数据集,用于支持该任务的训练与评估。随后,我们研究了如何在ControlNet架构下有效融合低质量图像特征,以调节图像细节增强的程度。基于此,我们构建了一种类似 ControlNet 的模型,能够识别目标区域,并为目标区域与周围区域分配不同的融合比例,从而实现与用户指令一致的区域自定义图像复原。实验结果表明,所提出的 InstructRestore方法能够有效实现基于人类指令的图像复原任务,如具有散景(bokeh)效果的图像生成和用户指令驱动的局部增强。我们的研究推动了交互式图像复原与增强技术的发展。
作者:Ciyu Ruan, Ruishan Guo, Zihang Gong, Jingao Xu, Wenhan Yang, Xinlei Chen
事件相机具有极高的时间分辨率和宽动态范围,但在雨天条件下会受到密集噪声的严重影响。现有的事件去雨方法在时间精度、去雨效果和计算效率之间存在权衡。本文提出了一种新的点云式事件相机去雨框架——PRE-Mamba,该方法充分利用了原始事件与雨滴的时空特性。我们引入了一种四维事件云表示,结合双时间尺度以保持高时间精度;设计了一个时空解耦与融合模块(STDF),通过浅层解耦与时空信息交互来增强去雨能力;并提出了一个多尺度状态空间模型(MS3M),以线性计算复杂度在双时间和多空间尺度上捕获更深层的雨动态。借助频域正则化的进一步增强,PRE-Mamba 在 EventRain-27K 数据集上取得了卓越表现(0.95 SR、0.91 NR、0.4 s/M events),且模型仅包含 0.26M 参数。此外,该方法在不同雨强、视角甚至雪天条件下均表现出良好的泛化能力。
作者:Shian Du, Menghan Xia, Chang Liu, Xintao Wang, Jing Wang, Pengfei Wan, Di Zhang, Xiangyang Ji
刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
预训练视频生成模型在生成式视频超分辨率(VSR)中具有巨大潜力。然而,大多数现有方法将其直接应用于整幅视频的超分辨率任务,这不仅导致了不必要的高强度全局注意力计算,还限制了输出分辨率的灵活性。为克服这些局限,我们首次探索了在块级别上利用视频扩散先验进行 VSR。这并非易事,因为预训练的视频扩散模型并不天然适用于块级细节生成。为此,我们提出了一种创新方法 PatchVSR,通过双流适配器实现条件引导。具体来说,局部块分支从输入块中提取特征,以保持内容的保真度;全局分支则从缩放后的视频中提取上下文特征,以弥合因块语义不完整而产生的生成差距。尤其是,我们还将块的位置信息注入模型,使生成结果能更好地结合全局视频帧的语境。实验结果表明,我们的方法能够在块级别合成高保真、高分辨率的细节。同时,我们设计了一种专门的多块联合调制机制,以确保各个独立增强的块在整体视频中具有视觉一致性。得益于这种灵活的块级范式,我们能够基于一个 512×512 分辨率的基础模型,实现极高效率的 4K 视频超分辨率,并取得高度竞争力的效果。
作者:Yuchen Wang, Hongyuan Wang, Lizhi Wang, Xin Wang, Lin Zhu, Wanxuan Lu, Hua Huang
现有的单幅图像去噪算法在处理复杂噪声图像时往往难以有效恢复细节。近红外(NIR)图像的引入为RGB图像去噪提供了新的可能性。然而,由于NIR与RGB图像之间存在不一致性,现有方法在图像融合过程中仍难以平衡两者的贡献。为此,本文提出了一种跨域频率相关性利用网络(FCENet),用于NIR辅助图像去噪。我们首先基于对NIR-RGB图像对的深入频率统计分析,提出了频率相关先验,该先验揭示了NIR与RGB图像在频率域中的互补相关性。在此基础上,我们构建了一个频率学习框架,包括频率动态选择机制(FDSM)和频率穷尽融合机制(FEFM)。其中,FDSM能够在频率域中动态选择NIR与RGB图像的互补信息,而FEFM则在NIR与RGB特征融合过程中强化了对共性与差异特征的控制。大量在模拟和真实数据上的实验结果验证了所提方法优于其他现有的先进方法。
作者:Xinyu Liu, Guolei Sun, Cheng Wang, Yixuan Yuan, Ender Konukoglu
高分辨率(HR)医学视频对准确诊断至关重要,但由于硬件限制和生理约束,获取难度较大。在临床实践中,采集到的低分辨率(LR)医学视频给视频超分辨率(VSR)模型带来了独特挑战,包括摄像头抖动、噪声以及突发的帧切换,这些问题会导致显著的光流误差和对齐困难。此外,组织与器官通常具有连续而细微的结构,但现有的VSR模型容易引入伪影和失真特征,可能误导医生。为此,我们提出了一个专门面向医学VSR的框架——MedVSR。该框架首先通过跨状态空间传播(Cross State-Space Propagation, CSSP)来解决不精确的对齐问题:将远距离帧投影为状态空间模型中的控制矩阵,从而实现稳定且信息丰富的特征向邻近帧的选择性传播,以达到有效对齐的目的。其次,我们设计了一个内部状态空间重建(Inner State-Space Reconstruction, ISSR)模块,通过结合长距离空间特征学习与大卷积核的短距离信息聚合,来增强组织结构并减少伪影。我们在涵盖内窥镜和白内障手术等多种医学场景的四个数据集上进行了实验,结果表明,MedVSR在重建性能和效率方面均显著优于现有的VSR模型。
作者:Hebaixu Wang, Jing Zhang, Haonan Guo, Di Wang, Jiayi Ma, Bo Du
扩散模型在通用图像复原领域取得了显著进展。然而,现有方法通常在逆向过程中采用朴素的推理模式,这导致在有限采样步长和较大步长间隔下会产生累积误差。此外,这些方法难以平衡退化表示的通用性与复原质量,往往需要依赖复杂的补偿机制,以牺牲效率为代价来提升保真度。针对这些挑战,我们提出了DGSolver——一种具备通用后验采样能力的扩散通用求解器。我们首先推导出通用扩散模型的精确常微分方程,以统一退化表示;随后设计了定制化的高阶求解器,结合基于队列的加速采样策略,同步提升精度与效率。接着引入通用后验采样技术,以更好地逼近流形约束梯度,从而获得更准确的噪声估计并修正逆向推理中的误差。大量实验表明,DGSolver在复原精度、稳定性和扩展性方面均优于当前最先进方法,在定性与定量评估中均表现出色。