ACM MM2026-论文开奖
AAAI2027-摘要截止
NeurIPS2026-反驳开始
AAAI2027-正文提交
AAAI2027-补充材料
NeurIPS2026-反驳结束
00天 00: 00: 00
00/00
共2023条结果
重置
作者:Junqi Shi, Ming Lu, Xingchen Li, Anle Ke, Ruiqi Zhang, Zhan Ma
时间:2026
刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
基于扩散的图像压缩近期展现出卓越的感知保真度,但其实际应用受到高昂的采样开销和高内存占用的限制。大多数现有的扩散编解码器采用U-Net架构,其中分层下采样迫使扩散模型在浅层潜在空间中运行(通常仅实现8倍的空间下采样),导致计算量过大。相比之下,传统的基于变分自编码器(VAE)的编解码器工作在更深的潜在域中(下采样倍数为16倍至64倍),这引出了一个关键问题:扩散模型能否在不损害重建质量的前提下,在如此紧凑的潜在空间中高效运行?为解决这一问题,我们提出了用于图像压缩的对齐扩散变换器DiT-IC,该模型将U-Net替换为扩散变换器,能够在32倍下采样分辨率的潜在空间中完全执行扩散操作。DiT-IC通过三种关键对齐机制,将预训练的文本到图像多步扩散变换器(DiT)转化为单步重建模型:(1)方差引导的重建流,可根据潜在不确定性调整去噪强度,实现高效重建;(2)自蒸馏对齐,确保与编码器定义的潜在几何结构保持一致,支持单步扩散;(3)潜在条件引导,以语义对齐的潜在条件替代文本提示,实现无文本推理。凭借这些设计,DiT-IC在实现顶尖感知质量的同时,解码速度比现有扩散编解码器最高提升30倍,内存占用也大幅降低。值得注意的是,该模型可在16GB笔记本电脑的GPU上重建2048×2048分辨率的图像。
作者:Zhaoyang Jia, Zihan Zheng, Naifu Xue, Jiahao Li, Bin Li, Zongyu Guo, Xiaoyi Zhang, Houqiang Li, Yan Lu
现有的扩散编解码器通常构建于Stable Diffusion等文本到图像扩散基础模型之上。然而,从压缩角度来看,文本条件化并非最优选择,这制约了下游扩散编解码器的潜力,尤其是在超低比特率场景下。为解决这一问题,我们提出了**CoD**,这是首个面向**压缩**的**扩散**基础模型,它从零开始训练,可实现压缩与生成的端到端优化。CoD并非固定的编解码器,而是一款适用于各类基于扩散的编解码器的通用基础模型。它具备以下优势:**高压缩效率**,在DiffC等下游编解码器中用CoD替代Stable Diffusion,可取得当前最优结果,在超低比特率(如0.0039比特每像素)场景下表现尤为突出;**低成本且可复现的训练速度更快例如,我们发现像素空间扩散模型能够达到VTM级别的峰值信噪比(PSNR),且具有较高的感知质量,同时其参数数量少于基于生成对抗网络(GAN)的编解码器,性能更优。我们希望CoD为未来的扩散编解码器研究奠定基础。相关代码已在此https链接发布。
作者:Guojun Xu, Mingyang Zhang, Jianwen Xiang, Cheng Tan, Yanchao Yang, Junwei Zhou
分布式图像压缩(DIC)对于多视图传输至关重要,尤其是在极低比特率(<0.1比特每像素)的场景下。其核心挑战在于如何在严格的比特率预算下,有效利用辅助信息实现高质量的图像重建。然而,现有的分布式图像压缩方法难以从辅助信息中挖掘全局上下文和目标级细节,导致重建图像出现局部模糊和细节丢失的问题。为解决这些问题,我们提出了一种多模态分布式图像压缩框架(MDIC),该框架首次将多模态形式的辅助信息融入分布式图像压缩范式,有效保留了重建图像的细粒度局部细节并提升了全局感知质量。具体而言,我们引入了基于文本到图像扩散模型的解码器,该解码器以从相关图像中提取的文本辅助信息为条件,捕捉共享的全局语义。同时,我们设计了特征掩码生成器,在多模态细粒度对齐任务的监督下,强化对视觉辅助信息的利用。生成的掩码具有双重作用:一是指导从无损传输的辅助信息中提取细粒度细节,保证重建细节的语义一致性;二是约束从量化的向量量化变分自编码器(VQ-VAE)嵌入中提取聚类特征表示,弥补主图像在极端压缩过程中丢失的类别信息。在广泛使用的KITTI立体视觉数据集和Cityscapes数据集上开展的大量实验表明,MDIC在极低比特率下实现了感知质量方面的最优性能。
作者:Jong Wook Kim, Suyong Bahk, TaeHwa Lee, HyunDong Cho, Donghyun Kim, Sung-Chang Lim, Jin Soo Choi, Hui Yong Kim
学习型图像压缩(LIC)性能优于传统编解码器,但在处理高分辨率图像时存在峰值内存占用过高的问题。为此,研究人员提出了基于分块的LIC方法以降低峰值内存和峰值计算成本,但这类方法往往会引入分块伪影,降低视觉质量。为缓解这一问题,JPEG-AI标准引入了基于图像块的编码方案,该方案通过经验确定重叠块的大小,对重叠块进行独立编码。然而,通过实验搜索最优重叠块大小不仅耗时,也无法保证无分块重建。本文提出一种解析框架,通过卷积层和转置卷积层对重叠传播进行建模,从而精准确定实现无分块重建所需的最小重叠量。基于计算得到的最小重叠量,我们提出了一种适用于大多数基于CNN的LIC模型的分块实现方法。将该方法应用于4个基于CNN的LIC模型,并在被划分为不同分块大小(256×256、512×512)的4K图像上进行测试,结果表明,我们的方法在实现与全图编码一致的率失真性能的同时,将平均峰值内存占用分别降至原编码器的13.94%、原解码器的13.33%,平均峰值计算成本分别降至2.6%和1.24%。值得注意的是,所提出的分块框架无需对原始模型进行重新训练。此外,该框架还可应用于大多数基于CNN的图像处理神经网络,且不会造成性能下降。
作者:Shiyin Jiang, Wei Long, Minghao Han, Zhenghao Chen, Ce Zhu, Shuhang Gu
在严格的存储和带宽限制下,视觉数据的快速增长使得极低比特率图像压缩变得愈发重要。向量量化(VQ)虽能提供出色的结构保真度,但由于表示学习与熵建模之间存在脱节,现有方法缺乏用于联合率失真(RD)优化的合理机制。我们提出了RDVQ,这是一个统一框架,通过对码本分布进行可微松弛,实现了基于VQ的压缩的端到端率失真优化,使熵损失能够直接塑造潜在先验。我们还进一步开发了一种自回归熵模型,支持精准的熵建模和测试时速率控制。大量实验表明,RDVQ凭借轻量级架构在极低比特率下表现出色,以显著更少的参数实现了具有竞争力或更优的感知质量。与RDEIC相比,RDVQ在DIV2K验证集上的DISTS指标下比特率最高降低75.71%,在LPIPS指标下最高降低37.63%。除了实证性能提升外,RDVQ还提出了一种熵约束的向量量化公式,为更统一地看待图像标记化与压缩奠定了潜力。代码将在此https链接开放获取。
作者:Kedar Tatwawadi, Parisa Rahimzadeh, Zhanghao Sun, Zhiqi Chen, Ziyun Yang, Sanjay Nair, Divija Hasteer, Oren Rippel
与硬编码的传统编解码器相比,学习型编解码器所具备的一大核心优势在于其可直接针对人类视觉系统进行优化的能力。尽管具备这样的潜力,但目前尚未有兼具感知性与实用性的图像编解码器被提出。在本研究中,我们致力于填补这一空白。我们对决定实用型学习图像编解码器设计的关键建模选择展开了全面研究,该编解码器需针对感知质量和运行时进行联合优化——在消融实验中,我们还纳入了多种创新技术。随后,我们对数百万种骨干网络配置进行了感知感知的神经架构搜索,以筛选出既能达成目标设备端运行时要求,又能最大化压缩性能(由感知指标衡量)的模型。我们结合多种优化手段构建了一款全新的编解码器,其在速度与感知质量之间实现了显著优化的平衡。经严谨的主观用户测试验证,该编解码器相比 AV1、AV2、VVC、ECM 及 JPEG-AI 可节省 2.3 至 3 倍的比特率,相比当前最优的学习型编解码器备选方案可节省 20% 至 40% 的比特率。同时,在 iPhone 17 Pro Max 设备上,其对 1200 万像素图像的编码速度最快仅需 230 毫秒,解码速度仅需 150 毫秒——这一速度快于大多数基于顶级机器学习算法的编解码器在 V100 图形处理器上的运行速度。
作者:Jiahao Li, Wenxuan Xie, Zhaoyang Jia, Bin Li, Zongyu Guo, Xiaoyi Zhang, Yan Lu
尽管神经视频编解码器(NVCs)展现出了更优的压缩比,但其过高的计算复杂度仍是实际部署的关键障碍。本文提出了一种基于分块的编码框架,旨在显著改善率失真-复杂度的权衡问题。我们的方法并非逐帧处理,而是将多帧分块编码为单一紧凑的潜在表示并同时进行解码。这一技术依托于用于联合时空建模的跨帧交互模块,以及用于并行重建的帧特定解码器。该范式不仅大幅提升了编码吞吐量,还能更有效地对长期时间相关性进行建模。为进一步提升速度,我们提出了一种简化的熵编码机制,将比特流交互整合为单一步骤,显著降低了解码开销。基于这些创新,我们推出了DCVC-UF(超高速版),这是一款全新的神经视频编解码器,树立了性能方面的新SOTA(当前最佳)。实验表明,DCVC-UF可实现超高速的编解码,性能显著超越以往的主流编解码器。DCVC-UF是神经视频编解码器发展历程中的一个重要里程碑。相关代码可访问https://github.com/microsoft/DCVC。
作者:Yunuo Chen, Bing He, Zezheng Lyu, Hongwei Hu, Qunshan Gu, Yuan Tian, Guo Lu
高效的图像压缩依赖于对局部和全局冗余的建模。目前最先进的(SOTA)学习型图像压缩(LIC)方法大多基于卷积神经网络(CNNs)或Transformer,这些网络本质上具有刚性。标准的卷积神经网络核和基于窗口的注意力机制会施加固定的感受野和静态的连接模式,这可能仅因非冗余像素在欧几里得空间中距离相近而将它们关联起来。这种刚性限制了模型自适应捕捉图像中空间变化冗余的能力,尤其是在全局层面。为克服这些局限,我们提出了一种基于图神经网络(GNNs)的内容自适应图像压缩框架。具体而言,我们的方法构建了双尺度图,以实现灵活、数据驱动的感受野。此外,我们通过根据局部内容复杂度动态调整每个节点的邻居数量,引入了自适应连接。这些创新使我们的基于图的学习型图像压缩(GLIC)模型能够有效对图像中的各类冗余模式进行建模,从而实现更高效、更具适应性的压缩。实验表明,GLIC 达到了最先进的性能,在 Kodak、Tecnick 和 CLIC 数据集上,相较于 VTM-9.1 分别实现了 19.29%、21.69% 和 18.71% 的 BD-rate 降低。代码将在此链接发布。
作者:Shiyu Qin, Xinjie Zhang, Zhening Liu, Jinpeng Wang, Bin Chen, Jiawei Li, Yifan Ren, Shu-Tao Xia, Jun Zhang
随着立体图像压缩(SIC)在三维重建、自主导航等领域的应用不断激增,其重要性日益凸显。现有方法利用交叉注意力建模视图间冗余信息,并采用自回归熵模型预测概率分布,取得了出色的率失真性能。然而,由于交叉注意力机制的二次复杂度以及熵模型的空间自回归迭代,这些方法存在编码速度较慢的问题。为解决这些局限,我们提出了MambaSIC方法,其包含两项关键创新。其一,提出基于Mamba的立体视觉状态空间模块(stereo VSSB),借助其线性复杂度与长距离建模能力,能够更快速高效地捕捉两个视图间的冗余信息。其二,为加速压缩过程并提升概率估计的准确性,引入双向多参考熵模型,该模型采用棋盘格划分策略与立体视觉状态空间模块,以获取丰富的视图先验信息。实验结果表明,我们的MambaSIC方法在压缩性能与效率上均优于当前最优方法。