领域
分类
图像视频压缩

DiT-IC: 用于高效图像压缩的对齐扩散Transformer

作者:Junqi Shi, Ming Lu, Xingchen Li, Anle Ke, Ruiqi Zhang, Zhan Ma

时间:2026

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

ScreenShot_2026-05-30_234533_567 (1).png

基于扩散的图像压缩近期展现出卓越的感知保真度,但其实际应用受到高昂的采样开销和高内存占用的限制。大多数现有的扩散编解码器采用U-Net架构,其中分层下采样迫使扩散模型在浅层潜在空间中运行(通常仅实现8倍的空间下采样),导致计算量过大。相比之下,传统的基于变分自编码器(VAE)的编解码器工作在更深的潜在域中(下采样倍数为16倍至64倍),这引出了一个关键问题:扩散模型能否在不损害重建质量的前提下,在如此紧凑的潜在空间中高效运行?为解决这一问题,我们提出了用于图像压缩的对齐扩散变换器DiT-IC,该模型将U-Net替换为扩散变换器,能够在32倍下采样分辨率的潜在空间中完全执行扩散操作。DiT-IC通过三种关键对齐机制,将预训练的文本到图像多步扩散变换器(DiT)转化为单步重建模型:(1)方差引导的重建流,可根据潜在不确定性调整去噪强度,实现高效重建;(2)自蒸馏对齐,确保与编码器定义的潜在几何结构保持一致,支持单步扩散;(3)潜在条件引导,以语义对齐的潜在条件替代文本提示,实现无文本推理。凭借这些设计,DiT-IC在实现顶尖感知质量的同时,解码速度比现有扩散编解码器最高提升30倍,内存占用也大幅降低。值得注意的是,该模型可在16GB笔记本电脑的GPU上重建2048×2048分辨率的图像。

阅读原文
查看代码
图像视频压缩

极低比特率下基于多模态边信息的分布式图像压缩

作者:Guojun Xu, Mingyang Zhang, Jianwen Xiang, Cheng Tan, Yanchao Yang, Junwei Zhou

时间:2026

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

ScreenShot_2026-05-30_233053_513 (1).png

分布式图像压缩(DIC)对于多视图传输至关重要,尤其是在极低比特率(<0.1比特每像素)的场景下。其核心挑战在于如何在严格的比特率预算下,有效利用辅助信息实现高质量的图像重建。然而,现有的分布式图像压缩方法难以从辅助信息中挖掘全局上下文和目标级细节,导致重建图像出现局部模糊和细节丢失的问题。为解决这些问题,我们提出了一种多模态分布式图像压缩框架(MDIC),该框架首次将多模态形式的辅助信息融入分布式图像压缩范式,有效保留了重建图像的细粒度局部细节并提升了全局感知质量。具体而言,我们引入了基于文本到图像扩散模型的解码器,该解码器以从相关图像中提取的文本辅助信息为条件,捕捉共享的全局语义。同时,我们设计了特征掩码生成器,在多模态细粒度对齐任务的监督下,强化对视觉辅助信息的利用。生成的掩码具有双重作用:一是指导从无损传输的辅助信息中提取细粒度细节,保证重建细节的语义一致性;二是约束从量化的向量量化变分自编码器(VQ-VAE)嵌入中提取聚类特征表示,弥补主图像在极端压缩过程中丢失的类别信息。在广泛使用的KITTI立体视觉数据集和Cityscapes数据集上开展的大量实验表明,MDIC在极低比特率下实现了感知质量方面的最优性能。

阅读原文
图像视频压缩

无块伪影的基于块的学习图像压缩

作者:Jong Wook Kim, Suyong Bahk, TaeHwa Lee, HyunDong Cho, Donghyun Kim, Sung-Chang Lim, Jin Soo Choi, Hui Yong Kim

时间:2026

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

ScreenShot_2026-05-30_231909_958 (1).png

学习型图像压缩(LIC)性能优于传统编解码器,但在处理高分辨率图像时存在峰值内存占用过高的问题。为此,研究人员提出了基于分块的LIC方法以降低峰值内存和峰值计算成本,但这类方法往往会引入分块伪影,降低视觉质量。为缓解这一问题,JPEG-AI标准引入了基于图像块的编码方案,该方案通过经验确定重叠块的大小,对重叠块进行独立编码。然而,通过实验搜索最优重叠块大小不仅耗时,也无法保证无分块重建。本文提出一种解析框架,通过卷积层和转置卷积层对重叠传播进行建模,从而精准确定实现无分块重建所需的最小重叠量。基于计算得到的最小重叠量,我们提出了一种适用于大多数基于CNN的LIC模型的分块实现方法。将该方法应用于4个基于CNN的LIC模型,并在被划分为不同分块大小(256×256、512×512)的4K图像上进行测试,结果表明,我们的方法在实现与全图编码一致的率失真性能的同时,将平均峰值内存占用分别降至原编码器的13.94%、原解码器的13.33%,平均峰值计算成本分别降至2.6%和1.24%。值得注意的是,所提出的分块框架无需对原始模型进行重新训练。此外,该框架还可应用于大多数基于CNN的图像处理神经网络,且不会造成性能下降。

阅读原文
图像视频压缩

实用学习型图像压缩中的关键要素

作者:Kedar Tatwawadi, Parisa Rahimzadeh, Zhanghao Sun, Zhiqi Chen, Ziyun Yang, Sanjay Nair, Divija Hasteer, Oren Rippel

时间:2026

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

ScreenShot_2026-05-30_231145_175 (1).png

与硬编码的传统编解码器相比,学习型编解码器所具备的一大核心优势在于其可直接针对人类视觉系统进行优化的能力。尽管具备这样的潜力,但目前尚未有兼具感知性与实用性的图像编解码器被提出。在本研究中,我们致力于填补这一空白。我们对决定实用型学习图像编解码器设计的关键建模选择展开了全面研究,该编解码器需针对感知质量和运行时进行联合优化——在消融实验中,我们还纳入了多种创新技术。随后,我们对数百万种骨干网络配置进行了感知感知的神经架构搜索,以筛选出既能达成目标设备端运行时要求,又能最大化压缩性能(由感知指标衡量)的模型。我们结合多种优化手段构建了一款全新的编解码器,其在速度与感知质量之间实现了显著优化的平衡。经严谨的主观用户测试验证,该编解码器相比 AV1、AV2、VVC、ECM 及 JPEG-AI 可节省 2.3 至 3 倍的比特率,相比当前最优的学习型编解码器备选方案可节省 20% 至 40% 的比特率。同时,在 iPhone 17 Pro Max 设备上,其对 1200 万像素图像的编码速度最快仅需 230 毫秒,解码速度仅需 150 毫秒——这一速度快于大多数基于顶级机器学习算法的编解码器在 V100 图形处理器上的运行速度。

阅读原文
图像视频压缩

基于图神经网络的自适应学习型图像压缩

作者:Yunuo Chen, Bing He, Zezheng Lyu, Hongwei Hu, Qunshan Gu, Yuan Tian, Guo Lu

时间:2026

刊物:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

ScreenShot_2026-05-30_224419_940 (1).png

高效的图像压缩依赖于对局部和全局冗余的建模。目前最先进的(SOTA)学习型图像压缩(LIC)方法大多基于卷积神经网络(CNNs)或Transformer,这些网络本质上具有刚性。标准的卷积神经网络核和基于窗口的注意力机制会施加固定的感受野和静态的连接模式,这可能仅因非冗余像素在欧几里得空间中距离相近而将它们关联起来。这种刚性限制了模型自适应捕捉图像中空间变化冗余的能力,尤其是在全局层面。为克服这些局限,我们提出了一种基于图神经网络(GNNs)的内容自适应图像压缩框架。具体而言,我们的方法构建了双尺度图,以实现灵活、数据驱动的感受野。此外,我们通过根据局部内容复杂度动态调整每个节点的邻居数量,引入了自适应连接。这些创新使我们的基于图的学习型图像压缩(GLIC)模型能够有效对图像中的各类冗余模式进行建模,从而实现更高效、更具适应性的压缩。实验表明,GLIC 达到了最先进的性能,在 Kodak、Tecnick 和 CLIC 数据集上,相较于 VTM-9.1 分别实现了 19.29%、21.69% 和 18.71% 的 BD-rate 降低。代码将在此链接发布。

阅读原文
查看代码
1 2 3 ... 225 跳转到