NVRC 论文有哪些关键可以深入探讨?
摘要:论文地址:https:arxiv.orgpdf2409.07414 代码地址:https:github.comhmkxNVRC 摘要 基于隐式神经表示(INR)的视频编码技术近年来取得了显著进展,展现出与传统方法和其他基于学
论文地址:https://arxiv.org/pdf/2409.07414
代码地址:https://github.com/hmkx/NVRC
摘要
基于隐式神经表示(INR)的视频编码技术近年来取得了显著进展,展现出与传统方法和其他基于学习的方法竞争的潜力。INR 方法通过训练神经网络对视频序列进行过拟合,并压缩网络参数以获得视频内容的紧凑表示。然而,尽管已经取得了令人鼓舞的成果,但目前最优的 INR 方法在性能上仍然逊色于最新的标准编解码器,例如 VVC VTM,部分原因是其采用的简单模型压缩技术。本文没有像许多现有工作那样专注于表示架构,而是提出了一种新颖的基于 INR 的视频压缩框架——神经视频表示压缩(NVRC),旨在压缩表示本身。基于其新颖的量化和熵编码方法,NVRC 是第一个能够以完全端到端的方式优化基于 INR 的视频表示以实现率失真权衡的框架。为了进一步最小化熵模型引入的额外比特率开销,NVRC 还对所有网络、量化和熵模型参数进行分层压缩。我们的实验表明,NVRC 的性能优于许多传统和基于学习的基准编解码器,在 UVG 数据集上,其平均编码增益(以 PSNR 衡量)比 VVC VTM(随机访问)高出 23%。据我们所知,这是首个达到如此性能的基于 INR 的视频编解码器。
引言
基于学习的编解码器通常计算复杂度较高,尤其是在解码端,这限制了它们的实际应用。为了解决这个问题,研究人员提出了一种基于隐式神经表示 (INR) 模型的新型学习型视频编解码器,其中每个 INR 实例都被过拟合并压缩以表示视频序列(或视频数据集)。与大多数非 INR 的基于学习的编码方法相比,基于 INR 的编解码器能够实现更快的解码速度,并且由于其过拟合特性,无需进行离线优化。尽管基于 INR 的编解码器已展现出一定的潜力,但在率失真性能方面,它们尚未能与最先进的传统和基于学习的视频编码方法相媲美。
为了提升编码性能,大多数基于 INR 的最新视频编码方法都专注于改进网络架构,但仍然仅采用简单的模型剪枝、量化和熵编码来获得紧凑的表示。此外,这些方法并非完全端到端优化;例如,NeRV 和 HiNeRV 并非基于率失真目标进行训练,而只是在应用剪枝和量化后进行微调。尽管 COOL-CHIC 和 C3 几乎实现了端到端优化,但其熵模型和解码器/合成网络消耗的码率并未参与训练过程。相比之下,最先进的非 INR 学习型编解码器通常采用先进的熵模型进行端到端训练,这有助于提升其编码性能,使其优于基于 INR 的方法。
为了解决这个问题,本文提出了一种新的框架,称为神经视频表示压缩(NVRC)。与其他基于隐式神经表示(INR)的视频编解码器不同,NVRC 是一种增强的神经表示压缩框架,它首次使基于 INR 的编码方法能够通过先进的熵模型实现完全端到端优化。具体而言,NVRC 将网络参数分组,并使用每组学习到的量化参数对其进行量化。然后,特征网格由基于上下文的熵模型进行编码,其中网络层参数由双轴条件高斯模型进行压缩。量化和熵模型参数进一步由轻量级熵模型进行压缩,以降低其比特率消耗。INR、量化和熵模型的参数总速率与表示质量一起进行优化。NVRC 还采用了一种改进的训练过程,其中速率和失真目标交替优化,以降低计算成本。本文的主要贡献总结如下:
提出的 NVRC 是首个基于 INR 的全端到端优化视频压缩框架。在 NVRC 中,神经表示、量化模型和熵模型均基于率失真目标函数进行同步优化。
采用增强的量化和熵模型对神经表示参数进行编码,并利用上下文信息和辅助信息以提高编码效率。
引入了一种基于分层结构的新型参数编码方法,使 NVRC 能够最大限度地降低码率开销。用于编码神经表示的量化和熵模型参数均采用可学习参数进行量化和编码。
NVRC 采用增强的训练流程,其中码率损失和失真损失交替优化,以降低高级熵模型的计算成本。
我们在 UVG、MCL-JCV 和 JVET-CTC Class B 数据集上进行了实验,将我们提出的方法与最先进的传统视频编码器和基于学习的视频编码器进行了比较。为了进行公平比较,我们使用了 RGB444(类似于大多数基于学习的视频编码器)和 YUV420(类似于标准视频编码方法)两种配置。实验结果表明了 NVRC 的有效性,与最新的 MPEG 标准编码器 H.266/VVC VTM-20.0(随机访问)和最先进的基于 INR 的编码器 HiNeRV 相比,NVRC 分别实现了高达 23% 和 50% 的 BD-rate 节省。据我们所知,NVRC 是第一个在编码增益方面显著优于 VVC VTM 的基于 INR 的视频编码器。
