PVNC论文中提到的策略有哪些应用案例?

摘要:论文地址:https:arxiv.orgpdf2409.00953 代码地址:https:github.comge1-gaoPNVC 摘要 近年来,神经视频压缩在率失真性能方面展现出与传统视频编解码器可竞争的巨大潜力。然而,
论文地址:https://arxiv.org/pdf/2409.00953 代码地址:https://github.com/ge1-gao/PNVC 摘要 近年来,神经视频压缩在率失真性能方面展现出与传统视频编解码器可竞争的巨大潜力。然而,这些基于学习的视频编解码器存在各种问题,例如解码复杂度(基于自编码器的方法)和/或系统延迟(基于隐式神经表示(INR)的模型),这些问题目前阻碍了它们在实际应用中的部署。本文旨在开发一种实用的神经视频编解码器,提出了一种新颖的基于 INR 的编码框架 PNVC,该框架创新性地结合了基于自编码器和过拟合的解决方案。我们的方法受益于多项设计创新,包括新的基于结构重参数化的架构、分层质量控制、基于调制的熵建模和尺度感知位置嵌入。PNVC支持低延迟(LD)和随机访问(RA)配置,性能优于现有的基于 INR 的编解码器,与 HEVC HM 18.0(LD)相比,BD-rate 节省了近35%以上——比最先进的基于 INR 的编解码器之一 HiNeRV 高出近10%,比 VTM 20.0(LD)高出5%,同时保持1080p内容的解码速度超过20帧/秒。这代表了基于 INR 的视频编码向前迈出了重要一步,使其更接近实际应用。 引言 神经视频压缩技术与 H.265/HEVC 和 H.266/VVC 等标准化视频编解码器不同,这些标准编解码器采用传统架构的演进版本,性能表现出色;而神经视频压缩技术则受益于更快的开发周期和优化的数据驱动端到端架构,性能指标正在快速提升。该研究领域的进展已经涌现出各种各样的候选神经视频编解码器,其中一些论文报道其率失真性能可以媲美甚至超越最新的最先进标准编码方法。 尽管在编码增益方面前景广阔,但神经视频编解码器(主要是那些使用基于自编码器骨干网络的编解码器)存在显著的复杂性问题,尤其是在解码端,这使得它们资源密集且不适用于许多实际应用。虽然常见的复杂度降低技术,例如剪枝和量化可以缓解这些限制,但这通常会导致编码效率的显著降低。 最近,基于隐式神经表示(INR)的编码方法作为一种实现高编码性能和低(解码)复杂度的范式转变解决方案,越来越受到关注。这种方法通常利用轻量级神经网络,通过将坐标直接映射到像素值来对输入视频数据进行过拟合。尽管最新的基于 INR 的编解码器在许多传统和神经视频编解码器上都显示出持续的编码增益,但它们存在一个主要局限性,即其压缩策略是使用单一的整体模型来表示整个视频序列或数据集。虽然这种方法可以最大限度地提高压缩效率,但它需要在每个编码会话中处理大量的视频帧(例如,几百到几千帧),这与常用的编码配置相冲突,因为这些配置通常需要灵活的系统延迟,例如 VVC VTM 中的低延迟和随机访问模式。这个问题使得基于隐式神经表示的视频编解码器在处理较短序列时性能不佳,也阻碍了它们在许多实际应用中的应用。 本文提出了一种名为 PNVC 的新型(实用)基于隐式神经表示(INR)的视频压缩框架,旨在解决上述局限性,该框架能够实现灵活的编码配置(低延迟),同时仍能获得具有竞争力的编码性能和较低的编码/解码复杂度。所提出的 PNVC 基于分层骨干网络构建,该网络泛化了自回归模型,并且可以与基于内容或基于调制的 INR 模型无缝互换。我们的方法利用了预训练-再过拟合策略,使模型能够在预训练阶段泛化到不同的内容,同时在过拟合阶段适应特定输入的内容。此外,我们还开发了一种新的重参数化方法,以及其他架构和优化方面的创新,该方法允许在训练期间使用不受限制的模型容量,同时确保低复杂度的推理。这种解耦使得更有效的优化成为可能,而不会牺牲部署效率。本文的主要贡献总结如下: 我们提出了一种基于隐式神经表示(INR)的新型视频编码模型,该模型集成了基于自编码器和过拟合的解决方案,具有极具竞争力的编码性能、相对较低的编码和解码复杂度以及灵活的编码延迟配置。 我们设计了一种基于重参数化的新型方案(ModMixer),用于充分预训练和过拟合轻量级骨干网络,使其具有更强的建模能力和更多样化的优化方向,且无需额外的推理成本。 我们进一步引入了几项改进,包括分层质量参数、基于调制的非对称上下文分组分层熵模型以及尺度感知分层位置编码,以增强压缩性能。 本文提出的 PNVC 模型在低延迟和随机访问配置(如许多视频编码标准中所定义)下均展现出极具竞争力的率失真性能,同时避免了现有基于隐式神经表示(INR)的视频编解码器所面临的延迟和编码复杂度问题。具体而言,在 UVG 和 MCL-JCV 数据集上,本文提出的模型在 PSNR 和 MS-SSIM 指标下,其 BD-rate 性能均显著优于 VTM 20.0 (LD) 和 HiNeRV。
阅读全文