HiNeRV 论文有哪些可以挖掘?
摘要:论文地址:https:arxiv.orgpdf2306.09818 代码地址:https:github.comhmkxHiNeRV 摘要 基于学习的视频压缩是目前热门的研究课题,有望与传统的标准视频编解码器相媲美。在此背景下
论文地址:https://arxiv.org/pdf/2306.09818
代码地址:https://github.com/hmkx/HiNeRV
摘要
基于学习的视频压缩是目前热门的研究课题,有望与传统的标准视频编解码器相媲美。在此背景下,隐式神经表示(INR)已被用于表示和压缩图像及视频内容,并展现出比其他方法更高的解码速度。然而,现有的基于 INR 的方法在码率性能方面未能达到与最先进的视频压缩技术相媲美的水平。这主要是由于所采用的网络架构过于简单,限制了其表示能力。本文提出了一种名为 HiNeRV 的 INR,它结合了轻量级层和新颖的分层位置编码。我们利用深度可分离卷积层、多层感知器(MLP)层和插值层构建了具有高容量的深度广度网络架构。HiNeRV 还是一种统一的表示方法,能够同时对视频帧和块进行编码,与现有方法相比,它具有更高的性能和灵活性。我们进一步构建了一种基于 HiNeRV 的视频编解码器,并改进了训练、剪枝和量化流程,从而在有损模型压缩过程中更好地保持 HiNeRV 的性能。所提出的方法已在 UVG 和 MCL-JCV 数据集上进行了视频压缩评估,结果表明,与所有现有的 INR 基线相比,该方法均有显著改进;与基于学习的编解码器相比,该方法也具有竞争力(在 UVG 数据集上,与 HNeRV 相比,总体比特率节省 72.3%;与 DCVC 相比,总体比特率节省 43.4%,以 PSNR 衡量)。
引言
INR 通常学习坐标到值的映射(例如,将像素或体素索引映射到其颜色和/或占用率),以支持对原始信号的隐式重建。虽然这些表征通常实例化为多层感知器(MLP),但现有的基于 MLP 的网络只能以较低的重建质量和速度表示视频内容。为了解决这一局限性,最近的研究采用了卷积神经网络(CNN)来执行帧索引到视频帧的映射。与基于 MLP 的方法相比,这些基于 CNN 的 INR 能够以更高的质量和更快的解码速度重建视频内容。当使用 INR 进行视频编码时,可以通过对单个输入视频进行模型压缩来实现视频压缩。
大多数基于 INR 的视频模型采用传统的卷积层或亚像素卷积层,这些层参数效率较低,因此限制了给定存储预算内的表示容量。此外,大多数现有工作采用基于傅里叶变换的位置编码;这种方法训练时间长,且只能获得次优的重建质量。在视频压缩中,INR 模型的训练等同于编码过程,这意味着大多数基于 INR 的编解码器需要较长的编码时间才能获得令人满意的码率性能。然而,一些近期的非视频 INR 模型利用特征网格或网格与多层感知器(MLP)的组合作为表示,以加速 INR 的收敛;这使得编码速度(即,训练速度)提高了几个数量级。
本文提出了一种基于分层编码神经表示的新型 INR 模型 HiNeRV,用于视频压缩。我们用一个新的上采样层替换了现有 INR 中常用的亚像素级传统层,该上采样层采用了一种新的双线性插值分层编码,并从多分辨率局部特征网格中采样。这些局部网格提高了参数效率,因为参数数量随上采样因子而非分辨率的增加而增加。此外,该网络主要基于多层感知器(MLP)和深度可分离卷积层(而非密集卷积层)。这增强了表征能力,并在给定参数数量下最大化了性能。这种架构设计使我们能够构建一个更深更宽的网络,与最先进的基于 INR 的编码方法相比,它提供了显著更优的视频编码性能。
此外,我们证明,HiNeRV 无需学习帧级或块级表征,只需使用重叠块进行训练,即可在两种表征类型之间无缝切换,从而获得统一的表示,并且与基于帧和基于块的设置相比,性能均有所提升。这为硬件实现提供了灵活性,编码和解码过程既可以采用帧的方式进行以优化计算复杂度,也可以采用块的方式进行以最小化内存占用。为了获得具有竞争力的编码性能,我们还改进了 NeRV 中的模型压缩流程,其中在量化之前,先进行剪枝和微调,然后进行模型训练。首先,我们使用自适应剪枝技术来降低模型剪枝带来的负面影响。其次,我们应用量化感知训练来微调量化前的模型性能。这使得我们可以采用更低的比特深度进行量化,从而改善率失真权衡。
本文的主要贡献总结如下:
我们提出了一种新的基于分层编码的神经网络表示的 INR 算法 HiNeRV
我们通过添加填充来采用统一表示,以较小的计算开销换取更高的灵活性和性能提升
我们构建了一个基于 HiNeRV 的视频编解码器,并改进了模型压缩流程,通过使用自适应剪枝和量化感知训练来更好地保持 INR 的重建质量
它是第一个显著优于HEVC(x265 veryslow)的 INR 编解码器
现有工作不足
视频压缩
一些近期基于深度学习的视频压缩研究声称其性能优于最新的压缩标准,但这些方法仍然遵循传统编解码器的流程,这可能会限制神经视频压缩方法的发展。
