2021年深度噪声抑制模型压缩，有哪些性能优化方法？

摘要：论文地址：深度噪声抑制模型的性能优化引用格式：Chee J, Braun S, Gopal V, et al. Performance optimizations on deep noise suppression models[J].

论文地址：深度噪声抑制模型的性能优化引用格式：Chee J, Braun S, Gopal V, et al. Performance optimizations on deep noise suppression models[J]. arXiv preprint arXiv:2110.04378, 2021. 摘要　　我们研究了量级结构剪枝以加快深度噪声抑制(DNS)模型的推理时间。尽管深度学习方法在提高音频质量方面取得了显著的成功，但它们增加的复杂性阻碍了它们在实时应用中的部署。我们在基线上实现了7.25倍的推理加速，同时平滑了模型的性能退化。消融研究表明，我们提出的网络再参数化(即每层尺寸)是加速的主要驱动因素，而量级结构剪枝与直接训练较小尺寸的模型相比具有相当大的作用。我们报告推理速度，因为参数减少并不需要加速，并且我们使用精确的非侵入性客观语音质量度量来度量模型质量。关键词：语音增强，降噪，实时，推理加速，结构化剪枝 1 引言　　在压缩深度学习方法方面已经做了很多工作，以便它们能够在许多音频增强应用的实时和硬件约束下有效地运行[1,2,3,4]。这种兴趣源于这样一个事实，即深度学习方法虽然通常提供卓越的音频增强，但与经典信号处理方法[1]相比，其计算复杂度更高。在实时应用程序中，计算复杂度成为主要约束。每个设备的可用内存不同，但每次计算的可用时间不变。因此，我们在推理速度方面测量和展示我们的压缩结果。计算内存或参数减少不是一个精确的代理-参见5.3节。　　我们研究了结构化剪枝和微调的应用，以加速我们的基线CRUSE模型[1]。结构化剪枝的目的是寻找一个能很好地逼近原始网络的稠密子网络。这种类型的模型压缩立即转换为推理加速和降低存储成本，因为我们执行的是密集和更小的矩阵乘法。此外，我们为CRUSE体系结构类提出了一种新的可伸缩的每层参数配置，以指定经过修剪的网络大小。 1.1贡献　　使用 CRUSE [1] 架构，我们展示了比基线模型最高 7.25 倍的加速，模型质量平稳下降。消融研究表明，所提出的网络参数配置实际上是成功的可扩展性的原因。我们的结构化剪枝方法并不比直接训练给定大小的模型更好。结构化修剪的价值在于架构搜索：发现哪些网络参数化可以以最小的模型退化降低模型复杂性。 2 相关工作　　Tan 和 Wang [3, 4] 使用稀疏正则化、迭代修剪和基于聚类的量化来压缩 DNN 语音增强模型。然而，他们使用 STOI 和 PESQ [5] 来评估压缩后的质量，这已被证明与主观质量的相关性较低 [6, 7]（这个，STOI相关度较低，但是PESQ相关度还是可以的，并且几乎所有的语音增强论文都在使用PESQ，作者这里直接否定我很反对）。此外，没有给出运行时基准来显示实际改进，使用的噪声抑制模型相对简单且不是最先进的（这样贬低别人的论文，也不会凸出你的论文有多优秀，不都是CNN和LSTM等一些神经元的组合吗？再说你的模型也没有跟人家的模型进行性能对比呀），训练和测试集也很简单。因此，从这项研究中还不清楚，在一个更具挑战性的测试集(如[7])上，什么样的优化在一个一流的噪声抑制器上工作得很好。　　Kim等人的[2]结合使用非结构化剪枝、量化和知识蒸馏来压缩关键词抽取模型。作者通过边缘计算来推动他们的工作，但没有提供任何复杂的测量来表明实际的改进。此外，没有对任何其他压缩方法进行比较。 2.1 深度噪声抑制　　Braun等人[1]开发了用于实时深度噪声抑制的CRUSE类模型。它基于U-Net体系结构[8]，另一种DNS实时模型。与早期主要基于递归神经网络的网络架构不同，CRUSE属于卷积递归网络[8,12,13,14]，后者的模型已达到性能饱和[9,10,11]。这些模型提高了性能，尽管计算成本限制了它们在消费设备上的实时部署。我们研究了CRUSE模型的两个版本，一个更复杂的模型称为CRUSE32，另一个不那么复杂的模型称为CRUSE16。 2.2 模型压缩　　剪枝的目的是去除部分神经网络，同时保持其准确性。它既可以删除稀疏矩阵(非结构化)[15]中的单个参数，也可以删除诸如通道或神经元(结构化)[16]等参数组。神经网络的剪枝策略有很多，但在ImageNet[17]上，简单的幅度剪枝已被证明比更复杂的方法更好。模型压缩的其他方法包括量化、矩阵分解和知识蒸馏[18]。Frankle和Carbin[15]提出了彩票假设(Lottery Ticket Hypothesis)：密集随机初始化的神经网络包含稀疏的子网络(中奖彩票)，这些子网络可以在相当epoch的内训练到与原始网络相当的准确性。

2021年深度噪声抑制模型压缩，有哪些性能优化方法？

相关推荐