2020年，有没有一种高效卷积循环神经网络，能端到端提升语音质量？

摘要：论文地址：用于端到端语音增强的卷积递归神经网络论文代码：https:github.comaleXiehtaWaveCRN 引用格式：Hsieh T A, Wang H M, Lu X, et al. WaveCRN: An eff

论文地址：用于端到端语音增强的卷积递归神经网络论文代码：https://github.com/aleXiehta/WaveCRN 引用格式：Hsieh T A, Wang H M, Lu X, et al. WaveCRN: An efficient convolutional recurrent neural network for end-to-end speech enhancement[J]. IEEE Signal Processing Letters, 2020, 27: 2149-2153. 摘要　　基于简单的设计流程，端到端(E2E)语音增强(SE)神经模型受到了广泛的关注。为了提高端到端模型的性能，建模时需要有效地考虑语音的局域性和序列性。然而，在目前大多数用于SE的端到端模型中，这些属性要么没有得到充分考虑，要么太复杂而无法实现。在这论文中，我们提出了一个有效的E2E模型，术语为WaveCRN。与基于卷积神经网络(CNN)或长短期记忆(LSTM)的模型相比，WaveCRN使用CNN模块和堆叠简单递归单元(SRU)模块来捕获语音位置特征，并对位置特征的时序特性进行建模。与传统的递归神经网络和LSTM不同，SRU在计算中可以高效并行化，模型参数更少。为了更有效地抑制带噪语音中的噪声成分，我们提出了一种新的受限(restricted)特征掩蔽方法，该方法对隐藏层中的特征映射进行增强；这与语音分离方法中常用的将估计比率掩模应用于有噪谱特征的方法不同。在语音去噪和压缩语音恢复任务上的实验结果证实，在SRU和受限特征映射的情况下，WaveCRN的性能与其他最先进的方法相当，显著降低了模型复杂度和推理时间。关键词：压缩语音恢复，卷积循环神经网络，原始波形语音增强，样本递归单元(simple recurrent unit, SRU) 1 引言　　与语音相关的应用，如自动语音识别(ASR)、语音通信和辅助听力设备，在现代社会中发挥着重要作用。然而，当涉及噪声时，大多数应用都不鲁棒。因此，语音增强(SE)以提高原始语音信号的质量和清晰度为目标，在这些应用中得到了广泛的应用。近年来，深度学习算法被广泛应用于SE系统的构建。　　一类SE系统对频域声学特征进行增强，一般称为基于谱图的SE方法。在这些方法中，语音信号的分析和重建分别使用短时傅里叶变换(STFT)和短时傅里叶反变换([9][13])。然后，采用深度学习模型，如全连接深度去噪自动编码器[3]、卷积神经网络(CNNs)[14]、递归神经网络(RNNs)和长短期记忆(LSTM)[15]、[16]作为变换函数，将噪声谱特征转换为纯净频谱特征。同时，通过结合不同类型的深度学习模型(如CNN和RNN)，推导出了一些方法来更有效地捕获局部和序列相关性[17][20]。最近，基于堆叠样本循环单元(SRU)[21]，[22]构建的SE系统显示出了与基于LSTM的SE系统相当的去噪性能，同时需要更少的训练计算成本。虽然上述方法已经提供了出色的性能，但由于缺乏准确的相位信息，增强后的语音信号无法达到其完美的性能。为了解决这一问题，一些SE方法采用复数理想比率掩蔽(cIRM)和复数频谱映射来增强失真语音。在[26]中，相位估计被描述为一个分类问题，并用于一个源分离任务。　　另一类SE方法提出直接对原始波形[27][31]进行增强，一般称为基于波形映射的方法。在深度学习模型中，全卷积网络(FCNs)被广泛用于直接进行波形映射[28]、[32]、[34]。最初提出用于文本到语音任务的WaveNet模型也被用于基于波形映射的SE系统[35]，[36]。与全连接架构相比，全卷积层更好地保留了局部信息，能够更准确地模拟语音波形的频率特性。最近，时间卷积神经网络(TCNN)[29]被提出，以准确建模时间特征和执行时域SE。除了用于优化的点对点损失(如$l_1$和$l_2$规范)外，一些基于波形映射的SE方法[37]、[38]利用对抗损失或知觉损失来捕获预测和它们的目标之间的高级区别。　　对于上述基于波形映射的SE方法，有效表征序列和局部模式是最终SE性能的重要考虑因素。虽然CNN与RNN/LSTM的结合可能是可行的解决方案，但RNN/LSTM的计算成本和模型规模都很高，这可能会大大限制其适用性。在本研究中，我们提出了一种基于E2E waveform mapping的SE方法，使用CRN，称为WaveCRN1，它结合了CNN和SRU的优势，以提高效率。与基于频谱映射的CRN[17][20]相比，提出的WaveCRN通过高度并行的循环单元直接从未经处理的波形中估计特征掩模。两个任务用于测试所提出的WaveCRN方法：(1)语音去噪(2)压缩语音恢复。

2020年，有没有一种高效卷积循环神经网络，能端到端提升语音质量？

相关推荐