如何实现基于时间域的实时语音增强的密集连接神经网络与扩张卷积?

摘要:论文名称:扩展卷积密集连接神经网络用于时域实时语音增强 论文代码:https:github.comashutosh620DDAEC 引用:Pandey A, Wang D L. Densely connected neural ne
论文名称:扩展卷积密集连接神经网络用于时域实时语音增强 论文代码:https://github.com/ashutosh620/DDAEC 引用:Pandey A, Wang D L. Densely connected neural network with dilated convolutions for real-time speech enhancement in the time domain[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020: 6629-6633. 摘要   在这项工作中,我们提出了一个全卷积神经网络在时域实时语音增强。提出的网络是一种基于编码器-解码器的结构,具有跳跃连接。编码器和解码器中的层后面是由扩张和因果卷积组成的紧密连接块。扩张卷积有助于不同分辨率的上下文聚合。因果卷积用于避免未来帧的信息流,从而使网络适合于实时应用。我们还提出在解码器中使用亚像素(ub-pixel)卷积层进行上采样。此外,使用具有两个分量的损失函数来训练模型;时域损失和频域损失。提出的损失函数优于时域损失。实验结果表明,该模型在客观可理解性和质量得分方面明显优于其他实时模型 关键词:时域,全卷积,密集网络,时频损失,说话人和噪声无关 1 引言   语音增强涉及改善被附加噪声污染的语音信号的智能性和质量。它被用作许多应用的预处理器,例如自动语音识别、电信、助听器和人工耳蜗植入物。   近年来,语音增强已经被定义为一个有监督的学习问题,深度神经网络也得到了广泛的研究。有监督的语音增强方法通常是将语音信号转换为一个时频(T-F)表示,并根据T-F表示构造一个目标信号作为训练目标。最常用的训练目标是理想比率掩模(IRM)[2]、相位敏感掩模(PSM)[3]和短时傅里叶变换(STFT)幅度。这些训练目标仅用于增强短时傅里叶变换幅度。混合语音相位被原封不动地用于时域信号重构。   噪声语音的相位没有增强,主要是因为它没有清晰的可学习结构[4],并且被认为对语音增强并不重要[5]。最近的一项研究表明,相位对语音的感知质量很重要,特别是在低信噪比条件下[6]。这导致研究人员探索使用深度神经网络来增强相位和幅度的算法。   利用深度学习同时增强相位和幅度的两种流行方法是复数域增强和时域增强。在复数域增强中,通常将DNN训练成将噪声短时傅里叶变换映射到复数IRM(CIRM)或干净的短时傅立叶变换。在文献[4,7,8,9,10]中对其进行了探索,取得了令人满意的结果。时域方法不需要对模型进行频域变换,直接从噪声样本中预测干净的原始样本。此外,时域网络可以学习提取非常适合特定语音增强任务的特征或表示。有代表性的时域方法包括[11,12,13]   在这项工作中,我们提出了一个全卷积神经网络在时域实时语音增强。提出的网络是一种基于编码器-解码器的结构,具有跳跃连接。我们的新贡献是在编码器和解码器的每一层之后添加密集连接(densely connected)的块[14],并进行扩展卷积。此外,我们采用亚像素卷积层代替转置卷积进行上采样。扩张和密集连接的块有助于在信号的不同分辨率上的长范围上下文聚合。我们还建议使用时域损失和频域损失的组合来训练模型。   本文的其余部分组织如下。我们将在第2节描述所建议的方法。实验装置和结果在第3节中给出。第四部分对本文进行总结。 2 模型描述 2.1 扩张(Dilated)卷积   扩张卷积被用来增加卷积神经网络的感受场,作为学习长短期记忆网络(LSTM)的一种有效选择,它正变得越来越受欢迎。在扩张率为$r$的扩张卷积中,$r−1个零被插入在过滤的连续系数之间。在大小为$M$的滤波器中,$r$的扩张率将感受野从$M$增加到$(M−1)∗(r−1)+M$。通过在网络内使用指数增加的扩张率,可以将感受野设置为任意大小。一般做法是使用{1,2,4,8,16,...}形式的扩张率序列。在我们的模型中,dense block由扩张卷积和因果卷积组成。在各帧之间使用因果卷积,以确保不会有来自未来帧的信息泄漏。请注意,我们在一个框架内不使用因果卷积。图1中显示了膨胀卷积和因果卷积的示意图。 图1具有大小滤波器的扩张因果卷积的示例 2.2 密集连接的卷积神经网络   密集连接网络(Dense connected networks, DCN)是最近在文献[14]中提出的。在DCN中,网络中给定层的输入是所有先前层的输出的级联。这种方法有两个主要优点。首先,对前面的所有层进行去连接,避免了消失的梯度问题。
阅读全文