基于循环神经网络，2021年有哪种新算法能实时消除远场语音通信中的噪声？

摘要：论文地址：一种新的基于循环神经网络的远场语音通信实时噪声抑制算法引用格式：Chen B, Zhou Y, Ma Y, et al. A New Real-Time Noise Suppression Algorithm for Far-F

论文地址：一种新的基于循环神经网络的远场语音通信实时噪声抑制算法引用格式：Chen B, Zhou Y, Ma Y, et al. A New Real-Time Noise Suppression Algorithm for Far-Field Speech Communication Based on Recurrent Neural Network[C]//2021 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC). IEEE, 2021: 01-05. 摘要　　在远程会议场景中，语音通常会受到背景噪声的影响，从而降低语音的清晰度和质量。因此，在噪声环境下对语音进行增强是十分必要的。本文研究了一种基于门控循环单元(GRU)的改进循环神经网络(RNN)的远场实时语音增强方法。利用混响目标语音的理想幅度掩膜(IAM)作为RNN的训练目标。我们还采用特征归一化和提出的子带归一化技术来减少特征差异，进一步促进RNN学习长期模式。同时，为了进一步抑制子带分割带来的残差间谐波伪平稳噪声，我们将RNN与最优修正的对数谱幅值(optimally modified log-spectral amplitude，OMLSA)算法相结合。实验结果表明，该方法提高了语音质量，降低了失真，并且具有较低的实时计算复杂度。关键字：语音增强；循环神经网络；理想振幅掩模；最优修正对数谱幅值(optimally modified log-spectral amplitude，OMLSA) 1 引用　　在语音技术及其实际应用中，语音往往会受到背景噪声和混响的影响而产生失真，导致语音通信体验下降，语音/说话人自动识别率[1]较差。语音增强已成为对抗噪声和混响的关键手段。近年来，基于深度学习的语音增强方法[2]得到了广泛的关注和成功，与传统的信号处理方法相比显示出其优势。一个主要的好处是相对容易地整合复杂的学习目标，这将促进增强语音的发展，朝着更好的质量和可理解[3]。然而，由于大多数神经网络的规模大，计算复杂度高，利用神经网络进行实时的噪声抑制和去everberation仍然是一项具有挑战性的任务。　　在室内语音交流场景中，房间音响会产生一定的混响。在混响适中的环境中，讲话不会有任何下降。因此，单独去除噪声就能至关重要地改善语音质量和清晰度。另一方面，一定程度的混响有助于提高听力的舒适度和清晰度[4]。因此，在本文中，我们忽略了去everberation的问题，只是专注于开发一种具有低复杂度和实时处理能力的改进方法来消除远场环境中的噪声。　　优化语音增强算法的一个主要挑战是在远场环境中抑制噪声，同时尽可能保持语音的感知质量。经典的语音增强方法有谱减法、维纳滤波、基于统计模型的方法[5]等。然而，这些方法策略大多依赖于噪声谱的估计和先验信息的假设。虽然它们在大多数有限的噪声环境中都能很好地发挥作用，但在处理非平稳和扩散噪声后却不能达到预期的效果。因此，研究者更倾向于利用深度学习技术来研究更有效的解决方案。近年来，Valin提出了一种基于循环神经网络(RNN)的低计算复杂度方法，可以将深度学习和信号处理技术相结合，对采样在48kHz[6]的音频进行实时处理。但是，该方法所获得的语音清晰度和语音质量下降，阻碍了该方法的直接应用。　　受[6]的启发，本文提出了一种改进的低复杂度RNN方法，用于在有噪声和中等混响环境下实时、高采样率(48KHz)的语音增强系统。首先，分析了特征和特征/子带归一化技术。然后，提出了利用经典信号处理算法和RNN算法分别计算增益的并行处理方法。目标是进一步消除语音谐波之间的残留噪声，因为无法在子带划分中对频谱的精细结构建模。结果表明，该方法可以避免较大的计算复杂度，进一步提高语音质量和可懂度。　　本文的其余部分安排如下：第二节给出了本文提出的基于RNN的算法。第三节给出了实验设置和结果以及相应的评价。第四部分总结了本文的结论。 2系统架构和方法 A 信号模型　　设$y(n)$、$x(n)$和$u(n)$分别表示时域噪声、混响信号和噪声信号 $$公式1：y(n)=x(n)+u(n)$$ 分析和合成使用相同的窗，如下所示 $$公式2：w(n)=sin[\frac{\pi}{2}sin^2(\frac{\pi n}{N})]$$ 其中N为窗口的长度。

基于循环神经网络，2021年有哪种新算法能实时消除远场语音通信中的噪声？

相关推荐