如何通过两阶段深度网络解耦幅度与相位优化？

摘要：论文地址：两阶段深度网络的解耦幅度和相位优化引用格式：Li A, Liu W, Luo X, et al. ICASSP 2021 deep noise suppression challenge: Decoupling magnitud

论文地址：两阶段深度网络的解耦幅度和相位优化引用格式：Li A, Liu W, Luo X, et al. ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-stage deep network[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 6628-6632. 摘要　　在真实声学环境下恢复被各种噪声污染的语音信号仍然是一项艰巨的挑战。为此，我们提出了一种新的复杂应用去噪系统，该系统主要由两个管道组成，即两级网络和一个后处理模块。提出第一个管道来解耦优化问题 w.r.t. 幅值和相位，即第一阶段只估计幅值，第二阶段进一步细化。第二个管道旨在进一步抑制剩余的非自然失真噪声，这被证明可以充分提高主观质量。在 ICASSP 2021 深度噪声抑制 (DNS) 挑战赛中，我们提交的系统在使用 ITU-T P.808 框架的平均意见得分 (MOS) 方面在实时轨道 1 中排名第一。关键词：语音增强，两阶段，实时，后处理、复数域 1 引言　　在实际场景中，环境噪声和房间混响可能会对自动语音识别(ASR)系统、视频/音频通信和助听设备的性能产生负面影响。针对撞击中存在的这些问题，人们已经提出了许多语音增强(SE)算法来有效地估计纯净的语音，同时充分抑制噪声分量[1]。近年来，深度神经网络(DNNs)向SE研究快速发展[2，3]。通过数据驱动的范例，SE任务可以表示为一个监督学习问题，网络试图在时频域中揭示噪声特征和清洁目标之间复杂的非线性关系。　　在以往的研究中，只研究幅度的恢复，而直接结合噪声相位进行语音波形重构[2，3]。究其原因，有两方面的原因：其一，由于其结构不清晰，相位被认为是很难估计的。另一方面，以前的文献报道，相位的恢复并没有带来言语知觉质量的显著提高[4]。最近，相位在提高语音质量和清晰度方面的重要性不断受到重视[5]。 Williamson et.al.[6]提出了复数比率掩模(CRM)，该掩模既适用于实部，也适用于虚部，在理论上可以很好地估计幅值和相位。然后，提出了复数谱映射技术，并要求网络直接估计RI(real and imaginary)谱，据报道，这种方法比基于掩蔽的方法获得了更好的语音质量[7]。最近，基于时域方法开始蓬勃发展，其中原始波形既是输入又是输出[8]。这样就有效地避免了显式相位估计问题。　　虽然第1、3方法在客观测试中都取得了令人印象深刻的性能，但我们求助于复数域方法，因为我们发现在INTERSPEECH 2020深度噪声抑制(DNS)挑战中，基于复数域的方法获得了比时域方法更好的平均优化分数(MOS)。我们将其原因归因于T-F 域比时域波形能更好地区分语音和噪声。　　为了应对ICASSP 2021 DNS挑战赛[9]中更具挑战性的声学环境中的降噪问题，我们提出了一种新的SE系统，称为具有低复杂度后处理方案的两级复数网络(TSCN-PP)。它主要由两条管道组成。首先，设计了一种新颖的两级网络模型，它由两个子网络组成，即粗略幅值估计网络(CME-Net)和复数谱细化网络(CSR-Net)。 CME-Net对频谱幅度进行粗略估计，然后将其与噪声相位相耦合，得到粗略的复数谱。 CSR-Net接收粗估计谱和带噪语音谱作为输入来细化复谱。值得注意的是，CSR-Net的作用是双重的，首先，它不是直接估计纯净语音的频谱，而是只捕获残差细节，即将估计的细节与输入相加，得到最终的细化频谱。其次，由于仍有部分噪声成分存在，CSR-Net有助于进一步抑制残留噪声。　　对于第二条管道，我们提出了低复杂度的后处理(PP)模块来进一步降低非自然残余噪声，这被证明是提高主观语音质量的重要步骤。　　我们从两个角度解释了算法的设计原理。首先，由于单级网络的映射能力有限，往往不能很好地完成相对困难的任务，最近，文献[10,11,12]揭示了在许多任务中多阶段训练优于单阶段方法，如图像去噪和语音分离。其次，由于DNN的非线性特性，当测试集与训练条件不匹配时，可能会引入一些非线性失真。例如，由于SE模型的训练往往带有大范围的合成噪声-纯净语音对，当训练好的模型应用于更复杂的实际环境时，可能会引入一些不可取的非线性失真，从而大大降低了主观等价性。因此，若要避免可听语音失真，有必要采用PP模块进一步抑制残余噪声。

如何通过两阶段深度网络解耦幅度与相位优化？

相关推荐