PercepNet:实时语音增强中,如何实现相位和信噪比感知?
摘要:博客地址:凌逆战 (转载请注明出处) 论文地址:PercepNet+: 用于实时语音增强的相位和信噪比感知 PercepNet 引用格式: Ge X, Han J, Long Y, et al.
博客地址:凌逆战 (转载请注明出处)
论文地址:PercepNet+: 用于实时语音增强的相位和信噪比感知 PercepNet
引用格式:Ge X, Han J, Long Y, et al. PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement[J]. arXiv preprint arXiv:2203.02263, 2022.
摘要
PercepNet是RNNoise的最新扩展,是一种高效、高质量和实时的全频带语音增强技术,在各种公共深度噪声抑制任务中显示出了良好的性能。本文提出了一种名为PercepNet+的新方法,通过四个显著改进来进一步扩展PercepNet。首先,我们引入一种相位感知结构,通过分别添加复数特征和复数子带增益作为深度网络的输入和输出,将相位信息利用到PercepNet中。然后,专门设计了信噪比(SNR)估计器和SNR切换后处理,以缓解原始PercepNet在高信噪比条件下出现的过衰减(OA)。此外,用TF-GRU代替GRU层来建模时间和频率依赖性。最后,我们提出以多目标学习的方式集成复数子带增益损失、信噪比、基音滤波强度和OA损失,以进一步提高语音增强性能。实验结果表明,提出的PercepNet+无论在PESQ还是STOI上都明显优于原PercepNet,且模型规模没有增加太多。
索引术语: 语音增强,相位感知结构,信噪比开关后处理,多目标学习
1 引言
语音增强(SE)旨在提高噪声条件下的语音感知质量和可理解性。最近,基于深度学习的SE方法[1,2]表现出优于大多数传统方法的性能,如对数谱幅度估计[3]、谱减法[4]等。在许多场景中,如电信和在线会议,要求SE系统同时满足良好的去噪性能和实时约束。对于实时SE,目前主流的方法可以分为两类。
一种是基于U-Net结构的端到端系统[5,6],如DCCRN[7]、DCCRN+[8]、DPCRN[9]等。
一种是感知驱动的混合信号处理/深度学习方法,如RNNoise[10]及其扩展,如PercepNet[11]、Personalized PercepNet[12]等。
我们的工作重点是改进PercepNet,因为它在提高语音感知质量和噪声抑制方面具有出色的能力。
PerceptNet[11]旨在以低复杂度增强全频带(48 kHz采样)噪声语音,并已被证明即使在少于5%的CPU核心(1.8 GHz Intel i7-8565U CPU)上运行也能实时提供高质量的语音增强。与最先进的端到端SE方法的傅里叶变换bin不同,PerceptNet的特点是语音短时傅里叶变换(STFT)频谱从0到20 kHz只有34个频段,根据人类听力等效矩形带宽(ERB)尺度[13],这大大降低了系统的计算复杂度。结合基音滤波器和包络后滤波的设计,PercepNet可以产生高质量的增强语音。
然而,我们发现,与低信噪比的增强带噪语音相比,当输入带噪语音的信噪比相对较高时,PercepNet的过衰减(OA)要严重得多,它显著地损害了增强语音的感知质量(甚至比原始噪声语音更严重)。这种更严重的质量损害可能是由于对频带增益的不准确估计,以及通过包络后滤波进一步增强语音以去除残留噪声,因为从人类的感知来看,高信噪比噪声语音实际上是一个纯净语音。此外,在PercepNet处理过程中,只对语音谱包络进行增强,直接利用噪声语音的相位重构目标纯净语音。所有这些提到的问题可能会限制PercepNet的性能。
为了开发一个性能更好、更健壮的实时SE系统,在本研究中,我们重点对PercepNet进行改进,进一步增强其语音去噪能力,实现更好的语音感知质量。主要贡献如下:
引入相位感知结构,通过添加复数子带特征作为附加的深度网络输入,用子带实部和虚部增益代替原有的能量增益,利用相位信息实现纯净语音的构建;
为了解决增强高信噪比带噪语音的过衰减问题,减轻感知质量的损害,设计了信噪比估计器和信噪比开关后处理来控制残余噪声的去除程度;
我们用TF-GRU结构替换PercepNet中的前两个GRU[14]层,以很好地学习时间尺度的时间和频率依赖性;
基于上述修正,我们最终提出通过多目标训练的方式学习复增益、信噪比、原基音滤波强度以及OA损耗,进一步提高SE性能。
与PercepNet相比,我们提出的PercepNet+在公共VCTK[17]测试集上实现了0.19 PESQ[15]和2.25% STOI[16]的绝对增益,在模拟测试集[18]上实现了0.15 PESQ和2.93% STOI增益。
