How to achieve low-delay speech enhancement with perceptually motivated target and loss in 2021?

摘要:论文地址:使用感知动机目标和损失的低延迟语音增强 引用格式:Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Perceptually Motivated
论文地址:使用感知动机目标和损失的低延迟语音增强 引用格式:Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss[J]. Proc. Interspeech 2021, 2021: 2826-2830. 摘要   基于深度神经网络的语音增强方法优于传统的信号处理方法。我们提出了一种利用新的感知激励训练目标和损失函数的低延迟语音增强方法。该方法可以获得与现有方法相似的语音增强性能,但显著降低了延迟和计算复杂度。通过INTERSPEECH 2021深度噪声抑制挑战组织者进行的MOS测试,该方法在背景噪声MOS中排名第二,在整体MOS中排名第六。 关键词:语音增强、时频掩蔽、深度神经网络、单通道 1 引言   单通道语音增强的目的是将纯净语音从带噪语音中分离出来。传统的基于信号处理的方法旨在对噪声频谱建模以执行谱减法[1]或维纳滤波[2]。近年来,基于深度神经网络(DNNs)的方法性能优于传统方法。这些方法通常以有监督的方式进行训练,可以分为时域方法和时频域方法。文献[3]、[4]中提出的时域方法直接输入带噪语音波形来估计纯净语音。虽然时域方法可以实现端到端处理,但折衷是放弃了语音和噪声信号在时频域中的稀疏性,如[5]中所述。文献[6]、[7]和[8]、[9]中提出的时频域方法分别采用DNN对纯净语音的幅值和复谱进行建模。虽然将训练目标设置为复数谱可以达到比幅度谱更高的预测上界,但也带来了复杂度的增加,这可能不适合实际的实时应用。此外,在去年的DNS挑战赛[10]中,使用这两个训练目标的方法可以达到相对的感知质量[11]。本文以感知最优幅度谱为训练目标,在时频域内对低时延、低复杂度的单通道语音增强进行了研究。   本文提出了一种预处理方法,以产生感知上最优的幅度谱作为训练目标。当纯净语音的幅谱与输入有噪信号的相位相结合时,目标语音信号的上界下降,特别是在低信噪比(SNR)条件下。这是因为对于低信噪比的时频瞬时,噪声相位与理想语音相位有很大的不同。在应用所提出的预处理方法之前,研究了常用的理想掩模产生的训练目标的上界。类似的研究可以在文献[12]中找到,其中比较了不同理想掩模产生的训练目标的信噪比(SAR),本文直接比较了经典维纳掩模[14]、理想比掩模(IRM)[15]和理想幅度掩模(IAM)[12]得到的训练目标的PESQ[13]。研究发现,IAM在不同的信噪比条件下都能获得最高的PESQ得分。使用所提出的预处理方法进一步压缩IAM。在信噪比为-10dB~25dB的情况下,对于可达到的训练目标,所提出的预处理方案可以获得平均0.11PESQ的改善。具体地说,对于5dB到15dB的条件,PESQ改善在0.15以上。   在预处理方案的基础上,提出了一种新的损失函数,将压缩后的IAM与幅度谱损失计算相结合。所提出的损失函数引入IAM加权因子来均衡对数压缩幅度的重要性。其目的是在低振幅和高振幅的时频瞬间之间提供更好的平衡。   使用PESQ[13]和STOI[16]对所提出的方法进行了评估。如第6节所示,与不使用预处理的相同配置相比,所提出的预处理方案可以获得0.04 PESQ和0.11 STOI的改善。在损失函数中提出的IAM加权因子可以达到0.13的PESQ和0.02的STOI改善。当预处理和损失函数一起使用时,与现有方法相比,该方法可以获得与现有方法相似的PESQ性能,并且具有更小的系统延迟和复杂度。   所提出的方法还进入了2021年DNS挑战赛[17]。在480点FFT(对应于16 kHz输入信号30ms)和160点帧移(对应于16 kHz输入信号对应10ms),系统总延迟为30ms+10ms=40ms,满足本次挑战的延迟要求。该模型具有3.393M个参数,756.868M个FLOP。在英特尔酷睿i7(2.6 GHz)CPU上的一帧推理时间为0.386毫秒。该方法在背景噪声MOS方面排名第2位,在整体MOS方面排名第6位。 2 信号模型   噪声混响混合信号$y$在时域通过以下公式建模: $$y(t)=h(t)*x(t)+n(t)$$ 其中$x(t)$是语音信号,$h(t)$是从说话者到麦克风的传递函数,*表示卷积,$n(t)$是噪声。该系统的目的是从$y(t)$估计$x(t)$,包括从捕获的信号中去除噪声和混响。   训练过程的概述如图1所示。先对带噪语音和纯净语音进行短时傅立叶变换(STFT),以获得时频域的幅值和相位信号。对纯净语音的幅值进行预处理,得到感知上最优的训练目标。
阅读全文