哪款语音增强网络结合了多尺度时空频率卷积和轴向注意力?
摘要:论文地址:带轴向注意的多尺度时域频率卷积网络语音增强 论文代码:https:github.comechocatzhMTFAA-Net 引用:Zhang G, Yu L, Wang C, et al. Multi-scale temp
论文地址:带轴向注意的多尺度时域频率卷积网络语音增强
论文代码:https://github.com/echocatzh/MTFAA-Net
引用:Zhang G, Yu L, Wang C, et al. Multi-scale temporal frequency convolutional network with axial attention for speech enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 9122-9126.
摘要
语音质量经常因回声、背景噪声和混响而降低。在本文中,我们提出了一个由深度学习和信号处理组成的系统,同时抑制回声、噪声和混响。对于深度学习,我们设计了一种新的语音密集预测backbone。在信号处理中,利用线性回声消除器作为条件信息进行深度学习。为了提高语音密集预测(speech dense-prediction)主干的性能,设计了麦克风和参考相位编码器、多尺度时频处理和流式轴向注意(streaming axial attention)等策略。该系统在ICASSP 2022年AEC和DNS挑战赛(非个人赛道)中均排名第一。此外,该backbone还被扩展到多通道语音增强任务,并在ICASSP 2022 L3DAS22挑战赛中获得第二名。
索引术语:语音密集预测,语音增强,多尺度,轴向注意
1 引言
在语音通信应用中,如语音交互或视频会议系统,语音质量往往会受到回声、背景噪声和混响的影响。为了抑制声学回声,可以使用一种称为线性声学回声消除器(Linear Acoustic Echo Canceller,LAEC)的音频处理组件[1]。
然而,由于扬声器的非线性失真和振动效应的存在,LAEC的性能严重下降。因此,通常需要一个基于信号处理(signal processing,SP)[2]或深度神经网络(DNN)的残余回声抑制器(RES)来进一步抑制声回声。基于DNN的RES方法比基于SP的[3]方法具有更好的性能。此外,DNN在去除背景噪声和抑制混响[4]方面也取得了显著的效果。
在这项工作中,我们提出了一个同时去噪,去混响和回声消除系统。该系统是SP和DNN的组合。SP部分由基于广义相关[5]的简单时延补偿器(time delay compensator,TDC)和基于双回声路径模型[6]和带PNLMS自适应滤波器[7]的LAEC组成。在DNN部分,我们提出了一种新的语音密度预测backbone,称为轴向自注意多尺度时间频率卷积网络(Multi-scale Temporal Frequency Convolutional Network withAxial self-Attention,MTFAA-Net)。在这项工作中,我们的贡献包括:
为了消除回声,我们设计了一种新的组合SP和DNN。与以往的LAEC与DNN拼接不同,我们只使用LAEC作为DNN的条件信息,避免了LAEC引起的失真引入到估计的目标语音中。
提出了一种用于各种语音密度预测任务的主干。设计了相位编码器(Phase encoder,PE)、多尺度时频处理和流式轴向自关注力(ASA)来提高backbone的性能。相位编码后采用等效矩形带宽(ERB)的频频带合并模块对全频带信号进行处理,计算复数度较低。
在ICASSP 2022 AEC Challenge[8]和ICASSP 2022 DNS Challenge[9]的评估集和盲测试集上的结果表明,该方案在回声消除、去噪和去混响方面具有良好的性能。
本文的其余部分组织如下。第2节介绍问题的表述。第3节提供了用于语音增强的拟议主干的细节。第4节展示了数据集和实验结果。最后,我们在第5节得出结论。
2问题公式化
让我们考虑短时傅里叶变换(STFT)域中的信号模型。麦克风信号$Y(t,f)$由回声$E(t, f)$、背景噪声$N(t, f)$和带混响的近端语音$s(t,f)H^e(f)+s(t,f)H^l(l)$组成。我们称这个模型为:
$$公式1:Y(t, f)=s(t, f) H^{e}(f)+s(t, f) H^{l}(f)+E(t, f)+N(t, f)$$
其中$s(t,f)H^e(f)$,$s(t,f)H^l(f)$分别是与房间脉冲响应(RIR)早期$H^e(f)$和晚期反射$H^l(f)$卷积的近端语音。$t$,$f$分别是时间索引和频率索引。$s(t, f)H^e(f)$将作为要估计的目标。
