哪款语音增强网络结合了多尺度时空频率卷积和轴向注意力？

摘要：论文地址：带轴向注意的多尺度时域频率卷积网络语音增强论文代码：https:github.comechocatzhMTFAA-Net 引用：Zhang G, Yu L, Wang C, et al. Multi-scale temp

论文地址：带轴向注意的多尺度时域频率卷积网络语音增强论文代码：https://github.com/echocatzh/MTFAA-Net 引用：Zhang G, Yu L, Wang C, et al. Multi-scale temporal frequency convolutional network with axial attention for speech enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 9122-9126. 摘要　　语音质量经常因回声、背景噪声和混响而降低。在本文中，我们提出了一个由深度学习和信号处理组成的系统，同时抑制回声、噪声和混响。对于深度学习，我们设计了一种新的语音密集预测backbone。在信号处理中，利用线性回声消除器作为条件信息进行深度学习。为了提高语音密集预测(speech dense-prediction)主干的性能，设计了麦克风和参考相位编码器、多尺度时频处理和流式轴向注意(streaming axial attention)等策略。该系统在ICASSP 2022年AEC和DNS挑战赛(非个人赛道)中均排名第一。此外，该backbone还被扩展到多通道语音增强任务，并在ICASSP 2022 L3DAS22挑战赛中获得第二名。索引术语：语音密集预测，语音增强，多尺度，轴向注意 1 引言　　在语音通信应用中，如语音交互或视频会议系统，语音质量往往会受到回声、背景噪声和混响的影响。为了抑制声学回声，可以使用一种称为线性声学回声消除器(Linear Acoustic Echo Canceller，LAEC)的音频处理组件[1]。　　然而，由于扬声器的非线性失真和振动效应的存在，LAEC的性能严重下降。因此，通常需要一个基于信号处理(signal processing，SP)[2]或深度神经网络(DNN)的残余回声抑制器(RES)来进一步抑制声回声。基于DNN的RES方法比基于SP的[3]方法具有更好的性能。此外，DNN在去除背景噪声和抑制混响[4]方面也取得了显著的效果。　　在这项工作中，我们提出了一个同时去噪，去混响和回声消除系统。该系统是SP和DNN的组合。SP部分由基于广义相关[5]的简单时延补偿器(time delay compensator，TDC)和基于双回声路径模型[6]和带PNLMS自适应滤波器[7]的LAEC组成。在DNN部分，我们提出了一种新的语音密度预测backbone，称为轴向自注意多尺度时间频率卷积网络(Multi-scale Temporal Frequency Convolutional Network withAxial self-Attention，MTFAA-Net)。在这项工作中，我们的贡献包括：为了消除回声，我们设计了一种新的组合SP和DNN。与以往的LAEC与DNN拼接不同，我们只使用LAEC作为DNN的条件信息，避免了LAEC引起的失真引入到估计的目标语音中。提出了一种用于各种语音密度预测任务的主干。设计了相位编码器(Phase encoder，PE)、多尺度时频处理和流式轴向自关注力(ASA)来提高backbone的性能。相位编码后采用等效矩形带宽(ERB)的频频带合并模块对全频带信号进行处理，计算复数度较低。　　在ICASSP 2022 AEC Challenge[8]和ICASSP 2022 DNS Challenge[9]的评估集和盲测试集上的结果表明，该方案在回声消除、去噪和去混响方面具有良好的性能。　　本文的其余部分组织如下。第2节介绍问题的表述。第3节提供了用于语音增强的拟议主干的细节。第4节展示了数据集和实验结果。最后，我们在第5节得出结论。 2问题公式化　　让我们考虑短时傅里叶变换(STFT)域中的信号模型。麦克风信号$Y(t,f)$由回声$E(t, f)$、背景噪声$N(t, f)$和带混响的近端语音$s(t,f)H^e(f)+s(t,f)H^l(l)$组成。我们称这个模型为： $$公式1：Y(t, f)=s(t, f) H^{e}(f)+s(t, f) H^{l}(f)+E(t, f)+N(t, f)$$ 其中$s(t,f)H^e(f)$，$s(t,f)H^l(f)$分别是与房间脉冲响应(RIR)早期$H^e(f)$和晚期反射$H^l(f)$卷积的近端语音。$t$，$f$分别是时间索引和频率索引。$s(t, f)H^e(f)$将作为要估计的目标。

哪款语音增强网络结合了多尺度时空频率卷积和轴向注意力？

相关推荐