2022年,单声道语音增强中的时频注意力机制,有何创新之处?

摘要:论文地址:单耳语音增强的时频注意 引用格式:Zhang Q, Song Q, Ni Z, et al. Time-Frequency Attention for Monaural Speech Enhancement[C]ICASSP
论文地址:单耳语音增强的时频注意 引用格式:Zhang Q, Song Q, Ni Z, et al. Time-Frequency Attention for Monaural Speech Enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7852-7856. 摘要   大多数语音增强研究通常没有明确考虑语音在时频(t -f)表示中的能量分布,这对于准确预测掩模或频谱具有重要意义。在本文中,我们提出了一个简单而有效的T-F注意(TFA)模块,该模块产生了一个二维attention map,为T-F表示的频谱分量提供了差异化的权重。为了验证我们提出的TFA模块的有效性,我们使用残差时间卷积网络(ResTCN)作为骨干网络,并在两个常用的训练目标上进行了广泛的实验。我们的实验表明,应用我们的TFA模块在五个客观评价指标方面显著提高性能,而参数(2.72KB)开销可以忽略不计。评估结果表明,提出的带TFA模块的ResTCN (ResTCN+TFA)始终在很大程度上优于其他基线。 索引术语:语音增强,时频注意,能量分布,时间卷积网络(temporal convolutional network) 1 引用   语音增强是指在存在背景噪声的情况下对语音信号进行增强。它是许多语音处理应用的基本组成部分,如自动语音识别、说话人识别、助听器和电话会议。基于统计模型的语音增强[1-3]已经被广泛研究了几十年,该方法对平稳噪声有很好的增强效果,但对非平稳噪声[4]的增强效果不佳。   基于监督深度学习的语音增强技术已经取得了显著的进展。根据对输入信号的处理方式,现有方法可以分为两类。时域方法直接对语音波形进行语音增强,其中DNN被优化以学习从带噪语音波形到纯净语音波形的映射[5,6]。时频域(T-F)域方法通常训练DNN预测纯净语音或T-F掩码的频谱表示。目前最流行的T-F掩模包括理想比例掩模(IRM)[7]、相敏掩模(PSM)[8]和复数IRM (cIRM)[9]。在本研究中,我们采用IRM和PSM进行语音增强。   在早期的研究中,多层感知器(MLPs)是应用最广泛的架构,但它们在捕获长期依赖方面存在局限性。为了克服这一局限性,Chen等人[10]采用四层长短期记忆(LSTM)的递归神经网络(RNN)进行语音增强,明显优于MLPs。然而,LSTM网络的训练过程缓慢而复杂,并且需要大量的参数,这严重限制了它的适用性。最近,利用扩张卷积和剩余跳跃连接的剩余时间卷积网络(ResTCNs)[11]在建模长期依赖关系方面表现出了令人印象深刻的性能,并在语音增强方面取得了相当大的成功[12-14]。近年来,基于自注意的Transformer[15]模型已成功地应用于语音增强和许多其他与语音处理相关的任务,因为它们具有捕获远程依赖关系的能力。   现有的模型主要关注如何有效地对长程依赖进行建模,而一般忽略了T-F域的能量分布特征,而T-F表示对语音增强同样重要。注意力机制[16 18]已被充分研究,以了解什么对学习任务是重要的。受注意力的启发,我们提出了一种新的结构单元,称为T-F注意力(TFA)模块,用于模拟语音的能量分布。具体而言,TFA模块由两个平行的注意分支组成,即时间维度注意力(TA)和频率维度注意力(FA)[19],它们产生两个1-D attention map,分别指导模型关注何处(哪个时间帧)和什么(哪个频率通道)。结合TA和FA模块生成二维注意力图,使模型能够捕捉T-F域的语音分布。为了验证这一想法,我们使用最新的ResTCN架构作为骨干网络,并采用两个代表性的训练目标(将在第2节中讨论)进行广泛的实验。   本文的其余部分组织如下。第二节介绍了T-F域语音增强技术。在第3节中,我们描述了拟议的网络。第4节介绍了实验装置和评估结果。第5部分对本文进行了总结。 2 问题公式化   在短时傅里叶变换(STFT)域中,带噪语音可以被建模为纯净语音和加性噪声的组合 $$公式1:X[l,k]=S[l,k]+D[l,k]$$ 其中$X[l,k]$, $S[l, k]$和$D[l, k]$分别表示带噪语音、纯净语音和噪声的STFT系数。对于有监督的语音增强,通常训练DNN来预测预先设计的掩膜。然后应用该结果重建纯净语音。为了验证我们提出的TFA模块的有效性,我们采用两个广泛使用的掩膜进行广泛的增强实验。
阅读全文