2020年提出的DTLN,双重信号转换LSTM网络,能实时降噪吗?
摘要:论文地址:双路信号变换LSTM网络的实时噪声抑制 论文代码:https:github.combreizhnDTLN 引用格式:Westhausen N L, Meyer B T. Dual-signal transformation
论文地址:双路信号变换LSTM网络的实时噪声抑制
论文代码:https://github.com/breizhn/DTLN
引用格式:Westhausen N L, Meyer B T. Dual-signal transformation LSTM network for real-time noise suppression[J]. arXiv preprint arXiv:2005.07551, 2020.
摘要
本文介绍了一种用于实时语音增强的双信号变换LSTM网络(DTLN),作为深度噪声抑制挑战(DNS-Challenger)的一部分。这种方法结合了短时傅里叶变换(STFT)和已有的分析和综合基础,采用了参数小于100万的堆叠网络方法。这个模型在挑战者或组织者提供的500小时的带噪语音中进行了训练。该网络能够实时处理(一帧输入,一帧输出),并达到较好的结果。结合这两种信号变换,DTLN可以稳健地从幅度谱中提取信息,并从学习的特征库中合并相位信息。该方法显示了最先进的性能,并且比DNS挑战基线高出平均意见得分(MOS)0.24分的绝对值。
关键字:噪声抑制、深度学习、实时、语音增强、音频
1 引言
噪声抑制是语音增强领域的一门重要学科;例如,在家工作的场景中,鲁棒和有效的噪声降低可以提高通信质量,从而减少视频会议的认知努力,这是特别重要的。随着深度神经网络的兴起,提出了几种基于深度模型的音频处理方法[1,2,3,4]。然而,这些通常是为脱机处理开发的,脱机处理不需要实时能力或考虑因果关系。这种模型处理完整的序列,并利用信号的过去和将来的信息来抑制不需要的信号部分。经典的信号处理算法[5,6]通常在采样或帧级工作,以提供低的输入输出延迟。在设计基于框架的神经网络算法时,循环神经网络(RNN)是一个常见的选择。RNNs在语音增强[7,8]和语音分离[9,10,11]方面都取得了令人信服的结果。长期短期记忆网络(LSTM)[12]代表了分离[13]的最新技术。性能最好的网络通常是通过使用双向LSTM以非因果方式构建的,在这种方式中,时间序列也是在反向方向上进行因果处理的。双向RNN总是需要完整的序列作为输入,因此基本上不适合实时帧处理。
deep-noise-suppression challenge (DNS-Challenge)[14]的基线系统称为NSNet[15],也是基于RNN层,通过计算每个输入帧一个输出帧提供实时能力。该模型基于带噪语音信号的短时傅立叶变换(STFT)的对数功率谱,预测应用于带噪声时间傅立叶变换的增益或掩模。利用噪声混合信号的估计幅度和相位,对预测的语音信号进行重构。这种方法产生了一个竞争的基线系统,但它不包含任何相位信息,这可能有助于提高语音质量。不同的方法处理相位估计,如估计STFT实部和虚部的掩模,而不是幅度[16]或计算迭代相位重建[17]。[11, 18, 19]等研究表明,在学习分析和综合基础上的说话人分离任务有希望的结果,而不是解耦的量级和相位信息。表示是通过将时域帧与学习过的基函数相乘来计算的。该方法也被应用到[20]中,用于语音和噪声的分离。
当前研究的动机是通过使用堆叠的双信号变换LSTM网络(DTLN)将分析和综合方法合并到一个模型中。堆叠或级联网络已经在Deep Clustering speaker separation approach[9]中使用,在分离网络之后添加了一个额外的增强网络。在相关研究中,采用级联模型对[19]进行去噪和去混响。本文提出的模型级联了两个分离核,第一个具有STFT信号转换,而第二个使用了类似于[18]的学习信号表示。这种组合是第一次在降噪环境中进行探索,由于经典和学习的特征转换的互补性,可以提供有益的效果,同时保持相对较小的计算足迹。与之前大多数提出的LSTM网络相比,本文的堆叠网络要小得多,并且在计算复杂度方面保证了实时性。
2 方法
2.1 信号转换
在说话人分离中,通常选择时频掩蔽的方法来分离说话人的信号。噪声抑制是一个相关的源分离问题,但它的不同之处在于它只返回语音信号并丢弃噪声。在时频域中,分离问题可以表示如下:麦克风信号$y$被描述为
$$y[n]=x_s+x_n$$
其中,$x_s$和$x_n$分别是时间信号的语音分量和噪声分量。
在噪声抑制任务中,期望的信号是语音信号。当用复时频表示(TF)对信号$y$进行短时傅里叶变换时,可以预测估计的语音信号$\hat{X}_s$的TF表示为:
$$公式2:\hat{X}_{s}(t, f)=M(t, f) \cdot|Y(t, f)| \cdot e^{j \phi y}$$
其中$|Y|$是$y$的幅度谱。
