2020年提出的DTLN，双重信号转换LSTM网络，能实时降噪吗？

摘要：论文地址：双路信号变换LSTM网络的实时噪声抑制论文代码：https：github.combreizhnDTLN 引用格式：Westhausen N L, Meyer B T. Dual-signal transformation

论文地址：双路信号变换LSTM网络的实时噪声抑制论文代码：https：//github.com/breizhn/DTLN 引用格式：Westhausen N L, Meyer B T. Dual-signal transformation LSTM network for real-time noise suppression[J]. arXiv preprint arXiv：2005.07551, 2020. 摘要　　本文介绍了一种用于实时语音增强的双信号变换LSTM网络(DTLN)，作为深度噪声抑制挑战(DNS-Challenger)的一部分。这种方法结合了短时傅里叶变换(STFT)和已有的分析和综合基础，采用了参数小于100万的堆叠网络方法。这个模型在挑战者或组织者提供的500小时的带噪语音中进行了训练。该网络能够实时处理(一帧输入，一帧输出)，并达到较好的结果。结合这两种信号变换，DTLN可以稳健地从幅度谱中提取信息，并从学习的特征库中合并相位信息。该方法显示了最先进的性能，并且比DNS挑战基线高出平均意见得分(MOS)0.24分的绝对值。关键字：噪声抑制、深度学习、实时、语音增强、音频 1 引言　　噪声抑制是语音增强领域的一门重要学科；例如，在家工作的场景中，鲁棒和有效的噪声降低可以提高通信质量，从而减少视频会议的认知努力，这是特别重要的。随着深度神经网络的兴起，提出了几种基于深度模型的音频处理方法[1,2,3,4]。然而，这些通常是为脱机处理开发的，脱机处理不需要实时能力或考虑因果关系。这种模型处理完整的序列，并利用信号的过去和将来的信息来抑制不需要的信号部分。经典的信号处理算法[5,6]通常在采样或帧级工作，以提供低的输入输出延迟。在设计基于框架的神经网络算法时，循环神经网络(RNN)是一个常见的选择。RNNs在语音增强[7,8]和语音分离[9,10,11]方面都取得了令人信服的结果。长期短期记忆网络(LSTM)[12]代表了分离[13]的最新技术。性能最好的网络通常是通过使用双向LSTM以非因果方式构建的，在这种方式中，时间序列也是在反向方向上进行因果处理的。双向RNN总是需要完整的序列作为输入，因此基本上不适合实时帧处理。　　deep-noise-suppression challenge (DNS-Challenge)[14]的基线系统称为NSNet[15]，也是基于RNN层，通过计算每个输入帧一个输出帧提供实时能力。该模型基于带噪语音信号的短时傅立叶变换(STFT)的对数功率谱，预测应用于带噪声时间傅立叶变换的增益或掩模。利用噪声混合信号的估计幅度和相位，对预测的语音信号进行重构。这种方法产生了一个竞争的基线系统，但它不包含任何相位信息，这可能有助于提高语音质量。不同的方法处理相位估计，如估计STFT实部和虚部的掩模，而不是幅度[16]或计算迭代相位重建[17]。[11, 18, 19]等研究表明，在学习分析和综合基础上的说话人分离任务有希望的结果，而不是解耦的量级和相位信息。表示是通过将时域帧与学习过的基函数相乘来计算的。该方法也被应用到[20]中，用于语音和噪声的分离。　　当前研究的动机是通过使用堆叠的双信号变换LSTM网络(DTLN)将分析和综合方法合并到一个模型中。堆叠或级联网络已经在Deep Clustering speaker separation approach[9]中使用，在分离网络之后添加了一个额外的增强网络。在相关研究中，采用级联模型对[19]进行去噪和去混响。本文提出的模型级联了两个分离核，第一个具有STFT信号转换，而第二个使用了类似于[18]的学习信号表示。这种组合是第一次在降噪环境中进行探索，由于经典和学习的特征转换的互补性，可以提供有益的效果，同时保持相对较小的计算足迹。与之前大多数提出的LSTM网络相比，本文的堆叠网络要小得多，并且在计算复杂度方面保证了实时性。 2 方法 2.1 信号转换　　在说话人分离中，通常选择时频掩蔽的方法来分离说话人的信号。噪声抑制是一个相关的源分离问题，但它的不同之处在于它只返回语音信号并丢弃噪声。在时频域中，分离问题可以表示如下：麦克风信号$y$被描述为 $$y[n]=x_s+x_n$$ 其中，$x_s$和$x_n$分别是时间信号的语音分量和噪声分量。　　在噪声抑制任务中，期望的信号是语音信号。当用复时频表示(TF)对信号$y$进行短时傅里叶变换时，可以预测估计的语音信号$\hat{X}_s$的TF表示为： $$公式2：\hat{X}_{s}(t, f)=M(t, f) \cdot|Y(t, f)| \cdot e^{j \phi y}$$ 其中$|Y|$是$y$的幅度谱。

2020年提出的DTLN，双重信号转换LSTM网络，能实时降噪吗？

相关推荐