2019年,时间域实时语音增强的TCNN,其时间卷积神经网络是怎样的?

摘要:论文地址:TCNN:时域卷积神经网络用于实时语音增强 论文代码:https:github.comLXP-NeverTCNN(非官方复现) 引用格式:Pandey A, Wang D L. TCNN: Temporal convolu
论文地址:TCNN:时域卷积神经网络用于实时语音增强 论文代码:https://github.com/LXP-Never/TCNN(非官方复现) 引用格式:Pandey A, Wang D L. TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 6875-6879. 摘要   本文提出了一种用于实时语音增强的全卷积神经网络(CNN)。所提出的CNN是一种基于编解码器的结构,在编码器和解码器之间插入的时间卷积模块(TCM)。我们称这种结构为时间卷积神经网络(TCNN)。TCNN中的编码器创建输入噪声帧的低维表示。TCM使用因果卷积层和膨胀卷积层来利用当前帧和前一帧的编码器输出。解码器使用TCM输出来重构增强帧。提出的模型以与说话人和噪声无关的方式进行训练。实验结果表明,该模型比目前最先进的实时卷积递归模型具有更好的增强效果,而且由于该模型是完全卷积的,其可训练参数比以前的模型少得多。 关键词:噪声无关和说话人无关的语音增强,时域,二维卷积神经网络,TCNN 1 引言   语音增强是指从语音信号中去除或衰减附加噪声的任务。它被用作鲁棒语音识别、电话会议和助听器等应用的预处理器。传统的语音增强方法包括谱减法[1]、维纳滤波[2]、基于统计模型的方法[3]和非负矩阵分解[4]。   在过去的几年中,基于深度学习的有监督语音增强方法已经成为语音增强的主流。通常,在监督方法中,给定的语音信号被转换为时频(T-F)表示,并由T-F表示构造一个目标信号作为训练目标。最常用的训练目标有理想比率掩模(IRM)[6]、相位敏感掩模(PSM)[7]和短时傅里叶变换(STFT)幅度。   尽管使用T-F表示是最流行的方法,但它也有一些缺点。首先,这些方法通常忽略纯净的相位信息,利用带噪声的相位进行时域信号重构。过去的一些研究表明,相位是提高语音质量的必要条件,特别是在低信噪比(SNR)[8]的情况下。其次,一些训练目标,如IRM,即使使用一个理想的目标,也不能导致完美的信号重建。最后,对于快速语音增强,T-F表示的计算是一个额外的开销。   上述因素以及深度神经网络强大的表达能力,使得研究者们开始在时域中探索深度神经网络的语音增强功能。在[9]中,作者证明了全卷积神经网络对时域语音增强的有效性。最近在[10]中,作者训练了一种在时域中使用频域丢失的模型来提高增强语音的感知质量。尽管[10]中的工作可以获得最先进的性能,但它并没有解决实时增强的问题。提出的模型在每个时间步使用128 ms帧,使得模型不适合实际应用。   由于TCNN序列建模[11]的成功实现,以及基于编码器-解码器的体系结构对时域语音增强的有效性[10,12],我们提出将两者结合,以获得一个实时增强系统。该模型具有基于编码器-解码器的体系结构,由因果卷积层组成。在编码器和解码器之间插入TCM,学习过去的长期依赖关系。在我们的工作中使用的TCM与[13]中使用的TCM类似,在[13]中,作者使用TCM在时域中以最先进的性能执行实时说话人分离。   本文的组织如下:我们首先在下一节中描述TCNN。第3节描述了提议的框架。实验细节、结果和比较在第4节给出。第五部分对全文进行总结。 2时间卷积神经网络   TCNNs是为具有因果约束的序列建模任务而提出的通用卷积网络[11]。给定输入序列$x_0,...,x_t$和对应的输出序列$y_0,...,y_t$,序列建模网络通过训练网络关于估计序列和输出序列之间的一些损失函数来学习以估计输出序列$\hat{y}_0,...,\hat{y}_t$。对网络的因果约束意味着预测$\hat{y}_t$仅依赖于$x_0,...,x_t$,而不依赖于未来的输入$x_{t+1},...,x_T$。在时域频谱增强的情况下,输入序列是带噪帧序列,输出序列是纯净帧序列。   在施加因果约束的情况下,TCNNs由因果层和膨胀卷积层组成。确保了信息不会从未来泄露到过去。扩张卷积有助于增加感受野。接受范围越大,网络就越能回顾过去。图1说明了kernal size=2的扩张的因果卷积的例子。 图1 滤波器数=2的扩张因果卷积的例子   此外,TCNN由残差块组成,因此可以使用残差学习[14]对深度网络进行充分的训练。图2显示了本工作中使用的残差块。
阅读全文