如何构建一个用于实时语音增强的卷积循环神经网络?
摘要:论文地址:用于实时语音增强的卷积递归神经网络 代码地址:https:github.comJupiterEthanCRN-causal 作者主页:https:jupiterethan.github.io 引用格式:Tan K,
论文地址:用于实时语音增强的卷积递归神经网络
代码地址:https://github.com/JupiterEthan/CRN-causal
作者主页:https://jupiterethan.github.io/
引用格式:Tan K, Wang D L. A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement[C]//Interspeech. 2018: 3229-3233.
摘要
许多现实世界中的语音增强应用,如助听器和人工耳蜗,都需要实时处理,没有延迟或低延迟。在本文中,我们提出了一种新型的卷积递归网络(convolutionalrecurrent network,CRN)来解决实时单声道语音增强问题。我们将卷积编码解码器(convolutional encoder decoder,CED)和长短时记忆(LSTM)纳入CRN架构,搭建一个自然适合实时处理的因果系统。此外,所提出的模型与噪声和说话人无关,即噪声类型和说话人在训练和测试中可以不同。我们的实验表明,与现有的基于LSTM的模型相比,CRN所带来的客观可懂性和感知质量始终更好。此外,CRN的可训练参数要少得多。
关键词:噪声和说话人无关的语音增强,实时应用,卷积编码器-解码器,长短期记忆,卷积递归网络
1 引言
语音分离旨在将目标语音从背景干扰中分离出来,背景干扰可能包括非语音噪声、干扰语音和房间混响[1]。语音增强是指语音和非语音噪声的分离。它在现实世界中有各种应用,如强大的自动语音识别和移动语音通信。对于许多这样的应用,需要实时处理。换句话说,语音增强是以低计算复杂性进行的,提供近乎即时的输出。
在这项研究中,我们专注于可以在实时应用中进行的单声道(单麦克风)语音增强。 例如,在数字助听器中,已经发现低至3毫秒的延迟对听众来说是明显的,而超过10毫秒的延迟是令人讨厌的[2]。对于这样的应用,通常需要因果语音增强系统,其中不允许有未来信息(因果系统只能使用过去的信息,不能使用未来的信息)。
受计算听觉场景分析(CASA)中时频(T-F)掩码概念的启发[3],近年来,语音分离被表述为监督学习,采用深度神经网络(DNN)来学习 噪声声学特征到T-F掩码的映射[4]。理想的二进制掩码,将T-F单元分类为以语音为主或以噪声为主,是监督式语音分离中使用的第一个训练目标。最近的训练目标包括理想比率掩码[5]和与目标语音的幅度或功率谱对应的基于映射的目标[6][7]。在本研究中,我们使用目标语音的幅值谱作为训练目标。
对于监督下的语音增强,噪声泛化和说话人泛化都是至关重要的。处理噪声泛化的一个简单而有效的方法是用不同的噪声类型进行训练[8]。类似地,为了解决说话人的泛化问题,在训练集中包括大量的说话人。然而,人们发现,前馈DNN在有许多训练说话人的情况下,无法跟踪目标说话人[9] [10] [11]。通常情况下,DNN从帧周围的一个小的上下文窗口独立地预测每个时间帧的标签。一种解释是,这种DNN不能利用长期的语境,而这对于跟踪目标说话人是至关重要的。最近的研究[9][10]表明,为了利用长期语音,将语音分离表述为序列到序列的映射会更好。
在这样的表述下,递归神经网络(RNN)和卷积神经网络(CNN)已经被用于噪声和说话人无关的语音增强,其中噪声类型和说话人在训练和测试中可能是不同的。Chen等人[10]提出了一个具有四个隐藏LSTM层的RNN,以处理与噪声无关的模型的说话人泛化问题。他们的实验结果表明,LSTM模型对未经训练的说话人有很好的泛化作用,并且在短时客观可懂度(STOI)方面大大超过了基于DNN的模型[12]。最近的一项研究[13]开发了一个基于扩张卷积的门控残差网络(GRN)。与[10]中的LSTM模型相比,GRN表现出更高的参数效率和更好的泛化能力,适用于不同信噪比水平下的未经训练的说话者。另一方面,GRN需要大量的未来信息用于掩码估计或每个时间段的频谱映射。 因此,它不能用于实时语音增强。
在最近关于CRN的工作[14][15]的启发下,我们开发了一个新颖的CRN架构,用于实时的噪声和说话人无关的语音增强。CRN包含了一个卷积编码器-解码器和长短期记忆。我们发现,与[10]中的LSTM模型相比,我们提出的的CRN得到了更好的客观语音可懂度和质量。
本文的其余部分组织如下。我们在第2节中对我们提出的模型进行了详细描述。实验设置和结果在第3节中介绍。我们在第4节中总结了本文。
