FLGCNN:有没有一种新网络,能端到端单耳语音增强,还用说话人目标函数?
摘要:论文地址:FLGCNN:一种新颖的全卷积神经网络,用于基于话语的目标函数的端到端单耳语音增强 论文代码:https:github.comLXP-NeverFLGCCRN(非官方复现) 引用格式:Zhu Y, Xu X, Ye Z.
论文地址:FLGCNN:一种新颖的全卷积神经网络,用于基于话语的目标函数的端到端单耳语音增强
论文代码:https://github.com/LXP-Never/FLGCCRN(非官方复现)
引用格式:Zhu Y, Xu X, Ye Z. FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions[J]. Applied Acoustics, 2020, 170: 107511.
摘要
提出了一种新的全卷积神经网络(FCN),称为FLGCNN,用于解决时域端到端语音增强问题。提出的FLGCNN主要建立在编码器和译码器上,同时增加了额外的基于卷积的短时傅立叶变换(CSTFT)层和逆STFT(CISTFT)层来模拟正、逆STFT运算。这些层次的目的是将频域知识集成到所提出的模型中,因为语音的潜在语音信息用时频(T-F)表示更清楚地表示出来。此外,编码器和解码器由门控卷积层构成,因此所提出的模型可以更好地控制层次结构中传递的信息。此外,在流行的时间卷积神经网络(TCNN)的启发下,在编码器和解码器之间插入了时间卷积模块(TCM),该模块能够有效地模拟语音信号的长期相关性。由于整个框架可以实现端到端的语音增强,我们还利用不同的基于发音的目标函数对所提模型进行了优化,以挖掘损失函数对性能的影响。实验结果表明,与其他好胜语音增强方法相比,该模型具有更好的性能改善。
关键字:端到端语音增强、门控卷积、二维卷积、CSTFT/ CISTFT层、基于话语的目标函数
1 引言
语音增强算法在助听器、说话人/语音识别、免提通信等领域有着广泛的应用。由于干净的语音信号通常容易受到背景噪声的干扰,因此通常需要增强语音来提高整体语音质量和/或清晰度,而不会对期望的语音信号造成太多的失真。传统的单耳语音增强算法包括统计方法[2 4]和基于稀疏模型的方法[5 8]。但这些算法通常依赖于一些明确的假设,很容易在增强语音中引入额外的干扰。
在过去的几年里,基于深度神经网络(DNNs)的监督方法已经成为语音增强和分离的主流方法。DNN是一种功能强大的模型,可以从大量数据中学习复杂的非线性映射,因此当提供足够的数据时,DNN通常会优于传统算法。目前最流行的语音增强深度学习方法是基于掩模的方法和基于映射的方法。这两类通常采用短时傅里叶变换(STFT)将噪声信号转换为时频(T-F)表示,训练目标也由T-F表示构造。最常用的训练目标有理想比率掩模(IRM)、理想二值掩模(IBM)[10]和目标语音[11]的对数功率谱。
尽管使用T-F表示是最流行的方法,但它仍然有一些局限性。首先,STFT是否是语音增强信号的最佳变换还不清楚(即使假设它依赖的参数是最优的,如音频帧的大小和重叠、窗口类型等)。更重要的是,在这些方法中经常出现不一致的谱图或无效的STFT问题。STFT X只有满足下面条件时才一致
$$公式1:X=\zeta [\zeta ^{-1}(X)]$$
其中$X=\zeta[x(t)]$和$x(t)$是实值时域信号。$\zeta$和$\zeta^{-1}[·]$表示正向和反向STFT运算符。但是在频域语音增强中,常用的方法包括T-F掩蔽[10]和谱映射[11],一般侧重于处理STFT幅度而忽略相位信息,只利用噪声信号的STFT相位进行时域信号重构。因此,增强的幅度和噪声相位之间的不匹配很可能导致无效的短时傅立叶变换和不一致的谱图[12]。显然,这种无效的STFT问题会在合成信号中造成不希望看到的伪影和令人不快的信号失真。
作为克服上述问题的一种方法,最近的一些研究探索了用于时域频谱增强的深度学习。例如,生成性对抗网络(GAN)[13,14]和WaveNet[15]随后被应用于语音增强任务。但这些方法大多以带噪语音的时间框架作为输入,并不能以话语的方式进行语音增强。为了解决这一问题,一些研究人员将全卷积神经网络(FCN)应用于语音增强[16,17],因为FCN模型只由卷积层组成[18],卷积运算中的滤波器可以接受长度可变的输入,但是语音信号的潜在特征在T-F域比在时域更能与背景噪声区分开来。因此,我们认为将频域知识集成到时域神经网络中可以有助于语音增强的核心任务。[19]也证明了用频域损耗代替时域损耗可以提高时域增强性能。
基于上述考虑,我们提出了一种新颖有效的基于傅立叶层的门控卷积神经网络(FLGCNN),用于端到端的单声道频谱增强。
