PACDNN:语音增强中,如何构建一个感知相位的复合深度神经网络?
摘要:论文地址:PACDNN:一种用于语音增强的相位感知复合深度神经网络 相似代码:https:github.comphpstorm1SE-FCN 引用格式:Hasannezhad M,Yu H,Zhu W P,et al. PACDNN
论文地址:PACDNN:一种用于语音增强的相位感知复合深度神经网络
相似代码:https://github.com/phpstorm1/SE-FCN
引用格式:Hasannezhad M,Yu H,Zhu W P,et al. PACDNN: A phase-aware composite deep neural network for speech enhancement[J]. Speech Communication,2022,136:1-13.
摘要
目前,利用深度神经网络(DNN)进行语音增强的大多数方法都面临着一些限制:它们没有利用相位谱中的信息,同时它们的高计算复杂度和对内存的要求使得它们不适合实时应用。本文提出了一种新的相位感知复合深度神经网络(PACDNN)来解决这些问题。具体而言,该网络利用频谱掩模进行幅度处理和利用相位derivative(导数)进行相位重构,从而实现幅度和相位同时增强。此外,DNN经过精心设计,充分利用了语音对时间和频谱的强烈依赖性,而其各组成部分独立并行执行,以加快计算速度。通过大量的对比实验,证明了所提出的PACDNN模型相对于一些知名的基于DNN的SE方法的优势。
关键词:语音增强,深度神经网络,模型复杂度,频谱掩模,相位derivative
1 引言
在真实世界环境中获取的语音信号往往会受到背景噪声的干扰。这种干扰现象出现在语音识别、听力修复、语音通信、智能家居设备等许多应用中。语音增强(SE)的目的是抑制所采集的语音信号中不需要的环境噪声,以提高其质量或作为预处理程序,提高应用程序对各种噪声的鲁棒。SE方法可以是无监督的,也可以是有监督的。传统的Wiener滤波(Abd ElFattah等人2008年;Wang和Chen,2018)和基于统计模型的方法(Martin 2002;Parchami等人2016)是两类著名的无监督方法,它们依赖于语音和噪声的统计特性,当这些特性已知或适当建模时,会产生良好的性能。然而,在统计特性未知或难以建模的真实场景中,特别是在非平稳噪声条件下,这些方法的性能会下降。
近年来,随着快速计算硬件的发展和大数据集的可用性,监督方法在许多领域受到了越来越多的关注。特别是,基于深度学习的方法在语音处理方面取得了革命性的进展,包括语音识别。DNN在模拟高度复杂的转换方面的卓越能力极大地提高了在不利和可变的声学情景中的SE。此外,训练有素的DNN可以提供低延迟处理,这对许多实时应用非常重要,如助听器(Agnew和Thornton,2000)。在过去的十年中,已经提出了各种基于DNN的SE方法,下面将进一步详细介绍。
Xu等人(2014)利用多层感知器(MLP)将带噪语音的对数功率谱映射到纯净语音。在本工作中,一些关键的MLP问题,如过拟合和全局方差归一化问题,也进行了研究。虽然MLP模型获得了很好的SE结果,但由于其参数较多,复杂性较高。此外,MLP独立处理语音样本,即不考虑顺序信息,但语音却表现出很强的时间依赖性。Chen和Wang(2017)采用了长短期记忆(Long-Short Term Memory,LSTM)网络,一种递归神经网络(RNN)的变体,对语音的信息按时间顺序进行建模,结果表明LSTM能够在困难的嘈杂条件下跟踪这种说话人依赖的信息。他们还证明了LSTM网络在将模型推广到多个说话人和噪声方面优于MLP。最近,一个同时运行时间和频率的LSTM网络被用于提取低比特率音频恢复的时频模式(Abbaszadeh,2016)。虽然LSTM具有很好的SE性能,但它被认为是一个高度复杂的模型。为了缓解LSTM的这一问题,SE最近采用了LSTM的两种变体,即门控循环单位(GRU) (Dey和Salemt,2017)和简单循环单位(SRU) (Cui等人,2020)。然而,GRU和SRU虽然提供了LSTM的高效实现,但在SE应用中,它们的性能不如LSTM。
Park和Lee(2016)研究了SE的卷积神经网络(CNN),并将其所需参数数与MLP和LSTM进行了比较。特别是,他们表明,这三种方法几乎提供相同的SE性能,尽管CNN需要更少的参数。然而,本研究只考虑了参数的数量,而实际的复杂性和实现成本也取决于内存占用,CNN的内存占用会明显大于LSTM和MLP。我们还注意到,CNN最初的设想是为了从图像中捕获局部信息,而语音频谱通常表现出非局部相关性。此外,CNN网络的最大池化层只保留其输入的粗信息。因此,Oord等人(2016)引入了一个生成模型,该模型没有最大池化层,而是包含了一个扩张因果卷积层堆栈。该模型在不增加模型复杂性的情况下扩展了CNN滤波器的感受野。
