2020_SEWUNet:深度波-U-Net如何实现单声道语音增强?
摘要:论文地址:基于深度波形U-Net进行单耳语音增强 论文代码:https:github.comHguimaraesSEWUNet 引用格式:Guimarães H R, Nagano H, Silva D W
论文地址:基于深度波形U-Net进行单耳语音增强
论文代码:https://github.com/Hguimaraes/SEWUNet
引用格式:Guimarães H R, Nagano H, Silva D W. Monaural speech enhancement through deep wave-U-net[J]. Expert Systems with Applications, 2020, 158: 113582.
摘要
在本文中,我们提出了一种端到端的语音增强方法--通过Wave-U-Net(SEWUNet)来降低语音信号中的噪声。该背景环境对几个下游系统是有害的,包括自动语音识别(ASR)和单词定位,这反过来会对终端用户应用产生负面影响。与文献中已有的机制相比,我们的方案确实提高了信噪比(SNR)和误字率(WER)。在实验中,网络输入是一个被加性噪声破坏的16 kHz采样率音频波形。我们的方法是基于Wave-U-Net结构,并针对我们的问题做了一些修改。提出了四种简单的增强措施,并用消融研究对其进行了测试,以证明它们的有效性。特别是,在进行主要去噪任务的训练之前,我们通过一个自动编码器突出了权值的初始化,从而更有效地利用了训练时间,获得了更高的性能。通过度量,我们证明了我们的方法优于经典的维纳滤波方法,并且表现出比其他最先进的方案更好的性能。
关键字:语音增强、噪声减少、Wave-U-Net、深度学习、信噪比、误字率
1 引言
我们见证了能够执行自动语音识别(ASR)和单词识别的系统的研究和使用的巨大增长。在广泛的领域都有应用:家庭和车载助理(Kepuska&;Bohouta,2018;Lockwood&;Boudy,1991);电信和联系中心(Rabiner,1997;Eilbacher,Bodner,Lubowsky,Boudreau,&;Jakobsche,2004);国土安全(Neustein&;Patil,2012);营销决策(Wedel&;Kannan,2016);为残疾人设计的软件(Wald, 2005);医疗文件(Edwardset al., 2017);游戏(Luisi, 2007)等等。
在这个端到端的过程中,一个关键的部分是语音到文本的转换,这可能会受到音频噪声的负面影响,并产生具有高错字率(WER)的文本。例如,错误的词或成分可能会影响分类的极性,在极限情况下,这些下行应用程序可能会变得不可用。
从语音信号中提取背景内容是语音去噪的主要任务,除了ASR问题外,对人类理解也是有用的,因此本工作的目的是扩展所有那些原本将被限制在较安静环境中的应用的操作范围,从语音信号中提取背景内容是语音去噪的主要任务。在音频域,我们注意到,由于音频本身的复杂性(例如,每秒高采样数、频率等),单声道记录上的这种干净的语音提取是一个高度不确定的问题。
这类问题与众所周知的鸡尾酒会效应有关,在鸡尾酒会效应中,大脑试图集中在特定的刺激中,同时过滤背景背景和其他噪声,类似于在聚会中发生转换。设$y$是带噪信号,$x$是干净的语音信号,而$\delta$是用来产生有噪信号的噪声。在这项工作中,我们将假设数据是干扰原始信号本身的加性噪声,如公式1中所定义:
$$公式1:y[n]=x[n]+\delta [n]$$
我们的目标是使用公式2,使用非线性变换创建映射,以尽可能映射纯净语音
$\hat{y}[n] \approx x[n]$
最近解决这个问题的方法依赖于谱信息和其他预处理技术。该方法的一个重要问题是在进行短时傅立叶逆变换时,增强后的信号会出现伪影。这个问题可以通过在原始波形上使用直接管道来缓解。另一方面,由于我们在1秒内有超过16000个样本,并且很难有效地处理非常长范围的时间依赖,因此计算成本和复杂度将会增加。
近年来,人们发现深度神经网络在语音处理任务中非常成功。LeCun和Bengio(1995)提出了一类特殊的神经网络,称为卷积神经网络(CNN),专注于处理具有网格状拓扑的数据,如音频,可以被认为是一维网格(Goodfloor,Bengio,&;Courville,2016)。
本文提出了一种端到端的深度学习方法--SEWUNet(Speech Enhancementthrough Wave-U-Net),利用全卷积神经网络来解决语音音频去噪的问题,并在此基础上提出了一种基于全卷积神经网络的端到端深度学习算法SEWUNet(Speech Enhancementthrough Wave-U-Net)。
