DeepFilterNet:全频带音频低复杂度语音增强框架,基于深度滤波,有何独特之处?

摘要:博客作者:凌逆战 论文地址:DeepFilterNet:基于深度滤波器的全频带音频低复杂度语音增强框架 论文代码:https:github.comRikoroseDeepFilterNet 引用:Schrö
博客作者:凌逆战 论文地址:DeepFilterNet:基于深度滤波器的全频带音频低复杂度语音增强框架 论文代码:https://github.com/Rikorose/DeepFilterNet 引用:Schröter H, Rosenkranz T, Maier A. DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering[J]. arXiv preprint arXiv:2110.05588, 2021. 摘要   复数处理将基于深度学习的语音增强和信号提取提升到一个新的水平。通常,将时频 (TF) 掩膜应用于噪声频谱,而复数掩模(CM)通常比实值掩模更受青睐,因为它们能够修改相位。最近的工作提出用一个复数滤波器代替掩码的逐点乘法。这允许利用每个频带内的局部相关性,将以前和将来的时间步长的信息合并到一起。   在这项工作中,我们提出了DeepFilterNet,一个利用深度滤波器的两阶段语音增强框架。首先,我们使用模拟人类频率感知的 ERB-scale gain来增强频谱包络。第二阶段采用Deep filtering 增强语音的周期性成分。除了利用语音的感知特性之外,我们还通过深度分离卷积、分组线性网络、分组循环网络 来强制网络稀疏性,以设计一个低复杂度的架构。   我们进一步表明,我们的两阶段深度滤波方法在各种频率分辨率和延迟上都优于复数掩码,并且与其他最先进的模型相比,表现出令人信服的性能。 关键词:deep filtering、语音增强 1 引言   单声道语音增强是许多系统的重要组成部分,如自动语音识别、视频会议系统以及辅助听设备。大多数最先进的方法都是在短时傅里叶变换(STFT)表示中工作,并使用深度神经网络估计TF mask,其中许多是实值掩模[1,2,3]或复数掩模[4,5,6,7]。为了提高网络训练的稳定性,估计的掩码通常是定义良好的,并受一个上界的限制(0~1)。然而,通常情况下,这两种方法都会降低频率分辨率,以消除语音谐波之间的噪声。上述方法在至少20 ms的窗口上工作,导致最低频率为50 Hz。   在本文中,我们提出了一个基于深度滤波器(DF)的开源语音增强框架[8,9]。我们使用实值增益和深度滤波器组合,而不是在每个TF-bin上应用复数掩模。第一阶段,因为噪声和语音通常有一个平滑的频谱包络。我们使用一个等效的矩形带宽(Equivalent Rectangular Bandwidth,ERB)滤波器组将输入和输出size降低到只有32个频带,并设计一个计算量小的编码器/解码器网络。由于最终得到的100 Hz到250 Hz的最小带宽(取决于FFT size)通常不足以增强周期分量。因此在第二阶段,我们使用深度滤波器网络估计频率区间的系数,直到频率上限$f_{DF}$。将得到的线性复数滤波器应用于它们相应的频率区间。 DF 增强仅适用于较低频率,因为周期性语音分量在较低频率中包含大部分能量。   深度滤波器首先由Mack et al.[8]和Schr oter et al.[9]提出。由于滤波器应用于多个T-F bin,DF能够恢复信号退化,如缺口滤波器(notch-filters)或时间帧归零(time-frame zeroing)。Schroter等人[9]将这种方法作为复杂线性编码(Complex Linear Coding,CLC)引入到低延迟助听器的应用中。CLC的动机是它能够模拟语音的准静态特性。也就是说,即使在500 Hz的频率带宽下,CLC也能够在一个频带内降低噪声,同时保留语音成分。当一个频率库中有多个语音谐波或用于过滤周期性噪声时,这特别有用。最近的工作表明,[7]使用深度滤波器在深度噪声抑制挑战[10]中表现良好。然而,与他们之前使用复杂比率掩码(CRM)的工作[11]相比,他们的改进主要是通过网络架构的改变,如复数 LSTM或卷积。   在这项工作中,我们证明了从4 ms到30 ms的多种FFT大小的CRMs深度滤波器的优越性能。我们进一步表明,即使对于低延迟要求,例如5毫秒,从而产生250 Hz的频率分辨率($\triangle f=\frac{f_s}{N}=\frac{1}{t}$,其中采样频率为$f_s$,采样时间间隔为t,采样点数为N),DF仍然可以增强周期性语音成分。 2 DeepfilterNet 2.1 信号模型   设$x(t)$为在嘈杂房间中录制的混合信号。
阅读全文