How can we implement lightweight online noise reduction on embedded devices using hierarchical recurrent neural networks in 2020

摘要:论文地址:基于分层递归神经网络的嵌入式设备轻量化在线降噪 引用格式:Schröter H, Rosenkranz T, Zobel P, et al. Lightweight Online Noise Reduct
论文地址:基于分层递归神经网络的嵌入式设备轻量化在线降噪 引用格式:Schröter H, Rosenkranz T, Zobel P, et al. Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural Networks[J]. arXiv preprint arXiv:2006.13067, 2020. 摘要   基于深度学习的降噪算法已经证明了它们的成功,尤其是对非平稳噪声,这使得它们也可以用于嵌入式设备,如助听器(HAs)。然而,用最先进的方法,这目前是不可能的。它们要么需要大量参数和计算能力,因此只有使用现代cpu才可行。或者它们不适合在线处理,这需要滤波器组和算法本身的低延迟等约束。   在这项工作中,我们提出了一种基于掩模的降噪方法。使用分层循环神经网络,我们能够大大减少每层神经元的数量,同时通过分层连接包括时间上下文。这使我们能够优化我们的模型,使其参数和浮点操作(FLOPs)的数量最小化,同时与以前的工作相比保持降噪质量。我们的最小网络只包含5k个参数,这使得该算法适用于嵌入式设备。我们在EUROM和真实噪声数据库的混合基础上评估我们的模型,并报告未经训练噪声的客观指标。 索引术语:语音增强,降噪,循环神经网络,嵌入式设备 1 引言   降噪(NR)旨在减少不必要的环境噪音,如街道噪音,并增强叠加语音信号。NR是现代助听器的一个重要功能。最近,基于深度学习的单耳语音增强方法[1,2,3,4,5]取得了与传统噪声抑制方法[6,7]相比的巨大改进。这使得将这些方法合并到HAs中是可取的。然而,这些采用深度神经网络的算法对内存和计算能力都有很大的要求。此外,许多算法以离线的方式处理噪声信号[8,2,9,10,11]或引入较大的延迟,这在HAs上是不可行的。根据Jeremy et al.[12],通常可接受的最大延迟是10毫秒。有一个开放的声学耦合,较大的延迟引入恼人的梳状滤波器效应,由于叠加处理和直接信号。   Valin[13]和Aubreville[3]提出了接近实时和在线处理约束的方法。Valin等人[13]使用RNN处理20毫秒窗口,50%重叠,采样率为48 kHz。为了降低模型的复杂性,他们使用了类似于bark scale,这进一步降低了输入和输出单元的数量。这导致了一个包含88.5 k参数和大约每秒40 MFLOPs的网络。虽然该算法能够在树莓派上实时处理数据,并以在线方式处理数据,但引入的延迟大于20毫秒,这对于我们的要求太长了。     Aubreville等人[3]采用了一种听觉仪器级滤波器组,它引入了大约6毫秒的综合分析和合成延迟。此外,它们还包括了2毫秒的未来上下文,从而导致了8毫秒的整体延迟。然而,他们使用一个包含约28.6 M参数的全连接网络预测了Wiener增益,仅算法每秒产生约57.3 GFLOPs,不包括滤波器组计算。   在这项工作中,我们考虑了低延迟要求(10ms),并进一步关注参数和FLOPs的减少。为了实现我们的目标,我们采用了具有低频谱分辨率的均匀多相滤波器组。我们以大约6ms的帧为基础,以1ms的帧移处理数据(第2节)。使用RNN cell,如门控递归单元(GRU)或长-短期记忆(LSTM)细胞,能够捕获长期和短期相关性,但它们需要足够的参数,并且很难训练。为了能够减少参数数量,从而减少重复状态的隐藏状态,我们使用层次(hierarchical)结构来合并1 ms的短期时间上下文。这允许我们使用最多只有12个隐藏单元的GRU单元。我们在EUROM数据库中报告了第3节中使用助听器设备记录的260个德语句子和49个真实世界噪声信号的结果。此外,我们还提供了与传统方法以及使用相同处理工具链的先前工作的比较。我们在第4节中分析了我们模型的复杂性,并为FLOP估计提供了计算基础和假设。 2信号处理工具链   我们使用标准的均匀多相滤波器组(uniform polyphase filter bank)将时域信号转换为时间/频率(TF)域。分析窗口在24 kHz采样率下工作,以大约6 ms的帧为基础处理输入信号,偏移(hop)为1 ms。该滤波器组确保了我们的低延迟要求,但导致48个频率区间的低分辨率频谱表示。   降噪系统的信号框图如图1所示。我们将复数滤波器组表示转换为分贝尺度,并使用指数平均对其进行归一化。噪声降低本身通过实值掩码在Bark压缩频谱表示上执行。RNN使用幅度谱近似(MSA)损失进行训练[14]。 图1:处理工具链。
阅读全文