2021年,Tiny Recurrent U-Net如何实现实时降噪和回声消除?

摘要:论文地址:微型循环U-Net实时降噪和去混响 论文代码: https:github.comYangangCaoTRUNet https:github.comOkriotinyrecurrentunet 引用格式:Choi H
论文地址:微型循环U-Net实时降噪和去混响 论文代码: https://github.com/YangangCao/TRUNet https://github.com/Okrio/tinyrecurrentunet 引用格式:Choi H S, Park S, Lee J H, et al. Real-Time Denoising and Dereverberation wtih Tiny Recurrent U-Net[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 5789-5793. 摘要   现代基于深度学习的模型在语音增强任务中表现出了显著的改进。然而,对于现实世界的应用程序来说,最先进的模型的参数数量往往过于庞大,无法部署到设备上。为此,我们提出了微型循环U-Net(Tiny Recurrent U-Net,TRU-Net),这是一个轻量级的在线推理模型,与当前最先进的模型性能相匹配。TRU-Net的量化版本大小为362k字节,小到可以部署在边缘设备上。此外,我们将小尺寸模型与一种新的掩码方法(phase-aware β-sigmoid mask)相结合,它可以同时去噪和去everberation。客观和主观评估的结果表明,我们的模型可以在基准数据集上使用更少的参数达到与当前最先进的模型竞争的性能。 关键词:实时语音增强,轻量级网络,去噪,去混响 1 引言   在本文中,我们专注于开发一个基于深度学习的语音增强模型,该模型适用于现实世界的应用,满足以下条件: 1、一个小而快速的模型,可以尽可能减少单帧实时因子(RTF),同时保持与最先进的深度学习网络的竞争性能, 2、一个可以同时进行去噪和解噪的模型。   为了解决第一个问题,我们的目标是改进一种流行的神经结构(U-Net[1]),它已经证明在语音增强任务中具有卓越的性能[2,3,4]。以往使用U-Net进行源分离的方法不仅在频率维度上应用卷积,而且在时间维度上也应用卷积。U-Net的这种非因果性质增加了计算复杂性,因为需要对过去和未来帧进行额外的计算来推断当前的框架。因此,它不适用于需要实时处理当前帧的在线推理场景。此外,时间维度使得网络计算效率低下,因为在U-Net的编码和解码路径中相邻帧之间都存在冗余计算。为了解决这一问题,我们提出了一种适用于在线语音增强的神经网络结构——微型循环U-Net (Tiny Recurrent U-Net, TRU-Net)。该体系结构旨在实现频率维度和时间维度计算的有效解耦,从而使网络足够快,能够实时处理单个帧。该网络的参数数量仅为0.38M,不仅可以部署在笔记本电脑上,还可以部署在移动设备上,甚至可以部署在结合量化技术[5]的嵌入式设备上。TRU-Net的详细信息在第2节中有更多的描述。   接下来,为了同时抑制噪声和混响,我们提出了一种相位感知 B-sigmoid 掩码 (PHM)。 所提出的 PHM 受到 [6] 的启发,其中作者建议通过从三角函数的角度重用估计的幅度掩码值来估计相位。 PHM 与 [6] 中的方法的主要区别在于 PHM 旨在尊重混合、目标源和剩余部分之间的三角关系,因此估计的目标源和剩余部分的总和始终相等 到混合物。 我们通过同时生成两个不同的 PHM 将该属性扩展到四边形,这使我们能够有效地处理去噪和去混响。 我们将在第 3 节中更详细地讨论 PHM。 2 Tiny循环U-Net 2.1 PCEN特征作为输入   语谱图可能是许多语音增强模型中最流行的输入特性。每通道能量归一化(PCEN)[7]结合了动态范围压缩和自动增益控制,在应用于频谱图[8]时降低了前景响度的方差并抑制了背景噪声。PCEN也适用于在线推理场景,因为它包括一个时间积分步骤,它本质上是一个一阶无限脉冲响应滤波器,仅依赖于前一个输入帧。在这项工作中,我们采用可训练版本的PCEN。 2.2 网络结构   TRU-Net 基于 U-Net 架构,只在频率维度上卷积,在时间维度上不卷积。因此,它可以被认为是一个频率轴的U-Net,瓶颈层是一维卷积神经网络(cnn)和循环神经网络。编码器由一维卷积神经网络 (1D-CNN) 块和频率维度门控循环单元 (FGRU) 块组成。每个 1D-CNN 块都是类似于 [9] 的点卷积和深度卷积(就是深度可分离卷积),除了第一层使用标准卷积操作而没有前面的pointwise convolution。
阅读全文