THLNet:单声道语音增强的异构轻量级网络,2023年版本,有何特点?
摘要:论文地址:THLNet: 用于单耳语音增强的两级异构轻量级网络 代码:https:github.comdangf15THLNet 引用格式:Dang F, Hu Q, Zhang P. THLNet: two-stage heter
论文地址:THLNet: 用于单耳语音增强的两级异构轻量级网络
代码:https://github.com/dangf15/THLNet
引用格式:Dang F, Hu Q, Zhang P. THLNet: two-stage heterogeneous lightweight network for monaural speech enhancement[J]. arXiv preprint arXiv:2301.07939, 2023.
博客作者:凌逆战(引用请注明出处)
摘要
本文提出了一种用于单声道语音增强的两阶段异构轻量级网络。具体地,本文设计了一个两阶段的框架,包括粗粒度的全频带掩码估计阶段和细粒度的低频细化阶段。本文使用一种新的可学习复数矩形带宽(learnable complex-valued rectangular bandwidth,LCRB)滤波器组作为紧凑特征提取器,而不是使用手工设计的实值滤波器。此外,考虑到两阶段任务各自的特点,我们使用了异构结构,即U型子网络作为CoarseNet的主干,单尺度子网络作为FineNet的主干。在VoiceBank + DEMAND和DNS数据集上进行了实验。实验结果表明,所提方法在保持相对较小的模型尺寸和较低的计算复杂度的同时,性能优于当前最先进的方法。
索引项:语音增强,两阶段异构结构,轻量化模型,可学习复数矩形带宽滤波器组
1 引言
语音增强(Speech enhancement, SE)是一种旨在通过去除噪声[1]来提高带噪语音质量和可懂度的语音处理方法。它通常用作自动语音识别、助听器和电信的前端任务。近年来,深度神经网络(deep neural networks, DNNs)在社会工程研究中的应用受到越来越多的关注。
许多基于DNN的方法[2,3,4,5]在SE任务中取得了令人印象深刻的性能,但它们的性能提高伴随着模型开销的增加。因此,最先进的(SOTA)模型通常太大,无法部署在具有实际应用程序的设备上。最近提出了几种方法,通过使用紧凑的特征来解决这个问题。在RNNoise[6]和PercepNet[7]中,分别使用bark滤波器组和三角滤波器组对频谱进行压缩。这些滤波器组保留了对人类感知更重要的频域信息,有效降低了输入特征的维度,从而降低了神经网络模型的复杂性。基于PercepNet的DeepFilterNet[8]算法首先利用ERB尺度增益增强频谱包络,然后利用DeepFilter[9]进一步增强初步增强频谱的周期部分。然而,基于紧凑特征的工作通常使用专家手工设计的滤波器来导出紧凑的实值特征,没有利用相位信息。
多阶段学习(multi-stage learning, MSL)遵循"分而治之"的思想,将一项困难的任务分解为多个简单的子问题,以增量方式获得更好的解,在许多领域表现出比单阶段方法更好的性能,如图像修复[10]和图像去噪[11]。最近,MSL也被应用于语音前端任务,取得了很好的结果[4,12,13]。虽然这些方法也将任务划分为更容易建模的子任务,并取得了良好的性能,但这些模型的每个阶段本质上都是在高维STFT特征上工作的,导致了大量的参数和计算工作量。
在此背景下,本文研究对设计有效的轻量级SE框架有以下贡献:
本文提出一种结合两阶段任务和轻量级方法的框架,能够以较低的模型开销实现与SOTA方法相当的性能。具体而言,本文设计了一个两阶段模型,包括粗粒度的全频带掩模估计阶段和细粒度的低频细化阶段。本文使用一种新的可学习复数矩形带宽(LCRB)滤波器组作为紧凑特征提取器,而不是使用手工设计的实值滤波器。
采用互补特征处理的思想,并考虑所提出的两阶段任务各自的特点,使用U型子网络作为CoarseNet的主干,使用单尺度子网络作为FineNet的主干。
为了验证所提方法的优越性,在两个公开测试集上将所提模型与单阶段backbone模型和其他SOTA系统进行了比较。实验结果表明,该模型在大大减少参数和计算量的情况下取得了与单阶段backbone模型相当的效果,并优于SOTA模型。
2 提出的算法
我们提出的系统示意图如图1所示。它由一个LCRB滤波器组和两个子网络组成。
图1:拟议系统概述
在第一阶段,CoarseNet将LCRB尺度下的紧凑特征作为输入,预测一个LCRB尺度下的复数掩码$\tilde{M} ^{LCRB}$。
