2021_FullSubNet：实时单通道语音增强，全频段与子频段融合模型，有何独特之处？

摘要：论文地址：Fullsubnet：实时单通道语音增强的全频带和子频带融合模型代码地址：https:github.comhaoxiangsnrFullSubNet 引用格式：Hao X, Su X, Horaud R, et al.

论文地址：Fullsubnet：实时单通道语音增强的全频带和子频带融合模型代码地址：https://github.com/haoxiangsnr/FullSubNet 引用格式：Hao X, Su X, Horaud R, et al. FullSubNet: A Full-Band and Sub-Band Fusion Model for Real-Time Single-Channel Speech Enhancement[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 6633-6637. 摘要　　本文提出了一种全频带和子频带融合模型FullSubNet 用于单通道实时语音增强。全频带和子频带模型是指分别输入全频带和子频带带噪频谱特征，输出全频带和子频带纯净语音。全频带模型是指，输入全频带带噪语音频谱，输出全频带预测纯净语音的模型。子频带模型独立处理每个频率bin，输入一个频率和几个上下文频率，输出相应频率的纯净语音预测。这两种模型有不同的特点。全频带模型可以捕获全局上下文谱和长距离交叉频带依赖，但缺乏信号平稳性建模和关注局部谱模式的能力。子带模型正好相反。　　在我们提出的FullSubNet中，我们将一个纯全频带模型和一个纯子频带模型依次连接起来，并利用实际的联合训练将这两种模型的优点结合起来。我们在DNS挑战(INTERSPEECH 2020)数据集上进行了实验，对所提出的方法进行了评价。实验结果表明，全频带信息和子频带信息是互补的，FullSubNet可以有效地集成它们。此外，FullSubNet的性能也超过了DNS Challenge (INTERSPEECH 2020)中排名第一的方法。关键词：全频带，子频带融合，子频带，语音增强 1 引言　　近年来，基于深度学习的单通道语音增强方法极大地提高了语音增强系统的语音质量和可懂度。这些方法通常在有监督的环境中进行训练，可分为时域方法和频域方法。时域方法[1-3]使用神经网络直接将带噪语音映射纯净语音波形。频域方法[4-7]通常使用噪声频谱特征（例如复频谱、幅度频谱）作为神经模型的输入。学习目标是纯净语音的频谱特征或某个掩码（例如，理想二进制掩码(Ideal Binary Mask, IBM)[8]、理想比率掩码(Ideal Ratio Mask, IRM)[9]、复理想比率掩码(complex Ideal Ratio Mask, cIRM)[10]）。一般来说，由于时域信号的维度较高并且缺乏明显的几何结构，频域方法仍然占据绝大多数语音增强方法的主导地位。时域方法的映射能力较强，频域方法的泛化能力更强。　　在本文中，我们重点研究了频域实时单通道语音增强。在我们之前的工作[11]中，提出了一种基于子带的单通道语音增强方法。与传统的基于全频带的方法不同，该方法以子频带方式执行：模型的输入由一个频率和多个上下文频率组成。输出是对应频率的纯净语音。所有频率都是独立处理的。该方法的设计依据如下：它学习信号的频率平稳性来区分语音和平稳噪声。众所周知，语音是非平稳的，而许多类型的噪声是相对平稳的。随频率变化的STFT幅值的时间演化反映了平稳性，这是传统噪声功率估计器[12, 13]和语音增强方法[14, 15]的基础。它着重于当前和上下文频率中呈现的局部频谱。局部谱模式已被证明是区分语音和其他信号的有用信息。该方法在INTERSPEECH 2020中提交给DNS挑战[16]，并在16份实时音频提交中排名第四。　　子带模型满足了DNS挑战的实时性要求，性能也非常有竞争力。然而，子带模型不能对全局频谱进行建模，也不能利用长距离跨频带依赖性。特别是对于信噪比极低的子带，子带模型很难恢复纯净的语音，而借助于全频带相关性可以恢复纯净语音。另一方面，全频带模型[4,5]的训练是学习高维输入和输出之间的回归，缺乏专门用于子频带信息（如信号平稳性）的机制。　　针对上述问题，本文提出了一种全频带与子频带融合模型FullSubNet。通过大量的前期实验，将FullSubNet设计成全频带模型和子频带模型的串联。简而言之，全频带模型的输出是子频带模型的输入。通过有效的联合训练，对两种模型进行了联合优化。FullSubNet可以捕获全局(全频带)上下文，同时保留对信号平稳性进行建模和关注局部频谱模式的能力。像子带模型一样，FullSubNet仍然满足实时需求，并且可以在合理的延迟内利用未来的信息。

2021_FullSubNet：实时单通道语音增强，全频段与子频段融合模型，有何独特之处？

相关推荐