2022_TEA-PSE 2.0：实时个性化语音增强的子带网络是何技术？

摘要：论文地址：TEA-PSE 2.0：用于实时个性化语音增强的子带网络引用：Ju Y, Zhang S, Rao W, et al. Tea-pse 2.0: Sub-band network for real-time personaliz

论文地址：TEA-PSE 2.0：用于实时个性化语音增强的子带网络引用：Ju Y, Zhang S, Rao W, et al. Tea-pse 2.0: Sub-band network for real-time personalized speech enhancement[C]//2022 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2023: 472-479. 摘要　　个性化语音增强(Personalized speech enhancement，PSE)利用额外的线索，如说话人embeddings来去除背景噪声和干扰语音，并从目标说话人提取语音。此前，Tencent - Ethereal - Audio - Lab个性化语音增强(TEA-PSE)系统在ICASSP 2022深度噪声抑制(DNS2022)挑战赛中排名第一。在本文中，我们将TEA-PSE扩展到它的子带版本TEA-PSE 2.0，以降低计算复杂度并进一步提高性能。具体来说，我们采用有限脉冲响应滤波器组和频谱分割来降低计算复杂度。我们在系统中引入了时频卷积模块(TFCM)，用小的卷积核来增加感受野。此外，我们探索了几种训练策略来优化两级网络，并研究PSE任务中的各种损失函数。在语音增强性能和计算复杂度方面，TEA-PSE 2.0明显优于TEA-PSE。在DNS 2022盲测试集上的实验结果表明，与之前的TEA-PSE相比，TEA-PSE 2.0提高了0.102 OVRL个性化DNS MOS，仅进行了21.9%的乘法-累积操作。索引术语：个性化语音增强，子带，实时，深度学习 1 引言　　实时通信(RTC)在我们的日常生活中变得不可或缺。然而，语音质量受到背景噪声、混响、背景说话人的语音等影响。有效的语音增强在RTC系统中起着重要的作用。传统的语音增强主要是去除背景噪声和混响。它不能过滤掉干扰的说话人。为此，我们提出了个性化语音增强(PSE)[1 4]，根据目标说话人录入的语音片段，从所有其他说话人和背景噪声中提取目标说话人的声音。　　最新的ICASSP 2022 DNS挑战赛[5]旨在推广全频段实时个性化语音增强任务。TEA-PSE[6]通过专门设计的两阶段框架在ICASSP 2022 DNS个性化语音增强评估集上获得优异的性能。但它具有27.84 G每秒的乘法累积运算(mac)的高计算复杂度，并直接对全频段信号执行，实时因子(RTF)为0.96。此外，TEA-PSE中使用的编码器-解码器结构不能有效地捕获长程相关性，因为根据[7]，卷积的感受野受到限制。　　为了降低计算复杂度，第一种方法是特征压缩。例如，RNNoise[8]和Personalized PercepNet[9]分别使用Bark-scale和等效矩形带宽(ERB) scale压缩全频带输入特征。这种特征压缩方法不可避免地会丢失关键的频段信息，导致性能不佳。第二种方法是频谱分割，这在最近的语音增强(SE)研究中很常见。Lv et al.[10]和Li et al.[11]在短时傅里叶变换(STFT)后进行频谱分裂，将堆叠的子带作为批处理，而不是直接对全带特征进行建模。与这些批处理方法不同，DMF-Net[12]和SF-Net[13]采用级联结构的频谱分裂。在处理较高频带时，预处理过的较低频带会给出外部知识引导。第三种方法是基于有限脉冲响应(FIR)的子带分析与合成，该方法可以有效降低经典数字信号处理[14]的带宽。多频带WaveRNN[15]和多频带MelGAN[16]在文本到语音(TTS)任务的子带处理中获得了较高的MOS效果。这种用于音乐源分离(MSS)任务的子带处理[17]明显优于全带处理。　　另一方面，最近的多阶段方法在直观的假设下，将原来复杂的语音增强问题分解为多个更简单的子问题，并在每个阶段逐步得到更好的解的前提下，表现出了优异的性能。尽管有专门设计的模型体系结构，我们也注意到这些方法中采用的优化策略是非常不同的。具体来说，SDD-Net[18]和TEA-PSE[6]在训练当前模块时冻结前一阶段的模块。不同的是，CTS-Net[19]以较低的学习率对前面的模块进行微调。Wang et al.[20]在分阶段训练的基础上，采用端到端的训练方法，用一个损失函数同时优化不同的模块。多阶段训练方法的最佳训练策略有待进一步的比较研究。　　在本文中，我们提出了TEA-PSE 2.0，以进一步提高感知语音质量，同时显著抑制噪声和干扰，降低计算复杂度。我们的贡献是三重的。首先，我们利用设计的FIR滤波器和直接频谱分割扩展了原始TEA-PSE模型的子带处理。

2022_TEA-PSE 2.0：实时个性化语音增强的子带网络是何技术？

相关推荐