2022_TEA-PSE 2.0:实时个性化语音增强的子带网络是何技术?

摘要:论文地址:TEA-PSE 2.0:用于实时个性化语音增强的子带网络 引用:Ju Y, Zhang S, Rao W, et al. Tea-pse 2.0: Sub-band network for real-time personaliz
论文地址:TEA-PSE 2.0:用于实时个性化语音增强的子带网络 引用:Ju Y, Zhang S, Rao W, et al. Tea-pse 2.0: Sub-band network for real-time personalized speech enhancement[C]//2022 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2023: 472-479. 摘要   个性化语音增强(Personalized speech enhancement,PSE)利用额外的线索,如说话人embeddings来去除背景噪声和干扰语音,并从目标说话人提取语音。此前,Tencent - Ethereal - Audio - Lab个性化语音增强(TEA-PSE)系统在ICASSP 2022深度噪声抑制(DNS2022)挑战赛中排名第一。在本文中,我们将TEA-PSE扩展到它的子带版本TEA-PSE 2.0,以降低计算复杂度并进一步提高性能。具体来说,我们采用有限脉冲响应滤波器组和频谱分割来降低计算复杂度。我们在系统中引入了时频卷积模块(TFCM),用小的卷积核来增加感受野。此外,我们探索了几种训练策略来优化两级网络,并研究PSE任务中的各种损失函数。在语音增强性能和计算复杂度方面,TEA-PSE 2.0明显优于TEA-PSE。在DNS 2022盲测试集上的实验结果表明,与之前的TEA-PSE相比,TEA-PSE 2.0提高了0.102 OVRL个性化DNS MOS,仅进行了21.9%的乘法-累积操作。 索引术语:个性化语音增强,子带,实时,深度学习 1 引言   实时通信(RTC)在我们的日常生活中变得不可或缺。然而,语音质量受到背景噪声、混响、背景说话人的语音等影响。有效的语音增强在RTC系统中起着重要的作用。传统的语音增强主要是去除背景噪声和混响。它不能过滤掉干扰的说话人。为此,我们提出了个性化语音增强(PSE)[1 4],根据目标说话人录入的语音片段,从所有其他说话人和背景噪声中提取目标说话人的声音。   最新的ICASSP 2022 DNS挑战赛[5]旨在推广全频段实时个性化语音增强任务。TEA-PSE[6]通过专门设计的两阶段框架在ICASSP 2022 DNS个性化语音增强评估集上获得优异的性能。但它具有27.84 G每秒的乘法累积运算(mac)的高计算复杂度,并直接对全频段信号执行,实时因子(RTF)为0.96。此外,TEA-PSE中使用的编码器-解码器结构不能有效地捕获长程相关性,因为根据[7],卷积的感受野受到限制。   为了降低计算复杂度, 第一种方法是特征压缩。例如,RNNoise[8]和Personalized PercepNet[9]分别使用Bark-scale和等效矩形带宽(ERB) scale压缩全频带输入特征。这种特征压缩方法不可避免地会丢失关键的频段信息,导致性能不佳。 第二种方法是频谱分割,这在最近的语音增强(SE)研究中很常见。Lv et al.[10]和Li et al.[11]在短时傅里叶变换(STFT)后进行频谱分裂,将堆叠的子带作为批处理,而不是直接对全带特征进行建模。与这些批处理方法不同,DMF-Net[12]和SF-Net[13]采用级联结构的频谱分裂。在处理较高频带时,预处理过的较低频带会给出外部知识引导。 第三种方法是基于有限脉冲响应(FIR)的子带分析与合成,该方法可以有效降低经典数字信号处理[14]的带宽。多频带WaveRNN[15]和多频带MelGAN[16]在文本到语音(TTS)任务的子带处理中获得了较高的MOS效果。这种用于音乐源分离(MSS)任务的子带处理[17]明显优于全带处理。   另一方面,最近的多阶段方法在直观的假设下,将原来复杂的语音增强问题分解为多个更简单的子问题,并在每个阶段逐步得到更好的解的前提下,表现出了优异的性能。尽管有专门设计的模型体系结构,我们也注意到这些方法中采用的优化策略是非常不同的。具体来说,SDD-Net[18]和TEA-PSE[6]在训练当前模块时冻结前一阶段的模块。不同的是,CTS-Net[19]以较低的学习率对前面的模块进行微调。Wang et al.[20]在分阶段训练的基础上,采用端到端的训练方法,用一个损失函数同时优化不同的模块。多阶段训练方法的最佳训练策略有待进一步的比较研究。   在本文中,我们提出了TEA-PSE 2.0,以进一步提高感知语音质量,同时显著抑制噪声和干扰,降低计算复杂度。我们的贡献是三重的。首先,我们利用设计的FIR滤波器和直接频谱分割扩展了原始TEA-PSE模型的子带处理。
阅读全文