2022年腾讯DNS挑战赛,TEA-PSE语音增强系统,是腾讯幻音实验室的个性化语音增强吗?
摘要:论文地址:TEA-PSE: 用于ICASSP 2022 DNS挑战赛的Tencent-ethereal-audio-lab 个性化语音增强系统 论文代码: 引用格式:Ju Y, Rao W, Yan X, et al. TEA-PSE: T
论文地址:TEA-PSE: 用于ICASSP 2022 DNS挑战赛的Tencent-ethereal-audio-lab 个性化语音增强系统
论文代码:
引用格式:Ju Y, Rao W, Yan X, et al. TEA-PSE: Tencent-ethereal-audio-lab personalized speech enhancement system for ICASSP 2022 DNS CHALLENGE[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 9291-9295.
摘要
本文介绍了 Tencent Ethereal Audio Lab 提交给ICASSP 2022深度噪声抑制(DNS)挑战赛第2赛道的个性化语音增强(TEAPSE)系统。我们的系统结合了双级网络,这是一个卓越的实时语音增强框架和ECAPA-TDNN speaker embedding 网络,实现了最先进的说话人验证性能。双级网络旨在将原始语音增强问题解耦为多个更简单的子问题。具体而言,
在阶段1,只估计目标语音的幅度,并将其与噪声相位合并,得到粗略的复频谱估计。
在阶段2,辅助网络作为后处理模块,进一步抑制残余噪声和干扰语音,并有效地修改相位信息。
利用非对称损失函数惩罚过度抑制,保留了更多的目标语音,有利于语音识别性能和主观听觉。我们的系统在挑战盲测试集的总体音频质量(OVRL) MOS达到3.97,单词精度(WAcc)达到0.69,比DNS基线高出0.57 OVRL,在轨道2中排名第一。
指标术语:个性化语音增强,两级网络,ECAPA-TDNN,实时
1 引言
个性化语音增强(PSE),又称说话人提取,是利用目标说话人的登记语音,从复杂的多说话人噪声和混响信号中提取目标说话人的语音。当系统需要对特定的目标说话者作出响应时,PSE非常有用。它可以广泛应用于实时通信(RTC)、说话人分类、自动语音识别等领域。
最新的ICASSP 2022 DNS挑战赛[1]旨在推动全频段实时语音增强任务。除了感知语音质量要求外,DNS还将单词精度(WAcc)作为后端ASR应用的重要评估指标。针对实时全频带语音通信,DNS挑战赛有两个轨道 非个性化DNS(轨道1)和个性化DNS(轨道2),本文主要关注轨道2。与非实时PSE方法不同[2,3,4,5,6,7],实时PSE方法需要具体考虑模型大小、推理时间和有限的未来信息的要求。近年来,许多实时PSE方法被提出,如Voicefilter-lite [8], pDCCRN [9], personalized PercepNet[10]等,带来了优越的性能。然而,实际应用环境是复杂多变的。算法不仅需要处理噪音和混响,还必须考虑干扰说话人。尽管有了说话人信息的帮助,但单个实时PSE模型的能力仍然有限,噪声和干扰抑制还不完善。近年来,多阶段方法被引入并在语音增强中取得了巨大成功[11,12]。在多阶段方法中,每个阶段模型只关注一个任务,通常由一个显式损失函数指导。对前一阶段模型进行预处理后,后一阶段模型的增强输入更加清晰简单,在自身任务上分配更准确的计算能力。
在[11]中,第一级网络用于估计带噪语音幅值,第二级网络用于估计第一级输出的剩余实部和虚部。
spex++[13]中,首先将第一级网络的输出发送到说话人编码器网络,得到另一个新的speaker embedding,然后将增强语音和两个speaker embedding馈送到第二级网络,进一步抑制残留噪声和干扰语音。
受多阶段方法成功的启发,本文研究了该方法在个性化语音增强任务中的可行性。具体来说,在我们的方法中,第一阶段是粗略估计目标语音的幅度,第二阶段是进一步抑制残留噪声和干扰语音,并修改目标语音的相位信息。我们还探讨了功率压缩(PC)[14]对PSE任务的影响。此外,考虑到挑战中的ASR评估指标,我们的TEA-PSE提交系统特别采用了非对称(Asym)损失[9],以缓解过度抑制可能导致更多语音识别错误的影响。我们的TEA-PSE提交系统最终在ICASSP 2022 DNS挑战赛的盲测集上达到了4.19 SIG, 4.55 BAK, 3.97 OVRL和0.69 WAcc,在第二轨道中排名第一。
2 提出的TEA-PSE系统
本文提出的TEA-PSE系统主要由说话人编码器和语音增强两个模块组成。具体来说,我们采用ECAPA-TDNN网络[15]作为说话人编码器,并研究了一种用于语音增强的双级网络。
