2022年腾讯DNS挑战赛，TEA-PSE语音增强系统，是腾讯幻音实验室的个性化语音增强吗？

摘要：论文地址：TEA-PSE: 用于ICASSP 2022 DNS挑战赛的Tencent-ethereal-audio-lab 个性化语音增强系统论文代码：引用格式：Ju Y, Rao W, Yan X, et al. TEA-PSE: T

论文地址：TEA-PSE: 用于ICASSP 2022 DNS挑战赛的Tencent-ethereal-audio-lab 个性化语音增强系统论文代码：引用格式：Ju Y, Rao W, Yan X, et al. TEA-PSE: Tencent-ethereal-audio-lab personalized speech enhancement system for ICASSP 2022 DNS CHALLENGE[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 9291-9295. 摘要　　本文介绍了 Tencent Ethereal Audio Lab 提交给ICASSP 2022深度噪声抑制(DNS)挑战赛第2赛道的个性化语音增强(TEAPSE)系统。我们的系统结合了双级网络，这是一个卓越的实时语音增强框架和ECAPA-TDNN speaker embedding 网络，实现了最先进的说话人验证性能。双级网络旨在将原始语音增强问题解耦为多个更简单的子问题。具体而言，在阶段1，只估计目标语音的幅度，并将其与噪声相位合并，得到粗略的复频谱估计。在阶段2，辅助网络作为后处理模块，进一步抑制残余噪声和干扰语音，并有效地修改相位信息。　　利用非对称损失函数惩罚过度抑制，保留了更多的目标语音，有利于语音识别性能和主观听觉。我们的系统在挑战盲测试集的总体音频质量(OVRL) MOS达到3.97，单词精度(WAcc)达到0.69，比DNS基线高出0.57 OVRL，在轨道2中排名第一。指标术语：个性化语音增强，两级网络，ECAPA-TDNN，实时 1 引言　　个性化语音增强(PSE)，又称说话人提取，是利用目标说话人的登记语音，从复杂的多说话人噪声和混响信号中提取目标说话人的语音。当系统需要对特定的目标说话者作出响应时，PSE非常有用。它可以广泛应用于实时通信(RTC)、说话人分类、自动语音识别等领域。　　最新的ICASSP 2022 DNS挑战赛[1]旨在推动全频段实时语音增强任务。除了感知语音质量要求外，DNS还将单词精度(WAcc)作为后端ASR应用的重要评估指标。针对实时全频带语音通信，DNS挑战赛有两个轨道非个性化DNS(轨道1)和个性化DNS(轨道2)，本文主要关注轨道2。与非实时PSE方法不同[2,3,4,5,6,7]，实时PSE方法需要具体考虑模型大小、推理时间和有限的未来信息的要求。近年来，许多实时PSE方法被提出，如Voicefilter-lite [8]， pDCCRN [9]， personalized PercepNet[10]等，带来了优越的性能。然而，实际应用环境是复杂多变的。算法不仅需要处理噪音和混响，还必须考虑干扰说话人。尽管有了说话人信息的帮助，但单个实时PSE模型的能力仍然有限，噪声和干扰抑制还不完善。近年来，多阶段方法被引入并在语音增强中取得了巨大成功[11,12]。在多阶段方法中，每个阶段模型只关注一个任务，通常由一个显式损失函数指导。对前一阶段模型进行预处理后，后一阶段模型的增强输入更加清晰简单，在自身任务上分配更准确的计算能力。　　在[11]中，第一级网络用于估计带噪语音幅值，第二级网络用于估计第一级输出的剩余实部和虚部。　　spex++[13]中，首先将第一级网络的输出发送到说话人编码器网络，得到另一个新的speaker embedding，然后将增强语音和两个speaker embedding馈送到第二级网络，进一步抑制残留噪声和干扰语音。　　受多阶段方法成功的启发，本文研究了该方法在个性化语音增强任务中的可行性。具体来说，在我们的方法中，第一阶段是粗略估计目标语音的幅度，第二阶段是进一步抑制残留噪声和干扰语音，并修改目标语音的相位信息。我们还探讨了功率压缩(PC)[14]对PSE任务的影响。此外，考虑到挑战中的ASR评估指标，我们的TEA-PSE提交系统特别采用了非对称(Asym)损失[9]，以缓解过度抑制可能导致更多语音识别错误的影响。我们的TEA-PSE提交系统最终在ICASSP 2022 DNS挑战赛的盲测集上达到了4.19 SIG, 4.55 BAK, 3.97 OVRL和0.69 WAcc，在第二轨道中排名第一。 2 提出的TEA-PSE系统　　本文提出的TEA-PSE系统主要由说话人编码器和语音增强两个模块组成。具体来说，我们采用ECAPA-TDNN网络[15]作为说话人编码器，并研究了一种用于语音增强的双级网络。

2022年腾讯DNS挑战赛，TEA-PSE语音增强系统，是腾讯幻音实验室的个性化语音增强吗？

相关推荐