How can phone-fortified perceptual loss enhance speech quality in 2020?
摘要:论文地址:通过语音增强的电话强化感知损失提高感知质量 论文代码:https:github.comaleXiehtaPhoneFortifiedPerceptualLoss 引用格式:Hsieh T A, Yu C, Fu S W,
论文地址:通过语音增强的电话强化感知损失提高感知质量
论文代码:https://github.com/aleXiehta/PhoneFortifiedPerceptualLoss
引用格式:Hsieh T A, Yu C, Fu S W, et al. Improving Perceptual Quality by Phone-Fortified Perceptual Loss using Wasserstein Distance for Speech Enhancement[J]. arXiv preprint arXiv:2010.15174, 2020.
摘要
语音增强(SE)的目标是提高语音质量和可懂度,这两个方面都与语音段的平稳过渡有关,这些语音段可能包含语音和音节等语言信息。在这项研究中,我们在训练过程中考虑到语音的特点。因此,我们设计了一个电话强化感知(PFP)损失,并以PFP损失为指导来训练我们的SE模型。在PFP损失中,采用基于对比预测编码(CPC)准则的无监督学习模型wav2vec来提取语音特征。与以往的基于深度特征的方法不同,该方法明确地利用深层特征提取过程中的语音信息来指导SE模型的训练。为了验证所提出的方法,我们首先使用t-分布随机邻近嵌入(t-SNE)分析来确认wav2vec表示包含清晰的语音信息。接下来,我们观察到,所提出的PFP损失与感知评估指标的相关性比逐点和信号级损失更为密切,从而在语音Bank–DEMAND数据集中获得了更高的标准化质量和可理解性评估指标的分数。
1 引言
在现实世界中与语音相关的应用中,语音信号可能会由于环境噪声而失真,从而限制了目标任务可实现的性能。为了解决这个问题,语音增强(SE)已经研究了数十年。已经提出了许多基于信号处理的方法[1、2、3、4]。这些方法基于语音和噪声信号的假定统计属性。当这些假定的属性无法实现时,SE性能可能会大大下降。随着神经网络(NN)模型的最新发展,SE性能显着提高。众所周知的NN模型,例如深度去噪自动编码器(DDAE)[5],深度神经网络(DNN)[6],递归神经网络(RNN)[7],长短期记忆(LSTM)[8],卷积神经网络(CNN)[9],完全卷积网络(FCN)[10、11],卷积递归神经网络(CRNN)[12]和生成对抗网络(GAN)[13、14、15、16、17、18 [19],对基于传统信号处理的SE方法进行了显着改进。
对于这些基于NN的SE方法,设计合适的目标函数非常重要。传统上,逐点距离经常被用作目标函数。点对点距离被计算为成对的噪声干净语音信号之间的L1和/或L2范数,试图恢复信号上的信息。最近的研究表明,基于点距的目标函数可能无法完全反映噪声和干净语音信号之间的感知差异。由于SE的目的是恢复语音质量和清晰度,因此针对基于NN的SE研究了使用感知指标的目标函数。在这些研究中,为了方便神经网络参数优化中的梯度计算,在其可微方案中修改了感知度量。一些值得注意的工作包括基于感知评估的损失函数[20],用于语音质量优化的联合信号失真比(SDR)感知评估[21]和用于网络优化的改进的短时目标清晰度(STOI)损失函数[10, 22,23]。沿着这条思路,一些研究集中在训练神经网络模型和目标度量为SE任务[24],以及诸如HiFi-GAN [18]和MetricGAN [19]等GAN方法中的模型。
除了评估度量的直接优化之外,目标函数还可以基于潜在空间中的表示来设计,以最大程度地减少损失,其中潜在空间来自预先训练的模型,该模型具有成对的干净噪声语音信号。 例如,在计算机视觉的风格转移研究中,[25]提出了基于感知损失的训练前馈网络。 在[26]中,作者提出利用声学场景识别网络的潜在空间作为损失函数,称为深度特征损失(DFL),并获得了可喜的结果。 我们相信,通过使用与SE任务更相关的NN模型提取的潜在表示,可以进一步改善此类目标函数。
在本文中,我们明确考虑了SE的语音特性。 为了强调这些特征,为SE模型优化设计了一个电话强化的感知(PFP)损失。 实验结果表明,wav2vec编码的语音特征代表语音信息。 我们可以得出结论,我们提出的包含PFP损失的框架相对于SE任务的其他感知优化方法提出了很大的改进。
2 相关工作
在本节中,我们首先介绍上一节中提到的DFL,并在2.1节中进行更详细的讨论。然后,我们回顾了用训练网络近似的感知指标。这样的网络可以作为GAN或独立度量中的鉴别器。最后但并非最不重要的是,在第2.3节中,我们回顾了在上下文中最大化相互信息的方法。
2.1 深度特征损失
在DFL中提出了将声学场景识别纳入SE的想法[26]。
