MetricGAN的语音增强改进版,2021年版本叫什么名字?

摘要:论文地址:MetricGAN+:用于语音增强的 MetricGAN 的改进版本 论文代码:https:github.comJasonSWFuMetricGAN 引用格式:Fu S W, Yu C, Hsieh T
论文地址:MetricGAN+:用于语音增强的 MetricGAN 的改进版本 论文代码:https://github.com/JasonSWFu/MetricGAN 引用格式:Fu S W, Yu C, Hsieh T A, et al. MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement[J]. arXiv preprint arXiv:2104.03538, 2021. 摘要   用于训练语音增强模型的代价函数与人类的听觉感知之间的差异往往使增强后的语音质量不能令人满意。因此,考虑人的感知的客观评价指标可以作为缩小差距的桥梁。我们之前提出的MetricGAN旨在通过将指标与鉴别器相连接来优化目标指标。因为在训练过程中只需要目标评估函数的分数,所以度量甚至可以是不可微的。在这项研究中,我们提出了一个MetricGAN+,其中提出了三种结合语音处理领域知识的训练技术。在Voicebank-Demand数据集上的实验结果表明,与之前的MetricGAN相比,MetricGAN+可以将PESQ分数提高0.3,并获得最先进的结果(PESQ分数=3.15)。 关键词:语音增强、语音质量优化、黑盒评分优化、MetricGAN 1 引言   语音增强(SE)模型有许多不同的应用和目标。例如,在人与人之间的交流中,我们关心语音质量或清晰度(例如,在具有严重背景噪声的电话通话中,清晰度可能比质量更重要)。另一方面,在人机通信中,SE的目标是提高语音识别性能(例如,降低自动语音识别(ASR)系统在噪声条件下的误词率(WER))。因此,训练特定于任务的SE模型可以为其目标应用程序获得更好的性能。   要部署特定于任务的SE模型,最直观的方法是采用与最终目标相关的损失函数。虽然基于信号电平的差异(例如,𝐿1或𝐿2损耗)直接应用测量方法是直接的,但一些研究表明它与语音质量[1-3]、可懂度[4]和语音误码率[5,6]没有很高的相关性。   另一种选择是直接优化语音质量或清晰度。这通常是非常具有挑战性的,通常客观的评估指标被用作替代指标。在人类感知相关的客观度量中,语音质量的感知评价(PESQ)[7]和短时客观可懂度(STOI)[8]分别是用于评价语音质量和清晰度的两个常用函数。这两个度量的设计考虑了人的听觉感知,并且与干净和退化语音信号之间的简单𝐿1或𝐿2距离相比,与主观听力测试显示出更高的相关性[1,4]。   根据是否必须知道评价指标的细节,当前优化这些客观得分的技术可以分为两类:1)白盒:这些方法[4,9-12]用手工制作的、可区分的评价指标来近似复杂的评价指标。但是,必须知道指标的详细信息,并且只能将其用于目标指标。(2)黑盒:这些方法[3,13,14]主要将度量作为奖励,并应用基于强化学习的技术来提高分数。然而,培训通常效率低下,性能提高有限。   MetricGAN[15]属于黑盒类别,与传统的𝐿1丢失相比,它可以获得更好的训练效率和适度的性能改善(平均PESQ分数增加0.1%以上)。虽然MetricGAN可以很容易地用于优化不同的评估指标(例如,PESQ、STOI或WER),但我们主要以PESQ分数优化为例。其他分机可在[16-18]找到。   在本研究中,为了进一步提升MetricGAN框架的性能,揭示影响性能的重要因素,我们提出了MetricGAN+。MetricGAN+背后的基本思想没有改变,改进来自于包括三种结合了语音处理领域知识的训练技术。对鉴别器(D)提出了两种改进,对生成器(G)提出了一种改进: 对于鉴别器: 1)、包含噪声语音用于鉴别器训练:除了增强和干净的语音之外,还使用噪声语音来最小化鉴别器和目标客观度量之间的距离。 2)、增加来自重放缓冲器的样本大小:将从前一个历元产生的语音重复用于训练D。这可以防止D灾难性地遗忘[19]。 对于生成器: 1)、掩码估计的可学习Sigmoid函数:传统的Sigmoid函数对于掩码估计并不是最优的,因为它对于所有频段都是相同的,并且具有最大值1。按频率学习的Sigmoid函数更灵活,并且改善了SE的性能。   为了提高重复性,SpeechBrain工具包中提供了MetricGAN+ 2 MetricGAN介绍   MetricGAN的主要思想是用神经网络(例如,Quality-Net[20])模拟目标评估函数(例如,PESQ函数)的行为。代理估计函数从原始分数中学习,将目标评价函数视为黑盒。一旦训练了代理评估,它就可以用作语音增强模型的损失函数。不幸的是,静态代理很容易被对抗性的例子愚弄[22](估计质量分数上升,但真实分数下降[21])。
阅读全文