Gated Convolutional Recurrent Networks如何用于单声道语音增强的复杂频谱映射学习?
摘要:论文地址:使用门控卷积循环网络学习复数谱映射以增强单耳语音 代码地址:https:github.comJupiterEthanGCRN-complex 作者主页:https:jupiterethan.github.io 引用格
论文地址:使用门控卷积循环网络学习复数谱映射以增强单耳语音
代码地址:https://github.com/JupiterEthan/GCRN-complex
作者主页:https://jupiterethan.github.io/
引用格式:Tan K, Wang D L. Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 28: 380-390.
摘要
相位对于语音的感知质量很重要。 但是由于其中缺乏频谱时间结构,通过监督学习直接估计相位谱似乎很难。复数谱映射的目的在于从噪声语音中提取出纯净语音的实谱图和虚谱图,同时增强语音的幅度响应和相位响应。在多任务学习的启发下,我们提出了一种用于复数谱映射的门控卷积循环网络(GCRN),它可作为单耳语音增强的因果系统。我们的实验结果表明,提出的GCRN大大优于现有的卷积神经网络(CNN)在复数谱映射方面的客观语音可理解性和质量。此外,与幅度谱映射和复数比率掩码相比,该方法产生了显著更高的STOI和PESQ。我们还发现,复数谱映射与提出的GCRN提供了一个有效的相位估计。
关键词:复数谱映射、门控卷积递归网络、相位估计、单声道语音增强。
1 引言
在日常聆听环境中,语音信号会被背景噪音干扰。这种失真严重地降低了 语音的可懂度和质量,并使许多与语音有关的任务,如自动语音识别,变得更加复杂。许多与语音有关的任务,如自动语音识别 和说话人的识别更加困难。语音增强 的目的是去除或减弱语音信号中的背景噪音 信号。如果语音信号是由低信噪比的单个麦克风采集的,那么它从根本上来说是具有挑战性的。如果语音信号是由单一的麦克风在低信噪比的情况下捕获的 (SNRs)。本研究的重点是单声道(单通道)语音增强。
在过去的几十年里,语音处理界对单声道语音增强进行了广泛的研究。受计算听觉场景分析(CASA)中时频(T-F)mask概念的启发,近年来,语音增强被表述为有监督的学习[36]。对于 监督下的语音增强,适当选择训练目标是很重要的[38]。对于有监督的语音增强,正确选择训练目标是非常重要的。一方面,明确的训练目标可以显著提高语音清晰度和语音质量。另一方面,培训目标应服从监督学习。在T-F领域已经发展了许多训练目标,它们主要分为两类。一组是基于掩码的目标,如理想比例掩码(IRM)[38],它定义干净语音和噪声语音之间的时频关系。另一种是基于映射的目标,如对数功率谱(LPS)[44]和目标幅度谱(TMS)[20],[12],它们代表干净语音的频谱特征。
这些训练目标大多是针对噪声语音的幅度谱进行操作的,它是由短时傅里叶变换(STFT)计算出来的。因此,典型的语音增强系统只增强幅度谱,并简单地使用噪声相位谱来重新合成增强的时域波形。不增强相位谱的原因有两个方面。首先,人们发现在相位谱中不存在明确的结构,这使得直接估计纯净语音的相位谱变得难以实现[43]。 其次,人们认为相位增强对语音增强并不重要[37]。然而,Paliwal等人[23]最近的一项研究表明,准确的相位估计可以大大改善客观和主观的语音质量,特别是当相位谱计算的分析窗口被仔细选择时。随后,各种相位增强算法也被开发出来用于语音分离。Mowlaee等人[21]通过最小化平均平方误差(MSE)来估计混合物中两个来源的相位谱。Krawczyk和Gerkmann[17]对有声音的语音帧进行相位增强,而对无声音的帧不作改动。Kulmer等人[18]通过对瞬时噪声相位谱进行相位分解,然后进行时间平滑来估计纯净语音相位。 通过这些相位增强方法,可以实现客观的语音质量改善。另外,相位信息也可以被纳入T-F掩码中。Wang和Wang[39]训练了一个深度神经网络(DNN),通过反傅里叶变换层,利用噪声相位直接重建时域增强信号。结果表明,语音合成和掩码估计的联合训练提高了感知质量,同时保持了客观的可懂度。 另一种方法是相位敏感掩码(PSM)[5],它结合了纯净语音和噪声语音之间的相位差。实验结果表明,PSM估计比只增强幅度谱产生更高的信噪比(SDR)。
Williamson等人[43]观察到,虽然相位频谱缺乏谱时结构,但纯净语音频谱的实部和虚部都表现出清晰的结构,因此适合于监督学习。因此,他们设计了复杂理想比值掩码(cIRM),它可以从噪声语音中重建纯净语音。在他们的实验中,采用了一个DNN来联合估计实谱和虚谱。
