DCCRN:深度复杂数卷积循环网络,能实现相位感知语音增强吗?

摘要:论文地址:DCCRN:用于相位感知语音增强的深度复杂卷积循环网络 论文代码:https:paperswithcode.compaperdccrn-deep-complex-convolution-recurrent-1 引用:Hu
论文地址:DCCRN:用于相位感知语音增强的深度复杂卷积循环网络 论文代码:https://paperswithcode.com/paper/dccrn-deep-complex-convolution-recurrent-1 引用:Hu Y,Liu Y,Lv S,et al. DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement[J]. arXiv preprint arXiv:2008.00264,2020. 摘要   语音增强得益于深度学习在可理解性和感知质量方面的成功。传统的时频域方法主要是通过朴素卷积神经网络(CNN)或递归神经网络(RNN)预测TF掩码或语音频谱。最近的一些研究使用复值谱图作为训练目标,但在实值网络中训练,分别预测幅值分量和相位分量或实部和虚部。特别是,卷积循环网络(CRN)集成了卷积编解码(CED)结构和长短期记忆(LSTM),已被证明对复杂目标有帮助。为了更有效地训练复杂目标,本文设计了一种新的模拟复杂值运算的网络结构——深度复杂卷积递归网络(Deep complex Convolution recurn,DCCRN),其中CNN和RNN结构都可以处理复杂值运算。提出的DCCRN模型在客观或主观度量上都比以前的其他网络具有很强的竞争力。在仅有3.7M参数的情况下,我们提交给Interspeech 2020深度噪声抑制(DNS)挑战的DCCRN模型在实时轨道中排名第一,在非实时轨道中排名第二。 关键词:语音增强,去噪,深度学习,复杂网络 1 引言   噪声干扰会严重降低言语交际中的感知质量和可理解性。同样,自动语音识别(ASR)等相关任务也会受到噪声干扰的严重影响。因此,语音增强是一项非常迫切的任务,它将噪声语音作为输入,产生增强的语音输出,以提高语音质量和清晰度,有时还能在下游任务中提供更好的标准(例如ASR中的较低错误率)。近年来,深度学习(DL)方法在语音增强方面取得了很好的效果,尤其是在处理非平稳噪声方面。DL可以受益于单通道(单耳)和多通道语音增强取决于具体的应用。在本文中,我们专注于基于dl的单通道语音增强,以获得更好的感知质量和可理解性,特别是针对低模型复杂性的实时处理。Interspeech 2020深度噪声抑制(DNS)挑战为这一目的提供了一个通用的测试平台[1]。 1.1 相关工作   作为一个有监督的学习问题,神经网络可以在时频域或直接在时域增强噪声语音。时域方法可以进一步分为直接回归方法[2,3]和自适应前端方法[4 6]两类。前者直接从语音-噪声混合的波形学习到目标语音的回归函数,而不需要明确的信号前端,通常是通过涉及某种形式的一维卷积神经网络(Conv1d)。后一种自适应前端方法将时域信号输入和输出,通常采用卷积编解码器(CED)或u-net框架,类似于短时傅里叶变换(STFT)及其反变换(iSTFT)。然后,在编码器和解码器之间插入增强网络,通常通过使用具有时间建模能力的网络,如时间卷积网络(TCN)[4,7]和长短期记忆(LSTM)[8]。   作为另一种主流,TF域方法[9 13]对声谱图进行研究,认为使用STFT后的TF表示可以更精确地分离语音和噪声的精细结构。卷积递归网络(CRN)[14]是一种最新的方法,它也采用了与时域方法相似的CED结构,但它提取了高层次的特征,以便通过二维CNN (Conv2d)更好地分离噪声语音谱图。具体来说,CED可以将复数谱图或实值谱图作为输入。复数谱图在极坐标下可分解为幅值和相位,在笛卡尔坐标下可分解为实部和虚部。很长一段时间以来,人们一直认为阶段是难以估计的。因此,早期的研究只关注与幅度相关的训练目标,而忽略相位[15 17],通过简单地将估计的幅度与带噪声的语音相位结合来重新合成估计的语音。这就限制了性能的上限,而在严重干扰的情况下,估计的语音相位会显著偏离。虽然最近有许多方法被提出用于相位重建来解决这个问题[18,19],但神经网络仍然具有实际价值。   通常情况下,TF域中定义的训练目标主要分为两类,一类是描述干净语音与背景噪声时频关系的掩模目标,另一类是对应于干净语音频谱表示的映射目标。在掩码族中,理想二进制掩码(IBM)[20]、理想比率掩码(IRM)[10]和谱幅值掩码(SMM)[21]只使用干净语音和混合语音之间的幅值,忽略了相位信息。相敏掩模(PSM)[22]是第一个利用相位信息显示相位估计可行性的掩模。在此基础上,提出了复合比掩码[23](complex ratio mask,CRM)算法,该算法通过同时增强纯语音和混合语音谱图分割的实成分和虚成分,可以很好地重构语音。
阅读全文