2020年提出的DARCN,动态注意力单声道语音增强的递归网络,究竟有何独特之处?
摘要:论文地址:基于动态注意的递归网络单耳语音增强 论文代码:https:github.comAndong-Li-speechDARCN 引用格式:Li, A., Zheng, C., Fan, C., Peng, R., Li, X.
论文地址:基于动态注意的递归网络单耳语音增强
论文代码:https://github.com/Andong-Li-speech/DARCN
引用格式:Li, A., Zheng, C., Fan, C., Peng, R., Li, X. (2020) A Recursive Network with Dynamic Attention for Monaural Speech Enhancement. Proc. Interspeech 2020, 2422-2426
摘要
听觉动态注意理论已经证明,对于连续语音加工,动态注意有助于优先加工。据此,我们提出了一种动态注意和递归学习相结合的单声道语音增强框架DARCN。除了主干降噪网络外,我们还设计了一个独立的子网络,它自适应地产生衰减分布来控制整个主干网络中的信息流。引入递归学习,通过多阶段网络来动态减少可训练参数的数量,其中每一阶段的中间输出用记忆机制进行精化。通过这样做,可以获得更灵活和更好的估计。我们在TIMIT语料库上进行了实验。实验结果表明,提出的体系结构在PESQ和STOI得分方面都比目前最先进的模型获得了一致更好的性能
关键词:单声道语音增强、递归学习、注意力U-Net、动态注意力
1 引言
在实际环境中,纯净语音经常受到背景干扰的污染,这可能会显著降低自动语音识别[1]、说话人验证[2]和助听器[3]的性能。单声道语音增强的目的是在只有一个麦克风的情况下,从混合语音中提取目标语音[4]。近年来,由于深神经网络(DNNs)在建模复杂非线性方面的优越性能,即使在高度非平稳的噪声环境中,DNNs也显示出了良好的单耳语音增强性能[5]。典型的基于DNN的方法可以根据估计目标分为两类,一类是基于掩蔽的方法[6],另一类是基于谱映射的方法[7]
传统的DNN通常采用全连接(FC)层来降低噪声[6,7]。对于撞击的说话人类型化问题,陈等人提出了自己的看法。提出利用堆叠式长短期记忆(SLSTM)[8],它明显优于DNN。最近,各种具有复杂拓扑结构的卷积神经网络(CNNs)被提出[9,10,11,12],它们可以减少可训练参数的数量。最近,Tan et al.将卷积自动编码器(CAE)[13]和LSTM相结合,提出了卷积循环神经网络(CRN)[14],其中CAE帮助学习时频(T-F)模式,而LSTM有效地覆盖了动态序列相关性
最近提出了各种拓扑结构比较复杂的模型[10,11,12,14],这些模型的性能都得到了改善,但对于后面的两个方面,它们仍有一定的局限性。一方面,为了满足低延迟的要求,参数的数量往往受到部分限制,这严重限制了网络的深度。另一方面,深度的增加更有可能导致梯度消失问题。最近提出了渐进式学习[15,16],它将映射过程分解为多个阶段,实验结果表明,通过在不同阶段之间共享序列建模模块,大大减少了可训练参数的数量,并有效地保持了性能。基于这个概念,递归学习[17]是通过在多个阶段重用网络而提出的,每个阶段的输出通过记忆机制联系起来。它在不引入额外参数的情况下,进一步减轻了参数负担,加深了网络。
人类倾向于通过动态神经元电路产生适应性注意,以感知复杂的环境[18],这也可以由听觉动态参与连续语音处理的记忆[19,20,21]来描述。例如,当一个人听到来自真实环境的话语时,占主导地位的噪声成分越多,就需要越多的神经网络注意来弄清意思,反之亦然。这一现象揭示了听觉知觉系统的动力机制。受生理现象的启发,我们提出了一种将动态注意和递归学习相结合的新型网络DARCN,不同于以往的网络[10,11,12,14]为该任务设计的单一复杂网络,该框架由一个主子网络和一个辅助子网络并行组成,其中一个是降噪模块(NRM),另一个是注意力生成模块(AGM),该框架的工作流程如下:在每个中间阶段,将噪声特征和上一阶段的估计值结合到当前输入中。采用AGM生成注意集,然后通过逐点卷积和Sigmoid函数将该注意集应用于NRM。这样,AGM实际上是一种感知模块,可以灵活地调整NRM的权重分布,从而获得更好的噪声抑制性能。据我们所知,这是第一次将动态注意机制引入到特定任务中。
论文的其余部分结构如下。第2节阐述了这个问题。网络的体系结构在第3节中说明。第4节是数据集和实验设置。第五节给出了研究结果和分析,第六节得出了一些结论。
2 公式与符号
在时域中,噪声信号可以建模为$x(n)=s(n)+d(n)$,其中$n$是离散时间索引。
