2020年提出的DARCN，动态注意力单声道语音增强的递归网络，究竟有何独特之处？

摘要：论文地址：基于动态注意的递归网络单耳语音增强论文代码：https:github.comAndong-Li-speechDARCN 引用格式：Li, A., Zheng, C., Fan, C., Peng, R., Li, X.

论文地址：基于动态注意的递归网络单耳语音增强论文代码：https://github.com/Andong-Li-speech/DARCN 引用格式：Li, A., Zheng, C., Fan, C., Peng, R., Li, X. (2020) A Recursive Network with Dynamic Attention for Monaural Speech Enhancement. Proc. Interspeech 2020, 2422-2426 摘要　　听觉动态注意理论已经证明，对于连续语音加工，动态注意有助于优先加工。据此，我们提出了一种动态注意和递归学习相结合的单声道语音增强框架DARCN。除了主干降噪网络外，我们还设计了一个独立的子网络，它自适应地产生衰减分布来控制整个主干网络中的信息流。引入递归学习，通过多阶段网络来动态减少可训练参数的数量，其中每一阶段的中间输出用记忆机制进行精化。通过这样做，可以获得更灵活和更好的估计。我们在TIMIT语料库上进行了实验。实验结果表明，提出的体系结构在PESQ和STOI得分方面都比目前最先进的模型获得了一致更好的性能关键词：单声道语音增强、递归学习、注意力U-Net、动态注意力 1 引言　　在实际环境中，纯净语音经常受到背景干扰的污染，这可能会显著降低自动语音识别[1]、说话人验证[2]和助听器[3]的性能。单声道语音增强的目的是在只有一个麦克风的情况下，从混合语音中提取目标语音[4]。近年来，由于深神经网络(DNNs)在建模复杂非线性方面的优越性能，即使在高度非平稳的噪声环境中，DNNs也显示出了良好的单耳语音增强性能[5]。典型的基于DNN的方法可以根据估计目标分为两类，一类是基于掩蔽的方法[6]，另一类是基于谱映射的方法[7] 　　传统的DNN通常采用全连接(FC)层来降低噪声[6，7]。对于撞击的说话人类型化问题，陈等人提出了自己的看法。提出利用堆叠式长短期记忆(SLSTM)[8]，它明显优于DNN。最近，各种具有复杂拓扑结构的卷积神经网络(CNNs)被提出[9，10，11，12]，它们可以减少可训练参数的数量。最近，Tan et al.将卷积自动编码器(CAE)[13]和LSTM相结合，提出了卷积循环神经网络(CRN)[14]，其中CAE帮助学习时频(T-F)模式，而LSTM有效地覆盖了动态序列相关性　　最近提出了各种拓扑结构比较复杂的模型[10，11，12，14]，这些模型的性能都得到了改善，但对于后面的两个方面，它们仍有一定的局限性。一方面，为了满足低延迟的要求，参数的数量往往受到部分限制，这严重限制了网络的深度。另一方面，深度的增加更有可能导致梯度消失问题。最近提出了渐进式学习[15，16]，它将映射过程分解为多个阶段，实验结果表明，通过在不同阶段之间共享序列建模模块，大大减少了可训练参数的数量，并有效地保持了性能。基于这个概念，递归学习[17]是通过在多个阶段重用网络而提出的，每个阶段的输出通过记忆机制联系起来。它在不引入额外参数的情况下，进一步减轻了参数负担，加深了网络。　　人类倾向于通过动态神经元电路产生适应性注意，以感知复杂的环境[18]，这也可以由听觉动态参与连续语音处理的记忆[19，20，21]来描述。例如，当一个人听到来自真实环境的话语时，占主导地位的噪声成分越多，就需要越多的神经网络注意来弄清意思，反之亦然。这一现象揭示了听觉知觉系统的动力机制。受生理现象的启发，我们提出了一种将动态注意和递归学习相结合的新型网络DARCN，不同于以往的网络[10，11，12，14]为该任务设计的单一复杂网络，该框架由一个主子网络和一个辅助子网络并行组成，其中一个是降噪模块(NRM)，另一个是注意力生成模块(AGM)，该框架的工作流程如下：在每个中间阶段，将噪声特征和上一阶段的估计值结合到当前输入中。采用AGM生成注意集，然后通过逐点卷积和Sigmoid函数将该注意集应用于NRM。这样，AGM实际上是一种感知模块，可以灵活地调整NRM的权重分布，从而获得更好的噪声抑制性能。据我们所知，这是第一次将动态注意机制引入到特定任务中。　　论文的其余部分结构如下。第2节阐述了这个问题。网络的体系结构在第3节中说明。第4节是数据集和实验设置。第五节给出了研究结果和分析，第六节得出了一些结论。 2 公式与符号　　在时域中，噪声信号可以建模为$x(n)=s(n)+d(n)$，其中$n$是离散时间索引。

2020年提出的DARCN，动态注意力单声道语音增强的递归网络，究竟有何独特之处？

相关推荐