2020年,ECAPA-TDNN:在TDNN中强调信道注意力、传播和聚合,这是基于说话人验证的吗?

摘要:论文地址:ECAPA-TDNN:在基于TDNN的说话人验证中强调通道注意、传播和聚集 论文代码:https:github.comTaoRuijieECAPA-TDNN 引用格式:Desplanques B, Thienpondt J
论文地址:ECAPA-TDNN:在基于TDNN的说话人验证中强调通道注意、传播和聚集 论文代码:https://github.com/TaoRuijie/ECAPA-TDNN 引用格式:Desplanques B, Thienpondt J, Demuynck K. Ecapa-tdnn: Emphasized channel attention, propagation and aggregation in tdnn based speaker verification[J]. arXiv preprint arXiv:2005.07143, 2020. 摘要   目前的说话人验证技术依赖于神经网络来提取说话人的表征。成功的x-vector架构是一个时间延迟神经网络(Time Delay Neural Network,TDNN),它应用统计池将变长语音投射到定长说话人特征embedding中。在本文中,我们基于人脸验证和计算机视觉相关领域的最新趋势,对该体系结构提出了多种增强。首先,将初始帧层重构为具有有效跳跃连接的1维Res2Net模块。与SE-ResNet类似,我们在这些模块中引入了Squeeze and Excitation blocks,以显式地建模通道相互依赖性。SE-block通过根据录音的全局属性重新缩放通道来扩展帧层的时间上下文。其次,众所周知,神经网络可以学习分层特征,每一层都在不同的复杂程度上运行。为了利用这些互补的信息,我们聚合和传播不同层次的特征。最后,利用通道相关的帧注意力对统计池模块进行了改进。这使得网络在每个通道的统计估计期间专注于不同的帧子集。提出的ECAPA-TDNN架构在VoxCeleb测试集和2019年VoxCeleb说话人识别挑战赛上的表现明显优于最先进的基于TDNN的系统。 指标术语:说话人识别、说话人验证、深度神经网络、x-vector、通道注意力 1 引用   近年来,x-vector[1]及其后续改进[2,3,4]一直在说话人验证任务上提供了最先进的结果。对原始时延神经网络(TDNN)架构的改进是一个活跃的研究领域。通常,神经网络是在说话人识别任务上训练的。收敛后,可以从输出层之前的瓶颈层提取低维的说话人embedding来表征输入录音中的说话人。说话人验证可以通过比较 登记和测试录音对应的两个embedding来完成,以接受或拒绝两个录音包含同一说话人的假设。一个简单的余弦距离测量可以用于这种比较。此外,可以训练更复杂的评分后端,如概率线性判别分析(PLDA)[5]。   x-vector系统的日益流行导致了显著的架构改进和优化的训练过程。系统的拓扑结构通过加入流行的ResNet[7]架构的元素而得到改进。在帧级层之间添加残余连接已被证明可以增强embedding[3,4]。此外,残差连接使反向传播算法收敛更快,并有助于避免梯度消失问题[7]。   x-vector系统中的统计池层通过收集隐藏节点激活的简单统计信息,将变长输入投影到固定长度表示中。作者在[8,9]中向这个池化层引入了一个时间自注意系统,它允许网络只关注它认为重要的帧。它也可以解释为语音活动检测(VAD)的预处理步骤,以检测不相关的非语音帧。   在这项工作中,我们对TDNN架构和统计池层提出了进一步的架构增强。我们引入了额外的跳跃连接来在整个系统中传播和聚合通道。使用全局上下文的通道注意力被合并到框架层和统计池层中,以进一步改善结果。   本文组织如下:第2节将描述当前最先进的说话人识别系统,这将被用作基线。第3节将解释我们所提议的体系结构的新组件。第4节将解释我们的实验设置,以测试我们的架构中各个组件对VoxCeleb数据集的影响[10,11,12]。我们将在第5节讨论这些实验的结果。此外,还将提供流行的最新基准系统之间的比较。第6节将简要概述我们的研究结果。 2 DNN说话人识别系统   两种基于DNN的说话人识别架构将作为强有力的基准来衡量我们提出的架构的影响:x-vector和基于ResNet的系统,它们目前都在VoxSRC[12]等说话人验证任务上提供了最先进的性能。 2.1扩展的TDNN x-vector   第一个基线系统是Extended TDNN x-vector架构[2,3,4],并在[1]中引入的原始x-vector系统的基础上进行改进。初始框架层由1维扩张卷积层与密集层交错组成。每个过滤器都可以访问前一层或输入层的所有特征。扩张卷积层的任务是逐步建立时间上下文。在所有帧级层中引入Residual connections。帧层之后是一个专注的统计池层,该层计算最终帧级特征的平均值和标准差。Attention系统[8]允许模型选择它认为相关的帧。
阅读全文