2022年_基于相位的深度语音增强:它

摘要:论文地址:相位感知深度语音增强:这完全取决于帧长 论文代码:https:github.comCarmiShimonPhase-Aware-Deep-Speech-Enhancement 引用格式:Peer T, Gerkmann T
论文地址:相位感知深度语音增强:这完全取决于帧长 论文代码:https://github.com/CarmiShimon/Phase-Aware-Deep-Speech-Enhancement 引用格式:Peer T, Gerkmann T. Phase-aware deep speech enhancement: It's all about the frame length[J]. JASA Express Letters, 2022, 2(10): 104802. 博客作者:凌逆战(引用请指明出处) 摘要   虽然相位感知语音处理近年来受到越来越多的关注,但大多数帧长约为32 ms的窄带STFT方法显示出相位对整体性能的影响相当有限。与此同时,现代基于深度神经网络(DNN)的方法,如Conv-TasNet,隐式修改幅度和相位,在非常短的帧(2 ms)上产生了出色的性能。   在这一观察的启发下,本文系统地研究了相位和幅度在不同帧长的DNN语音增强中的作用。结果表明,基于相位感知的神经网络可以充分利用之前关于纯净语音重建的研究表明:当使用短帧时,相位谱变得更加重要,而幅度谱的重要性降低。实验表明,当同时估计幅度和相位时,较短的帧可以显著提高具有显式相位估计的DNN的性能。相反,如果只处理幅值不估计相位,32 ms帧可以获得最佳性能。基于DNN的相位估计得益于使用较短的帧,并建议基于神经网络的相位感知语音增强方法推荐用约4 ms的帧长。 索引术语:语音增强,神经网络,帧长,相位感知 1 引言   单通道语音增强通常在时频域进行,为了获得时频表示,可以应用诸如短时傅里叶变换(STFT)等具有多个自由参数的变换。这些参数(即帧长、帧移和窗函数,参见第2节)必须适当地选择。然而,不仅要考虑信号本身,还要考虑应用于时频表示的算法;STFT参数的选择应该产生对当前算法最有用的表示[1]。   本文重点关注基于深度神经网络(DNNs)的语音增强算法帧长的选择,特别是针对相位感知方法。STFT表示是复数的,通常分为幅度谱和相位谱。相位谱与语音增强任务的相关性一直是一个争论的话题。传统上,由于经验研究[2]和理论结果[3],它被认为是不重要的。然而,最近的研究表明,相位确实携带语音相关信息[4]、[5]。受这些研究结果的推动,相位感知语音处理得到了一定程度的复兴,并提出了多种相位感知语音处理方法,如[6]-[10]。   近年来,深度神经网络已迅速成为许多领域的首选工具,包括音频和语音处理。因此,最近的许多相位感知的语音增强和声源分离方法使用深度神经网络直接估计相位谱[11]-[13],或估计相位导数并从中重建相位[14],[15]。其他基于DNN的方法包括直接对复数谱进行操作,而不将[16]-[18]分为幅度和相位,或者仅考虑相位以改进幅度估计[19]。   一些作者采取了不同的方法,完全用学习到的编码器-解码器机制取代了基于STFT的表示,这通常会产生实数表示[20]-[22]。这些编码器-解码器方法一个有趣方面是,当使用大约2ms的非常短的帧时,它们表现出非常好的性能,甚至短至0.125毫秒[21]。这与基于STFT的方法形成了鲜明的对比,后者通常使用大约20 ms到60 ms的帧长。注意,虽然学习的编码器-解码器方法最初是为了源分离而提出的,但它们在语音增强任务[23],[24]上也表现出良好的性能。   随着开创性的学习编码器-解码器Conv-TasNet模型[20]的发布,一些作者提出了扩展和分析。在其他结果中,已经表明,ConvTasNet性能的主要影响因素是使用短帧和时域损失函数,而不是学习的编码器-解码器[25],[26]。研究还表明,当用STFT替换学习到的编码器时,最佳输入特征集取决于所选择的帧长[26],[27];对于较长的帧(25 ms到64 ms),幅度谱工作得很好,而较短的帧(2 ms到4 ms)只有将完整的复数谱作为输入(以实部和虚部连接的形式)时才表现出更好的性能。这个观察是特别重要的,因为它意味着相位感知语音处理(无论是隐式还是显式相位估计)应该可能采用与仅幅值处理不同的帧长。   论文[24]虽然已经研究了相位感知语音增强DNNs中损失函数的选择对于感知测量的影响,但我们还不知道关于帧长选择的这种分析。先前与DNN无关的研究表明,相位对语音相关任务的重要性随着STFT参数的选择而变化。特别是,在不使用典型帧长(对应于大约20 ms到40 ms),使用更短帧[28],[29]或使用有效缩短帧[4],可以仅从相位谱中获得非常好的信号重建。对于较长的典型帧[28]、[30],也观察到了类似的结果。
阅读全文