Conv-TasNet能否超越理想时频幅度掩蔽实现更优的语音分离?

摘要:我醉了呀,当我花一天翻译完后,发现已经网上已经有现成的了,而且翻译的比我好,哎,造孽呀,但是他写的是论文笔记,而我是纯翻译,能给读者更多的思想和理解空间,并且还有参考文献,也不错哈,反正翻译是写给自己看的 文章方向:语音分离, 论文地址:C
我醉了呀,当我花一天翻译完后,发现已经网上已经有现成的了,而且翻译的比我好,哎,造孽呀,但是他写的是论文笔记,而我是纯翻译,能给读者更多的思想和理解空间,并且还有参考文献,也不错哈,反正翻译是写给自己看的 文章方向:语音分离, 论文地址:Conv-TasNet:超越理想的语音分离时频幅度掩蔽 博客地址:https://www.cnblogs.com/LXP-Never/p/14769751.html 论文代码:https://github.com/naplab/Conv-TasNet|https://github.com/JusperLee/Conv-TasNet|https://github.com/kaituoxu/Conv-TasNet 摘要   单通道、与说话人无关的语音分离方法近年来取得了很大的进展。然而,这些方法的准确性、延迟和计算代价仍然不够。之前的大部分方法都是通过混合信号的时频表示来解决分离问题,这存在以下几个缺点,比如信号相位和幅度的解耦,语音分离时频表示的次优性,以及计算谱图时的长时间延迟。为了解决这些缺点,我们提出了一种全卷积时域音频分离网络(Conv-TasNet),这是一种端到端时域语音分离的深度学习框架。Conv-TasNet使用一个线性编码器来生成语音波形,优化的语音波形可以分离单独的说话人声音。说话人声音分离是通过对编码器输出应用一组加权函数(mask)来实现的。然后使用线性解码器将修改的编码器表示反转回波形。使用由堆叠的一维扩张卷积块组成的时间卷积网络计算mask,这使得网络可以对语音信号的长期依赖性进行建模,同时保持较小的模型尺寸。本文所提出的Conv-TasNet系统在分离两个和三个说话人混合语音时显着优于先前的时频掩蔽方法。此外,从客观失真测量和听者主观质量评价来看,Conv-TasNet在双说话人语音分离中优于几种理想的时频幅度掩模。最后,Conv-TasNet具有更小的模型尺寸和更短的最小延迟,使其成为离线和实时语音分离应用的合适解决方案。因此,本研究为实现真实语音处理技术的语音分离系统迈出了重要的一步。 索引术语:源分离,单通道,时域,深度学习,实时 1 引言   在真实的声学环境中,稳健的语音处理通常需要自动语音分离。由于这个研究课题对语音处理技术的重要性,已经有许多方法被提出来解决这个问题。然而,语音分离的准确性,特别是对新说话者,仍然不够。   大多数之前的语音分离方法都是在基于混合信号的时频(T-F,或谱图)表示,这些时频表示是使用短时傅立叶变换(STFT)从波形中估计出来的。在T-F域的语音分离方法旨在从混合频谱中近似出单个源的干净频谱。可以通过使用非线性回归技术直接将混合频谱中的每个源的频谱近似表示出来,其中将干净频谱作为训练目标[2]-[4]。或者,可以对每个源估计一个加权函数(也就是掩码,或称掩膜,mask)来乘以混合频谱中的每个T-F bin来恢复单个源。近年来,深度学习通过提高掩码估计[5]-[12]的精度,大大提高了时频mask方法的性能。在直接法和mask估计法中,每个声源的波形都是利用估计的每个声源的幅值谱,再加上混合语音的相位或修正相位 经过短时傅里叶反变换(iSTFT)来计算的。   虽然时频掩蔽仍然是最常用的语音分离方法,但该方法存在一些缺点。 第一:短时傅里叶变换是一种通用的信号变换,对于语音分离未必是最优的。 第二:精确重建纯净声源的相位是一个非常重要的问题,错误的相位估计会给重建音频的精度带来一个上界。这一问题很明显,因为即使将理想的纯净幅度谱应用于混合物,源的不完全重建精度。虽然相位重建方法可以缓解[11],[13],[14]的问题,但该方法的性能仍然不是最优的。 第三:成功地从时频表示中分离源信号,需要对混合信号进行高分辨率的频率分解,这需要一个较长的时间窗口来计算短时傅里叶变换。这一措施会增加系统的最小延迟,这限制了它在实时、低延迟应用程序(如电信和可听设备)中的适用性。例如,在大多数语音分离系统中,STFT的窗口长度至少为32 ms[5],[7],[8],而在音乐分离应用中,STFT的窗口长度甚至更大,这需要更高分辨率的频谱(高于90 ms)[15],[16]。   由于这些问题都是在时频域内表述分离问题时产生的,因此一个合理的方法是通过直接在时域内表述分离来避免对声音的幅度和相位进行解耦。以往的研究通过独立分量分析(ICA)[17]和时域非负矩阵分解(NMF)[18]等方法探索了时域语音分离的可行性。然而,这些系统的性能无法与时频方法的性能相比,特别是在扩展和推广到大数据的能力方面。另一方面,一些最近的研究探索了深度学习的时域音频分离[19]-[21]。
阅读全文