2020年,波形域实时语音增强技术Demucs,是何方神圣?

摘要:论文地址:在波形域的实时语音增强 论文作者:facebook AI 研究所 论文代码:https:github.comfacebookresearchdenoiser 摘要 我们提出了一个基于原始波形的因果语音增强模型,该模型在笔记
论文地址:在波形域的实时语音增强 论文作者:facebook AI 研究所 论文代码:https://github.com/facebookresearch/denoiser 摘要   我们提出了一个基于原始波形的因果语音增强模型,该模型在笔记本电脑CPU上实时运行。所提出的模型是基于一个带有跳跃连接的编码器-解码器架构。利用多个损耗函数,在时域和频域上都得到了优化。实验结果表明,该方法能够去除各种背景噪声,包括平稳噪声和非平稳噪声,以及室内混响。此外,我们建议一套直接应用于原始波形的数据增强技术,进一步提高模型的性能和泛化能力。我们在几个标准基准上进行评估,使用客观指标和人的判断。提出的模型匹配最先进的性能的因果和非因果方法,同时直接工作在原始波形。 关键词:语音增强,语音去噪,神经网络,原始波形 1 引言   语音增强的目的是最大限度地提高语音信号的感知质量,特别是去除背景噪声。大多数被记录的会话语音信号都含有一些妨碍清晰度的噪音,如街道噪音、狗叫声、键盘打字等。因此,语音增强本身就是一项特别重要的任务,无论是音视频通话[1],助听器[2],还是自动语音识别(ASR)系统[3]。对于许多这样的应用程序,语音增强系统的一个关键特性是实时运行,并且尽可能少的延迟(在线),在通信设备上,最好是在商用硬件上。   数十年的语音增强工作表明了可行的解决方案,估计噪声模型,并使用它来恢复去除噪声的语音[4,5]。尽管这些方法可以很好地跨领域推广,但它们仍然难以处理常见的噪声,如非平稳噪声或一群人同时说话时遇到的喋喋不休的噪声。这种噪音类型的存在大大降低了人类语言的听力可理解性。近年来,基于深度神经网络(DNN)的模型在处理非平稳噪声和babble噪声时表现明显优于传统方法,同时在客观和主观评价中产生更高质量的语音[7,8]。此外,基于深度学习的方法在单通道源分离相关任务中也表现出优于传统方法[9,10,11]。   受这些最新进展的启发,我们提出了一个实时版本的DEMUCS[11]架构,适合语音增强。它由一个基于卷积和LSTMs的因果模型组成,帧大小为40ms,步幅为16ms,运行速度比在单一笔记本电脑CPU核上的实时运行速度快。为了提高音频质量,我们的模型通过分层生成(使用U-Net[12],就像跳过连接)从一个波形到另一个波形。我们对模型进行优化,以直接输出语音信号的干净版本,同时最小化回归损失函数(L1损失),辅以谱图域损失[13,14]。此外,我们还提出了一套简单有效的数据增强技术:频带掩蔽和信号混响。尽管对模型运行时施加了重要的实时约束,我们的模型通过客观和主观的度量产生了与最先进的模型相当的性能。   尽管有多种指标可以衡量语音增强系统,但这些指标与人类的判断[1]并不相关。因此,我们报告客观指标和人类评价的结果。此外,我们进行了消融研究的损失和增强功能,以更好地突出每个部分的贡献。最后,我们利用自动语音识别(ASR)模型产生的单词错误率(WERs)分析了增强过程中的伪影。   结果表明,当直接在原始波形上工作时,所提出的方法在所有指标上都可与当前最先进的模型相媲美。此外,增强的样本对噪声条件下ASR模型的改进也有帮助。 2 方法 2.1 符号和问题设置   我们专注于可以在实时应用程序中操作的单耳(单麦克风)语音增强。具体来说,给定一个音频信号$x$,由一个干净的语音$y$组成,它被一个附加的背景信号$n$损坏,因此$x = y + n$。长度$T$在样本中不是一个固定的值,因为输入的语音可以有不同的持续时间。我们的目标是找到一个增强函数$f$使$f(x) \approx y$。   在本研究中,我们将$f$设为DEMUCS架构[11],该架构最初是为音乐源分离而开发的,并将其适应于因果语音增强任务,对该模型的视觉描述如图1a所示。 2.2 DEMUCS架构   DEMUCS包含一个多层卷积编码器和解码器,带有U-net[12] skip connections,以及一个用于编码器输出的序列建模网络。特点是其层数$L$,隐藏通道的初始数$H$,层内kernel size $K$和stride $S$以及重采样因子U,编码器和解码器层从1到L编号(对于解码器,顺序相反,因此层 在相同scale下具有相同索引)。 当我们专注于单声道语音增强时,模型的输入和输出仅为单通道。   形式上,编码器网络$E$获得原始波形作为输入,并输出一个潜在表示$E(x)=z$。
阅读全文