如何实现语音增强中的低延迟音高估计?

摘要:论文地址:延迟约束的语音增强基音估计 引用格式:Schröter H, Rosenkranz T, Escalante-B A N, et al. LACOPE: Latency-Constrained Pitch
论文地址:延迟约束的语音增强基音估计 引用格式:Schröter H, Rosenkranz T, Escalante-B A N, et al. LACOPE: Latency-Constrained Pitch Estimation for Speech Enhancement[C]//Interspeech. 2021: 656-660. 摘要   基频($f_0$)估计,又称基音跟踪,是语音和信号处理领域长期以来的研究课题。然而,许多基音估计算法在噪声条件下失败,或者由于其帧大小或Viterbi解码而引入大延迟。   在本研究中,我们提出了一种基于深度学习的基音估计算法LACOPE,该算法在联合基音估计和语音增强框架中训练。与之前的工作相比,该算法允许可配置的延迟,最低可达到0的算法延迟。这一点是通过利用pitch轨迹的平滑特性实现的。也就是说,一个循环神经网络通过预测期望点的pitch来补偿由特征计算引入的延迟,允许在pitch精确度和延迟之间进行权衡。   我们将音调估计整合到一个用于助听器的语音增强框架中。在这个应用中,我们允许 5ms的分析延迟。然后使用基音估计在频域构建梳状滤波器,作为后处理步骤,以去除内部谐波噪声。   对于所有噪声条件下的语音,我们的基音估计性能与PYIN或CREPE等SOTA算法相当,同时引入了最小的延迟 索引术语:基音估计,语音增强,卷积循环神经网络 1 引言   消除不需要的环境噪声是现代助听器的一个共同特征。助听器处理的一个重要特性是整体延迟低,这包括分析、滤波等步骤,如降噪以及合成。特别是对于具有开放耦合的助听器,原始信号的强分量到达耳鼓。因此,大于10毫秒的延迟通常是不可取的[1],因为它们会引入不必要的梳状滤波器效应(不要与用于内谐波降噪的数字梳状滤波器混淆)。这些延迟要求导致处理窗口非常短,约为6毫秒,带宽为500 Hz。由于这种频率分辨率,它不可能减少谐波内噪声,导致与纯净的语音相比,信号听起来更粗糙。为了能够减弱语音谐波之间的噪声,最近提出了一个梳状滤波器[2, 3]。Valin等人[2]用一种基于自相关的方法估计pitch,与OPUS编解码器[4]类似。然而,这些方法至少要用20毫秒的帧来分析pitch,因此对于我们的延迟限制来说是不可行的。   其他基音估计算法需要类似的甚至更高的look-ahead。RAPT[5]还使用归一化互相关(NCC)特征,结合最大搜索(maximum search)和动态规划(dynamic programming)来选择最佳$f_0$候选。动态规划通过利用基音的平滑特性提高了鲁棒性,因此被许多方法采用[5、6、7、8]。然而,只有在计算Viterbi反向算法的至少几个步骤时,才能利用其全部潜力,这将导致appox的额外延迟。100毫秒[5]。YIN及其概率继承者PYIN[9,6]使用累积平均归一化差函数(cumulative mean normalized difference function,CMN DF)代替NCC,因为这有助于消除倍频程误差。通常,两者都需要至少20到100ms的帧大小。PYIN需要对动态编程进行额外的look-ahead。CREPE[7]是一种基于时域卷积的深度学习方法,帧大小为64ms,略优于PYIN。Zhang等人[10]还提出了一种联合基音估计和语音增强框架。然而,它们仅使用基音特征作为去噪网络的输入。   在这项工作中,我们提出了LACOPE,一种基于深度学习的延迟约束基音估计方法,与SOTA基音估计算法相比有几个优势。首先,我们的算法允许0到20毫秒之间的可配置延迟,而更大的延迟导致更高的音调精度。其次,我们的算法也产生鲁棒的基音估计低信噪比和周期噪声。这是通过在训练期间使用大量各种各样的噪声信号进行大量的数据增强,以及用于基音估计和噪声降低的多目标损失来完成的。最后,与CREPE相比,复杂性要低得多。 2 信号模型   设$x(k)$是在有噪声的房间中记录的混合信号。 $$公式1:x(k)=s(k)\starh(k)+n(k)$$ 式中$s(k)$为纯净语音信号,$\star$表示卷积算子,$h(k)$为从扬声器到麦克风的房间脉冲响应(RIR), $n(k)$为加性噪声。在信号模型中加入混响语音$s^{rev}=s(k)\starh(k)$对于泛化现实世界的信号具有重要意义。此外,混响语音的周期性成分通常略有下降。梳状滤波器可以通过改善周期性部分来提高感知质量。   我们的降噪方法完全适用于频域。
阅读全文