2020年,TinyLSTMs如何实现高效助听器神经语音增强?
摘要:论文地址:TinyLSTMs:助听器的高效神经语音增强 音频地址:https:github.comBoseefficient-neural-speech-enhancement 引用格式:Fedorov I,Stamenovic M
论文地址:TinyLSTMs:助听器的高效神经语音增强
音频地址:https://github.com/Bose/efficient-neural-speech-enhancement
引用格式:Fedorov I,Stamenovic M,Jensen C,et al. TinyLSTMs:Efficient neural speech enhancement for hearing aids[J]. arXiv preprint arXiv:2005.11138,2020.
摘要
现代语音增强算法利用大量递归神经网络(RNNs)实现了显著的噪声抑制。然而,大型RNN限制了助听器硬件(hearing aid hardware,HW)的实际部署,这些硬件是电池供电的,运行在资源受限的微控制器单元(microcontroller units,MCU)上,内存和计算能力有限。在这项工作中,我们使用模型压缩技术来弥补这一差距。我们在HW上对RNN施加约束,并描述了一种方法来满足它们。虽然模型压缩技术是一个活跃的研究领域,但我们是第一个证明其有效性的RNN语音增强,使用剪裁和权重/激活的整型量化。我们还演示了状态更新跳跃,它可以减少计算负载。最后,我们对压缩模型进行感知评估,人类评分员对语音进行打分。结果显示,与基线相比,压缩模型的模型size和operation(操作)分别减少了11.9和2.9,在听力偏好上没有统计差异,只损失了0.55dB SDR。我们的模型实现了2.39ms的计算延迟,在10 ms的目标范围内,比之前的工作好351*。
关键词:噪声抑制,语音增强,循环神经网络,剪枝,量化
1 引言
健康的耳朵是一个复杂的非线性系统,能够在大的动态范围内工作。当耳朵受损时,听觉系统可以用助听器(HA)增强,它可以执行一些耳朵不再能做的放大和过滤功能。语音增强(SE)可以缓解嘈杂环境中的听力困难,这是HA用户最关注的问题之一[1,2,3]。
最近的SE方法通常由循环神经网络(RNN)体现[5,6]。SE模型必须实现低音频延迟,以确保测听者舒适。音频延迟被定义为噪声到达HA和助听器产生的纯净语音之间的延迟。可以容忍的延迟量取决于HA类型和如何处理用户自己的语音[7,8,9]。使用之前的工作[7,8,9]作为指导方针,我们的目标是最大音频延迟为30 ms。对于我们使用的基于帧的方法,由于帧和因果模型之间有50%的重叠,处理每帧的计算延迟约束为10ms。
HA形式因素强加了另一组约束,特别是在结合帧处理需求时。由于其体积小,采用了单片机(MCU)硬件平台。MCU实现了廉价、低功耗的计算,但代价是严重的内存和计算约束[10]。MCU Flash内存限制了最大允许模型尺寸(maximum allowed model size,MS),而SRAM内存限制了模型工作内存(upper bounds model working memory,WM),即用于存储中间结果的内存。为了实现高效的计算,SE模型必须量化为整型数据类型,我们必须最小化每秒所需的操作(ops)数量(ops/s),其中op表示单个加法或乘法。本文以STM32F746VE MCU[4]作为典型的HW平台,该MCU包含一个216MHz Arm Cortex-M7 [11],512KB Flash内存,320KB SRAM。我们使用Mbed OS[12]和CMSIS内核[13,14]。表1总结了SE模型约束。
表1:模型约束。MOps/inf表示每帧推理有$10^6$个操作。目标MCU为STM32F746VE[4]
最近的一些论文考虑了类似的限制。 例如,威尔逊等人[6]使用黑盒优化器在一系列因果和非因果模型中搜索 SE 模型,这些模型包括对模型输入的计算量大的卷积。 模型复杂性在搜索中没有明确限制,报告的模型在 3.7-248 MB 范围内,违反了 MS 限制。 此外,一些模型在前端包含许多层扩张卷积,这需要大约 4.4 MB 的 WM,违反了 WM 约束。
其他的研究试图剪裁[15]和量化[16]RNN,但没有将他们的技术应用于SE。尽管参数在[16]中是量化的,但激活不是量化的,因此计算结果不适合整型算法。此外,[15,16]也不清楚剪枝和量化是否可以联合应用于RNNs。在Wu等人的[17]中,对一个非循环卷积SE模型进行了剪枝和量化。然而,它们对非均匀量化的使用需要非标准HW支持[18],以避免在从内存中加载每个权值后对其进行解码,从而产生重大的性能开销。对于大的感受野,卷积模型可能还需要以音频采样率运行的大缓冲区。 这极大地扩张了 WM ,并极大地缩短了计算时间的限制。
