2020年，TinyLSTMs如何实现高效助听器神经语音增强？

摘要：论文地址：TinyLSTMs：助听器的高效神经语音增强音频地址：https:github.comBoseefficient-neural-speech-enhancement 引用格式：Fedorov I，Stamenovic M

论文地址：TinyLSTMs：助听器的高效神经语音增强音频地址：https://github.com/Bose/efficient-neural-speech-enhancement 引用格式：Fedorov I，Stamenovic M，Jensen C，et al. TinyLSTMs：Efficient neural speech enhancement for hearing aids[J]. arXiv preprint arXiv：2005.11138，2020. 摘要　　现代语音增强算法利用大量递归神经网络(RNNs)实现了显著的噪声抑制。然而，大型RNN限制了助听器硬件(hearing aid hardware，HW)的实际部署，这些硬件是电池供电的，运行在资源受限的微控制器单元(microcontroller units，MCU)上，内存和计算能力有限。在这项工作中，我们使用模型压缩技术来弥补这一差距。我们在HW上对RNN施加约束，并描述了一种方法来满足它们。虽然模型压缩技术是一个活跃的研究领域，但我们是第一个证明其有效性的RNN语音增强，使用剪裁和权重/激活的整型量化。我们还演示了状态更新跳跃，它可以减少计算负载。最后，我们对压缩模型进行感知评估，人类评分员对语音进行打分。结果显示，与基线相比，压缩模型的模型size和operation(操作)分别减少了11.9和2.9，在听力偏好上没有统计差异，只损失了0.55dB SDR。我们的模型实现了2.39ms的计算延迟，在10 ms的目标范围内，比之前的工作好351*。关键词：噪声抑制，语音增强，循环神经网络，剪枝，量化 1 引言　　健康的耳朵是一个复杂的非线性系统，能够在大的动态范围内工作。当耳朵受损时，听觉系统可以用助听器(HA)增强，它可以执行一些耳朵不再能做的放大和过滤功能。语音增强(SE)可以缓解嘈杂环境中的听力困难，这是HA用户最关注的问题之一[1,2,3]。　　最近的SE方法通常由循环神经网络(RNN)体现[5,6]。SE模型必须实现低音频延迟，以确保测听者舒适。音频延迟被定义为噪声到达HA和助听器产生的纯净语音之间的延迟。可以容忍的延迟量取决于HA类型和如何处理用户自己的语音[7,8,9]。使用之前的工作[7,8,9]作为指导方针，我们的目标是最大音频延迟为30 ms。对于我们使用的基于帧的方法，由于帧和因果模型之间有50%的重叠，处理每帧的计算延迟约束为10ms。　　HA形式因素强加了另一组约束，特别是在结合帧处理需求时。由于其体积小，采用了单片机(MCU)硬件平台。MCU实现了廉价、低功耗的计算，但代价是严重的内存和计算约束[10]。MCU Flash内存限制了最大允许模型尺寸(maximum allowed model size，MS)，而SRAM内存限制了模型工作内存(upper bounds model working memory，WM)，即用于存储中间结果的内存。为了实现高效的计算，SE模型必须量化为整型数据类型，我们必须最小化每秒所需的操作(ops)数量(ops/s)，其中op表示单个加法或乘法。本文以STM32F746VE MCU[4]作为典型的HW平台，该MCU包含一个216MHz Arm Cortex-M7 [11]，512KB Flash内存，320KB SRAM。我们使用Mbed OS[12]和CMSIS内核[13,14]。表1总结了SE模型约束。表1：模型约束。MOps/inf表示每帧推理有$10^6$个操作。目标MCU为STM32F746VE[4] 　　最近的一些论文考虑了类似的限制。例如，威尔逊等人[6]使用黑盒优化器在一系列因果和非因果模型中搜索 SE 模型，这些模型包括对模型输入的计算量大的卷积。模型复杂性在搜索中没有明确限制，报告的模型在 3.7-248 MB 范围内，违反了 MS 限制。此外，一些模型在前端包含许多层扩张卷积，这需要大约 4.4 MB 的 WM，违反了 WM 约束。　　其他的研究试图剪裁[15]和量化[16]RNN，但没有将他们的技术应用于SE。尽管参数在[16]中是量化的，但激活不是量化的，因此计算结果不适合整型算法。此外，[15,16]也不清楚剪枝和量化是否可以联合应用于RNNs。在Wu等人的[17]中，对一个非循环卷积SE模型进行了剪枝和量化。然而，它们对非均匀量化的使用需要非标准HW支持[18]，以避免在从内存中加载每个权值后对其进行解码，从而产生重大的性能开销。对于大的感受野，卷积模型可能还需要以音频采样率运行的大缓冲区。这极大地扩张了 WM ，并极大地缩短了计算时间的限制。

2020年，TinyLSTMs如何实现高效助听器神经语音增强？

相关推荐