2023年,如何用双耳可穿戴设备编程声景的语义听觉技术?

摘要:论文地址:语义听觉:用双耳可听器编程声学场景 论文代码:https:semantichearing.cs.washington.edu 引用格式:Veluri B, Itani M, Chan J, et al. Semantic H
论文地址:语义听觉:用双耳可听器编程声学场景 论文代码:https://semantichearing.cs.washington.edu/ 引用格式:Veluri B, Itani M, Chan J, et al. Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables[C]//Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. 2023: 1-15. 摘要 想象一下,你可以在公园里听到鸟儿的啁啾,而不会听到其他徒步者的闲聊,或者可以在繁忙的街道上屏蔽交通噪音,但仍能听到紧急警报声和汽车喇叭声。我们引入语义听觉,这是一种可听到设备的新功能,使它们能够实时地关注或忽略来自现实世界环境的特定声音,同时也保留空间线索。为实现这一目标,本文做出了两个技术贡献:1)提出了第一个神经网络,可以在干扰声音和背景噪声存在的情况下实现双耳目标声音提取,2)设计了一种训练方法,使系统可以泛化到现实世界的使用。结果表明,该系统可以在20种声音类别下运行,基于transformer的网络在连接的智能手机上的运行时间为6.56 ms。在以前未见过的室内和室外场景中对参与者进行的野外评估表明,所提出的概念验证系统可以提取目标声音并进行泛化,以保留其双耳输出中的空间线索。 关键字:空间计算,双耳目标声音提取,可听计算,噪声抵消,注意力,因果神经网络 1 介绍   在过去的十年中,我们见证了耳机、耳塞等可听设备数量的增加,全球有数百万人在使用它们[50]。在这里,我们介绍一种可听设备的新功能,我们称之为“语义听力”。   设想一个场景,一个用户在海滩上戴着耳聋的设备,希望在屏蔽附近任何人类语音的同时,倾听海洋的平静声音。同样,在繁忙的街道上行走时,用户可能希望减少除紧急警报器外的所有声音;或者在睡觉时,他们可能想听闹钟或婴儿的声音,但不想听街上的噪音。在另一种情况下,用户可能在飞机上,希望听到人类的讲话和广播,但不想听到婴儿的哭声。或者在徒步旅行时,用户可能想听鸟儿的啁啾声,但不是来自其他徒步者的闲聊(见图1中的示例)。这些以及其他潜在的使用案例需要降噪耳机来消除所有声音,然后需要一种机制来将所需的声音引入耳机。后者是我们工作的重点,它需要通过语义将个人传入的声音与用户输入相关联来实时编程输出的声学场景,以确定哪些声音允许进入可听设备,哪些声音要屏蔽。 图1: 语义听力应用。a)戴着双耳耳机的用户可以在屏蔽吸尘器噪音的同时关注语音,b)屏蔽街道噪音并专注于鸟鸣,c)屏蔽建筑噪音但听到汽车鸣笛,d)正在冥想的用户可以使用耳机屏蔽外面的交通噪音但听到闹钟的声音。 图2:语义听觉架构。双耳输入的声音被有线降噪耳机捕捉并发送到手机上,我们在我们的声音提取网络上运行 这提取了捕获目标声音(例如,警笛和猫的声音)并抑制噪音和干扰声音(例如,真空和交通噪音)的双耳输出。这种双耳输出是实时回放的 动物经过数百万年的进化,已经专注于目标声音和相关方向[32]。然而,通过耳机等入耳式设备实现这种能力具有挑战性,原因有三个。 实时要求。我们的设计输出的声音应该与用户的视觉感官同步。这需要实时处理,满足严格的延迟要求。对医疗助听器和增强音频的研究表明,我们要求延迟小于20-50 ms[24,59]。这需要使用10毫秒或更少的音频块识别目标声音,将它们与干扰声音分离,然后播放它们,所有这些都在智能手机等计算能力受限的设备上。 双耳处理。声音以不同的延迟和衰减到达双耳[64]。两耳之间的物理分离和来自佩戴者头部的反射/衍射(即与头部相关的传递函数),为空间感知提供线索。为了保存这些线索,我们需要双耳输出来保存或恢复跨两耳的目标声音的这种空间信息。 现实世界的泛化。虽然在合成数据上训练和测试神经网络在音频机器学习研究中很常见,但设计一个能泛化到现实世界可听应用的双耳目标声音提取网络是具有挑战性的。   这是因为在模拟中很难完全捕捉真实世界混响和头部相关传递函数(HRTF)的复杂性。然而,我们需要将其泛化到不同用户在未见过的声学环境中进行野外使用。   本文解决了上述挑战,并使用可听设备演示了语义听力(我们对“语义听觉”这个名字的启发是定向听觉,它是从特定方向听到声音的能力[10,16,67]。同样,语义听觉是指听到某些语义描述(如声音类)所指定的声音的能力)。为了实现我们的目标,我们做出了两个关键的技术贡献。 我们设计了第一个能够实现双耳目标声音提取的神经网络。
阅读全文