作者:Sidney Perkowitz
这是我们都经历过的经历:无论是在餐厅与朋友共进晚餐,在鸡尾酒会上遇到有趣的人,还是在办公室的喧闹中进行会议,我们发现自己不得不在背景声中大喊大叫喋喋不休和一般的噪音。人耳和大脑不太擅长在嘈杂的环境中识别不同的声源来专注于特定的对话。随着人们寿命的延长,这种能力会随着一般性听力损失而进一步恶化,并可能导致社会孤立。
然而,来自华盛顿大学的一组研究人员,微软, 和装配人工智能有刚刚显示人工智能可以在隔离声源以创建静默区方面超越人类。该声泡允许半径达 2 米内的人们进行交谈,同时大大减少来自其他扬声器或区域外噪音的干扰。
该小组由华盛顿大学教授领导希亚姆·戈拉科塔,旨在将人工智能与硬件结合起来,增强人类的能力。Gollakota 说,这与使用巨大的计算资源(例如聊天GPT雇用;相反,挑战在于在硬件限制的范围内创建有用的人工智能应用程序,特别是对于移动或可穿戴设备。戈拉科塔长期以来一直认为所谓的“鸡尾酒会问题”是一个普遍存在的问题,这种方法可能是可行且有益的。
目前,市售的降噪耳机可以抑制背景噪音,但不能补偿与声源的距离或其他问题,例如封闭空间中的混响。然而,之前的研究表明神经网络与传统的信号处理相比,可以实现更好的声源分离。基于这一发现,Gollakota 的团队设计了一种集成硬件人工智能“可听设备”系统,该系统可以分析音频数据,以清楚地识别指定气泡大小内和外的声源。然后,系统会实时抑制无关的声音,这样用户在观看讲话者时听到的声音和看到的声音之间就不会出现明显的延迟。
该系统的音频部分是一款商用降噪耳机,配有多达六个麦克风,可以检测附近和更远处的声音,为神经网络分析提供数据。定制网络可以找到声源的距离,并确定哪些声源位于 1 米、1.5 米或 2 米的可编程气泡半径内。这些网络使用模拟数据和真实数据进行训练,数据取自 22 个不同大小和吸音质量的房间人类受试者的不同组合。该算法在小型嵌入式 CPU(Orange Pi 或树莓派,并在几毫秒内将处理后的数据发送回耳机,速度足以保持听力和视觉同步。
听听在开启和关闭降噪耳机的情况下进行对话的区别。Malek Itani 和 Tuochao Chen/Paul G. Allen 学院/华盛顿大学
该原型中的算法将空泡外部的音量降低了 49 分贝,大约为空泡外部音量的 0.001%。记录气泡内的强度。即使在新的声学环境和不同的用户中,该系统对于气泡中最多两个扬声器和一两个干扰的外部扬声器(即使它们声音更大)也能正常运行。它还容纳了气泡内新扬声器的到来。
很容易想象该系统在可定制的降噪设备中的应用,特别是在嘈杂的环境中需要清晰、轻松的口头交流的情况。社会孤立的危险是众所周知的,专门为增强人与人之间的沟通而设计的技术可能会有所帮助。Gollakota 认为,仅仅帮助人们集中听觉和空间注意力进行人际互动是有价值的。
声泡技术最终也可以集成到助听器中。两个都谷歌和瑞士助听器制造商峰力分别在耳塞和助听器中添加了人工智能元素。Gollakota 目前正在考虑如何将声泡方法应用到舒适的佩戴式助听器中。为此,该设备必须装入耳塞或耳后式配置,在左右单元之间进行无线通信,并依靠微型电池全天运行。
Gollakota 有信心能够做到这一点。“我们正处于硬件和算法结合在一起支持人工智能增强的时代,”他说。“这并不是人工智能取代工作,而是通过人机界面对人们产生积极影响。”