作者:University of Washington
华盛顿大学博士生Tuochao Chen最近在墨西哥参观了一家博物馆。Chen不会说西班牙语,因此他在手机上运行了一个翻译应用程序,并将麦克风指向导游。但是,即使在博物馆的相对安静中,周围的噪音也太多了。由此产生的文字没有用。
最近出现了各种有希望的流利翻译,但这些都没有解决陈的问题公共空间。例如,Meta的新眼镜仅与孤立的扬声器一起起作用;他们播放自动语音翻译演讲者结束后。
现在,陈和一组UW研究人员设计了耳机系统翻译几个扬声器同时,同时保留了人们声音的方向和素质。该团队构建了该系统,称为“空间语音翻译”,带有麦克风的现成噪音降噪耳机。该团队的算法将空间中的不同扬声器分开,并在他们移动时跟随他们,翻译演讲并以2-4秒的延迟播放。
团队介绍了研究4月30日,在日本横滨的ACM CHI人为因素会议上。概念验证设备的代码可供其他人构建。保罗·G·艾伦(Paul G. Allen)计算机科学与工程学院的大学教授Shyam Gollakota高级作家Shyam Gollakota说:“其他翻译技术也是基于一个人说话的假设。”“但是在现实世界中,您不能只有一个机器人的声音在房间里为多个人说话。这是第一次,我们保留了每个人的声音和它来自的方向的声音。”
该系统进行了三项创新。首先,当打开时,它立即检测到室内或室外空间中有多少人。
“我们的算法有点像雷达,”艾伦学校的大学博士生陈领导作家陈说。“因此,他们正在以360度扫描该空间,并不断确定和更新是否有一个人或六个或七个。”
然后该系统翻译演讲并保持每个语音的表现性和音量扬声器在设备上运行时的声音,具有Apple M2芯片(例如笔记本电脑和Apple Vision Pro)的移动设备。(由于存在隐私问题,团队避免使用云计算嗓音最后,当说话者移动头部时,系统会随着变化的变化而继续跟踪声音的方向和素质。该系统在10个室内和室外设置中进行测试时起作用。
在29个参与者测试中,用户更喜欢系统,而不是没有通过太空跟踪扬声器的型号。
在单独的用户测试中,大多数参与者更喜欢3-4秒的延迟,因为该系统在延迟1-2秒时会出现更多的错误。该团队正在努力降低未来迭代的翻译速度。该系统目前仅用于常见的语音,而不是专业语言,例如技术术语。在本文中,该团队与西班牙,德语和法语合作,但以前的工作翻译模型表明它们可以接受培训以翻译约100种语言。“这是迈向分解的一步
语言障碍陈说,在文化之间。“因此,如果我在墨西哥的街道上行走,即使我不会说西班牙语,我也可以翻译所有人的声音,知道谁说了什么。”Qirui Wang是Hydrox AI的研究实习生,在完成这项研究的同时,Allen School的UW本科生,Allen School的UW博士生Runlin也是本文的合着者。
更多信息:
Tuochao Chen等人,《空间语音翻译:双耳听觉》的跨太空翻译,2025 CHI人为因素的计算系统中的会议记录(2025)。doi:10.1145/3706598.3713745引用:
AI驱动的耳机提供语音克隆和3D空间音频的小组翻译(2025年5月10日)检索2025年5月10日摘自https://techxplore.com/news/2025-05-ai-power-headphone-headphones-group-voice.html
该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。