英语轻松读发新版了,欢迎下载、更新

AI驱动的耳机提供语音克隆和3D空间音频的小组翻译

2025-05-10 09:18:42 英文原文

作者:University of Washington

AI headphones translate multiple speakers at once, cloning their voices in 3D sound
学分:华盛顿大学

华盛顿大学博士生Tuochao Chen最近在墨西哥参观了一家博物馆。Chen不会说西班牙语,因此他在手机上运行了一个翻译应用程序,并将麦克风指向导游。但是,即使在博物馆的相对安静中,周围的噪音也太多了。由此产生的文字没有用。

最近出现了各种有希望的流利翻译,但这些都没有解决陈的问题。例如,Meta的新眼镜仅与孤立的扬声器一起起作用;他们播放自动语音翻译演讲者结束后。

现在,陈和一组UW研究人员设计了耳机系统翻译几个扬声器同时,同时保留了人们声音的方向和素质。该团队构建了该系统,称为“空间语音翻译”,带有麦克风的现成噪音降噪耳机。该团队的算法将空间中的不同扬声器分开,并在他们移动时跟随他们,翻译演讲并以2-4秒的延迟播放。

华盛顿大学的研究人员设计了一个耳机系统,该系统一次翻译了几个人讲话,跟随他们移动并保留声音的方向和素质。该团队构建了该系统,称为“空间语音翻译”,带有麦克风的现成噪声耳机。学分:Chen等人/Chi '25这

团队介绍了研究4月30日,在日本横滨的ACM CHI人为因素会议上。概念验证设备的代码可供其他人构建。保罗·G·艾伦(Paul G. Allen)计算机科学与工程学院的大学教授Shyam Gollakota高级作家Shyam Gollakota说:“其他翻译技术也是基于一个人说话的假设。”“但是在现实世界中,您不能只有一个机器人的声音在房间里为多个人说话。这是第一次,我们保留了每个人的声音和它来自的方向的声音。”

该系统进行了三项创新。首先,当打开时,它立即检测到室内或室外空间中有多少人。

“我们的算法有点像雷达,”艾伦学校的大学博士生陈领导作家陈说。“因此,他们正在以360度扫描该空间,并不断确定和更新是否有一个人或六个或七个。”

然后该系统翻译演讲并保持每个语音的表现性和音量在设备上运行时的声音,具有Apple M2芯片(例如笔记本电脑和Apple Vision Pro)的移动设备。(由于存在隐私问题,团队避免使用云计算嗓音该系统在10个室内和室外设置中进行测试时起作用。

在29个参与者测试中,用户更喜欢系统,而不是没有通过太空跟踪扬声器的型号。

在单独的用户测试中,大多数参与者更喜欢3-4秒的延迟,因为该系统在延迟1-2秒时会出现更多的错误。该团队正在努力降低未来迭代的翻译速度。该系统目前仅用于常见的语音,而不是专业语言,例如技术术语。在本文中,该团队与西班牙,德语和法语合作,但以前的工作翻译“这是迈向分解的一步

语言障碍Qirui Wang是Hydrox AI的研究实习生,在完成这项研究的同时,Allen School的UW本科生,Allen School的UW博士生Runlin也是本文的合着者。

更多信息:

Tuochao Chen等人,《空间语音翻译:双耳听觉》的跨太空翻译,2025 CHI人为因素的计算系统中的会议记录(2025)。doi:10.1145/3706598.3713745引用:

AI驱动的耳机提供语音克隆和3D空间音频的小组翻译(2025年5月10日)检索2025年5月10日摘自https://techxplore.com/news/2025-05-ai-power-headphone-headphones-group-voice.html

该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。

关于《AI驱动的耳机提供语音克隆和3D空间音频的小组翻译》的评论


暂无评论

发表评论

摘要

华盛顿大学的研究人员开发了一种名为“空间语音翻译”的耳机系统,该系统可以同时翻译来自多个演讲者的语音,同时保留每种声音的方向和素质。该系统使用带有麦克风的现成噪音降噪耳机来实时检测,跟踪和翻译几种声音,在室内和室外有效运行。它维护扬声器的身份和空间音频提示,可延迟2-4秒,以进行翻译精度。在各种设置上进行了测试,用户在没有空间跟踪的情况下对此偏爱此模型。该团队旨在进一步减少翻译滞后,并将语言支持扩展到常见语音之外。这项技术可能会破坏公共场所的语言障碍。

相关讨论