音频技术初创公司 Symphonic Labs 发布了一个在线工具,展示他们的人工智能在唇读方面的表现。我们对其进行了测试。
这家总部位于旧金山和加拿大的初创公司创建了所谓的“多模式语音理解”工具,其应用程序包括在高噪音环境中进行语音通话或在公共场合对语音助手耳语.
“想知道布莱克·莱弗利 (Blake Lively)、泰勒·斯威夫特 (Taylor Swift)、勒布朗·詹姆斯 (LeBron James) 等人在麦克风不在身边时会说什么吗?我们刚刚推出了 readtheirlips.com,您可以上传任意视频该初创公司在 LinkedIn 上发布消息称,“我们可以使用我们的 AI 唇读模型来识别说话者的声音,并识别听不清的语音。”任何人都可以将一段简短的视频剪辑上传到该网站,它会返回计算出的内容的文本。视频必须清晰地显示说话者的脸部和嘴唇。
我们在 Getty Images 的 26 秒美国副总统卡玛拉·哈里斯 (Kamala Harris) 在肯特兰枪支暴力意识日活动上讲话的视频中测试了 Symphonic Lab 的唇读人工智能2024 年 6 月 7 日,马里兰州兰多弗社区中心。
在大多数情况下,该软件相当准确,但它在语音的一些小部分上出现了错误,例如“试图安慰他们”而不是“试图安慰他们”,还有一些中等错误:“会回忆起每一天的枪支暴力”而不是“或者我们所说的日常枪支暴力”。总的来说,只要脸部清晰,看起来就相当准确。
我们还在一些无声电影时代的片段上对其进行了测试,看看它在处理颗粒状的旧黑白镜头时表现如何。虽然我们无法确认实际所说的内容,但了解像格洛丽亚·斯旺森这样的电影明星可能会说些什么很有趣。
在 1925 年的 23 秒新闻片段中,可以看到斯旺森在纽约港的一艘船上,背景是自由女神像。这段视频是无声的,由新闻播音员配音。Symphonic Lab 的软件猜测演员正在转向她的丈夫,并在向镜头挥手时说了一些类似于“我已经这样做很长时间了,我已经这样做了很长时间”的话。
Readtheirlips.com 展示了 Symphonic Labs 正在全力开展的工作。该初创公司的工程师 Chris Samra 在 X(以前称为 Twitter)上发帖称,其名为 MAMO 的 Mac OS 软件应用程序将该技术与个人电脑集成,允许用户“不发出声音”发出语音命令。
萨姆拉在接受《新闻周刊》采访时表示,他和联合创始人创建这家初创公司的原因是“打造一个能够产生心灵感应的界面,而不需要植入物或笨重的硬件。”
“就而言新颖之处在于,我们的人工智能模型有两个用途:一方面,它可以让任何人在不发出声音的情况下进行交流,速度比打字快 3 倍;另一方面,它能够分析远距离或嘈杂环境中的语音。”Samra。
他解释说,readtheirlips.com 更多的是一个技术演示,“不是我们的长期主要目标”,尽管“看到人们尝试解码过去的无声视频是令人惊讶的”否则如果没有我们的模型就无法解码。”
“我真的认为最大的机会在于让大众消费者能够以更少的摩擦使用对话界面,并为患有发声障碍、RSI 的人提供便利性Samra 说。
该软件的新更新现在允许添加个人上下文和词汇,这意味着用户可以训练它更好地处理自己的声音和其他声音。互动。
“您可以在公共和嘈杂的环境中口述,它会通过读您的嘴唇来为您转录。不需要发声、额外的硬件或可穿戴麦克风。”萨姆拉补充道。
这可能对许多人有用。普华永道关于美国消费者如何与语音助手互动的调查发现,大多数人在公共场合使用语音助手感到不舒服
“尽管移动语音助手随处可用,但四分之三的消费者 (74%) 在家中使用移动语音助手。大多数焦点小组参与者很快表示,他们在与语音助手交谈时更喜欢隐私,并且在公共场合使用它“看起来很奇怪”,”报告称。
Marie Boran 是爱尔兰卡洛的《新闻周刊》记者,她的重点是报道……阅读更多