英语轻松读发新版了,欢迎下载、更新

Meta 的新 AI 模型可以翻译 100 多种语言的语音

2025-01-15 16:00:00 英文原文

作者:By Scott J Mulliganarchive page

Meta 发布了一种新的 AI 模型,可以翻译 101 种不同语言的语音。它代表着向实时同声传译迈出的一步,即词语从某人嘴里出来后立即被翻译。 

通常,语音翻译模型使用多步骤方法。首先,他们将语音翻译成文本。然后他们将该文本翻译成另一种语言的文本。最后,翻译后的文本将转换为新语言的语音。这种方法可能效率低下,而且每一步都可能出现错误和误译。但是 Meta 的新模型(称为 SeamlessM4T)可以更直接地从一种语言的语音翻译成另一种语言的语音。该模型被描述为今天发表于自然。一个 

Seamless 可以以比现有顶级模型高出 23% 的准确度来翻译文本。尽管另一种模型 Google 的 AudioPaLM 在技术上可以翻译更多语言(其中有 113 种语言,而 Seamless 则有 101 种语言),但它只能将它们翻译成英语。SeamlessM4T 可以翻译成 36 种其他语言。

关键是一个称为并行数据挖掘的过程,该过程可以从爬取的网络数据中找到视频或音频中的声音与另一种语言的字幕匹配的实例。该模型学会了将一种语言中的这些声音与另一种语言中的匹配文本片段相关联。这为他们的模型开辟了一个全新的翻译示例库。

“Meta 在支持各种不同的事物方面做得非常出色,例如文本转语音、语音转文本,甚至自动语音识别,”昆尼皮亚克大学计算机科学教授 Chetan Jaiswal 说道大学,没有参与这项研究。– 他们支持的语言数量本身就是一项巨大的成就。 –

研究人员在论文中表示,人工翻译仍然是翻译过程的重要组成部分,因为他们可以应对不同的文化背景,并确保将相同的含义从一种语言传达到另一种语言。魁北克拉瓦尔大学加拿大翻译、技术与社会研究主席林恩·鲍克 (Lynne Bowker) 表示,这一步非常重要,她没有在 Seamless 项目上工作过。“语言是文化的反映,而文化有自己认识事物的方式,”她说。 

她说,当涉及医学或法律等应用时,机器翻译需要由人工彻底检查。否则,可能会导致误解。例如,当谷歌翻译用过的为了翻译弗吉尼亚州卫生部 2021 年 1 月发布的有关 covid-19 疫苗的公共卫生信息,它将英语中的“非强制性”翻译成西班牙语中的“不必要”,从而改变了该信息的整体含义。

某些语言的人工智能模型比其他语言有更多的示例可供训练。这意味着当前的语音到语音模型可能能够将希腊语等语言翻译成英语(其中可能有很多例子),但无法将斯瓦希里语翻译成希腊语。Seamless 背后的团队旨在通过使用数百万小时的不同语言的口语音频对模型进行预训练来解决这个问题。这种预训练使其能够识别语言中的一般模式,从而更容易处理不太广泛使用的语言,因为它已经对口语听起来应该是什么样子有了一些基线。 

该系统是开源的,研究人员希望该系统能够鼓励其他人在其当前功能的基础上进行开发。但有些人怀疑它与现有替代品相比是否有用。“Google 的翻译模型不像 Seamless 那样开源,但它的响应速度更快、速度更快,并且不需要学术人员花费任何费用,”Jaiswal 说。

Meta 系统最令人兴奋的事情是,它指出了在不远的将来跨语言即时解释的可能性,就像道格拉斯·亚当斯邪教小说中的巴别鱼一样银河系漫游指南。SeamlessM4T 比现有模型更快,但仍然不是即时的。也就是说,Meta 声称拥有更新版本的 Seamless,其速度与人类口译员一样快。 

德克萨斯大学阿灵顿分校阿灵顿计算语言学实验室主任肯尼·朱 (Kenny Zhu) 表示:“虽然这种延迟翻译没问题而且很有用,但我认为同声传译会更有用。”与新研究相关。

关于《Meta 的新 AI 模型可以翻译 100 多种语言的语音》的评论


暂无评论

发表评论

摘要

Meta 发布了 SeamlessM4T,这是一种人工智能模型,能够将 101 种语言的语音直接翻译成另一种语言的语音,标志着实时翻译的进展。与现有模型相比,该模型使用并行数据挖掘来提高准确性和多功能性。支持英语以外的 36 种语言输出翻译,文本翻译准确率比当前顶级机型高 23%。该系统是开源的,旨在鼓励进一步开发,但与谷歌的 AudioPaLM 等替代方案相比,其实用性受到质疑。研究人员强调人工翻译在复杂的应用和文化背景中的持续重要性。