在世界上约有7,000种语言中,AI语言模型支持一小部分。NVIDIA正在使用一个新的数据集解决这个问题,并支持25种欧洲语言的高质量语音识别和翻译AI的开发,包括克罗地亚,爱沙尼亚语和马耳他语的可用数据有限的语言。
这些工具将使开发人员能够更轻松地扩展AI应用程序,以通过快速,准确的语音技术为生产规模的用例(例如多语言聊天机器人,客户服务语音代理商和近实时翻译服务)提供支持全球用户。它们包括:
- 粮仓这是一个庞大的,开源的多语言语音数据集,其中包含大约一百万个小时的音频,包括近65万小时的语音识别和350,000小时的语音翻译小时。
- NVIDIA CANARY-1B-V2,这是一家十亿参数模型,接受了粮仓的高质量转录,以及英语和二十二个支持语言的翻译。它顶部拥抱脸的排行榜用于多语言语音识别精度的开放模型。
- NVIDIA PARAKESET-TDT-0.6B-V3这是一种简化的6亿参数型号,旨在用于实时或大批量的粮仓支撑语言。它具有多语言模型的最高吞吐量在拥抱的脸部排行榜上,以计算时间为单位的音频持续时间测量。
这粮仓背后的纸将于8月17日至21日在荷兰举行的语言处理会议上介绍。数据集以及新的金丝雀和长尾小鹦鹉模型现在在拥抱脸上可用。
粮仓如何解决数据稀缺性
为了开发粮食数据集,NVIDIA演讲AI团队与研究人员合作来自卡内基·梅隆大学(Carnegie Mellon University)和Fondazione Bruno Kessler。该团队通过由由动力的创新处理管道通过了未标记的音频NVIDIA NEMO语音数据处理器将其变成结构化的高质量数据的工具包。
该管道使研究人员能够将公共语音数据改善为AI培训的可用格式,而无需资源密集的人类注释。它是在Github的开源可用。
借助Granary的干净,现成的数据,开发人员可以在几乎所有欧盟的24种官方语言,以及俄罗斯和乌克兰语中处理转录和翻译任务,以解决转录和翻译任务。
对于欧洲语言在人类通知数据集中的代表性不足,Granary提供了一个关键的资源来开发更具包容性的语音技术,可以更好地反映大陆的语言多样性,同时使用较少的培训数据。
该团队在他们的界面论文中证明,与其他流行的数据集相比,它花费了大约一半的粮食培训数据,以达到自动语音识别(ASR)和自动语音翻译(AST)的目标精度水平。
敲击Nvidia nemo到涡轮增压转录
新的Canary和Parakeet模型提供了开发人员可以使用粒度构建的类型的示例,该模型可以根据其目标应用定制。Canary-1B-V2是针对复杂任务的准确性进行了优化的,而Parakeet-TDT-0.6B-V3则设计用于高速,低延迟任务。
通过共享粒度数据集和这两个模型背后的方法,NVIDIA正在使全球语音AI开发人员社区能够将此数据处理工作流程适应其他ASR或AST模型或其他语言,从而加速了语音AI创新。
Canary-1b-V2,可在A允许许可证,将加那利家族的支持语言从四种扩展到25。它提供的转录和翻译质量可与3倍型号较大的型号相当,同时推断最高10倍。
Nvidia nemo,一个用于管理AI代理生命周期的模块化软件套件,加速了语音AI模型开发。Nemo策展人,该软件套件的一部分使团队能够从源数据中滤除合成示例,因此仅将高质量的样本用于模型培训。该团队还利用NEMO语音数据处理器工具包进行任务,例如将成绩单与音频文件对齐并将数据转换为所需格式。
Parakeet-TDT-0.6B-V3优先考虑高吞吐量,并且能够在单个推理通过中转录24分钟的音频段。该模型会自动检测输入音频语言并在没有其他提示步骤的情况下转录。
金丝雀和长尾小鹦鹉模型都可以在其产出中提供准确的标点符号,大写字母和单词级时间戳。