声音是人类的第一个界面,在写作或打字之前很久,它让我们分享想法,协调工作和建立关系。随着数字系统变得越来越强大,声音又是我们最自然的人类计算机互动形式。
然而,如今的系统仍然有限,不可靠,专有且过于脆弱,无法实现现实世界中的使用。缩小此差距需要具有出色转录,深刻理解,多语言流利度和开放,灵活的部署的工具。
我们释放Voxtral模型以加速这一未来。这些ART语音理解模型的状态有两种尺寸的24B变体,用于生产规模的应用程序,以及用于本地和边缘部署的3B变体。这两个版本均在Apache 2.0许可下发布。我们还将两个模型都提供在我们的API上,并且还提供了高度优化的转录端点这会提供无与伦比的成本效益。
直到最近,在生产中获得真正可用的语音情报意味着在两个权衡之间选择:
具有高单词错误率和语义理解有限的开源ASR系统
封闭的专有API,将强大的转录与语言理解相结合,但成本明显更高,对部署的控制较少
Voxtral桥梁这一差距。它在公开赛中提供了最先进的准确性和本地语义理解,不到可比API的一半。这使得高质量的语音智能可以大规模访问和控制。
两种体素模型都超出了带有包括:
长格式上下文:Voxtral具有32K令牌上下文长度,可处理音频最多30分钟的转录,或者40分钟以了解
内置问答和摘要:支持直接询问有关音频内容或生成结构化摘要的问题,而无需链接分开的ASR和语言模型
本地多语言:世界上最广泛使用的语言(英语,西班牙语,法语,葡萄牙语,印地语,印地语,德语,荷兰语,意大利语)中的自动语言检测和最先进的表现,仅举几例),帮助团队用单个系统为全球受众提供服务
直接从语音上打电话:启用基于口语用户意图的后端功能,工作流或API调用的直接触发,将语音交互变成可行的系统命令,而无需中间解析步骤。
文字方面的能力很高:保留其语言模型骨干的文字理解能力,Mistral Small 3.1
这些功能使Voxtral模型非常适合实际相互作用和下游动作,例如摘要,答案,分析和见解。对于成本敏感的用例,Voxtral Mini转录的价格超过一半的价格。对于高级用例,Voxtral Small以不到一半的价格匹配Elevenlabs抄写员的性能。
0:000:15
为了评估Voxtral的转录功能,我们将其评估为一系列英语和多语言基准。对于每个任务,我们报告跨语言的宏观平均单词错误率(较低)。对于英语,我们报告了平均值(<30秒)和长格式(> 30秒)的平均值。
Voxtral全面胜过低语大V3,这是当前领先的开源语音转录模型。它在所有任务中都击败了GPT-4O Mini Trentcribe和Gemini 2.5闪光灯,并在英语短形式和Mozilla Common Voice上取得了最先进的结果,超过了Elevenlabs Scribe,并展示了其强大的多语言能力。
当跨越Fleurs的语言进行评估时,Voxtral Small Proforms在每项任务上都窃窃私语,以多种欧洲语言来实现最先进的表现。
宏观平均细节:
en shortform:librispeech清洁,librispeech其他,gigapeech,voxpopuli,deckboard,chime-4,spgispeech
长期:收入21 10米,收入-22 10米
Mozilla Common Voice 15.1:英语,法语,德语,西班牙语,意大利语,葡萄牙语,荷兰语,印地语
Fleurs:英语,法语,德语,西班牙,意大利语,葡萄牙语,荷兰语,印地语,阿拉伯语
Voxtral Small和Mini能够直接从语音中回答问题,或提供音频和基于文本的提示。为了评估音频理解功能,我们创建了三个常见文本理解任务的语音合成版本。我们还根据内部音频理解(AU)基准评估了这些模型,该模型的任务是在40个长形音频示例上回答具有挑战性的问题。最后,我们评估了Fleurs翻译基准的语音翻译能力。
Voxtral Small在所有任务中都与GPT-4O-Mini和Gemini 2.5 Flash具有竞争力,从而在语音翻译中实现了最先进的表现。
Voxtral保留其语言模型主链的文本功能,使其能够分别用作工厂和Mistral Small 3.1的倒入替代品。
无论您是在笔记本电脑上进行原型型,在本地运行私人工作负载还是在云中扩展到生产,开始都很简单。
在本地下载并运行:Voxtral(24b)和Voxtral Mini(3b)可用于下载拥抱脸
尝试使用API:将边境语音智能整合到您的应用程序中API呼叫。定价起价为每分钟0.001美元,使高质量的转录和理解的规模负担得起。查看我们的文档这里。一个
在LE聊天中尝试:尝试Voxtralle聊天网络或移动设备上的语音模式(在接下来的几周内向所有用户推出)。记录或上传音频,获取转录,提出问题或生成摘要。
我们还为为具有更高安全性,规模或特定领域要求的企业设计的Voxtral提供功能。请与我们联系如果您正在考虑:
生产规模的私人部署:我们的解决方案团队可以帮助您在自己的基础架构中完全建立生产规模推断的紫纪。这是具有严格数据隐私要求的受监管行业中用例的理想选择。这包括指导和工具,用于在多个GPU或节点上部署紫外线,并针对生产吞吐量和成本效率进行了量化的构建。
特定领域的微调:与我们的应用的AI团队将紫外线适应专业环境,例如法律,医疗,客户支持或内部知识基础,以提高用例的准确性。
高级上下文:我们邀请设计合作伙伴为扬声器识别,情感检测,高级诊断以及更长的上下文窗口建立支持,以满足开箱即用的各种需求。
专门的集成支持:优先访问工程资源和咨询,以帮助将素素整合到您现有的工作流,产品或数据管道中。
我们将在indworld与我们的朋友举办现场网络研讨会(查看他们很酷的语音演讲演示使用Voxtral和Inworld tts!)展示如何在8月6日星期三构建端到端的语音代理。如果您感兴趣,请注册这里。一个
在接下来的几个月中,我们正在努力使音频功能更具功能功能。除了言语理解外,我们是否会很快支持:
演讲者细分
音频标记,例如年龄和情感
单词级的时间戳
非语音音频识别
还有更多!
我们很高兴看到您将使用Voxtral构建什么。
我们的Voxtral模型的发布标志着向前迈出的重要一步,但我们的旅程还远远没有结束。我们的野心是建立最自然,最令人愉悦的近人类般的声音接口,还有很多工作要做。我们正在积极扩展新生的音频团队,并寻找具有野心的才华横溢的研究科学家和工程师。
如果您有兴趣加入我们的使命,以使人工智能民主化,我们欢迎您的申请加入我们的团队!一个