Voxtral 以声速转录。|米斯特拉尔人工智能
今天,我们发布了 Voxtral Transcribe 2,这是两个下一代语音转文本模型,具有最先进的转录质量、二值化和超低延迟。该系列包括用于批量转录的 Voxtral Mini Transcribe V2 和用于实时应用的 Voxtral Realtime。Voxtral Realtime 是 Apache 2.0 许可证下的开放权重。
我们还推出了Mistral Studio 中的音频游乐场立即测试转录,由 Voxtral Transcribe 2 提供支持,具有分类和时间戳。
亮点。
-
Voxtral Mini Transcribe V2:最先进的转录功能,具有 13 种语言的说话人分类、上下文偏差和单词级时间戳。
-
Voxtral Realtime:专为实时转录而构建,延迟可配置为低于 200 毫秒,支持语音代理和实时应用程序。
-
一流的效率:以极低的成本实现行业领先的准确性,Voxtral Mini Transcribe V2 以最低的价格实现最低的字错误率。
-
开放权重:Voxtral Realtime 在 Apache 2.0 下发布,可部署在边缘以实现隐私优先的应用程序。
Voxtral 实时。
Voxtral Realtime 专为延迟很重要的应用程序而构建。与通过处理块音频来适应离线模型的方法不同,Realtime 使用一种新颖的流架构,可以在音频到达时对其进行转录。该模型提供的转录延迟可配置低至 200 毫秒以下,从而开启了一类新的语音优先应用程序。

FLEURS 转录基准中跨语言的单词错误率(越低越好)。
Realtime 的延迟时间为 2.4 秒,非常适合字幕制作,与我们最新的批量模型 Voxtral Mini Transcribe V2 相匹配。在 480 毫秒的延迟下,单词错误率保持在 1-2% 以内,使语音代理具有接近离线的准确性。
该模型本身是多语言的,在英语、中文、印地语、西班牙语、阿拉伯语、法语、葡萄牙语、俄语、德语、日语、韩语、意大利语和荷兰语等 13 种语言中实现了强大的转录性能。它具有 4B 参数足迹,可在边缘设备上高效运行,确保敏感部署的隐私和安全。
我们在 Apache 2.0 上发布了模型权重拥抱脸部中心。
Voxtral 迷你转录 V2。

五个英语基准(Switchboard、CallHome、AMI-IHM、AMI-SDM、SBCSAE)和 TalkBank 多语言基准(德语、西班牙语、英语、中文、日语)的平均分类错误率(越低越好)。

FLEURS 转录基准中前 10 种语言的平均单词错误率(越低越好)。
Voxtral Mini Transcribe V2 显着提高了跨语言和域的转录和分类质量。Voxtral 在 FLEURS 上的字错误率约为 4%,每分钟 0.003 美元,提供了所有转录 API 中最佳的性价比。它在准确性方面优于 GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal 和 Deepgram Nova,并且处理音频的速度比 ElevenLabs Scribe v2 快约 3 倍,同时在质量上与之相当,而成本却只有 ElevenLabs 的五分之一。
企业级功能。
Voxtral Mini Transcribe V2 引入了企业部署的关键功能。

说话者二值化。
生成带有说话者标签和精确开始/结束时间的转录。非常适合会议转录、采访分析和多方通话处理。注意:对于重叠语音,该模型通常会转录一位说话者。

上下文偏差。
提供最多 100 个单词或短语来指导模型正确拼写名称、技术术语或特定领域词汇。对于标准模型经常遗漏的专有名词或行业术语特别有用。上下文偏差针对英语进行了优化;对其他语言的支持是实验性的。
字级时间戳。
为每个单词生成精确的开始和结束时间戳,支持字幕生成、音频搜索和内容对齐等应用。

扩展的语言支持。
与 Realtime 一样,该模型现在支持 13 种语言:英语、中文、印地语、西班牙语、阿拉伯语、法语、葡萄牙语、俄语、德语、日语、韩语、意大利语和荷兰语。非英语表现明显优于竞争对手。
噪声鲁棒性。
在具有挑战性的声学环境(例如工厂车间、繁忙的呼叫中心和现场录音)中保持转录准确性。
更长的音频支持。
一次请求最多可处理 3 小时的录音。

FLEURS 转录基准中跨语言的单词错误率(越低越好)。
音频游乐场。
直接在中测试 Voxtral Transcribe 2米斯特拉尔工作室。上传最多 10 个音频文件,切换二值化,选择时间戳粒度,并为特定领域的词汇添加上下文偏差术语。支持 .mp3、.wav、.m4a、.flac、.ogg,每个文件最大 1GB。
改变语音应用程序。
Voxtral 为不同应用和行业的语音工作流程提供支持。
-
会议情报。
通过说话者分类来转录多语言录音,清楚地记录谁说了什么以及何时说。在 Voxtral 的价位上,可以以行业领先的成本效率对大量会议内容进行注释。
-
语音代理和虚拟助理。
构建转录延迟低于 200 毫秒的对话式 AI。将 Voxtral Realtime 连接到您的 LLM 和 TTS 管道,以获得自然的响应式语音界面。
-
联络中心自动化。
实时转录通话,使人工智能系统能够在对话仍在进行时分析情绪、提出响应建议并填充 CRM 字段。说话者分类可确保座席和客户之间的清晰归属。
-
媒体和广播。
以最小的延迟生成实时多语言字幕。上下文偏差处理专有名词和技术术语,这些术语和术语会妨碍通用转录服务。
-
合规性和文档。
监控和转录交互以确保合规性,并通过分类提供清晰的发言者归属和时间戳,从而实现精确的审计跟踪。
两种型号都通过安全的本地或私有云设置支持符合 GDPR 和 HIPAA 的部署。
开始吧。
Voxtral 迷你转录 V2现在可通过 API 获取,价格为每分钟 0.003 美元。立即在新的 Mistral Studio 中尝试一下音频游乐场或在乐聊。
Voxtral 实时可通过 API 获取,价格为每分钟 0.006 美元,并作为开放重量抱脸。
探索文档关于 Mistral 的音频和转录功能。
我们正在招聘。
如果您对构建世界一流的语音人工智能并将前沿模型交到世界各地的开发人员手中感到兴奋,我们很乐意听取您的意见。申请加入我们的团队。