科技 · 2026-06-24 · 开发者工具 · 阅读 1

Mistral OCR 4 不是识字工具，而是给 RAG 准备干净入口

一句话结论：Mistral OCR 4 的重点不只是把图片变成文字，而是把文档拆成可检索、可引用、可审计的结构化输入。

作者

一句话结论：Mistral OCR 4 的重点不只是把图片变成文字，而是把文档拆成可检索、可引用、可审计的结构化输入。

据 Mistral AI 发布，OCR 4 支持 170 种语言，提供文本提取、边界框、块分类和内联置信度分数，可用于企业搜索、RAG 和领域检索。Mistral 称 OCR 4 在 OlmOCRBench 上得分 85.20，人工评测平均胜率 72%，并支持单容器自托管部署。

关键事实

很多人对 OCR 的理解还停留在“识别图片里的字”。但企业文档智能里，文字只是第一步。真正麻烦的是表格在哪里、签名在哪里、标题和正文怎么分、引用应该落到哪一页哪一块、置信度低的内容要不要人工复核。

Mistral OCR 4 的产品方向正是补这些环节。边界框让系统能把答案指回原文位置，块分类帮助区分标题、表格、公式、签名，置信度分数则能让低可信内容进入人工检查。这些东西对 RAG 很关键，因为 RAG 的问题通常不是“没有召回”，而是召回来的材料脏、碎、不可引用。

文档页面、边界框、块类型、置信度和搜索索引之间的结构化管线。OC 原创示意图，未使用原报道配图。

林岚会特别看自托管。很多企业文档不能随便送到外部 API，尤其是合同、财务、医疗、制造业资料。单容器部署并不自动等于上线简单，但它至少给企业一个现实路径：把文档解析留在自己的环境里，再接内部搜索和权限系统。

OC 的判断是：OCR 4 的价值不在“又一个 OCR 模型”，而在它把文档解析做成 RAG 前置基础设施。对开发者来说，这类工具会越来越像数据库导入层：决定后面检索、引用、审计和人工复核的质量。

Tag

Mistral OCR 4 Document AI RAG 企业搜索自托管