
作者 | Robert Krzaczyński
譯者 | 張衛(wèi)濱
Mistral 近日發(fā)布了其光學(xué)字符識(shí)別(optical character recognition,OCR)模型的最新版本,Mistral OCR 3,該版本專注于在多種文檔類型上實(shí)現(xiàn)更高的精度,包括手寫筆記、表單、低質(zhì)量掃描件以及結(jié)構(gòu)復(fù)雜的表格。
據(jù) Mistral 表示,OCR 3 相較于前一代產(chǎn)品是一次重大的飛躍。在基于真實(shí)客戶文檔工作流的內(nèi)部評(píng)估中,新模型在整體表現(xiàn)上以 74% 的勝率超越了 Mistral OCR 2,尤其在表單、手寫內(nèi)容和含大量表格的文檔上優(yōu)勢(shì)更為顯著。這些基準(zhǔn)測(cè)試采用模糊匹配(fuzzy-match)指標(biāo)與人工標(biāo)注的真實(shí)結(jié)果進(jìn)行比對(duì),旨在反映實(shí)際業(yè)務(wù)場(chǎng)景,而非理想化的合成數(shù)據(jù)。
![]()
圖片來(lái)源:Mistral 博客
從技術(shù)角度看,Mistral OCR 3 不僅能夠提取文本,還能識(shí)別并保留嵌入的圖像,同時(shí)完整保留原始文檔的結(jié)構(gòu)信息。它的輸出格式為 Markdown,其中表格通過(guò) HTML 標(biāo)簽(如 rowspan 和 colspan)重建,使下游系統(tǒng)不僅能獲取純文本,還能保留布局語(yǔ)義。這一特性使其非常適合需要結(jié)構(gòu)化 JSON、可搜索檔案的管道,或集成到智能體(agentic)和檢索增強(qiáng)系統(tǒng)(RAG)中。
在以往通常依賴人工復(fù)核的場(chǎng)景中,該模型也展現(xiàn)出顯著的進(jìn)步。它能夠高效處理手寫內(nèi)容,包括連筆的筆記和批注。在表單解析方面,對(duì)標(biāo)簽、復(fù)選框及混合輸入項(xiàng)的識(shí)別更加準(zhǔn)確。此外,OCR 3 對(duì)掃描檔案中常見(jiàn)的傾斜、壓縮偽影、低分辨率以及背景噪點(diǎn)等問(wèn)題具備更強(qiáng)的健壯性。
早期用戶特別強(qiáng)調(diào)了其性能提升和多語(yǔ)言方面的支持能力。ICT 安全負(fù)責(zé)人兼 AI 安全專家 Patrick Jacobs 評(píng)論說(shuō):
在速度方面,真的令人印象深刻,而且它處理荷蘭語(yǔ)毫無(wú)壓力。
得益于準(zhǔn)確率的大幅提升,Mistral OCR 3 的生產(chǎn)部署正在快速擴(kuò)展。Techseria 創(chuàng)始人兼首席顧問(wèn) Niraj Bhatt 分享了其實(shí)際應(yīng)用的變化:
我們一直在生產(chǎn)環(huán)境中使用 Mistral OCR 處理銷售和采購(gòu)發(fā)票,實(shí)現(xiàn) ERP 系統(tǒng)的零人工數(shù)據(jù)錄入。現(xiàn)在 v3 在表單和手寫內(nèi)容上準(zhǔn)確率提升了 74%,終于讓我們能夠?qū)⒏采w范圍擴(kuò)展到送貨單、水電賬單以及過(guò)去只能靠人工處理的遺留檔案。
在定價(jià)方面,Mistral OCR 3 的標(biāo)準(zhǔn)費(fèi)率為每 1000 頁(yè) 2 美元;若使用 Batch API,成本可降至每 1000 頁(yè) 1 美元,使其成為許多企業(yè)級(jí) OCR 系統(tǒng)的高性價(jià)比替代方案。開(kāi)發(fā)者可通過(guò) API 直接集成模型(標(biāo)識(shí)符為 mistral-ocr-2512),非技術(shù)用戶則可通過(guò)拖放式的 Document AI Playground 界面輕松使用。
對(duì)于具有嚴(yán)格數(shù)據(jù)治理要求的組織,Mistral 提供了私有化的部署選項(xiàng),確保 OCR 工作負(fù)載完全運(yùn)行在客戶可控的基礎(chǔ)設(shè)施內(nèi)。
如今,Mistral OCR 3 已經(jīng)可以使用了,并完全向后兼容 OCR 2。
Mistral Releases OCR 3 With Improved Accuracy on Handwritten and Structured Documents (https://www.infoq.com/news/2026/01/mistral-ocr3/)
聲明:本文為 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.