DeepSeek 今日公布了其最新一代文檔識別模型 DeepSeek-OCR 2。很顯然,該模型是在 DeepSeek-OCR 的基礎上升級而來,核心變化集中在視覺編碼器設計上。
![]()
研究團隊提出了一種名為 DeepEncoder V2 的新型編碼器結構,它能夠根據圖像語義動態調整視覺信息的處理順序,使模型在進行文字識別前先對視覺內容進行智能排序。這項技術突破源于對傳統視覺語言模型處理方式的重新思考,旨在讓機器更貼近人類的視覺閱讀邏輯。
在傳統的視覺語言模型中,圖像通常會被切分為若干視覺 token,并按照從左上到右下的固定柵格順序送入模型處理。這種方式雖然實現簡單,但與人類在閱讀文檔、表格或公式時基于語義和邏輯關系進行跳躍式瀏覽的方式并不一致。
DeepSeek 論文指出,尤其在版式復雜的文檔場景中,視覺元素之間往往存在明確的邏輯先后關系,僅依賴空間順序可能限制模型對內容結構的理解能力。
DeepSeek-OCR 2 的改進重點在于引入“視覺因果流”的概念。在 DeepEncoder V2 中,研究團隊用一種類語言模型結構替代了原先基于 CLIP 的視覺編碼模塊,并在編碼器內部引入可學習的“因果流查詢 token”。
其編碼器同時包含雙向注意力與因果注意力兩種處理模式,原始視覺信息通過雙向注意力進行全局感知,而新增的查詢標記則通過因果注意力逐步建立語義順序,從而在編碼階段對視覺 token 的順序進行動態重排。最終,只有經過因果重排后的查詢 token 會被送入后續的解碼器,用于生成識別結果。
在整體架構上,DeepSeek-OCR 2 仍沿用了前代模型的編解碼框架。編碼器將圖像轉換為視覺標記并進行壓縮,被壓縮為較少數量的視覺 token,再由 DeepEncoder V2 進行語義建模和順序重組,最后交由一個基于混合專家架構(MoE)的語言模型解碼。
DeepSeek 論文指出,該設計在不顯著增加解碼負擔的前提下,將單頁文檔所使用的視覺 token 數量控制在 256 到 1120 之間,與前代模型及同類系統的資源開銷保持在相近水平。
為驗證模型性能,研究團隊在 OmniDocBench v1.5 基準上進行了全面評估。該基準涵蓋多種類型的中英文文檔,包括學術論文、雜志、報告等,重點考察文本識別、公式解析、表格結構還原以及閱讀順序等指標。
測試結果顯示,在視覺 token 上限更低的情況下,DeepSeek-OCR 2 的整體得分達到 91.09%,相較 DeepSeek-OCR 提升了 3.73%。特別是在閱讀順序準確度方面,編輯距離從 0.085 降至 0.057,表明新模型能夠更合理地理解文檔內容結構。
DeepSeek-OCR 2 在生產環境中也表現出更好的穩定性。在線用戶日志圖像的重復率從 6.25% 降至 4.17%,批處理 PDF 數據的重復率從 3.69% 降至 2.88%。這些改進使得模型在保持高壓縮率的同時,提升了實際應用場景中的可靠性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.