<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek開源全新OCR模型!棄用CLIP改用Qwen輕量小模型

      0
      分享至

      henry 發自 凹非寺
      量子位 | 公眾號 QbitAI

      剛剛,DeepSeek開源了全新的OCR模型——

      DeepSeek-OCR 2,主打將PDF文檔精準轉換Markdown。



      相較于去年10月20日發布的初代模型,DeepSeek-OCR 2的核心突破在于打破了傳統模型死板的“光柵掃描”邏輯,實現了根據圖像語義動態重排視覺標記(Visual Tokens)

      為此,DeepSeek-OCR 2棄用了前作中的CLIP組件,轉而使用輕量化的語言模型(Qwen2-0.5B)構建DeepEncoder V2,在視覺編碼階段就引入了“因果推理”能力。

      這一調整模擬了人類閱讀文檔時的因果視覺流,使LLM在進行內容解讀之前,智能地重排視覺標記。

      性能上,DeepSeek-OCR 2在僅采用輕量模型的前提下,達到了媲美Gemini-3 Pro的效果。

      在OmniDocBench v1.5基準上,DeepSeek-OCR 2提升了3.73%,并在視覺閱讀邏輯方面取得了顯著進展。



      值得一提的是,這次最新論文的作者依然是:魏浩然,孫耀峰和李宇琨三人組。




      接下來,我們一起來看。

      核心更新:DeepEncoder V2

      DeepSeek-OCR 2延續了前代OCR模型的經典架構,由編碼器和解碼器協同工作。

      編碼器負責將圖像離散化為視覺標記(Visual Tokens),解碼器則結合這些標記與用戶指令生成最終文本輸出。



      如論文所說,DeepSeek-OCR 2此次核心的升級在于編碼器——

      DeepEncoder V2

      傳統的視覺編碼器通常按照固定的“光柵掃描”(從左到右、從上到下)順序處理圖像,這在面對復雜版面(如雙欄文檔、錯落的表格)時,往往會切斷語義的邏輯連貫性。



      而DeepEncoder V2這次的更新解決的正是這一問題。

      將此前的CLIP組件替換為輕量化的LLM架構(Qwen2-0.5B),這一轉變賦予了編碼器因果推理能力

      信息進入主解碼器之前,編碼器就先對視覺標記進行“智能重排”,使其更符合人類閱讀邏輯。

      為了實現這種智能重排,DeepEncoder V2引入了一種全新的雙流注意力機制,其底層邏輯通過一個定制的注意力掩碼(Attention Mask)來約束:



      • 視覺標記(Visual Tokens):對應掩碼左側的全1區域,采用雙向注意力,保留全局建模能力,確保每一個標記都能“看”到整幅圖。
      • 因果流查詢(Causal Flow Queries):對應掩碼右邊的三角區域(LowerTri)。這是附加在視覺標記后的可學習查詢向量。它們采用因果注意力(即每個查詢只能關注之前的查詢及所有視覺標記)。

      這種設計使得視覺標記之間互不干擾(保持原始特征),但每一個查詢標記卻被強制要求只能“看到”它之前的標記以及所有的視覺標記。

      相比傳統的交叉注意力結構,這確保視覺信息在所有層中都保持“活躍”,從而與因果查詢進行深度信息交換。

      此外,這實際上還建立了兩階段級聯推理,成功彌合了2D空間結構與1D語言建模之間的鴻溝:

      • 第一階段(編碼器):通過查詢進行語義重排。
      • 第二階段(解碼器):對有序序列進行自回歸推理。

      換句話說,在V1中,圖像進入LLM時,順序是寫死的。

      而在V2中,通過查詢標記(Learnable Query)的重排,模型在進入主解碼器之前,就已經在編碼器內部完成了一次“邏輯理順”

      其他組件

      介紹完DeepEncoder V2的核心升級后,我們來串一下DeepSeek-OCR 2的整體架構:

      首先是一開頭的視覺分詞器(SAM),其沿用了此前的架構,采用了80M參數的SAM-base架構,并結合兩層卷積層。

      輸出維度從前代的1024優化縮減至896,以對齊后續管線,這套分詞器的設置實現了16倍的標記壓縮

      這種基于壓縮的設計,以極小的參數開銷,極大地釋放了后續全局注意力模塊的計算壓力,讓模型運行更輕快。



      此外,為了在處理不同分辨率圖像時“不丟細節”,DeepSeek-OCR 2在編碼階段還引入了靈活的裁剪方案:

      • 全局視圖(Global View): 在1024×1024分辨率下,生成256個查詢標記。
      • 局部裁剪(Local Crops): 針對768×768的細部,每個裁剪塊對應144個查詢標記。

      最終輸入LLM的標記總數穩定在256到1120之間,與Gemini-1.5 Pro的視覺預算相匹配。

      最后,在后端解碼器部分,DeepSeek-OCR 2保留了3B參數的MoE結構(實際激活參數僅約 500M)。

      訓練流程與實驗驗證

      在數據策略上,DeepSeek-OCR 2延續了與前代相同的數據源,OCR相關數據占比達80%。

      其關鍵優化點有二:一是采樣均衡化,將正文、公式與表格按3:1:1比例劃分;

      二是標簽精簡化,合并了如“圖片說明”與“標題”等語義相似的布局標簽。這種極小的底層差異,確保了其與基準測試之間具備高度的一致性與可比性。

      在訓練流程方面,DeepSeek-OCR 2采用了三階段的訓練Pipelines:

      • 編碼器預訓練:通過下一標記預測(Next Token Prediction)任務,使編碼器掌握特征提取、壓縮和重排序能力。
      • 查詢增強:凍結視覺分詞器,聯合優化LLM編碼器和解碼器,增強查詢表示。
      • 解碼器微調:凍結編碼器,僅優化解碼器,從而在相同的算力(FLOPs)下實現更高的數據吞吐量。

      在實驗階段,DeepSeek-OCR 2主要在OmniDocBench v1.5上進行評估,包含1355個頁面,涵蓋雜志、學術論文、研究報告等9大類文檔。

      并與Gemini-3 Pro、Qwen2.5-VL、InternVL3.5等先進模型及多種專業OCR方案進行對比 。

      如開頭所示,DeepSeek-OCR 2在OmniDocBench v1.5上達到了91.09%的性能,相比基線提升了3.73%



      閱讀順序(R-order)的編輯距離從0.085顯著降至 0.057,證明了 DeepEncoder V2 重新編排視覺信息的能力。

      在相似的標記預算(1120)下,DeepSeek-OCR 2的文檔解析編輯距離(0.100)優于 Gemini-3 Pro(0.115)。



      在實際生產中,在線用戶日志的重復率從6.25%降至4.17%,PDF 生產數據重復率從 3.69% 降至 2.88%,證明了模型邏輯視覺理解能力的提升。



      整體來看,DeepSeek-OCR 2在保持高壓縮率的同時實現了顯著的性能提升驗證了使用語言模型架構作為視覺編碼器的可行性,這為邁向統一的全模態編碼器(omni-modal encoder)提供了路徑。

      One more thing

      這篇論文的三位作者分別是:魏浩然,孫耀峰和李宇琨。

      魏浩然曾就職于階躍星辰,當時主導開發了意在實現“第二代OCR”的GOT-OCR2.0系統。



      孫耀峰本科就讀于北京大學,現于幻方AI從事大語言模型的相關研究,R1、V3中都有他的身影。



      李宇琨,谷歌學術論文近萬引研究員,也持續參與了包括DeepSeek V2/V3在內的多款模型研發。



      最后,OCR 2延續了DeepSeek團隊一貫的開源精神。

      項目已在GitHub開源,并同步上線HuggingFace,論文也一并釋出。

      GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2
      HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
      論文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗神權崩塌前夜:9000萬高知青年與內戰危機

      伊朗神權崩塌前夜:9000萬高知青年與內戰危機

      夏至陌離殤
      2026-01-14 15:34:27
      德州市委書記田衛東、濱州市委書記宋永祥,已任山東省政協黨組成員!

      德州市委書記田衛東、濱州市委書記宋永祥,已任山東省政協黨組成員!

      小鬼頭體育
      2026-01-28 09:53:31
      曾澤生長春起義后家屬被捕,警備司令周體仁硬闖憲兵團救人

      曾澤生長春起義后家屬被捕,警備司令周體仁硬闖憲兵團救人

      芳芳歷史燴
      2026-01-27 10:57:47
      恭喜這3生肖苦海熬出頭,2月1號起運勢爆棚!?

      恭喜這3生肖苦海熬出頭,2月1號起運勢爆棚!?

      人閒情事
      2026-01-28 15:10:20
      要求中國無償轉讓?印度被拒后倒打一耙,稱中國“惡意”阻礙發展

      要求中國無償轉讓?印度被拒后倒打一耙,稱中國“惡意”阻礙發展

      通文知史
      2026-01-27 13:00:03
      快船115-103爵士2喜2憂!倫納德統治級,2將完美輔助,祖巴茨辣眼

      快船115-103爵士2喜2憂!倫納德統治級,2將完美輔助,祖巴茨辣眼

      籃球資訊達人
      2026-01-28 13:56:10
      美國、英國、法國、德國發表聯合聲明

      美國、英國、法國、德國發表聯合聲明

      環球時報國際
      2026-01-28 00:16:49
      百萬問界背后:賽力斯半年市值蒸發800億

      百萬問界背后:賽力斯半年市值蒸發800億

      每人Auto
      2026-01-27 14:20:02
      大牛股,封死跌停!

      大牛股,封死跌停!

      中國基金報
      2026-01-28 10:41:20
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      周總理逝世21年后,中國銀行核查賬目時發現他名下存有巨額存款,一番調查后揭開了背后的真相

      周總理逝世21年后,中國銀行核查賬目時發現他名下存有巨額存款,一番調查后揭開了背后的真相

      寄史言志
      2026-01-17 16:37:15
      張蘭不聽勸,繼續曬孫子孫女,給孩子們夾菜很溫馨,馬筱梅不出鏡

      張蘭不聽勸,繼續曬孫子孫女,給孩子們夾菜很溫馨,馬筱梅不出鏡

      好賢觀史記
      2026-01-26 16:41:09
      新華社快訊:尹錫悅涉內亂首案一審被判5年

      新華社快訊:尹錫悅涉內亂首案一審被判5年

      新華社
      2026-01-16 14:03:08
      2025全球車企銷量TOP10

      2025全球車企銷量TOP10

      大象新聞
      2026-01-26 11:01:05
      五五分流為什么分不下去了?背后的真相

      五五分流為什么分不下去了?背后的真相

      楓冷慕詩
      2026-01-24 13:09:19
      伊朗一處以發展核能聞名的軍事基地發生爆炸,數小時后原因仍不明

      伊朗一處以發展核能聞名的軍事基地發生爆炸,數小時后原因仍不明

      辛苦的小陳拉
      2026-01-28 15:28:21
      東體:徐彬已和狼隊簽訂合約,可能外租英冠或葡萄牙聯賽

      東體:徐彬已和狼隊簽訂合約,可能外租英冠或葡萄牙聯賽

      懂球帝
      2026-01-28 12:41:05
      視頻丨美軍2天3個動作 伊朗以色列沙特皆亮明態度

      視頻丨美軍2天3個動作 伊朗以色列沙特皆亮明態度

      環球網資訊
      2026-01-28 13:22:49
      所有發達國家都有一個共性:人工很貴,勞動很值錢。

      所有發達國家都有一個共性:人工很貴,勞動很值錢。

      流蘇晚晴
      2026-01-27 18:18:22
      要打就打痛!中國手段已升級,日本:中方不批準駐重慶總領事任命

      要打就打痛!中國手段已升級,日本:中方不批準駐重慶總領事任命

      奇思妙想生活家
      2026-01-28 15:29:57
      2026-01-28 16:44:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12076文章數 176367關注度
      往期回顧 全部

      科技要聞

      它是神也是毒!Clawdbot改名卷入千萬詐騙

      頭條要聞

      女生曬春運"出國回家"攻略:連飛俄兩地再坐船回黑龍江

      頭條要聞

      女生曬春運"出國回家"攻略:連飛俄兩地再坐船回黑龍江

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      王祖賢入駐某音:一條7秒視頻吸粉55萬

      財經要聞

      40倍杠桿斷裂!水貝一黃金平臺兌付困難

      汽車要聞

      新手必看!冰雪路面不敢開?記住這4點 關鍵時刻真能保命

      態度原創

      數碼
      本地
      健康
      時尚
      公開課

      數碼要聞

      戴爾2026款Dell XPS輕薄本上架官網,28127.98元起

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      耳石癥分類型,癥狀大不同

      被章若楠、舒淇帶火的毛衣,這樣穿太時髦了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版