<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek最新王炸模型:VLM架構重磅突破,AI像人一樣讀圖

      0
      分享至


      智東西
      作者 陳駿達
      編輯 云鵬

      智東西1月27日報道,剛剛,DeepSeek開源了其面向OCR場景的專用模型DeepSeek-OCR 2,技術報告同步發布。這一模型是對去年DeepSeek-OCR模型的升級,其采用的新型解碼器讓模型看圖、讀文件的順序更像人,而不是像機械的掃描儀。

      簡單來說,以前的模型閱讀模式是從左上到右下,地毯式掃一遍圖片,DeepSeek-OCR 2則能夠理解結構,按結構一步步讀。這種新的視覺理解模式,讓DeepSeek-OCR 2可以更好地理解復雜的布局順序、公式和表格。

      在文檔理解基準測試OmniDocBench v1.5上,DeepSeek-OCR 2拿到了91.09%的得分,在訓練數據和編碼器都不變的前提下,較DeepSeek-OCR提升了3.73%。與其他端到端的OCR模型相比,這已經是SOTA成績,但其表現要略遜于百度的PaddleOCR-VL(92.86%)OCR管線。


      同時,在相似的視覺token預算下,DeepSeek-OCR 2在文檔解析方面的編輯距離(編輯為正確文本所需的工作量)低于Gemini-3 Pro,這證明DeepSeek-OCR 2在確保優越性能的同時保持了視覺token的高壓縮率。

      DeepSeek-OCR 2兼具雙重價值:既可作為新型VLM(視覺語言模型)架構進行探索性研究,也能作為生成高質量預訓練數據的實用工具,服務于大語言模型的訓練過程。

      論文鏈接:

      https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

      開源地址:

      https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

      一、大模型不懂復雜文件結構?先觀察全局再閱讀便可解決

      從架構上來看,DeepSeek-OCR 2繼承了DeepSeek-OCR的整體架構,該架構由編碼器和解碼器組成。編碼器將圖像離散化為視覺token,而解碼器根據這些視覺token和文本提示生成輸出。

      關鍵區別在于編碼器:DeepSeek將此前的DeepEncoder升級為DeepEncoder V2,它保留了原有的所有能力,但把原本基于CLIP的編碼器換成基于LLM的,同時通過新的架構設計引入了因果推理。


      DeepEncoder V2關注的核心問題在于:當二維結構被映射為一維序列并綁定線性順序后,模型在建模空間關系時不可避免地受到該順序的影響。

      這在自然圖像中可能尚可接受,但在OCR、表格、表單等具有復雜布局的場景中,線性順序往往與真實的語義組織方式嚴重不匹配,從而限制模型對視覺結構的表達能力。

      DeepEncoder V2是如何緩解這一問題的?它首先采用視覺tokenizer對圖像進行高效表示,通過窗口注意力實現約16倍的token壓縮,在顯著降低后續全局注意力計算與顯存開銷的同時,保持了充分的局部與中尺度視覺信息。

      它并未依賴位置編碼來規定視覺token的語義順序,而是引入因果流查詢(causal queries),通過內容感知的方式對視覺標記進行重排序與蒸餾。這種順序不是由空間展開規則決定,而是由模型在觀察全局視覺上下文后逐步生成,從而避免了對固定一維順序的強依賴。

      每個因果查詢可以關注所有視覺token及先前查詢,從而在保持token數量不變的前提下,對視覺特征進行語義重排序與信息蒸餾。最終,僅因果查詢的輸出被送入下游LLM解碼器。

      該設計本質上形成了兩級級聯的因果推理過程:首先,編碼器內部通過因果查詢對無序的視覺標記進行語義排序。隨后,LLM解碼器在此有序序列上執行自回歸推理。

      相較于通過位置編碼強制施加空間順序的做法,因果查詢所誘導的順序更貼合視覺語義本身,也就是符合人類閱讀內容的正常習慣。

      由于DeepSeek-OCR 2主要關注編碼器改進,沒有對解碼器組件進行升級。遵循這一設計原則,DeepSeek保留了DeepSeek-OCR的解碼器:一個具有約5億活躍參數的3B參數MoE結構。

      二、OmniDocBench得分達91.09%,編輯距離低于Gemini-3 Pro

      為了驗證上述設計的有效性,DeepSeek進行了實驗。研究團隊分三個階段訓練DeepSeek-OCR 2:編碼器預訓練、查詢增強和解碼器專業化。

      第一階段使視覺tokenizer和LLM風格的編碼器獲得特征提取、token壓縮和token重排序的基本能力。第二階段進一步增強了編碼器的token重排序能力,同時增強了視覺知識壓縮。第三階段凍結編碼器參數,僅優化解碼器,從而在相同的FLOPs下實現更高的數據吞吐量。

      為評估模型效果,DeepSeek選擇OmniDocBench v1.5作為主要的評估基準。該基準包含1355個文檔頁面,涵蓋中英文的9個主要類別(包括雜志、學術論文、研究報告等)。

      DeepSeek-OCR 2在僅使用最小的視覺標記上限(V-token maxmax)的情況下,達到了91.09%的性能。與DeepSeek-OCR基線相比,在相似的訓練數據源下,它表現出3.73%的改進,驗證了新架構的有效性。

      除了整體改進外,閱讀順序(R-order)的編輯距離(ED)也顯著下降(從0.085降至0.057),這表明新的DeepEncoder V2可以根據圖像信息有效地選擇和排列初始視覺標記。

      在相似的視覺標記預算(1120)下,DeepSeek-OCR 2(0.100)在文檔解析方面的編輯距離低于Gemini-3 Pro(0.115),進一步證明新模型在確保性能的同時保持了視覺標記的高壓縮率。


      不過,DeepSeek-OCR 2也不是全能的。在文本密度超高的報紙上,DeepSeek-OCR 2識別效果沒有其他類型的文本好。這一問題后續可以通過增加局部裁剪數量來解決,或者在訓練過程中提供更多的樣本。

      結語:或成新型VLM架構開端

      DeepEncoder V2為LLM風格編碼器在視覺任務上的可行性提供了初步驗證。更重要的是,DeepSeek的研究團隊認為,該架構具有演變為統一全模態編碼器的潛力。這樣的編碼器可以在同一參數空間內壓縮文本、提取語音特征和重組視覺內容。

      DeepSeek稱,DeepSeek-OCR的光學壓縮代表了向原生多模態的初步探索,未來,他們還將繼續探索通過這種共享編碼器框架集成額外模態,成為研究探索的新型VLM架構的開端。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      老道士揭秘:家中這三樣東西消失,一定是被人借運了!千萬要小心

      老道士揭秘:家中這三樣東西消失,一定是被人借運了!千萬要小心

      古怪奇談錄
      2026-01-05 11:32:51
      沉默24小時后,卡尼終于發聲,否認與中國簽協議,美財長得寸進尺

      沉默24小時后,卡尼終于發聲,否認與中國簽協議,美財長得寸進尺

      娛樂圈的筆娛君
      2026-01-27 10:12:25
      上海黃浦將發放元旦專項消費券:連發4天,最高減1000元

      上海黃浦將發放元旦專項消費券:連發4天,最高減1000元

      澎湃新聞
      2025-12-30 14:32:28
      致7學生死亡,付某某、朱某某被執行死刑

      致7學生死亡,付某某、朱某某被執行死刑

      中國新聞周刊
      2025-12-30 18:40:22
      張信哲:我基本不會約任何人吃飯,我的晚餐時間是屬于我媽的

      張信哲:我基本不會約任何人吃飯,我的晚餐時間是屬于我媽的

      秀語千尋
      2026-01-27 14:28:52
      曾拉50人都無法提現!拼多多如今被國家通報罰款,網友:罰得很好

      曾拉50人都無法提現!拼多多如今被國家通報罰款,網友:罰得很好

      奇思妙想草葉君
      2026-01-27 23:17:34
      京東集團收入差距斷崖:21年9516億,22年10462億,24年令人意外

      京東集團收入差距斷崖:21年9516億,22年10462億,24年令人意外

      徐徐道史
      2025-11-05 15:10:34
      倒下!曼聯功臣預計缺席10周,擊敗曼城阿森納后,迎來兩大挑戰

      倒下!曼聯功臣預計缺席10周,擊敗曼城阿森納后,迎來兩大挑戰

      嗨皮看球
      2026-01-27 21:10:09
      35歲女星曝悉尼養胎!住六千萬房,買第二套別墅,不愧是他前女友

      35歲女星曝悉尼養胎!住六千萬房,買第二套別墅,不愧是他前女友

      削桐作琴
      2026-01-25 14:17:11
      誰在鼓吹新能源車交養路費?是無能的車企,還是換不起車的油車黨

      誰在鼓吹新能源車交養路費?是無能的車企,還是換不起車的油車黨

      番茄說史聊
      2026-01-27 09:20:26
      《聲鳴遠揚2025》:去“預制”,捧實力,才是華語樂壇的“正確選才”

      《聲鳴遠揚2025》:去“預制”,捧實力,才是華語樂壇的“正確選才”

      刺猬公社
      2026-01-26 22:02:19
      趙薇李湘聯手洗白?丁真被曝偷稅漏稅?黃楊鈿甜官宣回歸?王玉雯楊玏老瓜?顏值男星劈腿約炮被甩?

      趙薇李湘聯手洗白?丁真被曝偷稅漏稅?黃楊鈿甜官宣回歸?王玉雯楊玏老瓜?顏值男星劈腿約炮被甩?

      十錘星人
      2026-01-27 23:37:36
      為什么要跑步?香港女星徐濠縈跑步14年,如今身材炸裂!

      為什么要跑步?香港女星徐濠縈跑步14年,如今身材炸裂!

      馬拉松跑步健身
      2026-01-27 20:15:32
      14:7!日本通過涉釣魚島條例,要強行登島,美高層:馬上到東京

      14:7!日本通過涉釣魚島條例,要強行登島,美高層:馬上到東京

      策略述
      2026-01-26 12:18:56
      美國趕走大批中國科學家后,聘用了印度專家,結果如何?

      美國趕走大批中國科學家后,聘用了印度專家,結果如何?

      素年文史
      2026-01-26 19:11:06
      尼帕病毒會演變成一場全球大流行嗎?各國專家詳解

      尼帕病毒會演變成一場全球大流行嗎?各國專家詳解

      魯中晨報
      2026-01-27 14:51:09
      聽勸!深圳地鐵全網呼喚的“謹防袈裟”回來了!

      聽勸!深圳地鐵全網呼喚的“謹防袈裟”回來了!

      南方都市報
      2026-01-27 12:32:58
      樓大鵬同志逝世

      樓大鵬同志逝世

      澎湃新聞
      2026-01-27 08:58:05
      日韓股市集體收漲 韓國綜指漲2.73%

      日韓股市集體收漲 韓國綜指漲2.73%

      財聯社
      2026-01-27 14:33:08
      因凍傷從高原退役,團長念完命令后,來視察的戰區司令突然叫住我

      因凍傷從高原退役,團長念完命令后,來視察的戰區司令突然叫住我

      卡西莫多的故事
      2026-01-24 13:00:07
      2026-01-28 00:12:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11133文章數 116945關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      游戲
      數碼
      親子
      藝術
      公開課

      《生化危機9》注定能成功!避開了開放世界的坑

      數碼要聞

      這事你怎么看 索尼與TCL簽署意向備忘錄 網友:Sony變Tony了

      親子要聞

      雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨立帶娃嗎?

      藝術要聞

      日本東京國立博物館中的100幅宋畫

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版