<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek開源OCR-2模型,梁文鋒帶隊探索新架構

      0
      分享至



      出品|搜狐科技

      作者|常博碩

      編輯| 楊 錦

      臨近春節,DeepSeek的更新也越來越頻繁了。

      剛剛,DeepSeek團隊發布了論文《DeepSeek-OCR 2:Visual Causal Flow》,并正式開源了DeepSeek-OCR 2模型。論文三位作者分別是魏浩然、孫耀峰和李宇琨。


      要讀懂這篇文章,首先要知道的一個問題就是:啥是OCR?

      其實,OCR是光學字符識別(Optical Character Recognition)的縮寫,基本思路就是讓計算機能看懂圖像中的文字。比如我們把手機拍攝的發票、合同掃描件、書籍照片等轉換成計算機可以編輯和搜索的文字內容,這就是OCR。

      傳統OCR模型通常遵循掃描式的思路,首先檢測圖像中的文字區域,再一個字一個字或一行一行地識別,這種固定掃描順序就容易忽略文檔的整體結構。但人不是這樣的,我們在閱讀復雜文檔時,通常會先瀏覽標題然后看看段落表格,會有優先級排序,而不是機械地從左上到右下掃過頁面。

      現在的問題是,當文檔結構復雜到一定程度時,AI就不知道先看哪兒了。像學術論文一般是多欄排版,文章中還有公式與正文交錯出現,技術報告中的表格與注釋,報紙版面等等這些都對模型提出了超出傳統OCR的要求。

      所以,DeepSeek新開源的DeepSeek-OCR 2模型其實就是為了讓機器閱讀更像人而設計的。


      提出視覺因果流

      DeepSeek-OCR 2作為新一代視覺語言OCR模型,核心創新在于提出了視覺因果流(Visual Causal Flow)的編碼器架構。

      DeepSeek-OCR 2的整體架構延續了DeepSeek-OCR的“編碼器—解碼器”設計,其中解碼器仍然采用約3B參數的MoE語言模型,編碼器部分則升級為DeepEncoder V2。

      從論文中看,DeepEncoder V2編碼器通過引入語義驅動的順序重排,使AI能夠根據圖片內容的邏輯順序來處理信息,而不再只是按照固定的柵格順序。


      上圖示意了DeepSeek-OCR 2的核心架構。左邊為傳統DeepEncoder,使用CLIP視覺模型,右圖為DeepEncoder V2。新的架構使用了語言模型作為視覺編碼器(LM as Vision Encoder),并在視覺Token序列后附加了因果查詢(learnable query),用于新的閱讀順序排列。

      一個關鍵的點在于,DeepSeek-OCR 2使用了語言模型架構作為視覺編碼器。

      在DeepEncoder V2中,DeepSeek用一個輕量級語言模型(Qwen2-500M)取代了傳統的CLIP ViT。這樣做就可以讓模型在視覺編碼階段本身就具備序列建模和因果推理能力,使得其與后續的語言解碼階段在建模范式上保持一致。

      從架構上看,DeepSeek-OCR 2并未增加視覺token的數量,也沒有引入額外的多模態復雜結構,而是通過注意力掩碼的重新設計,讓“順序”成為可學習的對象。這使得模型在處理表格、公式、多欄排版等場景時,能夠更自然地恢復文檔的邏輯結構。

      注意力掩碼的設計其實十分有意思。在編碼器中,視覺token與一組新增的因果流查詢token被拼接成一個統一序列,但兩者在注意力機制上其實是非對稱的。

      視覺token之間采用雙向注意力,保持與ViT類似的全局建模能力。而查詢token之間采用嚴格的因果注意力,每個query(查詢)只能關注其之前的query,同時,每個查詢token都可以訪問所有視覺token。


      在這種注意力掩碼的作用下,查詢token被迫以序列化方式逐步聚合視覺信息,其內部順序不再由空間坐標決定,而是在訓練過程中,在語義建模目標的驅動下逐步形成更接近人類閱讀邏輯的視覺表示序列。

      這種設計就和人類閱讀文檔的方式高度相似,首先獲取全局結構,隨后在語義理解的引導下,決定接下來該看哪里。


      部分表現優于Gemini

      在OmniDocBench v1.5基準測試中,DeepSeek-OCR 2在整體準確率上達到91.09%,在使用最少視覺token的情況下,較上一代DeepSeek-OCR提升了3.73%。

      在衡量閱讀順序(R-order)的指標編輯距離(Edit Distance)上,DeepSeek-OCR 2從前代的0.085降低到了0.057,證明了新模型不僅識別得更準,結構理解能力也發生了實質變化。

      在和Gemini-3 Pro等閉源強模型的對比中,在均使用約1120個視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)也優于Gemini-3 Pro(0.115)。

      根據DeepSeek披露的數據,在真實用戶日志與PDF批量處理場景中,DeepSeek-OCR 2的重復輸出率也有了明顯下降。

      相比前代模型,DeepSeek-OCR 2在在線用戶日志圖像中,重復率從6.25%降至4.17%。在PDF數據生產場景中,重復率從3.69%降至2.88%。重復輸出往往源于模型對文檔結構理解不充分,導致內容會被多次誤讀,從結果來看,視覺因果流的引入也有效緩解了這一問題。

      如果放在更宏觀一點的角度,其實DeepSeek-OCR 2還提供了一種新的框架思路,那就是二維視覺理解,是否可以拆解為兩層一維因果推理。在這一框架下,編碼器負責怎么讀內容,解碼器負責如何回答,兩者共同完成對復雜視覺內容的理解。

      這也是DeepSeek在論文最后提出的一個長期方向——原生多模態(Native Multimodality)。如果同一套因果查詢機制可以用于視覺、文本甚至音頻,那么OCR可能只是這一架構的起點,而不是終點。

      正如論文最后所說,雖然光學文本識別,特別是文檔解析,是大語言模型時代最實用的視覺任務之一,但它僅占視覺理解領域的一小部分。

      展望未來,DeepSeek將向著更通用的多模態智能繼續“深度求索”。



      運營編輯 |曹倩審核|孟莎莎




      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      香港偶遇42歲蔣欣吃飯,皮膚超白臉巨小一點也不胖,十分有女人味

      香港偶遇42歲蔣欣吃飯,皮膚超白臉巨小一點也不胖,十分有女人味

      生性灑脫
      2026-03-23 11:32:58
      歐盟終于硬氣!撕破歐爾班通俄面具,小團體重守歐洲底線

      歐盟終于硬氣!撕破歐爾班通俄面具,小團體重守歐洲底線

      老馬拉車莫少裝
      2026-03-23 16:20:11
      3月24日,全線爆發!茅臺“800會所模式”深夜炸場,又一批新富誕生

      3月24日,全線爆發!茅臺“800會所模式”深夜炸場,又一批新富誕生

      別人都叫我阿腈
      2026-03-24 17:17:30
      中國游客到朝鮮游玩,朝鮮人疑問:為什么中國人是這樣的?

      中國游客到朝鮮游玩,朝鮮人疑問:為什么中國人是這樣的?

      達文西看世界
      2026-03-17 14:35:38
      小楊阿姨順利復工!帶玥霖逛街,曬汪寶嬰兒車,“小心思”藏不住

      小楊阿姨順利復工!帶玥霖逛街,曬汪寶嬰兒車,“小心思”藏不住

      以茶帶書
      2026-03-24 19:09:40
      德車企高管盛贊中國“五年計劃”,美國學者預警,全球格局巨變!

      德車企高管盛贊中國“五年計劃”,美國學者預警,全球格局巨變!

      小怪吃美食
      2026-03-25 00:08:33
      美國人終于明白,當年“誤炸”中國大使館,為何我國不反擊?

      美國人終于明白,當年“誤炸”中國大使館,為何我國不反擊?

      牛牛叨史
      2024-08-19 23:59:20
      世預賽生死戰!22隊爭6個名額,輸球=無緣世界杯,意大利決戰苦主

      世預賽生死戰!22隊爭6個名額,輸球=無緣世界杯,意大利決戰苦主

      球場沒跑道
      2026-03-24 11:21:29
      貴州省大數據發展管理局原正廳級干部景亞萍一審獲刑10年9個月

      貴州省大數據發展管理局原正廳級干部景亞萍一審獲刑10年9個月

      大風新聞
      2026-03-24 17:57:05
      正式官宣!斯蒂爾加盟山東男籃,替換克里斯,邱彪沖擊前四

      正式官宣!斯蒂爾加盟山東男籃,替換克里斯,邱彪沖擊前四

      體壇瞎白話
      2026-03-24 17:42:02
      看了徐杰垃圾時間怒罵上海球迷的破防舉動,才發現杜鋒有多能作妖

      看了徐杰垃圾時間怒罵上海球迷的破防舉動,才發現杜鋒有多能作妖

      后仰大風車
      2026-03-24 08:15:10
      OnlyFans平臺老板癌癥去世,年僅43歲

      OnlyFans平臺老板癌癥去世,年僅43歲

      DoNews
      2026-03-24 07:00:18
      不要把女兒送出國留學!黃多多和考拉陷入風波,黃磊鐘麗緹后悔了

      不要把女兒送出國留學!黃多多和考拉陷入風波,黃磊鐘麗緹后悔了

      小撇說事
      2026-03-23 23:34:24
      53:47!投票結果出爐,特朗普連夜發文,美國最大的“敵人”變了

      53:47!投票結果出爐,特朗普連夜發文,美國最大的“敵人”變了

      影孖看世界
      2026-03-24 23:19:41
      鵝蛋營養價值驚人,發現:常吃鵝蛋的人,不用多久,或有4個改善

      鵝蛋營養價值驚人,發現:常吃鵝蛋的人,不用多久,或有4個改善

      垚垚分享健康
      2026-03-23 17:30:11
      放棄卡里克!曼聯敲定歐冠頂級名帥,新王朝即將開啟

      放棄卡里克!曼聯敲定歐冠頂級名帥,新王朝即將開啟

      奶蓋熊本熊
      2026-03-24 03:34:26
      太突然!中國音樂家被撞身亡,年僅35歲

      太突然!中國音樂家被撞身亡,年僅35歲

      吃青菜長高
      2026-03-06 14:52:43
      父母若是有以下7種疾病,子女基本都會遺傳,不少人并不清楚!

      父母若是有以下7種疾病,子女基本都會遺傳,不少人并不清楚!

      健康之光
      2026-03-03 17:35:03
      家里要出貴人,從小就有預兆!孩子有沒有出息,看這三點就夠了

      家里要出貴人,從小就有預兆!孩子有沒有出息,看這三點就夠了

      開心美食白科
      2026-03-23 23:00:39
      臺海局勢再次升級!武統、和統都沒希望,我國即將走上第3條路

      臺海局勢再次升級!武統、和統都沒希望,我國即將走上第3條路

      深析古今
      2026-03-23 16:29:45
      2026-03-25 02:24:49
      搜狐科技 incentive-icons
      搜狐科技
      搜狐科技官方賬號
      4741文章數 9183關注度
      往期回顧 全部

      科技要聞

      年僅41歲,教育名師張雪峰猝然離世

      頭條要聞

      張雪峰因心源性猝死搶救無效去世 終年41歲

      頭條要聞

      張雪峰因心源性猝死搶救無效去世 終年41歲

      體育要聞

      NBA最強左手射手,是個右撇子

      娛樂要聞

      張雪峰經搶救無效不幸去世 年僅41歲

      財經要聞

      特朗普再TACO 可以押注伊朗局勢降級?

      汽車要聞

      尚界Z7雙車預售22.98萬起 問界M6預售26.98萬起

      態度原創

      藝術
      時尚
      本地
      數碼
      軍事航空

      藝術要聞

      300米!非洲最高全鋼混住宅,中國建造又破紀錄!

      豪門夢破碎后,她居然還能爆紅?

      本地新聞

      春日吃花第一站——云南

      數碼要聞

      榮耀平板PC應用新增剪映專業版App,支持大屏多軌剪輯等功能

      軍事要聞

      以色列媒體:美國計劃于4月9日結束對伊朗戰爭

      無障礙瀏覽 進入關懷版