<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek開源OCR-2模型,梁文鋒帶隊探索新架構(gòu)

      0
      分享至



      出品|搜狐科技

      作者|常博碩

      編輯| 楊 錦

      臨近春節(jié),DeepSeek的更新也越來越頻繁了。

      剛剛,DeepSeek團(tuán)隊發(fā)布了論文《DeepSeek-OCR 2:Visual Causal Flow》,并正式開源了DeepSeek-OCR 2模型。論文三位作者分別是魏浩然、孫耀峰和李宇琨。


      要讀懂這篇文章,首先要知道的一個問題就是:啥是OCR?

      其實,OCR是光學(xué)字符識別(Optical Character Recognition)的縮寫,基本思路就是讓計算機(jī)能看懂圖像中的文字。比如我們把手機(jī)拍攝的發(fā)票、合同掃描件、書籍照片等轉(zhuǎn)換成計算機(jī)可以編輯和搜索的文字內(nèi)容,這就是OCR。

      傳統(tǒng)OCR模型通常遵循掃描式的思路,首先檢測圖像中的文字區(qū)域,再一個字一個字或一行一行地識別,這種固定掃描順序就容易忽略文檔的整體結(jié)構(gòu)。但人不是這樣的,我們在閱讀復(fù)雜文檔時,通常會先瀏覽標(biāo)題然后看看段落表格,會有優(yōu)先級排序,而不是機(jī)械地從左上到右下掃過頁面。

      現(xiàn)在的問題是,當(dāng)文檔結(jié)構(gòu)復(fù)雜到一定程度時,AI就不知道先看哪兒了。像學(xué)術(shù)論文一般是多欄排版,文章中還有公式與正文交錯出現(xiàn),技術(shù)報告中的表格與注釋,報紙版面等等這些都對模型提出了超出傳統(tǒng)OCR的要求。

      所以,DeepSeek新開源的DeepSeek-OCR 2模型其實就是為了讓機(jī)器閱讀更像人而設(shè)計的。


      提出視覺因果流

      DeepSeek-OCR 2作為新一代視覺語言O(shè)CR模型,核心創(chuàng)新在于提出了視覺因果流(Visual Causal Flow)的編碼器架構(gòu)。

      DeepSeek-OCR 2的整體架構(gòu)延續(xù)了DeepSeek-OCR的“編碼器—解碼器”設(shè)計,其中解碼器仍然采用約3B參數(shù)的MoE語言模型,編碼器部分則升級為DeepEncoder V2。

      從論文中看,DeepEncoder V2編碼器通過引入語義驅(qū)動的順序重排,使AI能夠根據(jù)圖片內(nèi)容的邏輯順序來處理信息,而不再只是按照固定的柵格順序。


      上圖示意了DeepSeek-OCR 2的核心架構(gòu)。左邊為傳統(tǒng)DeepEncoder,使用CLIP視覺模型,右圖為DeepEncoder V2。新的架構(gòu)使用了語言模型作為視覺編碼器(LM as Vision Encoder),并在視覺Token序列后附加了因果查詢(learnable query),用于新的閱讀順序排列。

      一個關(guān)鍵的點在于,DeepSeek-OCR 2使用了語言模型架構(gòu)作為視覺編碼器。

      在DeepEncoder V2中,DeepSeek用一個輕量級語言模型(Qwen2-500M)取代了傳統(tǒng)的CLIP ViT。這樣做就可以讓模型在視覺編碼階段本身就具備序列建模和因果推理能力,使得其與后續(xù)的語言解碼階段在建模范式上保持一致。

      從架構(gòu)上看,DeepSeek-OCR 2并未增加視覺token的數(shù)量,也沒有引入額外的多模態(tài)復(fù)雜結(jié)構(gòu),而是通過注意力掩碼的重新設(shè)計,讓“順序”成為可學(xué)習(xí)的對象。這使得模型在處理表格、公式、多欄排版等場景時,能夠更自然地恢復(fù)文檔的邏輯結(jié)構(gòu)。

      注意力掩碼的設(shè)計其實十分有意思。在編碼器中,視覺token與一組新增的因果流查詢token被拼接成一個統(tǒng)一序列,但兩者在注意力機(jī)制上其實是非對稱的。

      視覺token之間采用雙向注意力,保持與ViT類似的全局建模能力。而查詢token之間采用嚴(yán)格的因果注意力,每個query(查詢)只能關(guān)注其之前的query,同時,每個查詢token都可以訪問所有視覺token。


      在這種注意力掩碼的作用下,查詢token被迫以序列化方式逐步聚合視覺信息,其內(nèi)部順序不再由空間坐標(biāo)決定,而是在訓(xùn)練過程中,在語義建模目標(biāo)的驅(qū)動下逐步形成更接近人類閱讀邏輯的視覺表示序列。

      這種設(shè)計就和人類閱讀文檔的方式高度相似,首先獲取全局結(jié)構(gòu),隨后在語義理解的引導(dǎo)下,決定接下來該看哪里。


      部分表現(xiàn)優(yōu)于Gemini

      在OmniDocBench v1.5基準(zhǔn)測試中,DeepSeek-OCR 2在整體準(zhǔn)確率上達(dá)到91.09%,在使用最少視覺token的情況下,較上一代DeepSeek-OCR提升了3.73%。

      在衡量閱讀順序(R-order)的指標(biāo)編輯距離(Edit Distance)上,DeepSeek-OCR 2從前代的0.085降低到了0.057,證明了新模型不僅識別得更準(zhǔn),結(jié)構(gòu)理解能力也發(fā)生了實質(zhì)變化。

      在和Gemini-3 Pro等閉源強(qiáng)模型的對比中,在均使用約1120個視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)也優(yōu)于Gemini-3 Pro(0.115)。

      根據(jù)DeepSeek披露的數(shù)據(jù),在真實用戶日志與PDF批量處理場景中,DeepSeek-OCR 2的重復(fù)輸出率也有了明顯下降。

      相比前代模型,DeepSeek-OCR 2在在線用戶日志圖像中,重復(fù)率從6.25%降至4.17%。在PDF數(shù)據(jù)生產(chǎn)場景中,重復(fù)率從3.69%降至2.88%。重復(fù)輸出往往源于模型對文檔結(jié)構(gòu)理解不充分,導(dǎo)致內(nèi)容會被多次誤讀,從結(jié)果來看,視覺因果流的引入也有效緩解了這一問題。

      如果放在更宏觀一點的角度,其實DeepSeek-OCR 2還提供了一種新的框架思路,那就是二維視覺理解,是否可以拆解為兩層一維因果推理。在這一框架下,編碼器負(fù)責(zé)怎么讀內(nèi)容,解碼器負(fù)責(zé)如何回答,兩者共同完成對復(fù)雜視覺內(nèi)容的理解。

      這也是DeepSeek在論文最后提出的一個長期方向——原生多模態(tài)(Native Multimodality)。如果同一套因果查詢機(jī)制可以用于視覺、文本甚至音頻,那么OCR可能只是這一架構(gòu)的起點,而不是終點。

      正如論文最后所說,雖然光學(xué)文本識別,特別是文檔解析,是大語言模型時代最實用的視覺任務(wù)之一,但它僅占視覺理解領(lǐng)域的一小部分。

      展望未來,DeepSeek將向著更通用的多模態(tài)智能繼續(xù)“深度求索”。



      運營編輯 |曹倩審核|孟莎莎




      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      馬斯克批評諾蘭新品選擇黑人飾演古希臘神話美女,引發(fā)輿論爭議

      馬斯克批評諾蘭新品選擇黑人飾演古希臘神話美女,引發(fā)輿論爭議

      新浪財經(jīng)
      2026-02-05 11:02:09
      泰軍:查封柬埔寨邊境園區(qū)發(fā)現(xiàn)大量詐騙證據(jù)包括山寨上海公安局

      泰軍:查封柬埔寨邊境園區(qū)發(fā)現(xiàn)大量詐騙證據(jù)包括山寨上海公安局

      環(huán)球趣聞分享
      2026-02-04 16:41:58
      至今仍健在的開國將帥只剩一位,今年103歲高齡,身體依舊硬朗

      至今仍健在的開國將帥只剩一位,今年103歲高齡,身體依舊硬朗

      鯨探所長
      2026-02-05 16:41:09
      農(nóng)民收入上漲,人均24456元言論翻車,專家喊話種芹菜賺200萬!

      農(nóng)民收入上漲,人均24456元言論翻車,專家喊話種芹菜賺200萬!

      你食不食油餅
      2026-02-04 21:39:44
      劉虎被刑拘,成都引爆了新年第一重大輿情熱點

      劉虎被刑拘,成都引爆了新年第一重大輿情熱點

      清哲木觀察
      2026-02-05 10:47:21
      微博之夜生圖大混戰(zhàn):有人美到封神,有人土又胖,黃楊鈿甜偷亮相

      微博之夜生圖大混戰(zhàn):有人美到封神,有人土又胖,黃楊鈿甜偷亮相

      風(fēng)月得自難尋
      2026-02-05 20:23:56
      諾獎得主質(zhì)問川普:和談之年為何成為烏克蘭平民災(zāi)難之年?

      諾獎得主質(zhì)問川普:和談之年為何成為烏克蘭平民災(zāi)難之年?

      史政先鋒
      2026-02-05 20:45:50
      被中國刺激到了?法國立下軍令狀:2038年之前,造出核動力航母

      被中國刺激到了?法國立下軍令狀:2038年之前,造出核動力航母

      別吵吵
      2026-02-06 09:08:29
      男子乘飛機(jī)挨緊急出口發(fā)現(xiàn)前排缺個座位,感嘆空間堪比商務(wù)艙,航司回應(yīng)

      男子乘飛機(jī)挨緊急出口發(fā)現(xiàn)前排缺個座位,感嘆空間堪比商務(wù)艙,航司回應(yīng)

      極目新聞
      2026-02-05 12:27:59
      微博之夜紅毯:舒淇好美,姚晨裙子看不懂,李宇春難得沒壓軸出場

      微博之夜紅毯:舒淇好美,姚晨裙子看不懂,李宇春難得沒壓軸出場

      八卦先生
      2026-02-05 21:31:30
      恭喜廣東,易建聯(lián)終于回歸了,重返球場,新崗位曝光,朱芳雨期待

      恭喜廣東,易建聯(lián)終于回歸了,重返球場,新崗位曝光,朱芳雨期待

      萌蘭聊個球
      2026-02-06 09:47:30
      中國3大通血管食物,紅薯排第3,第1名家家都有,很多人卻不愛吃

      中國3大通血管食物,紅薯排第3,第1名家家都有,很多人卻不愛吃

      江江食研社
      2026-02-03 16:30:06
      小玥兒變化好大!身姿挺拔有氣質(zhì),廣州東山口探店活脫一個小東家

      小玥兒變化好大!身姿挺拔有氣質(zhì),廣州東山口探店活脫一個小東家

      樂悠悠娛樂
      2026-02-06 08:47:37
      問:一個小縣城,年財政收入不過區(qū)區(qū)三四億

      問:一個小縣城,年財政收入不過區(qū)區(qū)三四億

      碧翰烽
      2026-02-05 22:24:13
      真愛還是接盤俠?41歲香港艷星現(xiàn)下嫁山東農(nóng)村,曾不雅照片滿天飛

      真愛還是接盤俠?41歲香港艷星現(xiàn)下嫁山東農(nóng)村,曾不雅照片滿天飛

      古事尋蹤記
      2026-02-04 07:10:54
      天津市市管干部任前公示

      天津市市管干部任前公示

      黃河新聞網(wǎng)呂梁頻道
      2026-02-06 10:01:34
      反轉(zhuǎn)了!居然是演的!女博主徹底涼涼

      反轉(zhuǎn)了!居然是演的!女博主徹底涼涼

      臺州交通廣播
      2026-02-05 14:13:33
      重磅!高市早苗巨大丑聞被爆出

      重磅!高市早苗巨大丑聞被爆出

      能靜居主人
      2026-02-06 06:47:37
      劉強(qiáng)東父親穿的羽絨服價格被扒,兒子這么有錢,不很正常嗎?

      劉強(qiáng)東父親穿的羽絨服價格被扒,兒子這么有錢,不很正常嗎?

      我心縱橫天地間
      2026-02-03 22:44:27
      斯諾克賽程:決出4強(qiáng),中國或提前奪冠,2場德比,趙心童復(fù)仇戰(zhàn)!

      斯諾克賽程:決出4強(qiáng),中國或提前奪冠,2場德比,趙心童復(fù)仇戰(zhàn)!

      劉姚堯的文字城堡
      2026-02-06 07:39:35
      2026-02-06 10:35:00
      搜狐科技 incentive-icons
      搜狐科技
      搜狐科技官方賬號
      4679文章數(shù) 9178關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克究竟想干什么?

      頭條要聞

      肖杰被查 曾任"中國最大地級市"市長

      頭條要聞

      肖杰被查 曾任"中國最大地級市"市長

      體育要聞

      奇才:我學(xué)生……獨行俠:成交!

      娛樂要聞

      微博之夜卷入座位風(fēng)波!楊冪超話淪陷

      財經(jīng)要聞

      三大指數(shù)低開 有色金屬等跌幅居前

      汽車要聞

      李想為全新L9預(yù)熱 all in AI造更好的車

      態(tài)度原創(chuàng)

      家居
      教育
      時尚
      旅游
      游戲

      家居要聞

      簡雅序章 自然且閑適

      教育要聞

      值得校長“細(xì)品”的10條辦學(xué)理念!每一條都直擊內(nèi)心

      今年春天一定要擁有的4件衣服,復(fù)古又時髦!

      旅游要聞

      同行虧損掙扎,頂流景區(qū)卻發(fā)45萬年終獎

      實體版真沒落了?Xbox大作上NS2只有數(shù)字版!

      無障礙瀏覽 進(jìn)入關(guān)懷版