<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek又拿第一!首創(chuàng)「因果流」視覺推理,超越Gemini

      0
      分享至


      來源:新智元

      編輯:定慧 好困

      【導讀】DeepSeek開源DeepSeek-OCR2,引入了全新的DeepEncoder V2視覺編碼器。該架構打破了傳統(tǒng)模型按固定順序(從左上到右下)掃描圖像的限制,轉而模仿人類視覺的「因果流(Causal Flow)」邏輯。

      DeepSeek又雙叒叕更新了!

      這次是DeepSeek-OCR模型的重磅升級:DeepSeek-OCR2


      還記得上一代DeepSeek-OCR嗎?那個用視覺方式壓縮一切的模型。

      這一次,DeepSeek更進一步,對視覺編碼器下手了,提出了一種全新的DeepEncoder V2架構,實現了視覺編碼從「固定掃描」向「語義推理」的范式轉變!


      DeepSeek-OCR2不僅能像人類一樣按邏輯順序閱讀復雜文檔,還在多項基準測試中刷新了SOTA。

      當然,按照DeepSeek的慣例,Paper、Code、Model全開源!


      項目地址:

      https://github.com/deepseek-ai/DeepSeek-OCR-2

      模型下載:

      https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

      論文地址:

      https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

      DeepSeek-OCR2的核心創(chuàng)新在于通過DeepEncoder V2,賦予了模型因果推理能力(Causal Reasoning)

      這就像是給機器裝上了「人類的閱讀邏輯」,讓AI不再只是死板地從左上到右下掃描圖像,而是能根據內容語義靈活調整閱讀順序。

      DeepSeek-OCR2

      視覺因果流

      DeepSeek在論文中指出,傳統(tǒng)的視覺語言模型(VLM)通常采用光柵掃描(Raster-Scan)順序處理圖像,即固定地從左到右、從上到下。

      這種方式強行將2D圖像拍扁成1D序列,忽略了圖像內部的語義結構。


      這顯然與人類的視覺習慣背道而馳。

      人類在看圖或閱讀文檔時,目光是隨著邏輯流動的:先看標題,再看正文,遇到表格會按列或按行掃視,遇到分欄會自動跳躍。

      為了解決這個問題,DeepSeek-OCR2引入了DeepEncoder V2。

      它最大的特點是用一個輕量級的大語言模型(Qwen2-0.5B)替換了原本的CLIP編碼器,并設計了一種獨特的「因果流查詢」(Causal Flow Query)機制。

      DeepEncoder V2架構詳解

      DeepEncoder V2主要由兩部分組成:

      1. 視覺分詞器(Vision Tokenizer)

      沿用了SAM-base(80M參數)加卷積層的設計,將圖像轉換為視覺Token。


      2. 作為視覺編碼器的LLM

      這里DeepSeek使用了一個Qwen2-0.5B模型。

      它不僅處理視覺Token,還引入了一組可學習的「查詢Token」(Query Tokens)。


      關鍵的創(chuàng)新點在于注意力掩碼(Attention Mask)的設計:


      視覺Token之間采用雙向注意力(Bidirectional Attention),保持全局感知能力,類似于ViT。

      而查詢Token則采用因果注意力(Causal Attention),每一個查詢Token只能看到它之前的Token。

      通過這種設計,DeepEncoder V2實現了兩級級聯的因果推理:

      編碼器通過可學習的查詢對視覺Token進行語義重排,隨后的LLM解碼器則在這個有序序列上進行自回歸推理。

      這意味著,DeepSeek-OCR2在編碼階段就已經把圖像里的信息「理順」了,而不是一股腦地扔給解碼器。

      Token更少,精度更高

      實驗數據顯示,DeepSeek-OCR2在保持極高壓縮率的同時,性能顯著提升。

      在OmniDocBench v1.5基準測試中,DeepSeek-OCR2在使用最少視覺Token(僅256-1120個)的情況下,綜合得分高達91.09%,相比前代提升了3.73%。


      特別值得一提的是,在閱讀順序(R-order)的編輯距離(Edit Distance)指標上,DeepSeek-OCR2從前代的0.085顯著降低到了0.057。

      這直接證明了新模型在處理復雜版面時,邏輯性更強,更懂「閱讀順序」。

      在和Gemini-3 Pro等閉源強模型的對比中,DeepSeek-OCR2也絲毫不落下風。

      在均使用約1120個視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)優(yōu)于Gemini-3 Pro(0.115)。



      不僅是刷榜,DeepSeek-OCR2在實際生產環(huán)境中也非常能打。

      DeepSeek披露,在處理在線用戶日志圖像時,OCR結果的重復率從6.25%降到了4.17%;在PDF數據生產場景中,重復率從3.69%降到了2.88%。


      這意味著模型生成的文本更加干凈、準確,對于作為LLM訓練數據的清洗流水線來說,價值巨大。

      邁向真正的多模態(tài)統(tǒng)一

      DeepSeek在論文最后提到,DeepSeek-OCR2通過DeepEncoder V2驗證了「LLM作為視覺編碼器」的可行性。

      這不僅是一個OCR模型的升級,更是邁向原生多模態(tài)(Native Multimodality)的重要一步。

      未來,同一個編碼器只要配備不同的模態(tài)查詢嵌入(Query Embeddings),就能處理文本、圖片、音頻等多種模態(tài)的數據,真正實現萬物皆可Token,萬物皆可因果推理。

      DeepSeek表示,雖然目前光學文本識別(OCR)是LLM時代最實用的視覺任務之一,但這只是視覺理解宏大圖景的一小部分。

      DeepSeek將繼續(xù)探索,向著更通用的多模態(tài)智能進發(fā)。

      參考資料:

      https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      前Google工程師因向中國公司竊取AI商業(yè)機密被判罪名成立 面臨數十年刑期

      前Google工程師因向中國公司竊取AI商業(yè)機密被判罪名成立 面臨數十年刑期

      cnBeta.COM
      2026-01-30 14:10:11
      公布:2025年,臺灣GDP增長8.63%,創(chuàng)15年新高!人均多少?

      公布:2025年,臺灣GDP增長8.63%,創(chuàng)15年新高!人均多少?

      王爺說圖表
      2026-01-30 17:09:04
      東契奇僅用時18分鐘便取得三雙,創(chuàng)造湖人隊史最快紀錄

      東契奇僅用時18分鐘便取得三雙,創(chuàng)造湖人隊史最快紀錄

      懂球帝
      2026-01-31 09:25:05
      烏克蘭捐款平臺收到大量來自中國民間機構和個人的捐款

      烏克蘭捐款平臺收到大量來自中國民間機構和個人的捐款

      深度報
      2026-01-30 19:27:35
      逼急了?網約車司機將車子開到幾百公里外深山,公司找到車時已被鋼筋插土、膠水粘牢!

      逼急了?網約車司機將車子開到幾百公里外深山,公司找到車時已被鋼筋插土、膠水粘牢!

      網約車觀察室
      2026-01-29 10:13:36
      國際金價銀價繼續(xù)大幅下跌

      國際金價銀價繼續(xù)大幅下跌

      澎湃新聞
      2026-01-31 03:58:08
      盒馬“錯配”致顧客誤食水仙中毒,高速擴張下品控隱憂凸顯

      盒馬“錯配”致顧客誤食水仙中毒,高速擴張下品控隱憂凸顯

      新民周刊
      2026-01-30 15:18:50
      500公里送發(fā)動機車主社死!正臉照被扒,警方介入4s店卻囂張發(fā)言

      500公里送發(fā)動機車主社死!正臉照被扒,警方介入4s店卻囂張發(fā)言

      青橘罐頭
      2026-01-29 08:57:13
      俄羅斯重新將14名日本人列為戰(zhàn)犯

      俄羅斯重新將14名日本人列為戰(zhàn)犯

      界面新聞
      2026-01-31 07:18:15
      火車新規(guī)2026正式執(zhí)行!禁帶品、實名制升級,這些坑千萬別踩

      火車新規(guī)2026正式執(zhí)行!禁帶品、實名制升級,這些坑千萬別踩

      復轉這些年
      2026-01-30 23:33:48
      家委會負責人要求成員幫收每生263.3元費用,還稱交自己再換成現金給班主任,使用明細不能公示,有家長報警

      家委會負責人要求成員幫收每生263.3元費用,還稱交自己再換成現金給班主任,使用明細不能公示,有家長報警

      大風新聞
      2026-01-30 23:33:14
      古特雷斯:聯合國面臨財政崩潰 資金可能在7月前耗盡

      古特雷斯:聯合國面臨財政崩潰 資金可能在7月前耗盡

      每日經濟新聞
      2026-01-31 07:38:32
      2026年度首次!俄烏時隔40日再次交換士兵遺體,比例高達1000:38

      2026年度首次!俄烏時隔40日再次交換士兵遺體,比例高達1000:38

      碳基生物關懷組織
      2026-01-30 23:33:37
      蓋茨被曝感染性病,并向妻子隱瞞

      蓋茨被曝感染性病,并向妻子隱瞞

      大風新聞
      2026-01-31 10:34:05
      拒崩盤!快船落后13分反撲追分:哈登單節(jié)11分,約基奇復出14+8

      拒崩盤!快船落后13分反撲追分:哈登單節(jié)11分,約基奇復出14+8

      體壇小李
      2026-01-31 11:11:11
      大打出手!4次奪權恐遭CBA重罰,球迷吵作一團:落后方憑啥不能投

      大打出手!4次奪權恐遭CBA重罰,球迷吵作一團:落后方憑啥不能投

      后仰大風車
      2026-01-31 07:05:08
      東契奇37分11板13助攻湖人戰(zhàn)勝奇才,勒布朗20分6助攻

      東契奇37分11板13助攻湖人戰(zhàn)勝奇才,勒布朗20分6助攻

      湖人崛起
      2026-01-31 10:17:30
      楊瀚森無得分開拓者不敵尼克斯4連敗,布倫森26分唐斯14分20板

      楊瀚森無得分開拓者不敵尼克斯4連敗,布倫森26分唐斯14分20板

      湖人崛起
      2026-01-31 10:54:20
      潢川縣委常委、副縣長李慶松主動投案接受紀律審查和監(jiān)察調查

      潢川縣委常委、副縣長李慶松主動投案接受紀律審查和監(jiān)察調查

      大象新聞
      2026-01-31 09:17:14
      官媒怒批!吳京新片《鏢人》未映先爆雷,30人8個頭銜太荒唐!

      官媒怒批!吳京新片《鏢人》未映先爆雷,30人8個頭銜太荒唐!

      史行途
      2026-01-30 09:43:04
      2026-01-31 12:36:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4511文章數 37400關注度
      往期回顧 全部

      科技要聞

      中國車企和特斯拉的下一戰(zhàn),戰(zhàn)場已定

      頭條要聞

      愛潑斯坦案最新猛料:蓋茨與俄女子發(fā)生關系感染性病

      頭條要聞

      愛潑斯坦案最新猛料:蓋茨與俄女子發(fā)生關系感染性病

      體育要聞

      “假賭黑”的子彈,還要再飛一會兒嗎?

      娛樂要聞

      成龍入駐小紅書,懟臉近照沒有老年斑

      財經要聞

      白銀,暴跌!黃金,40年最大跌幅!

      汽車要聞

      新款賓利歐陸GT S/GTC S官圖發(fā)布 V8混動加持

      態(tài)度原創(chuàng)

      旅游
      手機
      藝術
      數碼
      公開課

      旅游要聞

      棗莊蟠龍河冬韻濃 一河詩意入畫來

      手機要聞

      1張抵1000次播放!為何唱片公司死保iTunes業(yè)務?

      藝術要聞

      15位當代國外畫家的16幅具象人物繪畫

      數碼要聞

      請更新驅動:英偉達拉響安全警報,封堵篡改敏感數據等漏洞

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版