<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek-OCR 2重磅發布:AI學會“人類視覺邏輯”,以因果流解讀圖片

      0
      分享至

      DeepSeek發布新一代光學字符識別系統,通過讓AI以類似人類的邏輯順序理解圖像,在視覺識別領域實現技術突破。這一進展可能重塑文檔處理、圖表分析等依賴復雜視覺理解的應用場景。

      27日,DeepSeek發布了DeepSeek-OCR 2系統。該系統采用名為DeepEncoder V2的新方法,使AI能夠像人類一樣按照邏輯順序“看”圖像。這項技術的核心創新在于改變了傳統AI處理圖像的方式。DeepEncoder V2讓AI基于圖像含義動態重新排列圖像片段,而非傳統的從左到右剛性掃描。這種方法模仿了人類追隨場景邏輯流的方式。

      根據DeepSeek公布的技術報告,DeepSeek-OCR 2在多項關鍵指標上展現出顯著優勢。在OmniDocBench v1.5基準測試中,該模型取得了91.09%的成績,相較于前代DeepSeek-OCR提升了3.73%。

      值得注意的是,該模型在保持極高精度的同時,嚴格控制了計算成本,其視覺Token數量被限制在256至1120之間,這一上限與Google的Gemini-3 Pro保持一致。在實際生產環境中,該模型在處理在線用戶日志和PDF預訓練數據時的重復率分別下降了2.08%和0.81%,顯示出極高的實用成熟度。


      DeepSeek-OCR 2重磅發布

      模擬人類視覺的“因果流”邏輯

      根據DeepSeek公布的技術報告,現有的視覺語言模型(VLMs)通常采用固定的光柵掃描順序(光柵掃描順序)處理圖像切片,即機械地從左上角掃描至右下角。DeepSeek團隊指出,這種方式引入了不必要的歸納偏差,與人類視覺感知背道而馳。 人類在閱讀復雜文檔、表格或追蹤螺旋線條時,視線是受語義理解驅動的“因果流”,后一次注視往往因果依賴于前一次注視,而非單純的空間坐標移動。

      受此認知機制啟發,DeepSeek-OCR 2的核心組件DeepEncoder V2被設計用于賦予編碼器因果推理能力。通過引入可學習的“因果流查詢”(Causal Flow Queries),模型能夠在進入LLM解碼器進行內容解釋之前,先在編碼階段就對視覺信息進行智能重排序。這實際上構建了一個兩級級聯的1D因果推理結構:首先由編碼器在語義上重組視覺Token,隨后由解碼器對有序序列進行自回歸推理。 這種設計不僅符合光學文本、表格和公式的非線性布局特征,還有效彌補了2D圖像結構與1D語言建模之間的鴻溝。

      棄用CLIP架構,轉向LLM式編碼器

      DeepEncoder V2在架構上實施了重大變革,將DeepEncoder中原有的CLIP組件替換為緊湊的LLM式架構(具體為Qwen2-0.5B)。為了實現并行處理,新架構引入了一組可學習的查詢向量,稱為“因果流Token”,并將原始視覺Token作為前綴拼接到序列中。

      該架構采用了一種定制化的注意力掩碼(Attention Mask)策略:

      • 視覺Token部分:保留雙向注意力機制,確保模型能夠像CLIP一樣擁有全局感受野,捕捉圖像的整體特征。
      • 因果流Token部分:采用因果注意力機制(類似Decoder-only LLM),每個查詢Token只能關注之前的Token。

      通過這種設計,視覺Token保持了信息的全局交互,而因果流Token則獲得了重排序視覺信息的能力。DeepSeek-OCR 2采用了多裁剪策略(Multi-crop strategy),根據圖像分辨率不同,最終輸入LLM的重排序視覺Token總數在256到1120之間。這一數量級顯著低于部分競品高達6000以上的Token消耗,在保證高性能的同時大幅降低了計算開銷。

      性能顯著提升與生產環境驗證

      在OmniDocBench v1.5的綜合評估中,DeepSeek-OCR 2表現優異。數據顯示,在同樣的訓練數據源下,新模型相較于DeepSeek-OCR基線模型取得了3.73%的性能提升。特別是在閱讀順序(Reading Order)的編輯距離(Edit Distance)指標上,DeepSeek-OCR 2從0.085顯著降低至0.057,這直接驗證了DeepEncoder V2在邏輯重排序方面的有效性。

      除了基準測試,DeepSeek還披露了該模型在實際生產管線中的表現。DeepSeek-OCR 2主要服務于DeepSeek-LLMs的在線OCR服務及PDF預訓練數據處理。在沒有真值(Ground Truth)的生產環境中,重復率(Repetition Rate)是衡量質量的核心指標。數據顯示,在處理在線用戶日志圖像時,DeepSeek-OCR 2將重復率從6.25%降低至4.17%;在PDF數據生產中,重復率從3.69%降至2.88%。這表明新模型在生成高質量、低冗余的文本數據方面具備極高的實用價值。

      通向原生多模態與真正的2D推理

      DeepSeek-OCR 2的發布不僅是一次OCR性能的升級,更具有深遠的架構探索意義。DeepEncoder V2初步驗證了使用語言模型架構作為視覺編碼器的潛力。這種架構天然繼承了LLM社區在基礎設施優化方面的成果,如混合專家(MoE)架構和高效注意力機制。

      DeepSeek團隊認為,這為邁向統一的全模態編碼器提供了一條有希望的路徑。未來,單一編碼器可能通過配置特定模態的可學習查詢,在同一參數空間內實現對圖像、音頻和文本的特征提取與壓縮。DeepSeek-OCR 2所展示的“兩個級聯的1D因果推理器”模式,通過將2D理解分解為“閱讀邏輯推理”和“視覺任務推理”兩個互補子任務,或許代表了實現真正2D推理的一種突破性架構方法。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      揚言逮捕普京?俄羅斯直接甩出一道全球通緝令,這也提醒了中國:是時候清算一筆舊賬了

      揚言逮捕普京?俄羅斯直接甩出一道全球通緝令,這也提醒了中國:是時候清算一筆舊賬了

      史海孤雁
      2026-01-26 16:35:18
      清水梨紗:遠藤航就像一位親切的父親,他是個很溫柔的人

      清水梨紗:遠藤航就像一位親切的父親,他是個很溫柔的人

      懂球帝
      2026-01-26 17:30:13
      以色列遞交給美國的伊朗處決證據,為何引發全球嘩然?

      以色列遞交給美國的伊朗處決證據,為何引發全球嘩然?

      老馬拉車莫少裝
      2026-01-25 08:06:06
      島內最新民調公布,江啟臣大勝楊瓊瓔,楊不肯認輸,盧秀燕出手了

      島內最新民調公布,江啟臣大勝楊瓊瓔,楊不肯認輸,盧秀燕出手了

      DS北風
      2026-01-27 15:50:03
      1946年葉挺在空難中犧牲時,同機另有三人的職務高于葉挺,他們分別是哪幾位?

      1946年葉挺在空難中犧牲時,同機另有三人的職務高于葉挺,他們分別是哪幾位?

      史海孤雁
      2026-01-26 15:31:17
      邵佳一霸氣!3位主帥不敢重用之人,被他激活,3場為國足轟進3球

      邵佳一霸氣!3位主帥不敢重用之人,被他激活,3場為國足轟進3球

      何老師呀
      2026-01-27 11:51:06
      湖北19歲小伙認42歲上司為干媽,去其家中蹭飯借宿引發悲劇

      湖北19歲小伙認42歲上司為干媽,去其家中蹭飯借宿引發悲劇

      歷史八卦社
      2025-04-09 23:26:26
      佛山路邊停車收費出“奇招”,被稱“吃相難看”

      佛山路邊停車收費出“奇招”,被稱“吃相難看”

      中國新聞周刊
      2026-01-26 16:47:50
      隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

      隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

      瓜汁橘長Dr
      2025-12-30 17:03:39
      剛剛,香港重要高官被免職!

      剛剛,香港重要高官被免職!

      港港地
      2026-01-27 12:08:11
      1958年,毛主席批評周總理“離右派剩50米”,不久后總理提出辭職

      1958年,毛主席批評周總理“離右派剩50米”,不久后總理提出辭職

      海佑講史
      2026-01-26 07:45:05
      志愿軍嫌蘇聯沖鋒槍太重,換成35發被嘲,結果把美軍打得不敢露頭

      志愿軍嫌蘇聯沖鋒槍太重,換成35發被嘲,結果把美軍打得不敢露頭

      鑒史錄
      2026-01-25 21:22:29
      近3戰場均10助2斷!火箭找到控衛答案?范甘迪:本賽季的DPOY熱門

      近3戰場均10助2斷!火箭找到控衛答案?范甘迪:本賽季的DPOY熱門

      你的籃球頻道
      2026-01-27 13:57:49
      這一次,哈梅內伊真的怕了!!!

      這一次,哈梅內伊真的怕了!!!

      山河路口
      2026-01-27 12:42:53
      10連勝恐怖20-0!27歲世界第1橫掃大黑馬:獎金601萬 4年全進4強

      10連勝恐怖20-0!27歲世界第1橫掃大黑馬:獎金601萬 4年全進4強

      風過鄉
      2026-01-27 13:11:03
      人社部:三項社保基金累計結余10.2萬億元,基金運行總體平穩

      人社部:三項社保基金累計結余10.2萬億元,基金運行總體平穩

      每日經濟新聞
      2026-01-27 16:38:44
      不要再隨意猜測楊蘭蘭的身份了,釋放的信號很明顯了

      不要再隨意猜測楊蘭蘭的身份了,釋放的信號很明顯了

      李昕言溫度空間
      2025-08-20 15:01:53
      原來馬斯克沒說錯,全球搶的不是芯片,而是中國20萬一臺的變壓器

      原來馬斯克沒說錯,全球搶的不是芯片,而是中國20萬一臺的變壓器

      云上烏托邦
      2026-01-22 13:10:38
      郭艾倫炸了!楊鳴要走了?早干嘛去了…

      郭艾倫炸了!楊鳴要走了?早干嘛去了…

      刺猬籃球
      2026-01-26 14:24:32
      華為分走750億!賽力斯嚇了市場一跳

      華為分走750億!賽力斯嚇了市場一跳

      李東陽朋友圈
      2026-01-26 14:05:53
      2026-01-27 17:11:00
      華爾街見聞官方 incentive-icons
      華爾街見聞官方
      中國領先的金融商業信息提供商
      140747文章數 2652307關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      戴墨鏡出席達沃斯會議后 馬克龍的支持率提升

      頭條要聞

      戴墨鏡出席達沃斯會議后 馬克龍的支持率提升

      體育要聞

      帶著母親遺愿戰斗12年,交易添頭成了隊魂

      娛樂要聞

      張雨綺被曝代孕,春晚被拒,代言跑路

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      教育
      手機
      游戲
      本地
      公開課

      教育要聞

      初中數學基礎訓練必刷題,中考思維

      手機要聞

      蘋果發布iOS 26.3 Beta 3新版本,正式版或推遲至2月中旬

      《老頭環黑夜君臨》將改編成桌游!預計2026年春推出

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版