<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Deepseek V4的最后一塊拼圖來了?全新OCR架構超越視覺壓縮

      0
      分享至

      1 月 27 日,DeepSeek 發布了《DeepSeek-OCR 2: Visual Causal Flow》論文,并同步開源新一代文檔理解模型。這是該公司在 2026 年 1 月的第三次技術更新:月初完善了 R1 論文的技術細節,中旬開源了 Engram 記憶模塊,月末又推出 OCR 2。如此密集的節奏,也讓外界猜測春節前后可能亮相的 DeepSeek-V4 的輪廓逐漸成形。


      圖 | Deepseek 最新論文:視覺因果流(來源:GitHub)

      在討論 OCR 2 的更新前,不妨先回溯去年 10 月的初代版本。雖然名字里帶著“OCR”(Optical Character Recognition,光學字符識別),但 DeepSeek 開源的初代模型瞄準的并非傳統意義上的字符識別,而是想解決大模型長期面臨的一個瓶頸:超長上下文帶來的算力壓力。

      由于大語言模型的自注意力機制計算復雜度隨序列長度呈平方級增長,當上下文從千級 token 擴展到萬級,計算量可能暴增百倍。處理上百頁的財報或整本書時,開發者往往陷入兩難:要么切片分段輸入,犧牲全局連貫性;要么硬扛長序列,付出高昂的計算成本與延遲。

      DeepSeek 團隊選擇換了個思路:既然文本 token 太昂貴,能否用圖像來“打包”同等信息?他們發現,將一頁文檔渲染為圖像后,視覺編碼器提取的視覺 token 數量遠少于等效文本,卻能完整保留文字與版式結構。這套“上下文光學壓縮”(Contextual Optical Compression)技術,本質上是將一維的文本序列“折疊”進二維像素空間,借圖像的天然空間結構實現高效壓縮。

      而 OCR 從圖像中還原文本的任務效果,恰好可以成為驗證壓縮質量的理想標尺:還原越準,說明壓縮越有效。

      最后的成果確實令人矚目。在 10 倍壓縮率下,文本還原準確率仍達 97%;即便壓縮至 20 倍,準確率也保持在 60%左右。一張 1,024×1,024 的文檔圖像,傳統方案需數千 token,DeepSeek-OCR 僅用 256 個即可表征,效率奇高。

      但初代 OCR 也存在明顯短板。它的核心編碼器 DeepEncoder 采用 SAM(Segment Anything Model,分割萬物模型)加 CLIP(Contrastive Language-Image Pre-training,對比語言圖像預訓練)的雙模塊設計:SAM 負責局部細節感知,CLIP 負責全局語義理解,中間嵌入 16 倍壓縮層。這套架構雖然高效,但在處理圖像時遵循固定的空間順序——無論文檔內容如何,視覺 token 總是按從左上到右下的柵格排列。

      也就是說,不管面對的是論文、發票還是漫畫,模型都像掃描儀一樣逐字逐行,從左到右地機械掃描。這顯然和人類讀文檔的方式不同,我們會根據版面布局、語義結構進行自然跳轉:先看標題,再看摘要,表格要整體理解,圖注和正文有對應關系。

      此次發布的 OCR 2 要解決的正是這個問題。新架構 DeepEncoder V2 做了一個關鍵改動:用一個小型語言模型(基于 Qwen2-0.5B,約 5 億參數)替代了原有的 CLIP 模塊,從而引入了“因果”機制。


      (來源:論文)

      具體而言,V2 把視覺 token 分成了兩組處理:第一組是原始視覺 token,它們之間可以互相“看到”,保證模型對整張圖有全局視野;第二組是新引入的“因果流查詢”(causal flow query),它們有嚴格的先后順序。每個查詢只能看到它前面的信息,就像人逐步閱讀文檔時,后面理解的內容會基于前面已讀的內容來組織。

      這種設計讓模型可以根據圖像內容動態調整“閱讀順序”。最終送入解碼器的只有第二組 token,它們已經按語義邏輯重排過,而非機械的空間順序。論文把這稱為“視覺因果流”(visual causal flow)——讓 2D 圖像理解通過兩級級聯的 1D 因果推理來實現。


      圖 | 混合注意力掩碼 (Attention Mask) 設計(來源:論文)

      這種改變帶來的提升是多維度的。

      在 OmniDocBench v1.5 測試集上(涵蓋雜志、論文、研究報告等 9 類文檔),OCR 2 總體得分 91.09%,比前代提升 3.73 個百分點。更能說明新架構價值的是“閱讀順序”指標:編輯距離從 0.085 降到 0.057,意味著模型對文檔結構的判斷更準確。它確實在學著按語義而非空間來組織信息。


      圖 | OmniDocBench v1.5 核心評測結果(來源:論文)

      同時,OCR 2 延續了前代的高壓縮率優勢,視覺 token 上限僅 256–1,120 個,而多數同類模型需要超過 6,000 個。在文本、公式、表格等細分類別上均有 2–6 個百分點的提升,與 Gemini-3 Pro 在相近 token 預算下的對比中(文檔解析編輯距離 0.100 vs 0.115),OCR 2 也占據優勢。

      得益于此,OCR 2 擁有了更廣泛的應用場景,它可以用來處理布局復雜、結構多變的文檔。例如學術論文中多欄混排加公式表格、財務報表里數據圖表與文字說明交織、雜志版面的圖文混搭——這些曾經讓初代 OCR 捉襟見肘的場景,現在恰恰是因果視覺流架構的用武之地。

      不過,新架構并非完美。論文坦承,在報紙類文檔上,OCR 2 的識別準確率仍有明顯差距,甚至識別性能略低于一代模型。團隊歸因于兩點:一是報紙版面密集、文字量大,當前 token 上限可能不足(可通過增加局部裁剪緩解);二是訓練數據中報紙樣本僅 25 萬張,覆蓋有限。這再次印證了端到端模型的通病:性能高度依賴訓練數據的廣度與質量。

      此外,有研究者通過語義破壞實驗發現,DeepSeek-OCR 系列的高分部分源于語言先驗——模型有時是“猜”出內容,而非真正“看清”。當輸入被刻意打亂時,性能會顯著下滑。這意味著在識別生造詞、嚴重污損的掃描件等邊緣場景中,其魯棒性可能仍不及傳統管道式 OCR。

      回看 1 月的三次技術更新,一條清晰的主線逐漸浮現:DeepSeek 正系統性地探索如何讓模型在不同任務中“更聰明地工作”,而非一味堆疊計算量。

      月初,團隊將 R1 論文從 22 頁大幅擴充至 86 頁,揭示其推理能力的核心來源。并非依賴海量人工標注數據,而是通過強化學習在“做題-反饋-改進”的循環中自主學會思考與糾錯。這為低成本訓練強推理模型開辟了一條新路徑。

      中旬,梁文鋒署名的 Engram 論文進一步延伸這一思路:既然人名、術語等靜態知識無需每次重新思考,何不將其存為可檢索的記憶表?實驗表明,將約 20%的參數用于構建這類外部記憶、80%保留給動態計算,在知識問答、推理與代碼任務上反而表現更優。

      到了月末,OCR 2 則將這一哲學延伸至視覺領域。它不再讓模型機械地按空間柵格掃描文檔,而是引入因果機制,使其能像人類一樣根據語義結構動態調整“閱讀順序”。

      三次更新看似分別切入推理、記憶與視覺,實則共同回應一個問題:模型在哪些環節可以少算多查,或重組流程以提升效率?R1 證明復雜推理可借強化學習涌現,Engram 驗證靜態知識適合查表替代計算,OCR 2 則展示 2D 圖像理解能通過因果排序適配 1D 語言模型的處理范式。這種結構優化的轉向,或許正是 DeepSeek 為下一代模型鋪就的底層邏輯。

      如果傳聞屬實,計劃于 2 月中旬春節前后發布的 DeepSeek-V4,或將首次整合這三條技術線索:融合 R1 的推理框架、Engram 的記憶架構與 OCR 2 的視覺理解能力,打造一個更高效處理文本、代碼與復雜文檔的多面手。不過最終體驗如何,我們還需等待春節它的真正亮相。

      1.https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      《白鹿原》里的兩家大戶,日常只吃油潑面,首富就這種水準?

      《白鹿原》里的兩家大戶,日常只吃油潑面,首富就這種水準?

      收藏大視界
      2026-01-25 17:56:42
      50歲北大女博士蒙曼:這輩子也結不了婚!原因就兩個

      50歲北大女博士蒙曼:這輩子也結不了婚!原因就兩個

      攜手游人間a
      2026-01-25 16:57:12
      同曦98-97險勝新疆,漢斯27+10,新疆最后時刻連續4罰不中

      同曦98-97險勝新疆,漢斯27+10,新疆最后時刻連續4罰不中

      懂球帝
      2026-01-27 21:39:17
      德國大師賽:5-2-5-0,肖國棟斯佳輝晉級,中國2勝2負

      德國大師賽:5-2-5-0,肖國棟斯佳輝晉級,中國2勝2負

      阿錯田間生活
      2026-01-27 20:42:29
      2016年,張雨綺和相識70天的富商袁巴元閃婚,火速生下一對龍鳳胎

      2016年,張雨綺和相識70天的富商袁巴元閃婚,火速生下一對龍鳳胎

      百態人間
      2026-01-27 15:24:38
      三峽大壩“賬本”曝光:運行20余年,2500億投入,如今回本了嗎?

      三峽大壩“賬本”曝光:運行20余年,2500億投入,如今回本了嗎?

      阿纂看事
      2026-01-27 15:41:31
      牢A被女記者“追擊”!

      牢A被女記者“追擊”!

      新動察
      2026-01-27 14:05:11
      滿屏荷爾蒙!Netflix這一脫,又爆了

      滿屏荷爾蒙!Netflix這一脫,又爆了

      來看美劇
      2026-01-27 18:32:46
      說句扎心的大實話,咱們在南海的“牌”,一開始爛到家了。

      說句扎心的大實話,咱們在南海的“牌”,一開始爛到家了。

      南權先生
      2026-01-27 15:44:44
      牢A含金量提升!澳洲中國留學生墮胎率超30%,16年前報道數據扎心

      牢A含金量提升!澳洲中國留學生墮胎率超30%,16年前報道數據扎心

      火山詩話
      2026-01-25 06:48:02
      特斯拉又要迎來大更新!國內用戶有福了

      特斯拉又要迎來大更新!國內用戶有福了

      XCiOS俱樂部
      2026-01-27 20:17:00
      不論燉什么肉,都要記得加這2種料,肉爛鮮香,特入味,連吃一碗都不膩

      不論燉什么肉,都要記得加這2種料,肉爛鮮香,特入味,連吃一碗都不膩

      美食格物
      2026-01-27 00:42:18
      “把這種視頻發網上,真是好媽”,女兒的尊嚴被扒的一絲不剩

      “把這種視頻發網上,真是好媽”,女兒的尊嚴被扒的一絲不剩

      蝴蝶花雨話教育
      2026-01-26 12:05:11
      中國向全世界披露:美國4400顆衛星,包圍中國空間站,這是要做啥

      中國向全世界披露:美國4400顆衛星,包圍中國空間站,這是要做啥

      素衣讀史
      2026-01-17 18:35:57
      中央考核巡查組專家,現場拆穿負責人狡辯

      中央考核巡查組專家,現場拆穿負責人狡辯

      新京報政事兒
      2026-01-27 10:56:56
      尼帕病毒會演變成一場全球大流行嗎?各國專家詳解:致死率40%-75%但“跑得慢”

      尼帕病毒會演變成一場全球大流行嗎?各國專家詳解:致死率40%-75%但“跑得慢”

      紅星新聞
      2026-01-27 13:35:24
      香港突發火情,數百居民連夜疏散

      香港突發火情,數百居民連夜疏散

      南方都市報
      2026-01-27 15:11:13
      張雨綺被實名舉報代孕、插足婚姻,據稱已退出遼寧春晚;前夫袁巴元前妻時隔1年公布警方調查結果

      張雨綺被實名舉報代孕、插足婚姻,據稱已退出遼寧春晚;前夫袁巴元前妻時隔1年公布警方調查結果

      大風新聞
      2026-01-26 09:51:06
      就在今天!1月27日凌晨,國足傳來王鈺棟、李昊、朱鵬宇新消息!

      就在今天!1月27日凌晨,國足傳來王鈺棟、李昊、朱鵬宇新消息!

      皮皮觀天下
      2026-01-27 04:46:17
      來了!NBA最新實力榜:雷霆丟掉第1、快船僅升1名、火箭第3!

      來了!NBA最新實力榜:雷霆丟掉第1、快船僅升1名、火箭第3!

      運籌帷幄的籃球
      2026-01-27 15:32:56
      2026-01-27 21:56:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16184文章數 514551關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      國科大星際航行學院正式成立 官網發文誠聘海外英才

      頭條要聞

      國科大星際航行學院正式成立 官網發文誠聘海外英才

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺被曝代孕,春晚被拒,代言跑路

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      時尚
      房產
      家居
      手機
      公開課

      50+媽媽冬季穿搭范本:“短羽絨服+闊腿褲”,保暖時髦不費力

      房產要聞

      實景兌現在即!綠城,在海棠灣重新定義終極旅居想象!

      家居要聞

      現代古典 中性又顯韻味

      手機要聞

      蘋果今年要祭出20多款新品,徹底上頭

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版