<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<kbd id="n1n6o"></kbd>

<strike id="n1n6o"><td id="n1n6o"></td></strike>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek開源全新OCR模型！棄用CLIP改用Qwen輕量小模型

2026-01-28 14:15:15　來源: 量子位

北京舉報

0

分享至

henry 發自凹非寺
量子位 | 公眾號 QbitAI

剛剛，DeepSeek開源了全新的OCR模型——

DeepSeek-OCR 2，主打將PDF文檔精準轉換Markdown。

相較于去年10月20日發布的初代模型，DeepSeek-OCR 2的核心突破在于打破了傳統模型死板的“光柵掃描”邏輯，實現了根據圖像語義動態重排視覺標記（Visual Tokens）

為此，DeepSeek-OCR 2棄用了前作中的CLIP組件，轉而使用輕量化的語言模型（Qwen2-0.5B）構建DeepEncoder V2，在視覺編碼階段就引入了“因果推理”能力。

這一調整模擬了人類閱讀文檔時的因果視覺流，使LLM在進行內容解讀之前，智能地重排視覺標記。

性能上，DeepSeek-OCR 2在僅采用輕量模型的前提下，達到了媲美Gemini-3 Pro的效果。

在OmniDocBench v1.5基準上，DeepSeek-OCR 2提升了3.73%，并在視覺閱讀邏輯方面取得了顯著進展。

值得一提的是，這次最新論文的作者依然是：魏浩然，孫耀峰和李宇琨三人組。

接下來，我們一起來看。

核心更新：DeepEncoder V2

DeepSeek-OCR 2延續了前代OCR模型的經典架構，由編碼器和解碼器協同工作。

編碼器負責將圖像離散化為視覺標記（Visual Tokens），解碼器則結合這些標記與用戶指令生成最終文本輸出。

如論文所說，DeepSeek-OCR 2此次核心的升級在于編碼器——

DeepEncoder V2

傳統的視覺編碼器通常按照固定的“光柵掃描”（從左到右、從上到下）順序處理圖像，這在面對復雜版面（如雙欄文檔、錯落的表格）時，往往會切斷語義的邏輯連貫性。

而DeepEncoder V2這次的更新解決的正是這一問題。

將此前的CLIP組件替換為輕量化的LLM架構（Qwen2-0.5B），這一轉變賦予了編碼器因果推理能力

信息進入主解碼器之前，編碼器就先對視覺標記進行“智能重排”，使其更符合人類閱讀邏輯。

為了實現這種智能重排，DeepEncoder V2引入了一種全新的雙流注意力機制，其底層邏輯通過一個定制的注意力掩碼（Attention Mask）來約束：

視覺標記（Visual Tokens）：對應掩碼左側的全1區域，采用雙向注意力，保留全局建模能力，確保每一個標記都能“看”到整幅圖。
因果流查詢（Causal Flow Queries）：對應掩碼右邊的三角區域（LowerTri）。這是附加在視覺標記后的可學習查詢向量。它們采用因果注意力（即每個查詢只能關注之前的查詢及所有視覺標記）。

這種設計使得視覺標記之間互不干擾（保持原始特征），但每一個查詢標記卻被強制要求只能“看到”它之前的標記以及所有的視覺標記。

相比傳統的交叉注意力結構，這確保視覺信息在所有層中都保持“活躍”，從而與因果查詢進行深度信息交換。

此外，這實際上還建立了兩階段級聯推理，成功彌合了2D空間結構與1D語言建模之間的鴻溝：

第一階段（編碼器）：通過查詢進行語義重排。
第二階段（解碼器）：對有序序列進行自回歸推理。

換句話說，在V1中，圖像進入LLM時，順序是寫死的。

而在V2中，通過查詢標記（Learnable Query）的重排，模型在進入主解碼器之前，就已經在編碼器內部完成了一次“邏輯理順”

其他組件

介紹完DeepEncoder V2的核心升級后，我們來串一下DeepSeek-OCR 2的整體架構：

首先是一開頭的視覺分詞器（SAM），其沿用了此前的架構，采用了80M參數的SAM-base架構，并結合兩層卷積層。

輸出維度從前代的1024優化縮減至896，以對齊后續管線，這套分詞器的設置實現了16倍的標記壓縮

這種基于壓縮的設計，以極小的參數開銷，極大地釋放了后續全局注意力模塊的計算壓力，讓模型運行更輕快。

此外，為了在處理不同分辨率圖像時“不丟細節”，DeepSeek-OCR 2在編碼階段還引入了靈活的裁剪方案：

全局視圖（Global View）：在1024×1024分辨率下，生成256個查詢標記。
局部裁剪（Local Crops）：針對768×768的細部，每個裁剪塊對應144個查詢標記。

最終輸入LLM的標記總數穩定在256到1120之間，與Gemini-1.5 Pro的視覺預算相匹配。

最后，在后端解碼器部分，DeepSeek-OCR 2保留了3B參數的MoE結構（實際激活參數僅約 500M）。

訓練流程與實驗驗證

在數據策略上，DeepSeek-OCR 2延續了與前代相同的數據源，OCR相關數據占比達80%。

其關鍵優化點有二：一是采樣均衡化，將正文、公式與表格按3:1:1比例劃分；

二是標簽精簡化，合并了如“圖片說明”與“標題”等語義相似的布局標簽。這種極小的底層差異，確保了其與基準測試之間具備高度的一致性與可比性。

在訓練流程方面，DeepSeek-OCR 2采用了三階段的訓練Pipelines：

編碼器預訓練：通過下一標記預測（Next Token Prediction）任務，使編碼器掌握特征提取、壓縮和重排序能力。
查詢增強：凍結視覺分詞器，聯合優化LLM編碼器和解碼器，增強查詢表示。
解碼器微調：凍結編碼器，僅優化解碼器，從而在相同的算力（FLOPs）下實現更高的數據吞吐量。

在實驗階段，DeepSeek-OCR 2主要在OmniDocBench v1.5上進行評估，包含1355個頁面，涵蓋雜志、學術論文、研究報告等9大類文檔。

并與Gemini-3 Pro、Qwen2.5-VL、InternVL3.5等先進模型及多種專業OCR方案進行對比。

如開頭所示，DeepSeek-OCR 2在OmniDocBench v1.5上達到了91.09%的性能，相比基線提升了3.73%

閱讀順序（R-order）的編輯距離從0.085顯著降至 0.057，證明了 DeepEncoder V2 重新編排視覺信息的能力。

在相似的標記預算（1120）下，DeepSeek-OCR 2的文檔解析編輯距離（0.100）優于 Gemini-3 Pro（0.115）。

在實際生產中，在線用戶日志的重復率從6.25%降至4.17%，PDF 生產數據重復率從 3.69% 降至 2.88%，證明了模型邏輯視覺理解能力的提升。

整體來看，DeepSeek-OCR 2在保持高壓縮率的同時實現了顯著的性能提升驗證了使用語言模型架構作為視覺編碼器的可行性，這為邁向統一的全模態編碼器（omni-modal encoder）提供了路徑。

One more thing

這篇論文的三位作者分別是：魏浩然，孫耀峰和李宇琨。

魏浩然曾就職于階躍星辰，當時主導開發了意在實現“第二代OCR”的GOT-OCR2.0系統。

孫耀峰本科就讀于北京大學，現于幻方AI從事大語言模型的相關研究，R1、V3中都有他的身影。

李宇琨，谷歌學術論文近萬引研究員，也持續參與了包括DeepSeek V2/V3在內的多款模型研發。

最后，OCR 2延續了DeepSeek團隊一貫的開源精神。

項目已在GitHub開源，并同步上線HuggingFace，論文也一并釋出。

GitHub：https://github.com/deepseek-ai/DeepSeek-OCR-2
HuggingFace：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
論文：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

DeepSeek又拿第一！首創「因果流」視覺推理，超越Gemini

新智元 2026-01-27 15:51:42
163 跟貼 163
Deepseek V4的最后一塊拼圖來了？全新OCR架構超越視覺壓縮

DeepTech深科技 2026-01-27 18:34:56
6 跟貼 6

關于多模態大模型Token壓縮技術進展，看這一篇就夠了

機器之心Pro 2026-01-26 16:15:06
0 跟貼 0

剛剛，楊植麟親自開源Kimi K2.5！國產大模型打架的一天

機器之心Pro 2026-01-27 18:27:14
4 跟貼 4
搜狗輸入法回應“變笨”：不是AI的錯

經濟觀察報 2026-01-28 12:00:11
0 跟貼 0

DeepSeek最新王炸模型：VLM架構重磅突破，AI像人一樣讀圖

智東西 2026-01-27 14:56:13
26 跟貼 26

天干地支：古人的“宇宙代數”，3分鐘說清計算方法和底層邏輯

九江老渭 2026-01-27 15:49:08
14 跟貼 14
湖南00后美術生全國“刮膩子”，每天只睡四五個小時，團隊年入百萬！已接到外國訂單

瀟湘晨報 2026-01-27 18:01:05
12485 跟貼 12485

熊貓人之謎永春臺BOSS攻略，2分鐘視頻解析及詳細PDF文檔

山西三炮 2026-01-28 07:59:11
1 跟貼 1
美國國防報告稱中國是其面對最強大國家

北京日報 2026-01-28 01:07:33
6704 跟貼 6704
方鋼畫斜直線連短線切標記旋轉 90 度無縫焊直角

鬧鐘電影 2026-01-27 13:09:25
1 跟貼 1
時空編碼：黑洞視界的二維全息圖

老友地理 2026-01-25 00:24:31
1 跟貼 1
女子和男友生氣，直接給自己氣成模型了，男友差點笑進ICU

籃球搞笑 2026-01-26 16:36:58
1 跟貼 1
歌曲《嘉禾望崗》走紅，廣州市長“接梗”

上觀新聞 2026-01-28 14:14:07
38 跟貼 38
為什么在美國失去固定地址，就會落入斬殺線！

狐貍先森講升學規劃 2026-01-27 15:35:46
27 跟貼 27
閨蜜說要拍一個很厲害的轉場，原來建模才是核心出裝啊

重慶焦點 2026-01-26 16:35:12
145 跟貼 145
學霸思維訓練：用一半模型求面積

公考客棧店小二 2026-01-26 08:00:00
0 跟貼 0
追覓CEO俞浩沖上微博數碼榜第二！僅次于雷軍，網友都看懵了

雷科技 2026-01-28 16:16:51
0 跟貼 0
有特殊標記的特殊位置！

了魚驢紀實 2026-01-26 00:28:36
0 跟貼 0
斯坦福聯合英偉達TTT-Discover:用測試時強化學習攻克科學難題

機器之心Pro 2026-01-28 14:59:39
0 跟貼 0
不用扶，他們在上海收費教會700人騎自行車

新民周刊 2026-01-27 17:19:49
363 跟貼 363
"四無公司"申領超100萬生育保險：15名員工中13人生育

澎湃新聞 2026-01-28 16:00:51
38 跟貼 38
美對華戰略邏輯已崩塌？陳浩洋：中國兩款六代機試飛成功

鳳凰衛視 2026-01-27 18:23:19
0 跟貼 0
獨家｜40倍杠桿斷裂！水貝一黃金預定價平臺兌付困難，投資者稱涉資超百億

第一財經資訊 2026-01-28 10:28:11
153 跟貼 153
金星表面圖像能看到什么？

科學宇宙鋒輪 2026-01-23 21:35:53
5 跟貼 5
萌蘭上演高難度倒立標記。高難度倒立吸引奶媽注意篇

逗笑探長 2026-01-25 13:52:21
0 跟貼 0
螞蟻出手VLA，就是開源超越Pi0.5的基座模型

機器之心Pro 2026-01-28 14:27:13
0 跟貼 0
“殘障人士輪椅車隊”強闖西雙版納原始森林公園？景區：輪椅車系改裝，已安排車輛接送游玩

揚子晚報 2026-01-27 20:06:30
160 跟貼 160
銀河通用機器人成為2026年央視春晚指定具身大模型機器人！其公司剛完成新一輪超3億美元融資，估值突破

每日經濟新聞 2026-01-26 01:15:28
0 跟貼 0
寧波小洛熙案等待1月底鑒定結果，媽媽標記的天氣符號不同

九方魚論 2026-01-28 10:24:10
17 跟貼 17
實行免票預約后38萬人爽約，杭州靈隱景區“升級”懲戒措施

澎湃新聞 2026-01-26 14:57:05
672 跟貼 672
搜狗要用AI重做輸入法

華爾街見聞官方 2026-01-28 16:28:55
0 跟貼 0
用竹片編人體模型，果然是民間手藝人！

焦點視訊 2026-01-27 13:27:41
0 跟貼 0
江蘇去年GDP為142351.5億元，同比增長5.3%

澎湃新聞 2026-01-28 11:15:08
31 跟貼 31
阿里發布旗艦Qwen3-Max，DeepSeek OCR 2底層架構源自千問

機器之心Pro 2026-01-27 19:16:52
0 跟貼 0
男生在海鮮市場，偶遇偷蝦干的小貓，網友：老鼠還是吃了建模差的虧

青觀察 2026-01-27 13:09:36
0 跟貼 0
92頁PPT搞懂《機械制圖》零件圖：幾何畫法、技術要求、公差標注

DeepAuto車探 2026-01-27 14:34:39
0 跟貼 0
非遺映春年宵花俏解鎖中國年消費新場景

環球網資訊 2026-01-27 21:39:30
129 跟貼 129
怪獵荒野更新！不會因為DLC買得少而卡了

游民星空 2026-01-28 15:22:13
0 跟貼 0
2025年稅務部門全年征收各項稅費33.1萬億元

新京報 2026-01-28 10:44:02
267 跟貼 267

伊朗神權崩塌前夜：9000萬高知青年與內戰危機

伊朗神權崩塌前夜：9000萬高知青年與內戰危機

夏至陌離殤

2026-01-14 15:34:27

德州市委書記田衛東、濱州市委書記宋永祥，已任山東省政協黨組成員！

德州市委書記田衛東、濱州市委書記宋永祥，已任山東省政協黨組成員！

小鬼頭體育

2026-01-28 09:53:31

曾澤生長春起義后家屬被捕，警備司令周體仁硬闖憲兵團救人

曾澤生長春起義后家屬被捕，警備司令周體仁硬闖憲兵團救人

芳芳歷史燴

2026-01-27 10:57:47

恭喜這3生肖苦海熬出頭，2月1號起運勢爆棚！?

恭喜這3生肖苦海熬出頭，2月1號起運勢爆棚！?

人閒情事

2026-01-28 15:10:20

要求中國無償轉讓?印度被拒后倒打一耙，稱中國“惡意”阻礙發展

要求中國無償轉讓?印度被拒后倒打一耙，稱中國“惡意”阻礙發展

通文知史

2026-01-27 13:00:03

快船115-103爵士2喜2憂！倫納德統治級，2將完美輔助，祖巴茨辣眼

快船115-103爵士2喜2憂！倫納德統治級，2將完美輔助，祖巴茨辣眼

籃球資訊達人

2026-01-28 13:56:10

美國、英國、法國、德國發表聯合聲明

美國、英國、法國、德國發表聯合聲明

環球時報國際

2026-01-28 00:16:49

百萬問界背后：賽力斯半年市值蒸發800億

百萬問界背后：賽力斯半年市值蒸發800億

每人Auto

2026-01-27 14:20:02

大牛股，封死跌停！

中國基金報

2026-01-28 10:41:20

TOP14位身高170以上的女神，有顏有燈有演技

TOP14位身高170以上的女神，有顏有燈有演技

素然追光

2026-01-02 02:45:02

周總理逝世21年后，中國銀行核查賬目時發現他名下存有巨額存款，一番調查后揭開了背后的真相

周總理逝世21年后，中國銀行核查賬目時發現他名下存有巨額存款，一番調查后揭開了背后的真相

寄史言志

2026-01-17 16:37:15

張蘭不聽勸，繼續曬孫子孫女，給孩子們夾菜很溫馨，馬筱梅不出鏡

張蘭不聽勸，繼續曬孫子孫女，給孩子們夾菜很溫馨，馬筱梅不出鏡

好賢觀史記

2026-01-26 16:41:09

新華社快訊：尹錫悅涉內亂首案一審被判5年

新華社快訊：尹錫悅涉內亂首案一審被判5年

新華社

2026-01-16 14:03:08

2025全球車企銷量TOP10

2025全球車企銷量TOP10

大象新聞

2026-01-26 11:01:05

五五分流為什么分不下去了？背后的真相

五五分流為什么分不下去了？背后的真相

楓冷慕詩

2026-01-24 13:09:19

伊朗一處以發展核能聞名的軍事基地發生爆炸，數小時后原因仍不明

伊朗一處以發展核能聞名的軍事基地發生爆炸，數小時后原因仍不明

辛苦的小陳拉

2026-01-28 15:28:21

東體：徐彬已和狼隊簽訂合約，可能外租英冠或葡萄牙聯賽

東體：徐彬已和狼隊簽訂合約，可能外租英冠或葡萄牙聯賽

懂球帝

2026-01-28 12:41:05

視頻丨美軍2天3個動作伊朗以色列沙特皆亮明態度

視頻丨美軍2天3個動作伊朗以色列沙特皆亮明態度

環球網資訊

2026-01-28 13:22:49

所有發達國家都有一個共性：人工很貴，勞動很值錢。

所有發達國家都有一個共性：人工很貴，勞動很值錢。

流蘇晚晴

2026-01-27 18:18:22

要打就打痛！中國手段已升級，日本：中方不批準駐重慶總領事任命

要打就打痛！中國手段已升級，日本：中方不批準駐重慶總領事任命

奇思妙想生活家

2026-01-28 15:29:57

追蹤人工智能動態

12076文章數 176367關注度

往期回顧全部

科技要聞

它是神也是毒！Clawdbot改名卷入千萬詐騙

頭條要聞

女生曬春運"出國回家"攻略:連飛俄兩地再坐船回黑龍江

頭條要聞

女生曬春運"出國回家"攻略:連飛俄兩地再坐船回黑龍江

體育要聞

冒充職業球員，比賽規則還和對手現學？

娛樂要聞

王祖賢入駐某音：一條7秒視頻吸粉55萬

財經要聞

40倍杠桿斷裂！水貝一黃金平臺兌付困難

汽車要聞

新手必看!冰雪路面不敢開?記住這4點關鍵時刻真能保命

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

本地

健康

時尚

公開課

數碼要聞

戴爾2026款Dell XPS輕薄本上架官網，28127.98元起

本地新聞

云游中國｜撥開云霧，巫山每幀都是航拍大片

耳石癥分類型，癥狀大不同

被章若楠、舒淇帶火的毛衣，這樣穿太時髦了！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最正宗的紋飾是什么？
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<dfn id="rhu03"><strong id="rhu03"></strong></dfn>

^{<blockquote id="rhu03"></blockquote>}