網易首頁 > 網易號 > 正文申請入駐

DeepSeek又又又又發新論文了！這一次，他們重構了AI看圖的方式

2026-01-27 21:19:22　來源: AI進化論花生

北京舉報

分享至

今天，DeepSeek又又又又發論文了。

看到的時候，我的第一反應是：這特么今年才過了不到一個月，我已經寫了三篇DeepSeek論文解讀了。照這個節奏，我是不是要轉型成"DeepSeek論文博主"了？

不過這次倒是沒梁文鋒什么事（替他松口氣），署名里沒看到他。

說起來，最近Clawdbot挺火的，后臺也一直有粉絲留言讓我出教程。但相比追這種應用層的熱點，我覺得還是讀讀論文更有意思——畢竟之前幾篇DeepSeek論文解讀，大家的反饋都挺好，說是終于看懂了技術內核。

所以，咱們還是繼續讀論文。

這次的論文叫DeepSeek-OCR 2，看起來是個很垂直的OCR模型。我承認，看到標題時覺得有點無聊——OCR？這么細分的領域，值得單獨發論文嗎？

但讀完之后，我覺得這可能是他們今年最重要的技術突破之一。倒不是因為OCR本身多重要，而是因為他們在這個小問題里，提出了一個關于視覺語言模型（VLM）架構的有趣洞察：

AI看圖的方式，一直都錯了。

你看報紙的方式，和AI完全不同

想象你拿起一份報紙。

你的眼睛會怎么動？大概率是這樣：先掃一眼大標題，跳到配圖，看一眼圖片說明，再決定要不要讀正文。如果是多欄排版，你會根據內容的"重要性"在各欄之間跳躍，而不是從左上角第一個字開始，一行行掃到右下角。

這不是什么高深的認知科學發現。這是你每天都在做的事。

但AI不是這樣看圖的。

傳統的視覺語言模型（VLM）處理圖像的方式，更像一臺復印機：從左到右，從上到下，逐行掃描。不管圖像里有什么，不管哪里重要哪里不重要，它都用同一種機械的順序把圖像"讀"成一串數字。

這個問題存在了很多年。直到最近，DeepSeek在一篇看起來很"小"的論文里，提出了一個挺"大"的洞察。

1967年的眼動實驗

在講DeepSeek的解法之前，我想先聊一個認知科學的經典實驗。

1967年，蘇聯心理學家Alfred Yarbus做了一個著名的眼動追蹤實驗。他讓不同的被試看同一幅畫——列賓的《意外歸來》，畫的是一個流放者突然回到家中的場景。

有意思的是，Yarbus給每個被試不同的任務指令：

"估計這家人的經濟狀況"
"記住畫中人物的位置"
"猜測這個人離開家多久了"

結果發現，同一幅畫，不同任務下，被試的眼動軌跡完全不同。

讓估計經濟狀況的人，眼睛會在家具、墻壁裝飾之間跳躍。讓猜測離開時間的人，眼睛會在歸來者的臉和家人的表情之間反復掃視。

這說明什么？人類的視覺不是被動的接收，而是主動的搜索。我們的眼睛去哪里，取決于我們想知道什么，取決于我們之前已經看到了什么。

用論文里的話說，人類視覺是"因果性"的——每一次注視都依賴于之前獲得的信息來決定下一步看哪里。

而傳統AI沒有這個能力。它只會機械地掃。

小徑分岔的花園

博爾赫斯有一篇短篇小說，叫《小徑分岔的花園》。

故事里有一座神秘的花園，主人公最終發現，這座花園其實是一部小說——一部在每個敘事節點都分叉出所有可能性的小說。在這部小說里，主人公可以同時選擇所有的路徑，每條路徑都是真實的。

這個隱喻用來理解DeepSeek OCR 2的核心創新，挺合適。

傳統VLM就像一個只會走直線的人穿越迷宮。從入口到出口，只有一條固定的路線：從左到右，從上到下。不管迷宮的結構如何，不管哪條路更近，它都只會沿著預設的方向走。

而人類看圖——以及DeepSeek想讓AI學會的方式——是站在每個岔路口，根據眼前的信息決定下一步往哪走。這條路看起來有標題？先走這邊。那邊有張圖表？跳過去看看。

這就是論文標題里"Visual Causal Flow"（視覺因果流）的含義：讓AI學會根據已經看到的內容，因果性地決定接下來看哪里。

DeepSeek的解法：兩階段級聯推理

理解了問題，DeepSeek的解法就很自然了。

核心思路是：把"看圖"這件事拆成兩步。

第一步：推理"應該按什么順序看"

傳統VLM直接把圖像拍平成一串token，順序是固定的。DeepSeek的做法是，先讓模型學會重新排列這些token的順序——根據圖像的語義內容，而不是空間位置。

這一步由一個叫"DeepEncoder V2"的編碼器完成。它會輸出一組"因果流查詢"（causal flow query），這些查詢token會按照模型認為合理的順序，依次"注視"圖像的不同部分。

第二步：在正確的順序上做推理

重排之后，再把這些有序的視覺信息交給LLM做文本生成（比如OCR識別）。

因為順序對了，LLM就能更好地理解文檔的邏輯結構。比如先看到標題，再看到正文，而不是先看到頁腳的頁碼。

一個巧妙的注意力mask

技術細節我盡量簡化。

DeepEncoder V2的核心是一個巧妙的注意力機制設計。它把輸入分成兩部分：

視覺token：用雙向注意力，每個token都能看到所有其他token。這保證了全局的感知能力。

因果流查詢：用因果注意力，每個查詢只能看到前面的查詢和所有視覺token。這讓查詢之間形成"順序"——第一個查詢決定先看哪，第二個查詢基于第一個的結果決定接下來看哪。

兩種注意力拼在一起，就形成了一個特殊的注意力mask矩陣。視覺token負責"感知"，因果查詢負責"排序"。

另一個有意思的設計：他們用一個小型LLM（Qwen2-500M）替換了傳統的CLIP ViT作為視覺編碼器。這讓編碼器本身就具備了"推理"能力，而不只是特征提取。

效果怎么樣

說點實際的。

在OmniDocBench v1.5這個文檔解析基準測試上，DeepSeek OCR 2達到了91.09%的綜合得分，比前代提升了3.73%。

更有意義的是"閱讀順序"指標的提升——編輯距離從0.085降到了0.057。這說明模型確實學會了按更合理的順序"讀"文檔，而不只是識別準確率提高了。

在實際生產環境中（DeepSeek的在線OCR服務和預訓練數據管線），輸出的重復率也從6.25%降到了4.17%，下降了33%。

而這一切，只用了256到1120個視覺token。作為對比，Qwen2.5-VL-72B要用超過6000個token。

這只是拼圖的一塊

OCR 2不是孤立的。

2026年1月，DeepSeek密集發布了一系列論文：

1月1日，mHC論文：提出"流形約束超連接"，解決大模型訓練的穩定性問題。梁文鋒署名。

1月12日，Engram論文：提出"條件記憶"機制，實現近乎無限的上下文檢索。梁文鋒署名。

1月27日，OCR 2論文：視覺因果流，讓AI像人一樣理解圖像。

這些技術指向同一個方向：更高效、更穩定、更像人。

它們很可能都會整合進即將發布的DeepSeek V4。根據公開信息，V4預計在2月中旬（春節前后）發布。GitHub代碼庫意外泄露的"MODEL1"代號顯示，這可能是一次架構重構，包括混合精度訓練、Blackwell GPU優化、以及超過100萬token的上下文窗口。

去年的V3和R1都是在春節窗口發布的。今年看起來也是。

從"看"的方式開始

回到OCR 2這篇論文本身。

它解決的問題看起來很"小"——文檔OCR，把圖片里的文字讀出來。但它觸及的問題挺"大"：AI應該怎么理解二維的視覺世界？

論文的討論部分提到了兩個方向：

一個是"Towards Genuine 2D Reasoning"——邁向真正的2D推理。用兩個級聯的1D因果推理來逼近2D理解。第一個1D負責"排序"，第二個1D負責"推理"。這是否能真正實現2D推理，還有待驗證。

另一個是"Towards Native Multimodality"——邁向原生多模態。既然可以用LLM當視覺編碼器，那能不能用同一套架構處理圖像、音頻、文本？只需要換一組模態專屬的查詢token就行。

期待真正的多模態DeepSeek

說起來，我們之前一直有個遺憾。

DeepSeek V3和R1都是很強的模型，R1甚至在推理能力上超越了o1。但它們都是純文本模型。在DeepSeek的網站或App上對話時，你能上傳圖片，但模型只是單純地識別圖中的文字，然后基于文字內容回答——本質上還是文本推理。

這就像一個只能讀字幕的人在"看"電影。

而從OCR 2這篇論文傳遞的信息看，DeepSeek在多模態上已經邁出了關鍵一步。他們不再滿足于識別文字這種初級的圖像理解，而是在探索如何讓AI真正"理解"視覺信息的結構和語義。

加上之前泄露的GitHub代碼里，"MODEL1"代號下有大量關于視覺編碼器的配置，以及論文里明確提到的"Native Multimodality"方向——我們有理由期待，即將發布的DeepSeek V4會是一個能力相當不錯的原生多模態模型。

真正學會看圖。

這些都是開放的問題。但從DeepSeek的論文發布節奏來看，他們已經在路上了。

論文：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
模型：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

模型大戰紅包之后：DeepSeek上新，AI小龍們座次已變

雷科技 2026-02-12 22:15:24
3 跟貼 3
剛剛Gemini上新模型，全球只有7人比它會編程，谷歌姚順宇參與

機器之心Pro 2026-02-13 11:47:41
4 跟貼 4

對話原力靈機周而進：模型2.4B就夠用，關鍵是“具身原生”

量子位 2026-02-13 13:51:04
0 跟貼 0

GLM-5封神，智譜市值五天翻倍，中國AI火力全開了

機器之心Pro 2026-02-13 15:30:39
0 跟貼 0
5個月用AI做了120多個App，職高畢業的小伙在杭州上城開“一人公司” 火到了海外

都市快報橙柿互動 2026-02-13 12:48:31
1404 跟貼 1404

一鍵搞定百萬行Excel和PPT排版！這杭州電力AI初創要給打工人減負

量子位 2026-02-13 12:02:53
0 跟貼 0

大廠AI競速，爭搶超級入口｜TMT年度盤點

經濟觀察報 2026-02-13 21:15:07
0 跟貼 0
Teamily AI 推出”北美元寶派”加強版，支持多人與多個AI Agents實時社交丨涌現新項目

36氪 2026-02-13 15:52:16
0 跟貼 0

AI恐慌壓垮了軟件——但市場真的錯了嗎？

華爾街見聞官方 2026-02-13 21:44:02
0 跟貼 0
《圣靈》反轉不斷猜不到結局的冷門懸疑影片

碗晚科普 2026-02-11 14:10:30
2 跟貼 2
未來世界出現神秘病毒，只要睡覺就會丟掉性命，懸疑電影

憨哥哥電影 2026-02-11 13:08:52
1 跟貼 1
一口氣20分鐘看完韓國懸疑電影《午夜》

小冰冰2024 2026-02-12 14:54:06
0 跟貼 0
這個臺灣小伙了不起：頭腦清醒，思維邏輯清晰，說出兩岸人民心聲

美人愛數碼 2026-02-09 15:26:05
11 跟貼 11
姚順宇參與，谷歌最強Gemini推理模型發布！測評碾壓Opus 4.6、GPT-5.2

智東西 2026-02-13 12:27:47
38 跟貼 38
9分佳作，懸疑拉滿，滿級特工高智商對決，精彩炸了！

二次元小韓 2026-02-13 10:42:03
0 跟貼 0
這個春節，三亞徹底火了！游客8499元訂的民宿被臨時毀約，附近民宿漲到三四萬，機票價同比翻倍！95后、00后也多起來了

每日經濟新聞 2026-02-12 22:13:04
6901 跟貼 6901
老牌軍事網文平臺鐵血讀書宣布關停

大風新聞 2026-02-12 20:17:04
7009 跟貼 7009
開源多模態推理「破壁」時刻：MMFineReason助力4B逆襲30B

機器之心Pro 2026-02-13 15:51:35
0 跟貼 0
看似普通的搶劫殺人案卻讓偵探夏洛克有些害怕起來

佳佳的世界 2026-02-13 10:15:46
1 跟貼 1
國產醫療大模型登頂權威榜單！核心秘籍：PB級訓練數據、模擬醫生真實會診過程

智東西 2026-02-13 18:01:29
0 跟貼 0
小鳥從小比較嬌貴，必須要手養它才行，有了模型養幾十只不是問題

發怒的福貓 2026-02-13 13:39:20
2 跟貼 2
賈冰、沈騰唱歌像哭墳，不料黃景瑜滿分觀察力，推理全對丨出發3

老韁科普 2026-02-13 00:36:15
1 跟貼 1
一夜暴漲至2100億！開源新王MiniMax M2.5，革了Opus 4.6的命

新智元 2026-02-13 14:53:32
3 跟貼 3
孫龍奪得短道速滑男子1000米亞軍

人民網-人民日報 2026-02-13 05:27:54
3846 跟貼 3846
進來一張美麗的臉轉鏡頭是四張帥氣的臉開始推理吧3迪麗熱巴

趕鴨子上架 2026-02-12 05:36:49
1 跟貼 1
認知的6個階層，我在第三層，你在哪一層？

洞見 2026-02-13 21:11:13
12 跟貼 12
中央批準，蔚盛斌跨省履新

長安街知事 2026-02-13 18:20:43
4 跟貼 4
中方罕見評價日本選舉發出“極其嚴厲的預警”

環球網 2026-02-13 14:17:34
83 跟貼 83
大偵探11全新升級，首發陣容，新老朋友齊集結

愛吃冰棍的小痞子 2026-02-13 13:18:58
0 跟貼 0
業界首個！螞蟻開源萬億參數混合線性思考模型，IMO金牌水平

智東西 2026-02-13 21:16:22
0 跟貼 0
讓樊振東回來他就必須回來？這是什么邏輯和道理？聽聽大哥怎么說

庫拉萌多 2026-02-13 06:06:51
0 跟貼 0
大型勵志懸疑反轉劇《看不見的新娘》

媽媽再滅我一次 2026-02-13 16:25:10
3 跟貼 3
開始推理吧4沒有迪麗熱巴和白宇

三度娛塘 2026-02-12 15:03:08
0 跟貼 0
1美元時薪？這才是打工人的「夢中情模」

機器之心Pro 2026-02-13 15:28:39
0 跟貼 0
常識，失效的親情，人間一隅

林中木白 2026-02-13 14:46:59
14 跟貼 14
視頻丨多次成功應對外艦、外機挑釁！太原艦展示052D硬核實力

海外網 2026-02-13 07:35:14
1243 跟貼 1243
美國要搞“北約3.0”

新華社 2026-02-12 18:57:03
775 跟貼 775
民間怪談錄：國產驚悚片來襲，城隍娶親死者睜眼，膽小者慎入

曉紅看影視 2026-02-13 07:02:18
0 跟貼 0
民間怪談錄：遺體離奇失蹤，偵探小隊火速出擊，結局將會如何

鴻澤天剪輯 2026-02-12 12:02:22
0 跟貼 0
5部鎮宅級好書！新年最走心、最有文化的禮物都在這了！

賣書狂魔熊貓君 2026-02-13 18:51:13
0 跟貼 0

AI進化論花生

AI博主，AppStore付費榜第一的小貓補光燈app開發者

140文章數 61關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

藝術

手機

教育

旅游

手機 / 數碼

房產 / 家居

DeepSeek又又又又發新論文了！這一次，他們重構了AI看圖的方式

獨家探訪蔡磊：答不完的卷子 死磕最后一程

浙江"一人公司"興起 前大廠程序員靠AI直接月入200萬

浙江"一人公司"興起 前大廠程序員靠AI直接月入200萬

這張照片背后，是米蘭冬奧最催淚的故事

大衣哥女兒風光出嫁，農村婚禮超樸素

華萊士母公司退市 瘋狂擴張下的食安隱憂

探秘比亞迪巴西工廠 居然是這個畫風！

態度原創

三亞新機場，又傳出新消息！

投資152億！江蘇省在建最大高鐵站，躍出地面！

小米跌36%、OPPO跌19%、榮耀跌26%，華為第一但銷量跌了27%！

希望這位寶媽想明白后，可以再回來找我！

向前向海 前海石公園新春“漫”游指南

獨家探訪蔡磊：答不完的卷子死磕最后一程

浙江"一人公司"興起前大廠程序員靠AI直接月入200萬

浙江"一人公司"興起前大廠程序員靠AI直接月入200萬

華萊士母公司退市瘋狂擴張下的食安隱憂

探秘比亞迪巴西工廠居然是這個畫風！

向前向海前海石公園新春“漫”游指南