![]()
過(guò)去一年,大模型世界像一場(chǎng)“算力奧運(yùn)會(huì)”:誰(shuí)的參數(shù)更大、Bench 更高、吞吐更快,就能贏得下一輪融資與流量。
但 DeepSeek-OCR 的出現(xiàn),像是在賽道中間立了一塊新的路標(biāo)——別再往 LLM 嘴里塞更多 token 了,先想想有沒(méi)有更聰明的喂法。
這一次,它不是在卷識(shí)別精度,而是在重新定義“輸入”本身。一個(gè)名叫 OCR 的模型,卻把問(wèn)題指向了長(zhǎng)上下文與信息壓縮的根本:當(dāng)文字被渲染成圖像,當(dāng)模型開(kāi)始“看”而不是“讀”,AI 的記憶方式也在被重寫(xiě)。
![]()
技術(shù)內(nèi)核:十倍壓縮 + 多分辨率,“讀”變“看”的工程路徑
DeepSeek-OCR 的設(shè)計(jì)思路非常鮮明:通過(guò)多分辨率的視覺(jué)編碼機(jī)制,實(shí)現(xiàn)極高的信息壓縮效率。
模型提供了多個(gè)分辨率選項(xiàng):最低的 512×512 圖像僅需 64 個(gè) token,而 1024×1024 則對(duì)應(yīng) 256 個(gè) token。對(duì)于復(fù)雜版面,它會(huì)組合多種分辨率——整頁(yè)用多個(gè) 1024×1024 的塊進(jìn)行全局編碼,重點(diǎn)區(qū)域再以 640×640 的高分辨率單獨(dú)處理。
這套路線的底層邏輯是:把文本先渲染成圖片,再用視覺(jué)編碼器把它壓成更少的視覺(jué) token。傳統(tǒng)做法是“按字/詞切片—> 變成一長(zhǎng)串文本 token—> 塞給 LLM”,而 DeepSeek 的思路是“把一頁(yè)文字變成若干張多尺度圖塊—>視覺(jué)編碼—> 少量視覺(jué) token”。從工程權(quán)衡的角度看,這有三層直接收益:
信息密度:排版、層級(jí)結(jié)構(gòu)、表格網(wǎng)格、圖文對(duì)齊,這些在“文本化”過(guò)程中會(huì)損失,而在“視覺(jué)化”里天然攜帶。
計(jì)算復(fù)雜度:Transformer 注意力是 N2N^2N2——token 越多越爆炸。視覺(jué)壓縮若能把 10 萬(wàn) token 的文檔“折疊”到幾百個(gè)視覺(jué) token,延遲、顯存、花費(fèi)都會(huì)是數(shù)量級(jí)改善。
輸入一致性:現(xiàn)實(shí)世界里大量輸入本就是截圖、PDF、PPT、儀表盤(pán)、網(wǎng)頁(yè)混排。以視覺(jué)為統(tǒng)一“底層表示”,有利于做一體化的上下文管理。
DeepSeek 在工程上還給了多分辨率的“粗到細(xì)”路徑:整頁(yè)用較粗分辨率覆蓋,重點(diǎn)區(qū)域再用更高分辨率補(bǔ)洞,既保全結(jié)構(gòu)又兼顧要點(diǎn)密度。
這聽(tīng)上去眼熟?沒(méi)錯(cuò),與多尺度生成/理解中的“金字塔”范式一脈相承。
項(xiàng)目主頁(yè)直白寫(xiě)著“探索視覺(jué)-文本壓縮的邊界:10× 近無(wú)損、20× 仍有約 60% 準(zhǔn)確度”,這與開(kāi)源社區(qū)的二手驗(yàn)證口徑相互印證。
更有意思的是,DeepSeek 團(tuán)隊(duì)并未止步于識(shí)別性能。
他們提出了一個(gè)極具想象力的假設(shè):“人腦之所以能記憶長(zhǎng)久,是因?yàn)樗鼤?huì)忘記;那模型也可以通過(guò)分辨率的降低來(lái)實(shí)現(xiàn)遺忘。”
![]()
這意味著,“遺忘”第一次被引入模型的設(shè)計(jì)邏輯中。 在這套機(jī)制下,最近的信息以高分辨率保存,細(xì)節(jié)完整;時(shí)間越久遠(yuǎn),分辨率越低,只保留核心語(yǔ)義;最終,最早的記憶被壓縮成模糊的背景層。
這是一種從清晰到模糊的光學(xué)記憶曲線,對(duì)應(yīng)人類(lèi)的記憶衰減機(jī)制。
這樣的機(jī)制讓上下文不再是“平鋪的一串 token”,而是一個(gè)立體的時(shí)間空間結(jié)構(gòu):模型不再一次性背下所有內(nèi)容,而是像人一樣分層保留。在信息洪流的時(shí)代,這樣的“視覺(jué)遺忘”或許才是最合理的記憶方式。
“視覺(jué) > 文本”的爭(zhēng)論:DeepSeek接過(guò)“視覺(jué)語(yǔ)言”的火炬
在 DeepSeek-OCR 發(fā)布后,最引發(fā)熱議的不是模型的識(shí)別精度,而是Andrej Karpathy的那條長(zhǎng)推。
這位前 OpenAI 創(chuàng)始成員、特斯拉自動(dòng)駕駛 AI 負(fù)責(zé)人,在 X 上直言:“也許LLM的所有輸入都應(yīng)該是圖像;我討厭分詞器(tokenizer),它丑陋、割裂、不是端到端。”
他的出發(fā)點(diǎn)并不神秘——視覺(jué)派的直覺(jué)與一線工程經(jīng)驗(yàn):文本分詞繼承了 Unicode/字節(jié)編碼的歷史包袱,也引入了越獄/安全邊界等現(xiàn)實(shí)風(fēng)險(xiǎn);而用像素端到端,可以名正言順地把排版、樣式、符號(hào)變體一并學(xué)進(jìn)表示空間。從“把文本當(dāng)圖像”到“輸入側(cè)雙向注意力更自然”“統(tǒng)一模態(tài)流”,AK 給了一套頗具煽動(dòng)力的論據(jù)。
![]()
而馬斯克進(jìn)一步把這個(gè)邏輯推到了物理層的極限:“最終一切輸入輸出都是光子。”兩人的思路實(shí)質(zhì)上是一致的——語(yǔ)言是人類(lèi)造的接口,而光是宇宙本身的接口。
他所說(shuō)的“Nothing else scales”,并不僅僅指算力的瓶頸,而是信息傳輸與感知的物理極限。無(wú)論是圖像、視頻、傳感器還是顯示屏,所有的信息流本質(zhì)上都是光子流。換句話說(shuō),語(yǔ)言、文字、符號(hào)這些“輸入方式”,只是光的低維投影。當(dāng)模型足夠強(qiáng)大時(shí),它們都將被還原為光的形式——即以視覺(jué)為基礎(chǔ)的直接感知與生成。
![]()
“讓語(yǔ)言回歸像素”并不是憑空誕生的想法。
早在 2022 年,哥本哈根大學(xué)團(tuán)隊(duì)就在論文《Language Modelling with Pixels》中提出了 PIXEL 模型:它通過(guò)把文本渲染成圖像,并以像素重建代替分詞預(yù)測(cè),從而繞過(guò)傳統(tǒng)分詞器帶來(lái)的語(yǔ)言隔閡。PIXEL 實(shí)驗(yàn)顯示,這種方式在跨語(yǔ)言、異體字、以及正字法攻擊(如字符擾動(dòng))場(chǎng)景下表現(xiàn)更穩(wěn)健。
此后,學(xué)界陸續(xù)出現(xiàn)了多篇沿著這一思路發(fā)展的論文:
2023 年 CVPR 論文CLIPPO提出 “Pixels Only” 框架,將圖像與語(yǔ)言的對(duì)齊完全基于視覺(jué) token;
2024 年多篇論文探索如何利用視覺(jué) token 處理長(zhǎng)文本上下文;
2025 年的 NeurIPS 再度出現(xiàn)類(lèi)似方向的研究,強(qiáng)化了“視覺(jué)編碼是長(zhǎng)上下文問(wèn)題解法”的共識(shí)。
DeepSeek-OCR 正是在這一脈絡(luò)下登場(chǎng)的。它將多篇分散的研究成果整合成一條完整的工程鏈路:把視覺(jué)編碼、上下文壓縮、多分辨率建模融合為統(tǒng)一框架。
值得一提的是,DeepSeek 的多分辨率機(jī)制與去年的 NeurIPS Best Paper《Visual Autoregressive Modeling》高度相似。那篇由字節(jié)跳動(dòng)實(shí)習(xí)生Tian Keyu領(lǐng)銜的工作,采用了“由粗到細(xì)”的多尺度預(yù)測(cè)方式——先低分辨率生成,再逐步提升清晰度。 同時(shí),豆包團(tuán)隊(duì)也在論文中展示了相同的數(shù)據(jù)壓縮路徑:512×512 圖像可編碼為 64 個(gè) token,256×256 甚至能壓到 32 個(gè) token。
正如久痕科技創(chuàng)始人汪源所評(píng)價(jià)的那樣:DeepSeekOCR的性能和思路不算很大的突破,但產(chǎn)品化的貢獻(xiàn)值得肯定。
把概念落回現(xiàn)實(shí)賬本,會(huì)更清楚地看到它的價(jià)值。
Transformer 的注意力機(jī)制是 N^2 復(fù)雜度,輸入 token 數(shù)量從 1 萬(wàn)增加到 10 萬(wàn),計(jì)算量就會(huì)暴漲 100 倍。
哪怕你用稀疏注意力、滑動(dòng)窗口、外部記憶等技巧,成本下降仍然有限,且往往伴隨對(duì)齊/召回的不確定性。現(xiàn)實(shí)業(yè)務(wù)里,最扯后腿的恰恰是“混排文檔”:合規(guī) PDF、法務(wù)合同、工藝/維保手冊(cè)、SaaS 儀表盤(pán)、研發(fā)規(guī)范、PPT……今天的常態(tài)是“先 OCR+結(jié)構(gòu)化→再喂 LLM”,這一步步的串接又貴又脆。
如果輸入側(cè)直接統(tǒng)一成視覺(jué),省掉一層中間件與信息損耗;若再疊加“漸進(jìn)式分辨率衰減”,老上下文以更低成本“影子駐留”,新上下文以高分辨率強(qiáng)化——這對(duì)RAG/會(huì)話長(zhǎng)期記憶/代碼庫(kù)理解都是實(shí)打?qū)嵉南到y(tǒng)性?xún)?yōu)化。社區(qū)口徑里甚至出現(xiàn)了諸如“A100 單卡日處理 ~20 萬(wàn)頁(yè)”的粗算(顯然依賴(lài)具體分辨率/排版/批量參數(shù)),雖然屬于工程經(jīng)驗(yàn)值,但方向大體明確:視覺(jué)壓縮在吞吐/延遲/成本的三角里打開(kāi)了新空間。
需要補(bǔ)一句冷水:刪分詞器并非免費(fèi)午餐。視覺(jué)管線的魯棒性(渲染差異、截圖工況、抗壓縮噪聲)、讀寫(xiě)閉環(huán)(輸入像素→輸出像素?還是回到文本?)、訓(xùn)練數(shù)據(jù)構(gòu)建與標(biāo)注成本,都是要在產(chǎn)品化上“真金白銀”攻克的硬骨頭。
DeepSeek-OCR 當(dāng)前把“輸入統(tǒng)一為視覺(jué)”這半程跑通,是對(duì)生態(tài)非常重要的刺激,但“輸出也視覺(jué)化”的終局何時(shí)可用,還要看后續(xù)的工具鏈與評(píng)測(cè)體系。
范式分流:視覺(jué)Token的進(jìn)擊、硬坎與未來(lái)
DeepSeek 這次的思路,也不是要和“文本 token 路線”你死我活。更現(xiàn)實(shí)的判斷是:視覺(jué)化輸入將成為與文本并行的“第二軌”。
它在一些特定場(chǎng)景下具備天然優(yōu)勢(shì):
復(fù)雜混排 / 版面語(yǔ)義:合同條款、財(cái)報(bào)、圖表、批注腳注……過(guò)去要多輪 OCR + 結(jié)構(gòu)化,現(xiàn)在視覺(jué)輸入一步搞定。
跨語(yǔ)言 / 字符體系:像素化輸入繞過(guò)分詞器詞表瓶頸,對(duì)多語(yǔ)料任務(wù)天然更魯棒(PIXEL 模型的結(jié)果已證實(shí))。
安全與越獄防護(hù):字符級(jí)繞行在像素域難度更高,雖然不是絕對(duì)安全,但確實(shí)更穩(wěn)。
跨模態(tài)遷移:從圖到文的對(duì)齊路徑更短,UI 理解、自動(dòng)化操作、Agent 工具調(diào)用更順滑。
當(dāng)然,文本 token 依然不可替代。它的可編輯性、符號(hào)邏輯的稀疏性、產(chǎn)業(yè)評(píng)測(cè)生態(tài)的成熟度,仍是視覺(jué)模型難以比肩的優(yōu)勢(shì)。真正的產(chǎn)品最佳實(shí)踐,很可能不是“視覺(jué)替代文本”,而是“文-視雙通道融合 + 任務(wù)自適應(yīng)路由”:讓模型在需要邏輯推理時(shí)用文本,在需要結(jié)構(gòu)感知時(shí)切換視覺(jué)。
任何新范式都不是免費(fèi)的午餐。DeepSeek-OCR 的視覺(jué)路徑,同樣有三道“硬坎”:
邊界效應(yīng):有損壓縮的極限在哪?壓錯(cuò)一個(gè)字,可能就錯(cuò)一個(gè)法條。必須配合“任務(wù)自適應(yīng)壓縮率”和“局部校對(duì)回讀(spot-check)”機(jī)制。
可測(cè)性 / 可解釋性:評(píng)測(cè)體系要從 CER/WER(逐字錯(cuò)誤率)升級(jí)到“版面-語(yǔ)義-邏輯一致性”指標(biāo),還得能量化“視覺(jué)遺忘”的副作用。
數(shù)據(jù)與治理:渲染風(fēng)格、截圖工況、掃描噪聲的 domain gap 不小;版權(quán)和隱私問(wèn)題也更棘手——像素里常常藏著水印、紅章、元信息。
學(xué)術(shù)研究表明:像素語(yǔ)言模型在跨文字體系的魯棒性上表現(xiàn)優(yōu)異,但在拉丁語(yǔ)系的語(yǔ)義任務(wù)上仍略弱于同規(guī)模文本模型——這提醒產(chǎn)業(yè)界要任務(wù)分層、術(shù)業(yè)分工,別一刀切地推崇視覺(jué)輸入。
DeepSeek 把“分辨率遞減”與“人類(lèi)遺忘曲線”做類(lèi)比:近事清晰、舊事模糊。在人腦里,遺忘不僅是分辨率降低,更是語(yǔ)義抽象與概念重組——很多細(xì)節(jié)被拋棄,是因?yàn)楦邔颖硎境尚汀O乱徊饺绻馨选胺直媛仕p”與“語(yǔ)義摘要/結(jié)構(gòu)抽象”聯(lián)動(dòng),那這套“光學(xué)遺忘”才會(huì)更像“機(jī)器的長(zhǎng)期記憶”。
不要只把它當(dāng) OCR,它更像一次輸入層的重構(gòu)實(shí)驗(yàn)
DeepSeek-OCR 的真正價(jià)值,是把“視覺(jué)化輸入”拉回了一線主航道:
它把長(zhǎng)上下文的算力-成本矛盾,轉(zhuǎn)化為輸入壓縮 + 多分辨率調(diào)度的工程問(wèn)題;
它把“文本是唯一輸入”的傳統(tǒng),撬成“視覺(jué) / 文本雙軌”的現(xiàn)實(shí);
接下來(lái)最有看點(diǎn)的,不是單一 Bench 的分?jǐn)?shù),而是誰(shuí)先把視覺(jué)化輸入與語(yǔ)義化記憶真正打通:讓舊上下文既便宜地“模糊”存在,又能在“需要較真時(shí)”快速局部放大 + 精準(zhǔn)回讀。
當(dāng)這條鏈路成熟,“以視覺(jué)方式壓縮一切”也許真會(huì)成為主流。
https://github.com/deepseek-ai/
https://news.ycombinator.com/item?id=45640594&utm_source=chatgpt.com
https://x.com/karpathy/status/1980397031542989305?utm_source=chatgpt.com
[5]
https://arxiv.org/abs/2207.06991?utm_source=chatgpt.com
https://arxiv.org/abs/2212.08045?utm_source=chatgpt.com
[6]
https://proceedings.neurips.cc/paper_files/paper/2024/file/9a24e284b187f662681440ba15c416fb-Paper-Conference.pdf?utm_source=chatgpt.com
歡迎掃碼加群參與討論
我們相信認(rèn)知能夠跨越階層,
致力于為年輕人提供高質(zhì)量的科技和財(cái)經(jīng)內(nèi)容。
稿件經(jīng)采用可獲邀進(jìn)入Z Finance內(nèi)部社群,優(yōu)秀者將成為簽約作者,00后更有機(jī)會(huì)成為Z Finance的早期共創(chuàng)成員。
我們正在招募新一期的實(shí)習(xí)生
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.