AI圈雖然天天卷,但是很多的模型,真的越來越無聊了。
每天就是跑分又多了幾個點。
直到昨天,DeepSeek久違的發了一個新模型。
DeepSeek-OCR。
這玩意,是真的有點酷。
![]()
首先,不要被這個名字騙了。
雖然說它名字上有個OCR,但是你說它真的就只是個OCR模型嗎。
我想說,是,也不是。。。
說它是,很簡單,就是因為這玩意,干的確實也是傳統OCR的活。
傳統的OCR任務其實特別純粹,就是把那些圖片上字啥的啊,變成你 電腦里可以 編輯 可以 復制粘貼 數字文本。
以前沒有OCR的時候,你想想,你看到手上的書上有些字特別好,你想錄到電腦里,你會咋辦?答案就只有一個,一個字一個字的敲上去。
敲幾句話還行,讓你敲個合同或者一本三體你試試看,是個人都絕逼要瘋。
后來OCR來了,就特別方便了,直接拍個照片,就能把里面的文字全部提取出來,很簡單。
所以DeepSeek-OCR確實也有OCR的功能,也能干OCR的活,而且還挺強。
![]()
比如這是一張典型的金融研究報告。,里面有文字,有圖表,有各種復雜的排版。
你讓一個傳統的OCR軟件去看這張圖,它可能會非常精準地,把里面所有的文字,都摳出來,變成一個TXT文檔。
然后就沒有然后了。
但是DeepSeek-OCR,它看完這張圖,會直接,生成一個Markdown文檔。
在這個文檔里,文字是文字,標題是標題,最關鍵的是,那些圖表,被它用代碼,也重新畫了一遍,變成了一個可以被編輯被引用的表格。
這個很牛逼了。
但是吧,這玩意又不只是我們傳統意義上理解的OCR。
他還有一個很重要的功能,就是,壓縮。
可能會有點難以理解和抽象,我盡可能的用通俗易懂的話來講明白。
在說壓縮之前,我們得先搞明白,現在所有大語言模型,從GPT-3.5到我們現在的各種模型,都面臨著一個共同的幾乎無解的噩夢,就是長文本處理。
你別看它們現在能寫一堆亂七八糟的能當朋友跟你聊天還能用嘴畫圖,但你只要丟給它一篇稍微長點的內容,比如一本幾十萬字的書,讓它去理解,去總結,基本上都要炸。
因為AI理解文字的方式,跟我們不一樣。
我們看書,是一目十行。
AI讀文字,它需要把每個字,每個詞,都轉換成Token。你可以把它簡單的理解成一個一個的“字節”,是數據里面的那個字節,不是字節跳動的字節。
現在主流AI架構的缺陷是,它在讀每一個新詞的時候,為了理解上下文,它需要把這個新詞和前面所有出現過的詞,都建立一次聯系。
所以處理這些Token的計算量,是隨著文本長度的平方增加的。
比如我舉一個Party的例子,現在這個Party上有10個人,每個人都跟其他人貼貼一下,那大概需要45次貼貼,還行對吧。
但如果來了100個人,每個人都要跟其他人貼貼,就需要將近5000次貼貼,這基本就屬于廢了。
這就是技術上常說的計算復雜度是N的平方。
這個成本,是指數級增長的,誰都扛不住。
所以,長久以來,整個AI界都在死磕一個問題,怎么讓AI,能又快又便宜的搞定上下文的問題?
大家想了很多辦法,什么滑動窗口、稀疏注意力,各種各樣的算法優化。但這些,都像是給一輛漏油的破車,換更好的輪胎,貼更騷的膜。
但是它,解決不了發動機的根本問題啊。
然后DeepSeek這次,它根本沒管你那個漏油的破逼車,而是,直接給你買了一輛,新能源。
它說:“我們為什么,非要讓AI一個字一個字地讀呢?我們能不能讓它,像我們人一樣,看?”
就是我不再把一本300頁的書,轉換成幾十萬個Token的文本文件,喂給AI。
而是,我直接把這300頁書,拍成一張張照片,變成一個圖像文件,然后,讓AI去看這張圖。
你可能覺得,這不是脫褲子放屁嗎?照片不也是由像素組成的嗎?信息量不是更大了嗎?
對,但你忽略了最關鍵的一點:
圖像,是二維的,而文字,是一維的。
一維的文字,就像一根無限長的薯條,你想吃它,智能從頭吃到尾,一個字節都不能少。
而二維的圖像,就像一張大餅,你一眼掃過去,整個餅的全貌,盡收眼底。
DeepSeek-OCR,干的就是這事,把所有的文字,全部壓縮成圖像。
這個過程,在他們的論文里,叫“上下文光學壓縮”(Contexts Optical Compression)。
我給你舉一個 真正的應用場景案例 ,你就全明白了:
比如假設你正在跟一個AI助手聊天,你倆已經聊了三天三夜,聊了 1000 輪,可能占幾十萬甚至幾百萬的Token。
對于以前的大模型來說,當你問:“哎,我三天前跟你說的第一件事是啥?”,大模型就必須把這1000輪的全部聊天記錄都裝進它的記憶區也就是上下文窗口里,才能去查找。
這會撐爆它的內存和算力,所以現在的AI,很多的聊著聊著你就感覺它失憶,因為有的,真的只能記住最近的幾十輪對話。
而DeepSeek-OCR的解決方案呢,是這樣的。
AI助手只把最近10輪的聊天記錄,用文本的形式記在腦子里。
但是,它把那更遠一點的990輪的文本聊天記錄,自動渲染成一張或著幾張長長的圖片,就像你給聊天記錄截了個屏。
然后,它立刻調用內部的DeepEncoder編碼器,把這張包含海量文字的截圖,壓縮成大概只有原來10分之1的視覺Token,然后一起扔到上下文中,記到腦子里。
當真正要用的時候,比如你還是問那個問題,“我三天前說的第一件事是啥?”
它現在的上下文里裝的是10輪聊天記錄的文本token + 990輪聊天記錄的視覺token。
然后,它的解碼器,DeepSeek-3B,一個激活參數為570M的MOE模型,已經通過 OCR 任務,學會了一看到這種視覺token,就能把它解碼還原成原文的能力。
于是,他看了一眼那一圈視覺Token,找到了三天前的第一句話,然后回答了你。
這,就是DeepSeek-OCR的整個架構。
![]()
所以啊,別被名字騙了,這真的不止是個OCR啊。。。
這是純粹的關于上下文的新范式。。。
所以雖然跟百度的那個PalddeleOCR-VL一樣名字也有OCR,但其實,兩個,真的不是一個東西= =
DeepSeek-OCR,這,即是壓縮。
論文里給出的數據是,在保持96.5%的識別準確率的前提下,壓縮比可以達到驚人的10倍。
![]()
壓縮比 = 原來的文本token總數 ÷ 壓縮后視覺token總數。
而20倍的壓縮比,還能保留60%的準確率,雖然這個準確率確實不咋地,但是,這也是給未來留下了非常值得優化的方向。
說實話,這個東西確實很新,真的很有意思,可能是我為數不多的最近看到的最好玩的模型論文。
一圖勝千言,可能說的就是如此吧。
而且細細想來,其實這種壓縮之法,也確實沒啥毛病。
我們總覺得文字是信息傳遞的巔峰。
但從整個人類歷史和生物進化的角度看,視覺,才是我們一直處理信息的最重要的手段。
在文字誕生之前的幾十萬年里,我們的祖先就是靠看來生存的。
看天色,看獵物,看同伴的表情,看親手刻下的壁畫。
在紙張和印刷術普及之前,人類是怎么記錄宏大敘事的?是壁畫,是浮雕。
埃及金字塔里的象形文字,敦煌莫高窟里的經變畫,它們本身就是一種壓縮。古埃及人把復雜的祭祀、律法、歷史,壓縮在一幅幅畫里,等待別人去解壓。
從這個角度看,DeepSeek-OCR干的事,和當年的人類,其實也沒什么兩樣。
但是當我覺得,最頭皮發麻為之一振的話。
其實是論文的最后,他們寫的一點點希望討論的。
DeepSeek說,對于那些更古老的上下文,我們可以逐步縮小渲染出的圖像,以進一步減少令牌消耗。
這個假設的靈感,來自于一個非常自然且深刻的類比:
人類的記憶會隨著時間的推移而衰退,人類的視覺感知會隨著空間距離的拉遠而退化。
![]()
這種現象,它們都表現出了相似的、漸進式的信息丟失模式。
他們可以用“上下文光學壓縮”的方法,實現了一種記憶衰減形式。
比如圖表里,最左是 Text token,也就是不壓縮的純文本,信息保真;往右是把文字渲成圖再編碼成視覺 token 的不同模式,Gundam 比較豪華、細節多、花銷大,Large 再次之,Base、Small、Tiny 依次更省 token、也更模糊。
它幾乎,完美地鏡像了生物的遺忘曲線。
在這個機制下,最近的信息保持著高保真度,而遙遠的記憶則通過不斷提高的壓縮率,自然地褪色和淡忘。
這個機制,實在是太酷了。
很像是在探討,一種“數字生命”的可能形態。
我們一直以來追求的AI,是什么樣的?
是一個擁有無限記憶、絕對理性的“神”。
它不會遺忘,不會犯錯,像一臺完美的機器。
但我們自己是這樣的嗎?
不是。
遺忘,恰恰是人類智慧最重要的組成部分。
我們之所以能夠創新,能夠抓住重點,能夠在復雜的世界里做出決斷,正是因為我們的大腦懂得,放下。
我們會忘記那些不重要的細節,我們會模糊那些久遠的傷痛,我們會把寶貴的認知資源,留給當下最重要的事情。
遺忘,還有錯誤,真的不是bug,是我們這個物種能夠延續至今的核心算法之一。
就像西部世界里的那句經典臺詞。
在福特的理論中,進化形成了這個星球上有情感和知覺的生命體,“用的唯一工具,就是錯誤。”
![]()
遺忘,也是那個“錯誤”。
對DeepSeek-OCR感興趣的,可以去他們的項目網址看一看,體驗一下。
https://github.com/deepseek-ai/DeepSeek-OCR
但是,我也非常強烈的建議,大家也可以,去讀一讀這篇論文的原文。
不需要看那些很技術的原理和數學,只要看方法,還有范式,其實就能學到很多東西。
我把論文原文也放在公眾號后臺了,你對著后臺私信“OCR”,也會自動的發給你。
![]()
感謝DeepSeek。
惟愿我們。
國運昌隆。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.