![]()
這兩天 AI 圈子又炸鍋了!
一個(gè)叫 DeepSeek-OCR 的新玩意兒,被好多人喊做“ AI 的 JPEG 時(shí)刻”。聽(tīng)著就挺酷炫,但到底啥意思?跟咱有啥關(guān)系?
今天就來(lái)用大白話聊聊。如果你不想看文字,就看下面這個(gè)視頻版,效果更好。
我們這就開(kāi)始了~
你有沒(méi)有想過(guò)——AI 有可能學(xué)不會(huì)的一項(xiàng)技能,居然是:掃一眼就能讀完一本書(shū)。
聽(tīng)著是不是有點(diǎn)像科幻小說(shuō)那味?
但今天咱聊的,不是玄幻,而是真實(shí)存在的新技術(shù)——光學(xué)壓縮(Optical Compression)。
它的目標(biāo)就是讓 AI “一眼看完”,真的像人一樣看圖識(shí)世界。
AI 最大的老毛病:太能“卷”了
AI 界一直有個(gè)頭疼的大難題:超長(zhǎng)文本太難處理。
比如 GPT-4,強(qiáng)是強(qiáng),但你要是給它扔一本幾百頁(yè)的小說(shuō),它就要開(kāi)始“燒腦”了。
而且這可不是“多一倍字,多一倍計(jì)算”這么簡(jiǎn)單——是平方級(jí)增長(zhǎng)。
簡(jiǎn)單說(shuō),字越多,AI 就越累,錢(qián)包也越疼。
這點(diǎn)我特別懂,畢竟我讀完一本大部頭的書(shū),前面都忘光了。
AI 也差不多,它讀著讀著就把前面的關(guān)鍵細(xì)節(jié)給丟了。
突破點(diǎn):別讀字了,看圖!
解決辦法居然特別“人性化”——?jiǎng)e再一個(gè)字一個(gè)字讀了,直接拍照!
是的,這就是光學(xué)壓縮的靈感:把整頁(yè)、甚至整本書(shū)拍成一張圖,讓 AI 直接去“看圖識(shí)文”。
![]()
▲ 傳統(tǒng)的文本處理和光學(xué)壓縮的文本處理
這張圖片就不只是圖片,而是一個(gè)信息密度爆炸的壓縮包。
咱們平時(shí)不都說(shuō)“一圖勝千言”嘛?一張圖片能頂好多文字。AI也是這個(gè)理兒。
一張掃描的文檔圖片,它包含的信息量,比你把這些文字一個(gè)字一個(gè)字打進(jìn)去,要“輕”得多,也更“緊湊”。
AI 只需處理少得多的視覺(jué)符號(hào),就能理解整本書(shū)的內(nèi)容。
效率提升那叫一個(gè)離譜,真·降維打擊。
真·技術(shù)派登場(chǎng):DeepSeek OCR
光有想法不夠,得有人真做出來(lái)。
于是 DeepSeek 團(tuán)隊(duì)推出了個(gè)新模型——DeepSeek OCR。
它的任務(wù)就一個(gè):驗(yàn)證光學(xué)壓縮到底靠不靠譜。
它的原理也簡(jiǎn)單:
第一步:用 Deep Encoder 壓縮,把一整頁(yè)文字變成一張濃縮圖;
第二步:再用解碼器“解壓”,把文字原封不動(dòng)還原回來(lái)。
![]()
▲ DeepSeek-OCR 包好壓縮和解壓兩部分
整個(gè)模型的三個(gè)死目標(biāo):
1?? 要能看超高清文字圖;
2?? 要超級(jí)省資源;
3?? 用盡可能少的視覺(jué)符號(hào)表達(dá)盡可能多的信息。
每一條都精準(zhǔn)命中“算力貴、效率低”的痛點(diǎn)。
效果有多炸?看數(shù)據(jù)
有個(gè)數(shù)據(jù)我看到都驚了:壓縮 10 倍,還能保持 97% 準(zhǔn)確率。
這基本就是無(wú)損壓縮。
更狠的是,壓到 20 倍,準(zhǔn)確率還有 60%。
這效率,簡(jiǎn)直是“拿命在壓”。
![]()
▲ DeepSeek-OCR 壓縮比和精度
同場(chǎng)對(duì)比時(shí),其他模型處理同樣文檔要幾千個(gè) token,而 DeepSeek OCR 只要一百來(lái)個(gè)。
![]()
▲ DeepSeek-OCR 用最少的 token 實(shí)現(xiàn)了頂尖的性能
這就叫——花最少的錢(qián),辦最大的事。
我突然想到:AI 也該學(xué)會(huì)“遺忘”
講真,這技術(shù)讓我想到一個(gè)挺哲學(xué)的問(wèn)題。
我們的大腦,其實(shí)也是種“光學(xué)壓縮”系統(tǒng)。
新記憶清晰得像高清照片,舊記憶慢慢糊成低清圖。
![]()
你十年前的午飯吃了啥?肯定不記得,也沒(méi)必要記。
也許 AI 也該這樣——
記住重要的,模糊掉次要的。
不是過(guò)目不忘才聰明,學(xué)會(huì)遺忘,可能才更像人。
所以我想把這個(gè)問(wèn)題留給你:
對(duì) AI 來(lái)說(shuō),“遺忘”到底是 bug,還是一種高級(jí)功能?
【參考】: https://github.com/deepseek-ai/DeepSeek-OCR
本文由「AI 范兒」出品
感謝你看到這里,如果覺(jué)得不錯(cuò),那就請(qǐng)幫忙點(diǎn)個(gè)贊、愛(ài)心、轉(zhuǎn)發(fā)三連吧,這對(duì)我們非常有幫助。如果想第一時(shí)間收到推送,也可以給我們加個(gè)星標(biāo)?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.