<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      DeepSeek-OCR 開(kāi)源!為AI裝上眼睛的深遠(yuǎn)影響

      0
      分享至

      現(xiàn)在大語(yǔ)言模型處理長(zhǎng)文本特頭疼:字一多,token數(shù)量就炸了,又費(fèi)錢(qián)又慢。

      結(jié)果DeepSeek團(tuán)隊(duì)盯著這問(wèn)題琢磨,突然發(fā)現(xiàn)個(gè)事兒:一頁(yè)文字純文本輸進(jìn)去,得2000到5000個(gè)token,可要是渲染成圖片,用視覺(jué)模型處理,居然只要200到400個(gè)視覺(jué)token!

      壓縮率直接飆到10倍,這差距也太離譜了。

      結(jié)果還真讓他們搞出來(lái)了,就是這個(gè)DeepSeek-OCR。


      說(shuō)穿了,這模型的核心想法特簡(jiǎn)單:用視覺(jué)感知幫長(zhǎng)文本瘦身。

      就像DeepSeek在報(bào)告里說(shuō)的,靠這招能把不同階段的文本token減7到20倍,算是給長(zhǎng)文本處理開(kāi)了條新路子。

      其實(shí)想想也合理,DeepSeek團(tuán)隊(duì)一直就愛(ài)琢磨用更少資源干大事,之前做的模型就想跟OpenAI、谷歌掰掰手腕,現(xiàn)在把這思路用到OCR上,倒也不意外。

      再說(shuō)說(shuō)它是怎么干活的,其實(shí)就兩步:先把文字變成圖片,用個(gè)視覺(jué)編碼器(叫DeepEncoder)壓小,再用個(gè)文本解碼器(DeepSeek-3B-MoE)把字重建出來(lái)。

      我特地扒了扒這個(gè)DeepEncoder,這才是真腦洞:把兩個(gè)知名視覺(jué)模型拼一塊兒了,SAM-base負(fù)責(zé)盯細(xì)節(jié),比如字的筆畫(huà)、排版。

      CLIP-Large負(fù)責(zé)看整體,把握頁(yè)面結(jié)構(gòu)。

      中間還加了個(gè)16倍的卷積壓縮模塊,就拿1024×1024的文檔圖來(lái)說(shuō),普通視覺(jué)模型得出4096個(gè)特征塊,它一壓縮,只出256個(gè)視覺(jué)token!


      這下就不用怕特征量爆炸,后續(xù)處理又快又省內(nèi)存,這設(shè)計(jì)是真夠巧的。

      解碼器那邊呢,是個(gè)小尺寸的專(zhuān)家混合模型,總共5.7億活躍參數(shù),里面藏著64個(gè)小專(zhuān)家,每次解碼只叫醒6個(gè)干活,從壓縮后的視覺(jué)特征里一點(diǎn)點(diǎn)把文字摳出來(lái)。


      最牛的是,它訓(xùn)練時(shí)啥都學(xué)了,不光普通文檔,連表格、公式、化學(xué)分子結(jié)構(gòu)、幾何圖形都能認(rèn),還能處理多語(yǔ)言PDF。



      要知道,這些結(jié)構(gòu)化信息,好多傳統(tǒng)OCR碰都不敢碰,它倒好,全給包圓了。

      還有個(gè)細(xì)節(jié)特貼心:它能根據(jù)文字密度和版面復(fù)雜度調(diào)壓縮程度。

      比如遇到特別大、特別復(fù)雜的頁(yè)面,就開(kāi)Gundam模式,跟InternVL2.0似的分塊處理。

      簡(jiǎn)單頁(yè)面就少用點(diǎn)token省勁兒,復(fù)雜頁(yè)面就細(xì)分保證accuracy,算是把效率和準(zhǔn)確平衡得挺好。

      說(shuō)真的,這思路就像給長(zhǎng)文本做有損壓縮,借視覺(jué)模態(tài)信息密度高、冗余少的特點(diǎn),少用token還能存住信息。

      這模型終于開(kāi)源了,我第一時(shí)間就去GitHub瞅了眼,權(quán)重和代碼全放出來(lái)了,還用的MIT許可證,學(xué)術(shù)研究、商業(yè)應(yīng)用隨便用,對(duì)開(kāi)發(fā)者來(lái)說(shuō)簡(jiǎn)直是福利!

      模型文件大概6.6GB,對(duì)應(yīng)30億參數(shù)規(guī)模,不過(guò)得用NVIDIAGPU跑,還得裝Python3.12+、PyTorch2.6.0這些。

      官方給的教程特詳細(xì),連怎么用Transformers庫(kù)加載模型、調(diào)參數(shù)都寫(xiě)了,甚至還有PDF解析的示例腳本,連vLLM加速方案都給配了,社區(qū)還有人做了Docker鏡像和Web界面,只要有點(diǎn)深度學(xué)習(xí)基礎(chǔ),基本都能跑起來(lái)。

      不過(guò)有個(gè)小門(mén)檻,得有16GB以上顯存的GPU。

      再說(shuō)說(shuō)它的性能,我看測(cè)試數(shù)據(jù)的時(shí)候是真驚了!

      在Fox基準(zhǔn)測(cè)試?yán)铮?4個(gè)視覺(jué)token處理每頁(yè)600-700個(gè)文本token的文檔,準(zhǔn)確率能到96.5%,壓縮率6.7倍,加到100個(gè)視覺(jué)token,準(zhǔn)確率直接飆到98.5%,壓縮率10.5倍!

      就算是每頁(yè)1200-1300個(gè)token的密文,100個(gè)視覺(jué)token也能保59.1%的準(zhǔn)確率,壓縮快20倍!


      速度也夠能打,單張A100GPU一天能處理20萬(wàn)頁(yè)文檔,20臺(tái)服務(wù)器(每臺(tái)8張A100)一天能搞3300萬(wàn)頁(yè),對(duì)付大規(guī)模文檔數(shù)字化完全沒(méi)問(wèn)題。

      而且它參數(shù)才3億級(jí)別,部署在本地或邊緣設(shè)備都方便,延遲還低。

      當(dāng)然也不是沒(méi)缺點(diǎn),壓縮到20倍以上,準(zhǔn)確率就掉得明顯,太復(fù)雜的版面或冷門(mén)字體也可能認(rèn)錯(cuò),但這些都是OCR領(lǐng)域的老難題了,DeepSeek-OCR能做到這份上,已經(jīng)很能打了。

      說(shuō)實(shí)話,這模型能用到的地方太多了,處理長(zhǎng)篇PDF、書(shū)籍掃描件,幫法律、金融、科研行業(yè)省時(shí)間。



      支持100多種語(yǔ)言,跨國(guó)公司處理多語(yǔ)言報(bào)表、圖書(shū)館掃多語(yǔ)種古籍都能用。


      未來(lái)這方向也挺值得期待的。

      比如把它跟對(duì)話AI搭一塊兒,用戶傳長(zhǎng)篇文檔,先用它壓成視覺(jué)特征,再給語(yǔ)言模型處理,就能突破輸入長(zhǎng)度限制。

      DeepSeek用這思路做對(duì)話記憶,人記東西會(huì)慢慢模糊一樣,讓模型把舊對(duì)話存成低分辨率記憶圖,擴(kuò)內(nèi)存容量,這想法也太妙了。


      而且它可能會(huì)改變OCR的技術(shù)路線,以前都是檢測(cè)+識(shí)別,現(xiàn)在端到端的多模態(tài)OCR開(kāi)始冒頭了。

      以后的OCR說(shuō)不定不僅能識(shí)字,還能理解內(nèi)容,直接出結(jié)構(gòu)化結(jié)果,比如DeepSeek-OCR已經(jīng)能處理圖表出Markdown、認(rèn)化學(xué)式出SMILES編碼、看幾何圖形出坐標(biāo),以后只會(huì)更智能。


      總的來(lái)說(shuō),DeepSeek-OCR不光是OCR領(lǐng)域的突破,更是AI多模態(tài)融合的一塊里程碑。

      它證明把文字當(dāng)圖片壓縮這瘋狂想法真能行,也給長(zhǎng)文本處理找了條新路子。

      就像DeepSeek在報(bào)告里說(shuō)的,這只是對(duì)視覺(jué)文本壓縮邊界的初步探索,現(xiàn)在已經(jīng)這么驚艷了,以后肯定還有更大的空間。

      說(shuō)不定再過(guò)陣子,大語(yǔ)言模型的腦子里,不只是抽象的文字token,還會(huì)存著一堆壓縮的記憶圖片,幫它更好地處理海量信息。

      DeepSeek這波操作,是真敢想,也真做成了。

      這場(chǎng)關(guān)于文字變圖片的AI變革,才剛開(kāi)頭呢。

      非常感謝您看本文章,如果感覺(jué)寫(xiě)的還可以的話,那就點(diǎn)個(gè)贊、轉(zhuǎn)發(fā)一下吧~

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      招商證券:外部沖擊消退后 4月中下旬市場(chǎng)焦點(diǎn)將轉(zhuǎn)向一季報(bào)業(yè)績(jī)高增長(zhǎng)領(lǐng)域

      招商證券:外部沖擊消退后 4月中下旬市場(chǎng)焦點(diǎn)將轉(zhuǎn)向一季報(bào)業(yè)績(jī)高增長(zhǎng)領(lǐng)域

      財(cái)聯(lián)社
      2026-04-06 20:29:09
      林彪叛逃后,周恩來(lái)嚎啕大哭,紀(jì)登奎上前勸說(shuō),他卻擺手:你不懂

      林彪叛逃后,周恩來(lái)嚎啕大哭,紀(jì)登奎上前勸說(shuō),他卻擺手:你不懂

      歷史甄有趣
      2026-04-06 09:15:20
      隨著亞特蘭大3-0+38歲法布雷加斯率隊(duì)0-0,意甲最新積分榜出爐

      隨著亞特蘭大3-0+38歲法布雷加斯率隊(duì)0-0,意甲最新積分榜出爐

      側(cè)身凌空斬
      2026-04-06 22:57:43
      好久沒(méi)見(jiàn)過(guò)這么大陣仗了!

      好久沒(méi)見(jiàn)過(guò)這么大陣仗了!

      中國(guó)民航人
      2026-04-05 21:55:04
      醫(yī)生發(fā)現(xiàn):大量喝茶的糖尿病患者,用不了多久,身體或有7個(gè)變化

      醫(yī)生發(fā)現(xiàn):大量喝茶的糖尿病患者,用不了多久,身體或有7個(gè)變化

      阿萊美食匯
      2026-04-06 14:52:09
      8個(gè)產(chǎn)油國(guó)決定自5月起將原油日產(chǎn)量上調(diào)20.6萬(wàn)桶

      8個(gè)產(chǎn)油國(guó)決定自5月起將原油日產(chǎn)量上調(diào)20.6萬(wàn)桶

      國(guó)際在線
      2026-04-06 06:53:02
      伊朗發(fā)出最后通牒!俄通告全球?qū)?zhàn),法國(guó)上將:中估計(jì)也要到了

      伊朗發(fā)出最后通牒!俄通告全球?qū)?zhàn),法國(guó)上將:中估計(jì)也要到了

      阿尢說(shuō)歷史
      2026-04-06 22:25:09
      殺人誅心!以色列襲擊美大使館?新變數(shù)出現(xiàn),伊朗:美政權(quán)更迭!

      殺人誅心!以色列襲擊美大使館?新變數(shù)出現(xiàn),伊朗:美政權(quán)更迭!

      探史
      2026-04-06 21:40:29
      伊朗回應(yīng)美方停戰(zhàn)提議 提出10項(xiàng)條款

      伊朗回應(yīng)美方停戰(zhàn)提議 提出10項(xiàng)條款

      每日經(jīng)濟(jì)新聞
      2026-04-06 23:12:22
      風(fēng)向突變,以德為首的西方國(guó)家齊發(fā)聲:中國(guó)已在換電關(guān)鍵領(lǐng)域崛起

      風(fēng)向突變,以德為首的西方國(guó)家齊發(fā)聲:中國(guó)已在換電關(guān)鍵領(lǐng)域崛起

      老韁科普
      2026-04-06 21:59:02
      院士罕見(jiàn)發(fā)話:別再叫北斗“中國(guó)版GPS”了!差距大到離譜!

      院士罕見(jiàn)發(fā)話:別再叫北斗“中國(guó)版GPS”了!差距大到離譜!

      小蘭聊歷史
      2026-04-05 05:34:48
      周杰倫演唱會(huì)口碑崩塌,3小時(shí)劃水2小時(shí),萬(wàn)元門(mén)票聽(tīng)了個(gè)寂寞

      周杰倫演唱會(huì)口碑崩塌,3小時(shí)劃水2小時(shí),萬(wàn)元門(mén)票聽(tīng)了個(gè)寂寞

      觀察者海風(fēng)
      2026-04-04 22:06:54
      國(guó)軒高科:2GWh全固態(tài)電池量產(chǎn)線建設(shè)受技術(shù)、研發(fā)、市場(chǎng)等多項(xiàng)因素影響

      國(guó)軒高科:2GWh全固態(tài)電池量產(chǎn)線建設(shè)受技術(shù)、研發(fā)、市場(chǎng)等多項(xiàng)因素影響

      澎湃新聞
      2026-04-06 19:33:04
      歐洲各地襲擊猶太事件暴漲!猶太人陷入恐慌,請(qǐng)求政府派軍隊(duì)保護(hù)

      歐洲各地襲擊猶太事件暴漲!猶太人陷入恐慌,請(qǐng)求政府派軍隊(duì)保護(hù)

      步論天下事
      2026-04-04 19:27:07
      南京博物院事件真相來(lái)了:果然,那些人真狗啊!

      南京博物院事件真相來(lái)了:果然,那些人真狗啊!

      李月亮
      2026-02-10 20:58:01
      傳瘋了!特朗普被傳去世,數(shù)日未公開(kāi)露面,引發(fā)網(wǎng)友熱議

      傳瘋了!特朗普被傳去世,數(shù)日未公開(kāi)露面,引發(fā)網(wǎng)友熱議

      魔都姐姐雜談
      2026-04-05 22:00:52
      銀行信貸部老同學(xué)揭秘“房?jī)r(jià)跌不跌已經(jīng)不重要了…”

      銀行信貸部老同學(xué)揭秘“房?jī)r(jià)跌不跌已經(jīng)不重要了…”

      慧翔百科
      2026-04-01 09:02:03
      打破“四駕馬車(chē)”慣例,越南強(qiáng)人能否改變國(guó)家命運(yùn)?

      打破“四駕馬車(chē)”慣例,越南強(qiáng)人能否改變國(guó)家命運(yùn)?

      愛(ài)下廚的阿釃
      2026-04-06 15:41:15
      岳西6歲女童失聯(lián)案告破!女童已被殺害,女案犯被抓獲,詳情曝出

      岳西6歲女童失聯(lián)案告破!女童已被殺害,女案犯被抓獲,詳情曝出

      胡侃社會(huì)百態(tài)
      2026-04-06 23:24:35
      臺(tái)學(xué)者:臺(tái)灣若自愿與大陸統(tǒng)一,美日印都會(huì)攻臺(tái),他們想兩岸分離

      臺(tái)學(xué)者:臺(tái)灣若自愿與大陸統(tǒng)一,美日印都會(huì)攻臺(tái),他們想兩岸分離

      介知
      2026-04-05 17:18:08
      2026-04-07 01:04:49
      AI變革 incentive-icons
      AI變革
      AI時(shí)代的變革,無(wú)論你主不主動(dòng),都與你有關(guān)
      142文章數(shù) 16關(guān)注度
      往期回顧 全部

      科技要聞

      折疊屏iPhone要來(lái)了,富士康已在試產(chǎn)!

      頭條要聞

      外媒:美國(guó)副總統(tǒng)萬(wàn)斯和伊朗外長(zhǎng)等人徹夜交流

      頭條要聞

      外媒:美國(guó)副總統(tǒng)萬(wàn)斯和伊朗外長(zhǎng)等人徹夜交流

      體育要聞

      官方:中國(guó)女足球員邵子欽加盟本菲卡

      娛樂(lè)要聞

      唐嫣羅晉新加坡遛娃,6歲女兒身高搶鏡

      財(cái)經(jīng)要聞

      史詩(shī)級(jí)暴跌"一周年" A股接下來(lái)如何走?

      汽車(chē)要聞

      阿維塔06T快上市了 旅行車(chē)還能這么玩?

      態(tài)度原創(chuàng)

      游戲
      數(shù)碼
      教育
      時(shí)尚
      本地

      一切為了玩家!索尼再次大規(guī)模下架清退PS商店游戲

      數(shù)碼要聞

      玄派玄機(jī)16 2026筆記本上架:銳龍AI Max+ 395,128GB + 2TB

      教育要聞

      國(guó)內(nèi)有錢(qián)人為什么都喜歡送孩子去英國(guó)留學(xué)?

      伊姐清明熱推:電視劇《冰湖重生》;電視劇《月鱗綺紀(jì)》......

      本地新聞

      跟著歌聲游安徽,聽(tīng)古村回響

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版