<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek-OCR 發布:1個視覺token,抵得上10個文本token

      0
      分享至

      之前和 OpenAI 的做交流,突然提了一個問題
      文字,是信息壓縮的最好方式嗎?

      當時沒想太多,直到今天
      DeepSeek 開源了 DeepSeek-OCR
      用 10 個視覺 token,表達 100 個文本 token


      github.com/deepseek-ai/DeepSeek-OCR

      我突然意識到:這個問題可能有答案了
      具體對比:

      • ? DeepSeek-OCR 用 100 個 token ,超過了 GOT-OCR2.0 的 256 個 token

      • ? DeepSeek-OCR 用 800 個 token ,超過了 MinerU2.0 的 6000+ token

      • ? 即使壓縮到 20 倍 ,準確率還有 60%

      DeepSeek-OCR在不同壓縮比下的準確率 為什么重要

      現在所有的多模態大模型都面臨一個瓶頸:
      token 消耗太多了

      處理一頁 PDF 就要消耗幾千個 token
      如果你想處理一本書、一份研究報告、一堆財務文檔
      context window 立刻就爆了
      每個 token 都要算錢、消耗顯存、拖慢推理速度

      DeepSeek-OCR 用數據告訴你
      10 倍壓縮,幾乎無損

      信息論視角

      對于這個問題
      Hacker News 上展開了很大的討論


      是當前 Hacker News 上的最火話題

      "為什么這種方法有效?"
      "是不是文本 token 太粒狀了,沒接近理想的熵編碼?"
      "切換到視覺 token 是不是逃脫了'一次一個詞'的限制?"


      Hacker News 評論第一條

      有個回答說的很有意思
      文本 token 本質上是離散的查找表
      你有個小整數(token ID)
      然后查表得到一個向量

      但視覺 token 是連續值向量
      沒有查找表
      直接從圖像編碼成向量

      這意味著什么?
      文本 token 的「token 空間」是有限的
      通常就 10 萬個可能的 token
      每個 token 對應一小段 UTF-8 字節
      而且大多數分詞器不會創建跨越詞邊界的 token

      視覺 token 的「token 空間」要大得多
      它是高維浮點數向量,每個維度都可以取很多值
      所以視覺 token 能傳達更多的 bits per token
      這才是壓縮的關鍵


      圖片

      另一個人補充
      文本 token 是子詞單元
      視覺 token 在語義空間
      語義空間顯然比子詞切片壓縮得多


      免責聲明:我不懂

      還有人從視覺角度解釋
      人類就是通過視覺看文本的
      所以文本必須有適應視覺噪聲的機制
      看起來相似的詞不能出現在相似的上下文
      否則會混淆

      挺有意思的
      文本為了適應視覺識別
      反而在編碼上有些"冗余"
      而視覺 token 直接在語義空間工作
      可以更高效
      所以 10 倍的壓縮比

      從信息論角度看
      其實挺合理的
      DeepSeek-OCR 做的事情
      是把這個直覺量化了
      用實驗數據證明:
      一圖確實勝千言

      當然,我并不是這個領域的,評價不到正確與否,有懂的兄弟,還請評論區指導

      怎么做到的

      DeepSeek 這個東西的核心
      是一個叫 DeepEncoder 的架構
      380M 參數

      這東西的設計很講究
      它由三部分組成
      80M 的 SAM-base + 16 倍的卷積壓縮器 + 300M 的 CLIP-large


      DeepEncoder架構流程圖

      這個設計有兩個關鍵

      第一個關鍵是「低激活」
      大部分 VLM 的視覺編碼器激活值特別大
      InternVL2-76B 的激活參數是 76B
      Qwen2.5-VL-72B 的激活參數是 72B
      DeepSeek-OCR 的解碼器雖然是 3B 參數
      但激活參數只有 570M
      因為它用了 MoE 架構
      每次只激活一部分專家
      這意味著推理時顯存占用小、速度快

      第二個關鍵是「多分辨率統一」
      它設計了 6 種模式
      Tiny 模式的 64 個 token
      Gundam 模式的 800+ 個 token
      你可以根據文檔復雜度選擇
      幻燈片用 Tiny 就夠了
      報紙得用 Gundam

      另外值得一提的是
      DeepSeek-OCR 不只能識別文字
      還能「深度解析」文檔里的圖表、幾何圖形、化學式
      論文里叫這個能力 OCR 2.0
      比如金融報告里的圖表
      它能直接轉成結構化數據
      化學文檔里的結構式
      它能轉成 SMILES 格式


      化學結構,也不在話下

      這對金融、科研、教育領域太關鍵了

      最有想象力的部分

      論文最后有個很酷的設想

      用降低圖像分辨率來模擬人類的記憶遺忘

      這個類比特別有意思
      人類記憶有個特點
      越久遠的事情,記得越模糊
      剛發生的事,記得清清楚楚

      一小時前的事,還很清晰
      一天前的事,開始模糊
      一周前的事,已經很模糊
      一年前的事,幾乎忘光了

      視覺感知也是這樣
      10cm 的東西看得清清楚楚
      20m 的東西幾乎看不清
      DeepSeek-OCR 提出
      可以用分辨率來模擬這種衰減

      DeepSeek-OCR 提出了一個對應關系
      他們把不同的分辨率模式
      對應到人類記憶和視覺感知的清晰度等級
      這個類比是這樣的

      • ? 一小時前的事,還很清晰,對應 Gundam 模式(800+ tokens)

      • ? 一周前的事,已經很模糊,對應 Base 模式(256 tokens)

      • ? 一年前的事,幾乎忘光了,對應 Tiny 模式(64 tokens)

      記憶遺忘機制:時間維度、距離維度、分辨率維度

      最近的對話用高分辨率
      更早的對話逐漸降低分辨率
      這樣既保留了歷史信息
      又控制了 token 數量
      遠期記憶自然「淡化」
      就像人類遺忘一樣

      這個設想論文里說還是早期階段
      但想象空間很大
      如果真的能做到
      就能實現「理論上無限的 context window」

      因為你不需要保持所有信息的高保真度
      只需要讓信息隨時間衰減
      就像人類記憶一樣

      開源和局限

      整個項目采用 MIT 許可證開源
      代碼、模型權重、技術論文全部公開


      GitHub:

      github.com/deepseek-ai/DeepSeek-OCR

      Hugging Face:

      huggingface.co/deepseek-ai/DeepSeek-OCR

      說回來
      這個模型也有局限
      它不是聊天機器人
      因為沒有 SFT 階段
      某些能力需要用特定的 prompt 才能激活

      超過 10 倍的壓縮
      準確率會明顯下降
      記憶遺忘機制還只是設想
      真正驗證它在長上下文場景的效果
      需要更多實驗

      但即使有這些局限
      DeepSeek-OCR 已經證明了一件事
      視覺-文本壓縮這條路是走得通的

      最后

      DeepSeek-OCR 最有價值的地方
      不在于它是一個好用的 OCR 工具
      而在于它用數據驗證了一個假設
      視覺 token 確實可以更高效地表達信息

      現在所有的 VLM 都是幾千個 token 起步
      推理慢、顯存占用大、長文檔處理困難
      如果能把視覺 token 壓縮 10 倍還幾乎無損
      整個多模態系統的效率都能提升一個量級

      記憶遺忘機制的設想也很有意思
      人類會遺忘
      不是因為大腦容量不夠
      而是因為遺忘本身是一種優化策略

      你不需要記住所有細節
      只需要記住重要的、近期的信息
      如果這條路真的走通了
      可能會改變我們對長上下文問題的理解
      不是無限擴大 context window
      而是讓信息自然衰減
      就像人類記憶一樣

      回到開頭 OpenAI 朋友的那個問題
      文字,是信息壓縮的最好方式嗎?
      DeepSeek-OCR 用數據給出了答案

      而且,它是開源的
      任何人都可以用、可以改進、可以基于它做研究

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      甘肅一轎車高速狂飆近500公里無法減速,駕駛問題還是車輛問題?網友吵翻了

      甘肅一轎車高速狂飆近500公里無法減速,駕駛問題還是車輛問題?網友吵翻了

      紅星新聞
      2025-12-20 20:12:39
      從電視劇《老舅》讓人感覺到中國影視圈是令人絕望的

      從電視劇《老舅》讓人感覺到中國影視圈是令人絕望的

      西域刀客
      2025-12-20 19:33:03
      為什么感覺美國在走向衰落?那是因為你是中國人

      為什么感覺美國在走向衰落?那是因為你是中國人

      扶蘇聊歷史
      2025-12-19 10:02:54
      73歲的普京為何自曝戀情?看懂俄羅斯最大的困境是啥,你也就懂了

      73歲的普京為何自曝戀情?看懂俄羅斯最大的困境是啥,你也就懂了

      小濤叨叨
      2025-12-21 13:55:48
      底層無貴人,社交無意義

      底層無貴人,社交無意義

      詩詞中國
      2025-12-19 20:34:22
      龍賽羅:梅西經歷的慘敗太多了,C羅5年贏了4個歐冠歷史第一

      龍賽羅:梅西經歷的慘敗太多了,C羅5年贏了4個歐冠歷史第一

      懂球帝
      2025-12-21 08:53:15
      小曲線按照姐姐整容了?馬天宇踩李明德?倪妮糊成路人甲?宋威龍翻身了?姨太問答

      小曲線按照姐姐整容了?馬天宇踩李明德?倪妮糊成路人甲?宋威龍翻身了?姨太問答

      毒舌扒姨太
      2025-12-20 22:26:42
      知名主持王小騫崩潰大哭!自稱女兒患上“正食癥”,心率高達120

      知名主持王小騫崩潰大哭!自稱女兒患上“正食癥”,心率高達120

      攬星河的筆記
      2025-12-20 23:16:35
      壽命與起夜次數有關?研究發現:壽命長的人,每晚起夜在這個次數

      壽命與起夜次數有關?研究發現:壽命長的人,每晚起夜在這個次數

      九天攬月1
      2025-12-21 18:57:31
      丁元英:男人最掉價的行為,不是抽煙喝酒、兜里沒錢,而是這3種

      丁元英:男人最掉價的行為,不是抽煙喝酒、兜里沒錢,而是這3種

      富書
      2025-12-21 10:49:50
      細思極恐!一份90年代報紙的報道,又暴露出南博的“習慣性借出”

      細思極恐!一份90年代報紙的報道,又暴露出南博的“習慣性借出”

      火山詩話
      2025-12-20 06:43:20
      年底了,警惕這40家有st風險的公司,有的已st,有的可能被st!

      年底了,警惕這40家有st風險的公司,有的已st,有的可能被st!

      夜深愛雜談
      2025-12-21 16:34:05
      沖MVP?郭士強無視之人成廣東新核,球迷:胡明軒該與他工資對換

      沖MVP?郭士強無視之人成廣東新核,球迷:胡明軒該與他工資對換

      弄月公子
      2025-12-21 21:50:42
      中國的偉大發明:社會主義市場經濟

      中國的偉大發明:社會主義市場經濟

      中國經濟學人
      2025-11-24 16:53:58
      尼克松訪華時留意到 “打倒美帝國主義” 的標語,毛主席用風趣的話語化解尷尬,尼克松聽后爽朗大笑

      尼克松訪華時留意到 “打倒美帝國主義” 的標語,毛主席用風趣的話語化解尷尬,尼克松聽后爽朗大笑

      清風鑒史
      2025-12-20 18:40:22
      美國航母已就位,委內瑞拉電話打到北京,救不救?王毅斬釘截鐵

      美國航母已就位,委內瑞拉電話打到北京,救不救?王毅斬釘截鐵

      博覽歷史
      2025-12-19 19:03:53
      民進黨支持者竟造謠“嫌犯是大陸籍” 蔣萬安駁斥

      民進黨支持者竟造謠“嫌犯是大陸籍” 蔣萬安駁斥

      看看新聞Knews
      2025-12-21 00:07:04
      拼多多1399元茅臺被質疑,山姆1900元茅臺熱銷

      拼多多1399元茅臺被質疑,山姆1900元茅臺熱銷

      暖心萌阿菇涼
      2025-12-21 12:44:42
      遺憾!李盈瑩被解約,三方聲明公布原因,天津女排需要負責

      遺憾!李盈瑩被解約,三方聲明公布原因,天津女排需要負責

      跑者排球視角
      2025-12-21 21:20:12
      北斗、GPS信號受精準干擾壓制!導航集體失靈事件原因公布!

      北斗、GPS信號受精準干擾壓制!導航集體失靈事件原因公布!

      荊楚寰宇文樞
      2025-12-20 22:07:33
      2025-12-21 23:24:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      218文章數 12關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      美國外交系統現重大調整 約有24名駐外大使被要求離任

      頭條要聞

      美國外交系統現重大調整 約有24名駐外大使被要求離任

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      房產
      數碼
      本地
      教育
      公開課

      房產要聞

      中交·藍色港灣一周年暨藍調生活沙龍圓滿舉行

      數碼要聞

      Intel顯卡沖擊高端:竟然要直接上32GB顯存!

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風骨

      教育要聞

      遇到油鹽不進的孩子,該怎么辦?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美色综合| 亚洲一本之道高清乱码| 亚洲色欲色欲天天天www| 6080啪啪| 国产女人在线视频| 亚洲熟妇av一区二区三区宅男| 18禁久久| 日韩va| 日韩精品一区二区三区视频| 国产精品成人一区二区三区视频| 精品国产一区二区三区四区| 宁明县| 在线观看日韩av| 一本一道久久综合狠狠躁牛牛影视| 欧美肥老太交视频免费| 色狠狠久久av五月综合| 亚洲五月天综合| 精品成在人线av无码免费看 | 99久久综合精品国产成人一区二区| 久久久久久AV无码免费网站动漫 | 毛片无遮挡高清免费| 免费看成人aa片无码视频吃奶| 亚洲欧美国产精品专区久久| 绍兴县| WWW免费视频| 国精产品一区一区二区三区mba| 国产精品久久久久9999吃药| 深夜福利视频在线播放| 国产com| 台南县| 亚洲无码2025| 国产精品国产三级国产专区53| 曰韩无码av一区二区免费| 午夜无码福利视频| 亚洲中文字幕一区二区| 国产AV大陆精品一区二区三区 | www.久草| 蜜桃av秘?无码一区二区| 安阳市| 国产精品污双胞胎在线观看| 万安县|