<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek 新模型震撼 AI 圈:用視覺模型讀文檔,壓縮率高達 90%,信息保真 97%!

      0
      分享至


      大數據文摘出品

      最近,DeepSeek 推出了一種全新的 OCR 系統,能讓 AI 在不超出內存限制的情況下,處理更長的文檔。


      地址: https://github.com/deepseek-ai/DeepSeek-OCR?tab=readme-ov-file

      這套系統的關鍵,是把文字當作圖像來壓縮。DeepSeek 發現,處理圖片反而比處理純文本更節省算力。

      據其技術論文,系統在保留97% 信息量的前提下,可將文檔壓縮至原來的十分之一。

      換句話說,一本上百頁的 PDF,經 DeepSeek 處理后,只需原來十分之一的 token 數量,就能被 AI 完整閱讀。

      DeepSeek OCR 的核心由兩部分組成:一是圖像處理模塊,DeepEncoder,二是基于Deepseek-3B-MoE的文本生成器。.

      DeepEncoder 擁有 3.8 億參數,負責將文檔圖片分析為壓縮后的視覺 token;文本生成器在此基礎上恢復文字與結構。


      在技術上,它融合了 Meta 的SAM(Segment Anything Model)與 OpenAI 的CLIP 模型

      SAM 擔任局部視覺分析,CLIP 則提供全局語義關聯。兩者之間,嵌入了一個16 倍壓縮器,大幅減少圖像 token 數量。

      一張 1024×1024 像素的圖片,起初被分為 4096 個 token;經壓縮后,只剩 256 個。這一過程的算力節省是數量級的:CLIP 的計算負擔因此顯著下降。

      在低分辨率下,DeepSeek OCR 每張圖僅需 64 個視覺 token;高分辨率時也不超過 400。

      相比之下,傳統 OCR 系統往往需要數千 token 才能完成同樣的任務。


      DeepSeek 并不僅僅識別文字。它能識別圖表、化學式、幾何圖形等多種復雜結構。

      研究團隊稱,系統可直接從財報圖表中提取結構化數據,并自動生成 Markdown 表格。

      在“深度解析模式”下,它能將金融圖表、幾何圖形重新繪制成矢量圖,并同時保留說明文字。

      測試結果顯示,DeepSeek OCR 在OmniDocBench 基準上超過了 GOT-OCR 2.0

      在僅使用 100 個視覺 token 的情況下,它的表現優于 GOT-OCR 2.0 使用 256 token 的結果。

      即使在 800 token 以下,DeepSeek 也擊敗了MinerU 2.0,后者每頁需超過 6000 token。


      根據對比數據,DeepSeek OCR 的Gundam-M 模式在中英文混合識別上取得了最佳編輯距離分數。

      系統根據文檔復雜度自動選擇模式:簡單演示文檔用 64 token;普通報告約 100;復雜報紙需啟用“Gundam 模式”,上限 800 token。

      此外,它還提供Resize、Padding、Multi-page、Sliding 四種策略,在多頁文檔中平衡壓縮率與準確性。


      DeepSeek OCR 的訓練規模同樣罕見。研究團隊使用了三千萬頁 PDF 語料,覆蓋約一百種語言。

      其中包括2500 萬頁中英文文檔,以及一千萬張合成圖表、五百萬化學公式、一百萬幾何圖形。

      這些數據讓模型具備了跨領域、跨語言的泛化能力。

      它不僅能保持原始排版,還能在輸出中附帶文字描述和圖像內容說明。

      在多模態大模型中,文本上下文的限制一直是瓶頸。DeepSeek 的方法繞開了傳統 token 計數邏輯,用視覺 token 替代文本 token。

      這使得語言模型能在“看圖”的同時完成“讀文”。

      對研究者而言,這是一種近似“外接硬盤”的解決方案:通過視覺壓縮,AI 的上下文長度幾乎無上限。

      這種方式也預示著未來的模型架構可能不再區分“文本理解”和“圖像理解”。

      注:頭圖AI生成

      作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      受傷,膽小誤入!剩余1秒,打個架

      受傷,膽小誤入!剩余1秒,打個架

      風子說個球
      2026-04-26 14:44:40
      特朗普:美方代表不去了 伊朗:外長將再訪巴基斯坦

      特朗普:美方代表不去了 伊朗:外長將再訪巴基斯坦

      可樂談情感
      2026-04-26 15:14:42
      自帶2寸屏的“智能麻將”,內置喇叭會報牌,這路子真夠野!

      自帶2寸屏的“智能麻將”,內置喇叭會報牌,這路子真夠野!

      金科技觀察家
      2026-04-26 11:20:14
      越南一渣男用私密視頻要挾前女友:強迫她與9個陌生男人發生關系,自己收錢

      越南一渣男用私密視頻要挾前女友:強迫她與9個陌生男人發生關系,自己收錢

      緬甸中文網
      2026-04-26 13:19:20
      丞磊,現在估計比吃了蒼蠅還難受,特意打扮一下,被搶了風頭

      丞磊,現在估計比吃了蒼蠅還難受,特意打扮一下,被搶了風頭

      動物奇奇怪怪
      2026-04-25 21:20:41
      地緣紛爭時中國宇宙探索震撼世界

      地緣紛爭時中國宇宙探索震撼世界

      小眼睛小世界
      2026-04-26 09:23:47
      五一前后屬馬人,這4個“坎”躲不過,看完別哭

      五一前后屬馬人,這4個“坎”躲不過,看完別哭

      匹夫來搞笑
      2026-04-26 14:25:04
      中國第四艘航母官宣!人民海軍用兩字通告全球,首艘核航母要來了

      中國第四艘航母官宣!人民海軍用兩字通告全球,首艘核航母要來了

      說歷史的老牢
      2026-04-25 11:39:39
      宣布離職東方甄選后,天權、明明二人抖音賬號持續漲粉

      宣布離職東方甄選后,天權、明明二人抖音賬號持續漲粉

      新浪財經
      2026-04-26 08:36:58
      “特朗普變了,我遭到了背叛”

      “特朗普變了,我遭到了背叛”

      觀察者網
      2026-04-26 12:03:16
      兩名襲擊者全程戴頭盔,高喊侮辱先知,監控拍下瘋狂砍殺近四分鐘

      兩名襲擊者全程戴頭盔,高喊侮辱先知,監控拍下瘋狂砍殺近四分鐘

      獨舞獨舞
      2026-04-26 07:54:46
      男女之間,感情是幌子,性是需求,錢是底線

      男女之間,感情是幌子,性是需求,錢是底線

      加油丁小文
      2026-04-26 14:00:07
      Z世代抗議一年:推翻了政府,然后呢?

      Z世代抗議一年:推翻了政府,然后呢?

      晚風也遺憾
      2026-04-23 14:51:44
      太扎心!72歲王健林被逼到崩潰,6000億負債,連利息都快付不起了

      太扎心!72歲王健林被逼到崩潰,6000億負債,連利息都快付不起了

      歷史偉人錄
      2026-04-25 21:55:56
      張軍被查鬧得沸沸揚揚,劉國梁莫名躺槍,離譜嗎?

      張軍被查鬧得沸沸揚揚,劉國梁莫名躺槍,離譜嗎?

      TVB的四小花
      2026-04-26 15:16:46
      陳賡把386旅經營的鐵板一塊,劉伯承十分羨慕:你還算是129師的不

      陳賡把386旅經營的鐵板一塊,劉伯承十分羨慕:你還算是129師的不

      史之銘
      2026-04-25 20:01:27
      體檢報告出現這3個“字眼”,多半是肺癌前兆!建議立刻就醫

      體檢報告出現這3個“字眼”,多半是肺癌前兆!建議立刻就醫

      垚垚分享健康
      2026-04-23 16:52:07
      王鈺棟暴怒!終場哨后怒罵隊友,賽季3次情緒失控,曾怒懟球迷

      王鈺棟暴怒!終場哨后怒罵隊友,賽季3次情緒失控,曾怒懟球迷

      奧拜爾
      2026-04-25 21:13:40
      以色列女兵霸占黎巴嫩民房,面對鏡頭狂笑,在廚房狂炫辣椒

      以色列女兵霸占黎巴嫩民房,面對鏡頭狂笑,在廚房狂炫辣椒

      阿龍聊軍事
      2026-04-23 11:53:36
      央視開播!37集大劇來了!看完陣容看預告,我敢說:又要熬夜狂追

      央視開播!37集大劇來了!看完陣容看預告,我敢說:又要熬夜狂追

      草本紀年
      2026-04-26 12:26:18
      2026-04-26 15:48:49
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6853文章數 94542關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      伊朗拒見美代表轉赴阿曼 特朗普怒撤行程

      頭條要聞

      伊朗拒見美代表轉赴阿曼 特朗普怒撤行程

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      《八千里路云和月》大結局意難平

      財經要聞

      DeepSeek V4背后,梁文鋒的轉身

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      本地
      藝術
      數碼
      家居
      旅游

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      藝術要聞

      鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

      數碼要聞

      京東“Aidol創造營”計劃正式啟動 面向全球孵化101個AI硬件新物種

      家居要聞

      自然肌理 溫潤美學

      旅游要聞

      不設舞臺的賞花季!青島西海岸新區邀你在花海中自由撒野

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人亚洲无码淙合青草| 国产婷婷综合在线视频中文| 亚洲第一无码专区天堂| 爱色影网| 天天日天天爽| 欲色天天网综合久久| 亚洲男同帅gay片在线观看| 日本精品一区二区三本中文| 麻豆精产国品一二三产区| 久久人妻无码AⅤ毛片评价| 黑人大群体交免费视频| 国产av永久无码天堂影院| 两个人的视频www免费| www.黄| 久久精品成人无码观看免费| 欧美国产在线看| 日韩人妻无码精品| 国偷自产av一区二区三区| 国产偷v国产偷v亚洲高清| 乱码午夜-极品国产内射| 国模久久| 大色欧美| 国产精品无遮挡猛进猛出| 男女同房做爰爽免费| 一本本月无码-| 猫咪www免费人成网站| 天天射天天日本一道| 九九热视频在线免费观看| 91牛| 宜黄县| 午夜国产精品视频在线| 久久国产精品二国产人妻| 2020无码专区人妻系列日韩| 99精品国产一区二区三区| 国产一区二区日韩在线| 3P无码| 亚洲美女操| 中文字幕无码成人片| 亚洲乱人伦| 亚洲人ⅴsaⅴ国产精品| 免费黄色在线|