<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek 新模型震撼 AI 圈:用視覺模型讀文檔,壓縮率高達 90%,信息保真 97%!

      0
      分享至


      大數據文摘出品

      最近,DeepSeek 推出了一種全新的 OCR 系統,能讓 AI 在不超出內存限制的情況下,處理更長的文檔。


      地址: https://github.com/deepseek-ai/DeepSeek-OCR?tab=readme-ov-file

      這套系統的關鍵,是把文字當作圖像來壓縮。DeepSeek 發現,處理圖片反而比處理純文本更節省算力。

      據其技術論文,系統在保留97% 信息量的前提下,可將文檔壓縮至原來的十分之一。

      換句話說,一本上百頁的 PDF,經 DeepSeek 處理后,只需原來十分之一的 token 數量,就能被 AI 完整閱讀。

      DeepSeek OCR 的核心由兩部分組成:一是圖像處理模塊,DeepEncoder,二是基于Deepseek-3B-MoE的文本生成器。.

      DeepEncoder 擁有 3.8 億參數,負責將文檔圖片分析為壓縮后的視覺 token;文本生成器在此基礎上恢復文字與結構。


      在技術上,它融合了 Meta 的SAM(Segment Anything Model)與 OpenAI 的CLIP 模型

      SAM 擔任局部視覺分析,CLIP 則提供全局語義關聯。兩者之間,嵌入了一個16 倍壓縮器,大幅減少圖像 token 數量。

      一張 1024×1024 像素的圖片,起初被分為 4096 個 token;經壓縮后,只剩 256 個。這一過程的算力節省是數量級的:CLIP 的計算負擔因此顯著下降。

      在低分辨率下,DeepSeek OCR 每張圖僅需 64 個視覺 token;高分辨率時也不超過 400。

      相比之下,傳統 OCR 系統往往需要數千 token 才能完成同樣的任務。


      DeepSeek 并不僅僅識別文字。它能識別圖表、化學式、幾何圖形等多種復雜結構。

      研究團隊稱,系統可直接從財報圖表中提取結構化數據,并自動生成 Markdown 表格。

      在“深度解析模式”下,它能將金融圖表、幾何圖形重新繪制成矢量圖,并同時保留說明文字。

      測試結果顯示,DeepSeek OCR 在OmniDocBench 基準上超過了 GOT-OCR 2.0

      在僅使用 100 個視覺 token 的情況下,它的表現優于 GOT-OCR 2.0 使用 256 token 的結果。

      即使在 800 token 以下,DeepSeek 也擊敗了MinerU 2.0,后者每頁需超過 6000 token。


      根據對比數據,DeepSeek OCR 的Gundam-M 模式在中英文混合識別上取得了最佳編輯距離分數。

      系統根據文檔復雜度自動選擇模式:簡單演示文檔用 64 token;普通報告約 100;復雜報紙需啟用“Gundam 模式”,上限 800 token。

      此外,它還提供Resize、Padding、Multi-page、Sliding 四種策略,在多頁文檔中平衡壓縮率與準確性。


      DeepSeek OCR 的訓練規模同樣罕見。研究團隊使用了三千萬頁 PDF 語料,覆蓋約一百種語言。

      其中包括2500 萬頁中英文文檔,以及一千萬張合成圖表、五百萬化學公式、一百萬幾何圖形。

      這些數據讓模型具備了跨領域、跨語言的泛化能力。

      它不僅能保持原始排版,還能在輸出中附帶文字描述和圖像內容說明。

      在多模態大模型中,文本上下文的限制一直是瓶頸。DeepSeek 的方法繞開了傳統 token 計數邏輯,用視覺 token 替代文本 token。

      這使得語言模型能在“看圖”的同時完成“讀文”。

      對研究者而言,這是一種近似“外接硬盤”的解決方案:通過視覺壓縮,AI 的上下文長度幾乎無上限。

      這種方式也預示著未來的模型架構可能不再區分“文本理解”和“圖像理解”。

      注:頭圖AI生成

      作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      奪冠后卻被開除,每月拿600,如今為法國14次奪冠,已成法國媳婦

      奪冠后卻被開除,每月拿600,如今為法國14次奪冠,已成法國媳婦

      涵豆說娛
      2025-12-13 12:04:42
      賭贏賺翻了:1/10價格買下價值56萬服務器主機!960GB內存就已回本

      賭贏賺翻了:1/10價格買下價值56萬服務器主機!960GB內存就已回本

      快科技
      2025-12-12 15:06:06
      十月二十五晴,來年倒春寒,今日十月二十五晴,有啥不好的預兆?

      十月二十五晴,來年倒春寒,今日十月二十五晴,有啥不好的預兆?

      阿龍美食記
      2025-12-14 04:45:15
      澤連斯基同意烏軍控制區當緩沖區!特朗普要拉俄羅斯重返全球經濟

      澤連斯基同意烏軍控制區當緩沖區!特朗普要拉俄羅斯重返全球經濟

      鷹眼Defence
      2025-12-12 17:49:42
      鞏俐大概率要孤獨終老了,與77歲的法國老公在北京游玩,無兒無女

      鞏俐大概率要孤獨終老了,與77歲的法國老公在北京游玩,無兒無女

      小娛樂悠悠
      2025-12-13 09:30:59
      15萬套房,劉強東甩出王炸!

      15萬套房,劉強東甩出王炸!

      新零售參考Pro
      2025-12-12 19:02:55
      19元3000G電信卡真相大揭秘:靠譜嗎?怎么辦理?避坑指南全解析

      19元3000G電信卡真相大揭秘:靠譜嗎?怎么辦理?避坑指南全解析

      日記漂流本
      2025-12-12 22:31:45
      湯鎮業青島生活20年,坦言:香港根本比不了!現在一家人很幸福

      湯鎮業青島生活20年,坦言:香港根本比不了!現在一家人很幸福

      古木之草記
      2025-12-13 18:08:09
      高市早苗緊急搬救兵,中國開始清點在日公民,傳遞了什么信號?

      高市早苗緊急搬救兵,中國開始清點在日公民,傳遞了什么信號?

      占領了思想
      2025-12-12 23:18:57
      92年錢學森給國家寫建議信:跳過汽油、柴油,直接研發新能源汽車

      92年錢學森給國家寫建議信:跳過汽油、柴油,直接研發新能源汽車

      興趣知識
      2025-12-14 04:11:48
      一男二女合租一套房,結果兩女懷孕,男子給兩女每人10萬元

      一男二女合租一套房,結果兩女懷孕,男子給兩女每人10萬元

      喬生桂
      2025-11-02 20:24:12
      性生活和諧到底有多爽?過來人告訴你:它能讓婚姻少走十年彎路

      性生活和諧到底有多爽?過來人告訴你:它能讓婚姻少走十年彎路

      精彩分享快樂
      2025-08-01 00:44:22
      卡內達下課?遼寧羅馬諾:浙江隊會換帥,新帥并非波耶特

      卡內達下課?遼寧羅馬諾:浙江隊會換帥,新帥并非波耶特

      足球觀察1
      2025-12-13 19:22:33
      知名醫生:別把張水華一棍子打死!醫院宣傳她,每年省千萬廣告費

      知名醫生:別把張水華一棍子打死!醫院宣傳她,每年省千萬廣告費

      念洲
      2025-12-13 08:30:11
      藍營三大內鬼不裝了,鄭麗文沒預料:臺退將提“臺灣有事”改一字

      藍營三大內鬼不裝了,鄭麗文沒預料:臺退將提“臺灣有事”改一字

      文史旺旺旺
      2025-12-12 20:32:05
      美經濟學家:美國出現了嚴重戰略誤判,壓根沒料到中國會這么強大

      美經濟學家:美國出現了嚴重戰略誤判,壓根沒料到中國會這么強大

      樂天閑聊
      2025-12-01 10:29:34
      12架日本戰機實彈起飛,直撲遼寧號?危險信號出現,中方需警惕

      12架日本戰機實彈起飛,直撲遼寧號?危險信號出現,中方需警惕

      南宮一二
      2025-12-13 08:16:29
      受傷還不消停!阿森納巨星觀賽暴怒,直接沖進場內

      受傷還不消停!阿森納巨星觀賽暴怒,直接沖進場內

      奶蓋熊本熊
      2025-12-14 00:32:28
      不產一根羊毛的浙江小鎮,卻承包了全國人的羊毛衫自由

      不產一根羊毛的浙江小鎮,卻承包了全國人的羊毛衫自由

      深氪新消費
      2025-12-13 12:07:40
      68歲呂良偉父子回陸川祭祖!開勞斯萊斯倍有面,因生于越南惹爭議

      68歲呂良偉父子回陸川祭祖!開勞斯萊斯倍有面,因生于越南惹爭議

      裕豐娛間說
      2025-12-13 15:35:11
      2025-12-14 06:20:49
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6806文章數 94518關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      "小米公司不讓賣小米"涉事村莊村民:馮書記直播不收錢

      頭條要聞

      "小米公司不讓賣小米"涉事村莊村民:馮書記直播不收錢

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      插刀門后,印小天一舉動實現口碑逆轉

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      教育
      時尚
      親子
      旅游
      本地

      教育要聞

      辛苦老己,最后6天我們還要做這些事——

      法式方頭靴的30種穿法,時髦不重樣!

      親子要聞

      七小七:用清潔配方重新定義兒童食品健康標準,獲雙品類銷量第一

      旅游要聞

      6 處雪景秘境藏頤和!2025 北京初雪后,每幀都是中式浪漫天花板

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 强行从后面挺进人妻| 科尔| 中文字幕乱码亚洲无线三区| 亚洲女初尝黑人巨| 性按摩xxxx在线观看| 一区二区三区免费| 久久久中文| 丰满岳乱妇一区二区三区| 亚洲浮力影院久久久久久| 亚洲av产在线精品亚洲第一站| 国产熟女在线播放| 一本色道久久亚洲加勒比| 亚洲精品中文字幕无码蜜桃| 国产在线视频www色| 欧美又大又色又爽aaaa片| 在线观看无码av五月花| 国产精品伦子伦露脸| av无码天堂| 亚洲国产成人无码网站大全| 在线天堂中文新版www| 狠狠干天天撸| 亚洲精品成人a?v久久| 国产精品激情| 极品粉嫩嫩模大尺度无码视频 | 真人祼交二十三式视频| 蜜臀av久久国产午夜福利软件| 你懂的福利导航| 中文无码av一区二区三区| 一个人看的免费高清www视频| 手机在线国产精品| jizzav| 迁西县| 一本加勒比hezyo无码专区 | 国产玖玖| 亚妇色人网| 四川丰满妇女毛片四川话 | 爽妇综合网| 松桃| 国产日韩欧美| 日日噜噜夜夜狠狠视频| 第一宅男AV导航|