<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek-OCR是「長文本理解」未來方向?中科院VTCBench給出答案

      0
      分享至



      DeepSeek-OCR 的視覺文本壓縮(VTC)技術通過將文本編碼為視覺 Token,實現高達 10 倍的壓縮率,大幅降低大模型處理長文本的成本。但是,視覺語言模型能否理解壓縮后的高密度信息?中科院自動化所等推出 VTCBench 基準測試,評估模型在視覺空間中的認知極限,包括信息檢索、關聯推理和長期記憶三大任務。

      近期,DeepSeek-OCR 憑借其創新的「視覺文本壓縮」(Vision-Text Compression, VTC)范式引發了技術圈的高度關注,以極少的視覺 Token 實現高效的文本信息編碼,為長文本處理開辟了新路徑。

      這一突破性進展讓大模型處理超長文本的成本大幅降低,但也拋出了一個核心問題:當長文本被高度壓縮為 2D 圖像后,視覺語言模型(VLM)真的能理解其中的內容嗎?

      為了解答這一疑問,來自中科院自動化所、中國科學院香港創新研究院等機構的研究團隊推出了首個專門針對視覺 - 文本壓縮范式的基準測試 ——VTCBench。



      • 論文鏈接:https://arxiv.org/abs/2512.15649
      • VTCBench 鏈接: https://github.com/Moenupa/VTCBench
      • VLMEvalKit 鏈接:https://github.com/bjzhb666/VLMEvalKit
      • Huggingface 鏈接: https://huggingface.co/datasets/MLLM-CL/VTCBench



      圖 1:視覺 - 文本壓縮 (VTC) 流程演示及 VTCBench

      與傳統大模型直接讀取成千上萬的純文本 Token 不同,VTC 范式(如 DeepSeek-OCR)先將長文檔渲染 (Rendering)為高密度的 2D 圖像,再由視覺編碼器轉化為少量的視覺 Token。

      該技術可實現 2 倍至 10 倍的 Token 壓縮率,顯著降低了長文本處理時的計算與顯存開銷。

      VTCBench 現已在 GitHub 和 Huggingface 全面開源,其衍生版本 VTCBench-Wild 是一個統一的、全方位評估模型在復雜現實場景下視覺文本壓縮的魯棒性,現已集成到 VLMevalkit。

      核心使命——衡量「看得見」之后的「看得懂」

      目前的 VLM 也許能出色地完成 OCR 識別,但在處理 VTC 壓縮后的高密度信息時,其長文本理解能力仍存疑。

      VTCBench 通過三大任務,系統性地評估模型在視覺空間中的認知極限:

      1. VTC-Retrieval (信息檢索):在視覺「大海」中尋找特定事實的「針」(Needle-in-a-Haystack),測試模型對空間分布信息的捕捉能力;
      2. VTC-Reasoning (關聯推理):挑戰模型在幾乎沒有文本重疊的情況下,通過關聯推理尋找事實,超越單純的詞匯檢索;
      3. VTC-Memory (長期記憶):模擬超長對話,評估模型在視覺壓縮框架下,抵御時間與結構性信息衰減的能力。

      此外,團隊同步推出了 VTCBench-Wild,引入 99 種不同的渲染配置(涵蓋多種字體、字號、行高及背景),全方位檢測模型在復雜現實場景下的魯棒性。

      揭秘視覺壓縮背后的認知瓶頸



      圖 2:VTCBench 針對模型在長圖像中檢索信息的熱力圖。橫軸代表上下文長度,縱軸代表關鍵事實(Needle)在文檔中的深度。展現了模型表現的「迷失」與突破。

      測試結果呈現出顯著的 「U 型曲線」:與文本模型類似,視覺語言模型(VLM)能夠精準捕捉開頭和結尾的信息,但對于中間部分的事實,理解能力會隨著文檔變長而劇烈衰退。

      這證明了即使在視覺空間,模型依然存在嚴重的「空間注意力偏見」,是未來 VTC 架構優化的關鍵方向。

      行業洞察 —— 視覺壓縮是長文本的終局嗎?



      通過對 GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5 等 10 余種尖端模型的深度評測,可以發現:

      雖然 VTC 極大提升了效率,但現有 VLM 在復雜推理和記憶任務上的表現仍顯著弱于純文本 LLM;

      消融實驗證明,信息密度是決定模型性能的關鍵因素,直接影響視覺編碼器的識別精度;

      Gemini-3-Pro 在 VTCBench-Wild 上表現驚艷,其視覺理解能力已幾乎追平其純文本基準,證明了 VTC 是實現大規模長文本處理的極其可行的路徑!

      總結

      如果說傳統的長文本處理是「逐字閱讀」,那么, DeepSeek-OCR 所引領的 VTC 范式就是「過目成誦」的攝影式記憶。VTCBench 的出現,正是為了確保模型在擁有這種「超能力」的同時,依然能夠讀懂字里行間的微言大義。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      企業又要叫苦了,新規定,給員工提供住宿餐飲也要交稅了,咋回事

      企業又要叫苦了,新規定,給員工提供住宿餐飲也要交稅了,咋回事

      你食不食油餅
      2026-01-13 16:57:10
      吃他汀猝死的人增多?醫生含淚告誡:天冷吃他汀,必須多關注6點

      吃他汀猝死的人增多?醫生含淚告誡:天冷吃他汀,必須多關注6點

      健康之光
      2026-01-13 10:51:03
      李在明與高市早苗會談,提到中國

      李在明與高市早苗會談,提到中國

      極目新聞
      2026-01-13 18:09:28
      重慶合川“搖人按豬”女孩粉絲破190萬!60秒以上視頻廣告報價2400元,商標被多方申請注冊,網友提議→

      重慶合川“搖人按豬”女孩粉絲破190萬!60秒以上視頻廣告報價2400元,商標被多方申請注冊,網友提議→

      封面新聞
      2026-01-13 16:17:06
      郭有才在央視講《道德經》,這真不是個笑話

      郭有才在央視講《道德經》,這真不是個笑話

      關爾東
      2026-01-12 16:28:55
      雷軍轉發“詛咒”帖引巨大爭議

      雷軍轉發“詛咒”帖引巨大爭議

      電動知家
      2026-01-13 10:04:15
      悲催!珠海一33年工廠破產,幾百人飯碗沒了,涉及司法案件363條

      悲催!珠海一33年工廠破產,幾百人飯碗沒了,涉及司法案件363條

      火山詩話
      2026-01-13 13:15:14
      網傳“骨科神醫”家藏3.2億現金,全被凍結!

      網傳“骨科神醫”家藏3.2億現金,全被凍結!

      達文西看世界
      2026-01-10 14:18:58
      改完行程后,王毅被高規格接待,中方坐上專車,美國威脅非洲小國

      改完行程后,王毅被高規格接待,中方坐上專車,美國威脅非洲小國

      時時有聊
      2026-01-13 21:14:16
      伊朗抗議者親手擊斃下令射殺群眾的伊朗軍官

      伊朗抗議者親手擊斃下令射殺群眾的伊朗軍官

      桂系007
      2026-01-12 00:31:50
      “刨豬湯”瞬間剎停,“呆呆”妹無比明智

      “刨豬湯”瞬間剎停,“呆呆”妹無比明智

      不主流講話
      2026-01-13 11:09:37
      打不打?美媒爆料:白宮存在嚴重分歧!

      打不打?美媒爆料:白宮存在嚴重分歧!

      環球時報國際
      2026-01-13 19:46:18
      Lisa和LV三公子疑似被抓,兩人在晚宴發生不雅行為,現場視頻流出

      Lisa和LV三公子疑似被抓,兩人在晚宴發生不雅行為,現場視頻流出

      花哥扒娛樂
      2026-01-13 19:00:07
      全了!各年齡段血壓、血糖、血脂、尿酸對照表,果斷收藏

      全了!各年齡段血壓、血糖、血脂、尿酸對照表,果斷收藏

      華人星光
      2026-01-12 13:14:21
      交警私下透露:車險千萬別買全險,只買這2樣,每年省下2000塊!

      交警私下透露:車險千萬別買全險,只買這2樣,每年省下2000塊!

      老特有話說
      2026-01-12 12:42:49
      呆呆全家關門走人了!警察成排圍著看守,很多地方拉起了警戒線!

      呆呆全家關門走人了!警察成排圍著看守,很多地方拉起了警戒線!

      好賢觀史記
      2026-01-13 18:08:50
      身陷險境!廣東兩名女子跟隨驢友群8人徒步,因體力不支被棄荒野

      身陷險境!廣東兩名女子跟隨驢友群8人徒步,因體力不支被棄荒野

      半島晨報
      2026-01-13 11:04:18
      新冠病毒3大結局已經不可避免,60歲以上的老年人尤其要注意

      新冠病毒3大結局已經不可避免,60歲以上的老年人尤其要注意

      醫護健康科普
      2025-08-31 17:07:58
      吉利官宣退出伊朗市場

      吉利官宣退出伊朗市場

      齊魯壹點
      2026-01-13 22:00:10
      伴郎破壞婚禮后續:正臉被扒已社死,目的曝光,新娘發長文表態

      伴郎破壞婚禮后續:正臉被扒已社死,目的曝光,新娘發長文表態

      史行途
      2026-01-13 13:35:16
      2026-01-14 03:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12110文章數 142536關注度
      往期回顧 全部

      科技要聞

      每年10億美元!谷歌大模型注入Siri

      頭條要聞

      特朗普:已取消所有與伊朗官員的會談

      頭條要聞

      特朗普:已取消所有與伊朗官員的會談

      體育要聞

      他帶出國乒世界冠軍,退休后為愛徒返場

      娛樂要聞

      蔡卓妍承認新戀情,與男友林俊賢感情穩定

      財經要聞

      "天量存款"將到期 資金會否搬入股市?

      汽車要聞

      限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

      態度原創

      健康
      親子
      教育
      本地
      公開課

      血常規3項異常,是身體警報!

      親子要聞

      小學和幼兒園老師2年減少45萬

      教育要聞

      揭秘中國美術學院!藝術生必看

      本地新聞

      云游內蒙|到巴彥淖爾去,赴一場塞上江南的邀約

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 疯狂三人交性欧美| 人妻中文字幕久久| 亚洲一区二区三区四区| 国产精品无遮挡猛进猛出| 成熟老妇女视频| 合江县| 高清精品一区二区三区| 国产丝袜打飞机免费在线| 亚洲老熟女@TubeumTV| 精品国产高清中文字幕| 国产精品国产三级国产av创| 久久国产成人精品av| 鲁鲁美女影院| 精品九九在线| 亚洲熟妇AV乱码在线观看| 黄色成年一区二区三区| 国产不卡一区在线视频| 国产在线观看人成激情视频| 688欧美人禽杂交狂配| 91色综合综合热五月激情| 久艹视频免费看| 新干县| 人妻丝袜| 精品久久久噜噜噜久久久| 精品国产一区二区三区久久女人| 精品人妻伦九区久久AAA片| 老司机午夜精品视频资源| 色综合中文字幕久久88| 久久精品国产av一区二区三区 | 欧美88888| 99视频精品| 无码天堂成人| 老鸭窝在线视频| 亚洲AV无码成人精品区网页 | 亚洲天堂免费| 国产精品夜间视频香蕉| 手游| 先锋影音男人av资源| 69亚洲精品| 亚洲成a人片在线观看日本| A片精品|