<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      「Thinking with Images」推理速度太慢?「Zooming without Zooming」 讓AI不調用工具也能「明察秋毫」!

      0
      分享至


      ZwZ 通過"區域到圖像蒸餾"將推理時的 Zooming 操作轉化為訓練目標,讓多模態大模型不需要調用工具、僅在單次前向傳播中實現細粒度感知,同時達到開源SOTA性能。


      上海交通大學與螞蟻集團聯合研究團隊發布最新多模態大模型成果“Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception”。這項研究讓多模態大模型在單次前向傳播中就能實現原本需要反復"放大-觀察"才能完成的細粒度感知任務,真正做到"既快又準"。團隊開源的 ZwZ(4/7/8B)模型家族在多模態細粒度感知任務中達到開源模型 SOTA 性能,超越 Kimi-K2.5、Qwen3-VL-235B 等眾多行業標桿模型。


      論文信息

      標題: Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

      論文: https://arxiv.org/pdf/2602.11858

      作者: 魏來、何梁博、蘭鈞、董凌眾、蔡雨彤、李思遠、祝慧佳、王維強、孔令和、汪躍、張倬勝、黃維然

      單位: 上海交通大學、螞蟻集團、北京中關村學院、上海創智學院

      代碼: https://github.com/inclusionAI/Zooming-without-Zooming

      模型/數據: https://huggingface.co/collections/inclusionAI/zooming-without-zooming

      01


      痛點:AI看圖的"近視困境"

      當前多模態大語言模型(MLLMs)雖然已具備不錯的圖像理解能力,但在細粒度感知任務上卻仍然容易變成"近視眼":面對圖片中的微小文字與符號常常視而不見,難以辨別細膩的顏色差異和材質紋理,在密集小物體的計數任務上也頻繁出錯。這類任務的共同特點是:關鍵證據往往只占圖像的很小區域,極易被全局上下文淹沒,模型必須從成千上萬的視覺 tokens 中精準檢索這些"滄海遺珠",難度可想而知。

      為破解這一困局,當前主流方案是“Thinking-with-Images”范式,即讓AI像人一樣反復縮放、裁剪、觀察感興趣區域。這種交互式方法確實能緩解感知壓力,一旦微小區塊被單獨提取出來,模型便能專注于細節識別,將"大海撈針"轉化為直接辨認。然而,代價同樣明顯:多次工具調用與反復視覺編碼帶來嚴重的延遲開銷,讓實時應用成為奢望。

      核心問題:能否既享受"放大觀察"的準確性,又保持"一眼掃過"的速度?

      02


      破局:把"縮放"從推理工具轉成訓練目標


      為此,研究團隊提出了Region-to-Image Distillation(R2I,區域到圖像蒸餾)方法,核心思路簡潔而巧妙:先通過Zoom in讓模型聚焦“小圖”合成高質量數據;隨后再Zoom out將這些合成的數據映射回全圖視角,并基于這些數據進行強化學習,使模型逐步學會直接“從全圖看”。最終,模型在推理階段無需再執行 Zoom in and out 操作,相當于將模型在局部區域(Region)上的高精度能力蒸餾到全圖(Image)視角中。

      具體而言,R2I 包含以下幾個關鍵步驟:

      1、首先利用目標檢測系統定位圖像中的微小區塊(面積小于原圖的10%),確保這些區域包含關鍵視覺證據;

      2、接著讓 Qwen3-VL-235B、GLM-4.5V 等強模型在裁剪后的清晰小圖上生成感知相關問題;

      3、通過多模型投票達成共識答案,只保留高置信度的標注以最大限度抑制幻覺;

      4、為避免指代歧義,將邊界框疊加到原圖上,并在問題中加入空間約束(如"只看紅框內的物體");

      5、隨后用拒絕采樣過濾掉太簡單的樣本確保訓練效率;

      6、最后基于視覺錨定后的全圖、合成的問題與答案,通過純強化學習訓練,讓模型學會直接從全圖中定位并看清關鍵證據,無需任何工具調用

      總結來說:我們在合成數據時為多模態大模型"戴上放大鏡",利用"Zooming"確保合成數據的高質量;訓練時基于原圖訓練,讓模型只看原圖就能回答正確,實現"裸眼看清"!

      03


      ZoomBench:細粒度感知的新基準


      為嚴格評估這種"不縮放也能看清"的能力,研究團隊專門構建了ZoomBench基準測試。該 benchmark 包含 845 個高質量樣本,涵蓋大量高分辨率圖片,采用 AI 合成與人工驗證相結合的高效混合構建方式——每個問答對先由 AI 合成,再經 3 位作者獨立審核,確保問題有效、答案準確。與現有基準相比,ZoomBench 實現了六大感知維度的全覆蓋,包括細粒度計數(24%)、OCR(15%)、顏色屬性(29%)、結構屬性(18%)、材質屬性(7%)和物體識別(7%),同時支持多選題與開放題兩種格式。


      ZoomBench 的核心創新在于雙視角評估模式(Dual-View)。每個樣本都提供完整原圖和對應的關鍵區域裁剪圖,分別對應"全局視角"和"局部視角"兩種測試條件。局部視角準確率可視為理論上限(證據明確可見時模型能否答對),全局視角準確率則反映真實場景下的感知能力(能否從完整圖片中定位關鍵證據)。兩者之差即為"縮放差距"(Zooming Gap),這一指標直接量化了模型"找不到關鍵證據"的瓶頸,為診斷細粒度感知能力提供了精確標尺。此外,ZoomBench 還配備自動標注的關鍵區域邊界框,支持基于注意力可視化的可解釋性分析。

      04


      效果:ZwZ 打敗超大規模模型

      研究團隊基于 Qwen-VL 用 Region-to-Image Distillation 合成的數據進行強化微調,得到的ZwZ 系列模型(4B/7B/8B 參數)在多項基準測試上表現亮眼。值得注意的是,8B 參數的 ZwZ-8B 在綜合感知任務平均性能上超過了 235B 參數的 Qwen3-VL-235B,108B 參數的 GLM-4.5V,以及最新發布的 1T 參數的 Kimi-K2.5,并且逼近最頂尖的閉源模型 Gemini-3-Flash。


      同時,ZwZ-8B 僅通過測試時單次推理,性能即可超越 Qwen3-VL-8B 結合官方工具的多輪交互效果,以及其他 Thinking with Images Agentic 模型(比如 Deepeyes,Thyme),速度提升約 10 倍。


      此外,ZwZ 在 AIGC 檢測、GUI Agent 等真實任務上也展現出強勁的泛化能力。


      ZoomBench 的獨特設計也讓我們能精確診斷模型的"視力問題"。在雙視角評估模式中,基線模型(Qwen3-VL-8B)呈現出明顯的"放大看得懂,不放大找不著"現象:局部視角準確率 63% versus 全局視角 38%,差距高達 25%。而 ZwZ 將這一"縮放差距"顯著縮小至 15%,證明模型真正學會了從全局中定位微證據。注意力可視化結果進一步佐證:ZwZ-8B 在關鍵邊界框內的注意力覆蓋率從 17.39% 提升至 21.64%,提升了 4.25 個百分點。


      05


      深入洞察:什么時候該用工具,什么時候不需要?

      論文深入探討了 “Thinking with Images” 范式的邊界,提出信息增益判別準則,將工具動作分為兩類:


      信息增益型如網頁搜索、檢索外部知識,這類操作引入當前視圖不可預測的新信息,必須使用工具無信息增益型如縮放、旋轉、翻轉、2D/3D 定位、去噪等,僅是對已有信息的重新格式化或突出顯示,其結果完全可以基于當前視圖預測,可通過訓練內化到模型中


      核心洞察:如果工具調用只是"重新格式化"已有信息(讓關鍵細節更容易看),而非獲取新信息,那么它的收益完全可以用 Algorithm 1 所示的方法,通過訓練內化到模型權重中,無需在推理時犧牲速度。

      Zooming 正是典型的無信息增益型操作——裁剪后的內容本就存在于原圖中,只是被全局上下文"淹沒"。R2I 通過訓練讓模型學會"腦內縮放",將工具收益壓縮進單次前向傳播。展望未來,研究團隊認為下一代 “Thinking with Images” 范式應當盡可能內化無信息增益的工具調用,同時學會動態靈活地調用能帶來信息增益的工具,在速度與能力之間取得最佳平衡。

      06


      總結

      這項研究不僅提出了一種高效的數據合成方法,更重新定義了"工具使用"與"模型能力"的邊界——通過 Region-to-Image Distillation 將"縮放"從推理時工具轉化為訓練時目標,讓多模態大模型在保持單遍推理速度的同時,獲得媲美工具調用的細粒度感知能力,為實際部署提供了"既快又準"的新范式。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      突發訃告!蔣彥強不幸離世,年僅40歲

      突發訃告!蔣彥強不幸離世,年僅40歲

      南方都市報
      2026-03-27 15:53:39
      時代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

      時代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

      快科技
      2026-03-27 14:18:12
      蜜雪的零售邊界,不止于一杯杯奶茶、咖啡、或啤酒

      蜜雪的零售邊界,不止于一杯杯奶茶、咖啡、或啤酒

      晚點LatePost
      2026-03-26 18:50:35
      全球唯一雙座隱身戰機!殲-20S跨界作戰有多震撼?專家解析

      全球唯一雙座隱身戰機!殲-20S跨界作戰有多震撼?專家解析

      齊魯壹點
      2026-03-27 06:56:45
      部分娃哈哈宏勝工廠停產,有工廠已放假

      部分娃哈哈宏勝工廠停產,有工廠已放假

      界面新聞
      2026-03-27 14:59:14
      自戰事爆發以來 伊朗平均每天賣油能多賺1.7億

      自戰事爆發以來 伊朗平均每天賣油能多賺1.7億

      財聯社
      2026-03-27 11:05:06
      關于伊朗的十大虛假敘事——你是如何被網軍欺騙的?

      關于伊朗的十大虛假敘事——你是如何被網軍欺騙的?

      楓嶺社
      2026-03-27 10:49:09
      羅技:“我一降價,你還不是像狗一樣跑過來”

      羅技:“我一降價,你還不是像狗一樣跑過來”

      電腦吧評測室
      2026-03-26 22:05:58
      感冒三藥、失眠三藥、牙痛三藥......40種常見病的三藥配對一覽表!

      感冒三藥、失眠三藥、牙痛三藥......40種常見病的三藥配對一覽表!

      環京快爆
      2026-03-26 11:13:27
      充電9分鐘續航超千里:全新騰勢Z9GT開啟閃充時代

      充電9分鐘續航超千里:全新騰勢Z9GT開啟閃充時代

      大眾侃車
      2026-03-26 18:02:02
      張雪峰女兒親自辟謠!父母恩愛沒離婚,回應三個問題,口才很意外

      張雪峰女兒親自辟謠!父母恩愛沒離婚,回應三個問題,口才很意外

      離離言幾許
      2026-03-27 14:42:23
      張雪峰去世僅兩天!公司宣布重大決定:收回他所有肖像使用權

      張雪峰去世僅兩天!公司宣布重大決定:收回他所有肖像使用權

      娛樂圈圈圓
      2026-03-26 21:47:07
      中美俄石油儲量對比:俄800億桶,美國超700億桶,中國有多少?

      中美俄石油儲量對比:俄800億桶,美國超700億桶,中國有多少?

      福建平子
      2026-03-27 11:27:57
      “咬死”ASML,禁止維修光刻機只是開始,輪到中國工程師頭疼了!

      “咬死”ASML,禁止維修光刻機只是開始,輪到中國工程師頭疼了!

      流史歲月
      2026-03-27 12:05:09
      一女子在湖南省道縣人民醫院生產后,與新生兒不幸雙雙離世,多方回應

      一女子在湖南省道縣人民醫院生產后,與新生兒不幸雙雙離世,多方回應

      半島官網
      2026-03-27 15:13:26
      奇瑞犀牛電池能“抗造”到離譜?切角、穿刺、泡水不爆炸,甚至還能正常供電!

      奇瑞犀牛電池能“抗造”到離譜?切角、穿刺、泡水不爆炸,甚至還能正常供電!

      極果酷玩
      2026-03-27 14:58:30
      史上首次:特朗普簽名將印上美元紙幣,打破165年傳統

      史上首次:特朗普簽名將印上美元紙幣,打破165年傳統

      上觀新聞
      2026-03-27 12:58:08
      打虎!廣東省政協副主席郭永航被查

      打虎!廣東省政協副主席郭永航被查

      極目新聞
      2026-03-27 18:37:06
      再婚8年,丈夫老實憨厚,鄰居卻悄悄提醒:你男人全身都是秘密

      再婚8年,丈夫老實憨厚,鄰居卻悄悄提醒:你男人全身都是秘密

      烙任情感
      2026-03-26 16:32:02
      涉嫌嚴重違紀違法,張建生被查

      涉嫌嚴重違紀違法,張建生被查

      都市快報橙柿互動
      2026-03-27 14:59:18
      2026-03-27 18:59:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7151文章數 20742關注度
      往期回顧 全部

      科技要聞

      楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

      體育要聞

      邵佳一:足球就像一場馬拉松

      娛樂要聞

      張雪峰靈堂內景曝光,四周擺滿了鮮花

      財經要聞

      我在小吃培訓機構學習“科技與狠活”

      汽車要聞

      與眾08,金標大眾不能輸的一戰

      態度原創

      本地
      房產
      親子
      藝術
      公開課

      本地新聞

      在濰坊待了三天,沒遇到一個“濰坊人”

      房產要聞

      剛剛,海南樓市,官方數據發布!

      親子要聞

      廣東榕城區教育局通報幼兒園老師不當對待幼兒

      藝術要聞

      張大千:形成于未畫之先,神留于既畫之后

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版