<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AdaResoner實現Agentic Vision的主動「視覺工具思考」

      0
      分享至



      你見過 7B 模型在拼圖推理上干翻 GPT-5 嗎?

      不是靠堆參數,不是靠更大的數據,而是靠一件事:學會「什么時候該用工具」。

      大多數「工具增強」模型是這樣的:遇到任務 X → 調用固定工具 Y → 祈禱結果正確。一旦場景稍微變化,模型就開始抽風——不知道什么工具該用、什么工具不該用。

      AdaReasoner 解決的是更本質的問題:把 what / when / how(用什么、何時用、怎么用)當成推理能力來學。



      • 論文標題:AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning
      • 論文(arXiv):https://arxiv.org/abs/2601.18631
      • 項目主頁:https://adareasoner.github.io
      • 代碼:https://github.com/ssmisya/AdaReasoner
      • 模型與數據:https://huggingface.co/collections/hitsmy/adareasoner
      • 視頻(YouTube):https://www.youtube.com/watch?v=_SOyD-lomOM

      先看 10 秒效果:


      https://mp.weixin.qq.com/s/WH8kXeIsh97T7WjO0m2xRA?search_cli

      AdaReasoner 工作流程示意

      Google 近期宣布,為其輕量級模型 Gemini 3 Flash 引入一項名為「Agentic Vision」(代理視覺)的新能力。

      這項更新標志著多模態 AI 處理圖像的方式發生了根本性轉變:從傳統的靜態識別,升級為具備「思考、行動、觀察」循環的主動調查模式。

      在此之前,包括 GPT 在內的大多數前沿多模態模型處理圖像的方式類似于人類的「匆匆一瞥」:模型接收圖像,進行一次性處理并輸出結果。這種方式在面對需要細致觀察的任務時,往往會因為細節丟失而產生幻覺或猜測。

      Agentic Vision 的工作機制:Gemini 3 Flash 現在能夠像人類調查員一樣通過以下循環進行推理:

      • 思考(Think)——分析用戶指令和圖像初步內容,制定調查計劃。
      • 行動(Act)——自動生成并執行 Python 代碼來操作圖像。例如,對圖像進行縮放、裁剪特定區域、旋轉視角或繪制輔助線。
      • 觀察(Observe)——檢查代碼執行后的新視圖或數據,獲取更精確的視覺證據。

      上述過程可以多次迭代,直到模型收集到足夠的確鑿證據來回答問題。

      有意思的是:AdaReasoner 與 Agentic Vision 殊途同歸。AdaReasoner 同樣實現并驗證了幾乎相同的范式:



      工業界與學術界同時押注「主動工具使用」,說明這個方向正在成為多模態推理的主流范式。

      AdaReasoner 的獨特價值在于:我們不只是驗證了這套范式有效,更提出了一套讓開源小模型也能習得這種能力的訓練方法——這正是接下來要詳細介紹的內容。

      01 痛點:多模態推理為什么

      總是「看起來很會,細節就開始猜」?

      在多模態推理里,「看清細節」和「多步推理」經常互相卡脖子:

      感知不夠精確 → 證據不足 → 推理再漂亮也容易變成「guided guessing」;

      反過來,如果能把關鍵證據用工具查出來、畫出來、驗證出來,模型就能把算力用在判斷與規劃上。

      換句話說:工具不是外掛,而是把推理從「猜」拉回「查」的關鍵路徑。

      02 一句話介紹 AdaReasoner:

      把工具使用當成「通用推理技能」

      AdaReasoner 是一個訓練范式:讓模型不僅會「調用工具」,更會做三類決策:

      • 選擇:該用哪個工具?要不要組合多個工具?
      • 時機:什么時候該用?什么時候不該用?
      • 魯棒性:工具失敗/無用怎么辦?是否回退、是否換策略?



      AdaReasoner 把「工具使用」當成推理技能來學習:會采納有用工具、丟棄無關工具,并按任務調節調用頻率。

      03 三個關鍵設計:

      讓「會用工具」從口號變成能力

      3.1 Tool Cold Start (TC):把「犯錯-修正」寫進數據里

      我們不是只給模型看「完美路徑」,而是刻意加入兩類真實世界會發生的場景:

      • 反思與回溯:試一下 → 檢查 → 不對就撤回/換方案。
      • 工具失敗處理:工具返回錯誤/無效 → 及時止損 → 回退到模型自身能力。



      定性案例:多輪工具規劃 + 反思糾錯 + 組合工具完成復雜視覺推理

      3.2 Tool-GRPO (TG):優化「多輪工具編排」,而不是單次調用

      多模態工具推理往往不是「一次調用結束」,而是多回合:

      觀察 → 調用 → 再觀察 → 再調用 → 最終回答。

      Tool-GRPO 針對 multi-turn 場景做了專門的強化學習優化,并用自適應獎勵把工具使用變成「不確定時的可靠后備」,而不是強制流程。

      3.3 Adaptive Learning (ADL):逼模型學「語義」,別背「名字」

      為了避免模型死記硬背某個工具名(比如看到 "Point" 就條件反射),我們做了兩件事:

      • 工具名/參數名隨機化(去掉字面提示)。
      • 工具描述改寫(同一語義、多種表達)。



      隨機化訓練的直觀示意



      AdaReasoner 框架總覽:Tool Cold Start → Tool-GRPO → Adaptive Learning

      04 最硬的證據:

      小模型為什么能「跨級打怪」?

      先給結論:AdaReasoner-7B 相對 base 模型在多個基準上實現顯著提升(在選取的 8 個 benchmark 上平均 +24.9%),并在結構化推理任務上接近滿分。



      主實驗結果:在 VSP、Jigsaw、GUIQA 等任務上顯著提升。

      更重要的是:不是「工具越多越好」,而是訓練配方決定工具是否真的幫得上忙。

      例如在單任務設置下:

      • VSP: Base 28.09 → TC 64.91 → TG 73.18 → TC+TG 97.64
      • Jigsaw: Base 45.70 → TC 84.20 → TC+TG 96.60(超過 GPT-5 的 80.10)



      瓶頸遷移示意:當工具規劃足夠好,性能瓶頸從「模型規模」部分遷移到「工具效用與工具規劃能力」

      05 最有意思的部分:模型真的

      學出了「三種自適應工具行為」

      這部分是 AdaReasoner 最像「智能體」的地方:我們沒有寫規則讓它這么做,但它在 RL 過程中學會了。

      行為 1:會「采納」有用的新工具(Adopt)

      把 A* 規劃工具放進強化學習階段(Cold Start 沒見過),模型會逐步提高調用頻率并穩定掌握:

      VSP Navigation 從 44.83 → 96.33



      Navigation 任務示意



      A* 工具調用頻率隨 RL 訓練演化

      行為 2:會「丟棄」無關工具(Discard)

      更關鍵的是:A* 對 Verify 任務沒用,甚至是干擾項。

      在「只在推理時提供 A*」的設置里,Verify 會出現 94.20 → 80.00 的下降。

      而在 RL 訓練后,模型會逐步壓制無關調用,讓 Verify 維持在接近滿分(99.20)。

      一句話:它不僅會用工具,還會學會「別亂用」。

      行為 3:會「調節」調用頻率(Modulate)

      工具也不是開/關二選一。模型會根據子任務「調頻」:

      Point 工具在導航更關鍵(~3.2 calls/sample),在驗證更克制(~1.0 call/sample)



      Point 工具調用頻率「調頻」:Navigation 中更關鍵,Verification 中更克制

      06 換工具說明書

      也能用:泛化與穩健性

      現實里最常見的崩潰方式是:工具定義、參數名、描述文案一變,模型就「不會用了」。

      AdaReasoner 用 ADL(隨機化 + 改寫)把「工具規劃」從文本表面形式里解耦出來。

      一個很直觀的證據來自工具使用統計:

      • 在 Jigsaw 上達到 3.54 CPS 且工具執行成功率 98.50%,最終準確率 88.60。
      • 在 VStar 這種更開放的 VQA 上仍能主動調用工具(1.47 CPS)并取得 70.68。



      工具使用統計(CPS、成功率)與性能

      此外,使用 ADL,模型能夠更容易在新的任務上取得更好的表現。我們僅使用 Jigsaw 這一個任務的 SFT 數據,在三個任務上 RL,可以看到,使用 ADL 的版本能夠在另外兩個任務上給模型帶來效果上的提升。



      ADL 能將單個任務上學來的 agent planning 能力遷移到 SFT 沒見過的任務上。

      07 我們想強調的

      學術結論(Takeaways)

      多模態推理不只是 「think harder」。更關鍵的是:

      actively seeing, verifying, and planning with tools.

      當工具編排學得足夠好,瓶頸會發生遷移:

      model scale → tool utility + tool planning

      這對小模型尤其重要:參數有限時,「會用工具」就是最直接的能力放大器。

      從 Agentic Vision 看趨勢:Google 用 Agentic Vision 把 Think-Act-Observe 內置到 Gemini,學術界用 AdaReasoner 驗證這套范式在開源模型上的可行性——兩條路線同時驗證了「主動工具使用」的價值。對于希望在自己數據/場景上復現這種能力的研究者和開發者,AdaReasoner 提供了一套完整的開源方案。

      Adaptive Learning 對提升模型的泛化性也有很大幫助,可以幫助將 agent planning 能力遷移到以前沒見過的 agent 和新的任務上去。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      總統靠邊站,女婿占C位:這或許是百年來最離奇的外交現場!

      總統靠邊站,女婿占C位:這或許是百年來最離奇的外交現場!

      李榮茂
      2026-02-23 07:12:22
      英媒:英國選手騰空高度遠超谷愛凌,卻僅獲冬奧會銅牌

      英媒:英國選手騰空高度遠超谷愛凌,卻僅獲冬奧會銅牌

      懂球帝
      2026-02-24 14:32:10
      美媒:若初步打擊不能令伊朗棄核,特朗普考慮發動更大規模打擊行動

      美媒:若初步打擊不能令伊朗棄核,特朗普考慮發動更大規模打擊行動

      參考消息
      2026-02-23 15:36:04
      央視直播:CCTV5、CCTV5+乒乓球今日節目預告(附賽程時間表)

      央視直播:CCTV5、CCTV5+乒乓球今日節目預告(附賽程時間表)

      皮皮觀天下
      2026-02-24 10:27:07
      38歲年輕保姆三次表白雇主,慘遭拒絕,雇主:我年紀大,但不傻

      38歲年輕保姆三次表白雇主,慘遭拒絕,雇主:我年紀大,但不傻

      孢木情感
      2026-02-11 10:02:41
      “去中國化”最徹底的4個國家,有一個已經完全西化了

      “去中國化”最徹底的4個國家,有一個已經完全西化了

      北緯的咖啡豆
      2026-02-24 09:16:33
      上海高速,司機突然四肢癱軟,120因擁堵無法抵達

      上海高速,司機突然四肢癱軟,120因擁堵無法抵達

      看看新聞Knews
      2026-02-23 19:44:06
      泰國人為何如此懼怕當兵?征兵中簽者當場痛哭,有人為逃兵役變性,離譜!

      泰國人為何如此懼怕當兵?征兵中簽者當場痛哭,有人為逃兵役變性,離譜!

      歷史回憶室
      2026-02-23 23:43:19
      24號午評:馬年迎來開門紅!所有人都注意了,大盤后市或將這樣走

      24號午評:馬年迎來開門紅!所有人都注意了,大盤后市或將這樣走

      春江財富
      2026-02-24 11:51:55
      套現188億,四川巨富被監視居住半年后,把控制權賣給了國資

      套現188億,四川巨富被監視居住半年后,把控制權賣給了國資

      聚焦真實瞬間
      2026-02-11 08:56:53
      臺大校長傅斯年:一生追求民主與真理,赴臺灣后家人在大陸遭清算

      臺大校長傅斯年:一生追求民主與真理,赴臺灣后家人在大陸遭清算

      談史論天地
      2026-02-23 07:12:34
      小叔子35歲仍然單身。有一天,我丈夫不在家,他突然前來找我談話

      小叔子35歲仍然單身。有一天,我丈夫不在家,他突然前來找我談話

      第7情感
      2026-02-10 17:13:09
      比氫彈更可怕!僅需一枚就能讓美國從地球消失?聯合國曾緊急叫停

      比氫彈更可怕!僅需一枚就能讓美國從地球消失?聯合國曾緊急叫停

      詩酒趁的年華
      2026-02-20 11:07:15
      放棄華為百萬年薪,34歲高齡參軍入伍,如今成為國家棟梁之材!

      放棄華為百萬年薪,34歲高齡參軍入伍,如今成為國家棟梁之材!

      用冷眼洞悉世界
      2026-02-21 10:25:00
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      WTT大滿貫:周啟豪開門紅!首局8-10落后14-12逆轉,領先17歲小將

      WTT大滿貫:周啟豪開門紅!首局8-10落后14-12逆轉,領先17歲小將

      劉姚堯的文字城堡
      2026-02-24 14:07:57
      2026春節檔票房57.49億收官,《飛馳人生3》斷層第一;今年春節沒人撤檔,《星河入夢》導演再次折戟春節檔,2年前曾大年初五撤檔

      2026春節檔票房57.49億收官,《飛馳人生3》斷層第一;今年春節沒人撤檔,《星河入夢》導演再次折戟春節檔,2年前曾大年初五撤檔

      極目新聞
      2026-02-24 07:30:18
      45歲薛凱琪春晚“水蛇腰”炸場,網友:方大同走了,她不會結婚了

      45歲薛凱琪春晚“水蛇腰”炸場,網友:方大同走了,她不會結婚了

      她時尚丫
      2026-02-23 22:11:00
      女同事問我她腰細不細,該怎么回答?

      女同事問我她腰細不細,該怎么回答?

      太急張三瘋
      2026-02-24 11:28:01
      43000分歷史首人!美媒紛紛為勒布朗戴上皇冠 布朗:他是GOAT

      43000分歷史首人!美媒紛紛為勒布朗戴上皇冠 布朗:他是GOAT

      顏小白的籃球夢
      2026-02-23 16:57:56
      2026-02-24 15:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12338文章數 142569關注度
      往期回顧 全部

      科技要聞

      AI顛覆發展最新犧牲品!IBM跳水重挫超13%

      頭條要聞

      38歲中國商人在土耳其被害 警方:遭同行女子引誘擄上車

      頭條要聞

      38歲中國商人在土耳其被害 警方:遭同行女子引誘擄上車

      體育要聞

      蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

      娛樂要聞

      楊洋傳遇上緬北劇組 開機就離開劇組?

      財經要聞

      縣城消費「限時繁榮」了十天

      汽車要聞

      入門即滿配 威蘭達AIR版上市 13.78萬元起

      態度原創

      教育
      游戲
      手機
      本地
      公開課

      教育要聞

      如何評價高二英語難度?中考英語130,高二文章完全看不懂

      《浣熊推幣機》3月31日推出 停不下來的推幣冒險

      手機要聞

      OPPO陳希吐槽蘋果最新旗艦iPhone 17 Pro,稱完全開始不講究了

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版