<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AGILE:自監督+交互式強化學習助力VLMs感知與推理全面提升

      0
      分享至



      現有視覺語言大模型(VLMs)在多模態感知和推理任務上仍存在明顯短板:1. 對圖像中的細粒度視覺信息理解有限,視覺感知和推理能力未被充分激發;2. 強化學習雖能帶來改進,但缺乏高質量、易擴展的 RL 數據。

      AGILE 提出一種全新的自監督學習范式,將「智能體交互」遷移至多模態大模型的強化學習訓練中,通過「模型生成動作代碼 + 視覺環境反饋」的循環式交互過程,讓模型像人一樣邊觀察、邊推理、邊學習,從而顯著提升模型視覺感知與邏輯推理能力。



      • Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
      • Paper:https://arxiv.org/pdf/2510.01304
      • Project Page:https://yuzeng0-0.github.io/AGILE/
      • Dataset:https://huggingface.co/datasets/YuZeng260/AGILE
      • Code:https://github.com/yuzeng0-0/AGILE
      • 作者單位:中科大、上海 AI Lab、華東師大、港中文



      圖 1:AGILE 主要工作框架

      方法核心:

      交互式智能體 + 拼圖代理任務

      為了克服數據瓶頸與可擴展性問題,研究者們選擇「拼圖」作為一種高效的兼具感知和推理的代理任務,提出 AGILE。將拼圖過程建模為「可控、可驗證」的交互式形式:

      • 模型在每一步生成 Python 動作代碼(Swap、Observe、Crop、Zoom);
      • 環境執行代碼、返回視覺反饋;
      • 模型根據環境反饋繼續規劃調整拼圖,該循環重復至拼圖完成。

      這一閉環交互形成了「觀察–交互–反饋–學習」的智能體訓練范式,使 VLMs 能在自監督方式下持續提升感知和推理能力。

      AGILE 的完整流程分為兩個階段:

      Cold-Start 階段,使用 Gemini 2.5 Pro 生成 1.6K 條高質量專家拼圖交互軌跡,教會模型如何正確生成動作代碼與交互邏輯,解決初期模型「不會動手」的問題;

      Reinforcement Learning 階段,在 15.6K 張圖像上訓練拼圖任務,采用 GRPO 算法,通過準確率、格式規范與交互輪數三重獎勵信號優化策略。



      圖 2:模型拼圖過程中激發出來的感知和推理行為

      實驗

      研究者們進行了大量實驗,驗證了 AGILE 的有效性,并得到了多條富有啟發意義的結論:

      • 研究者們設計了系統的拼圖評估數據集,涵蓋不同難度(2×2、3×3)與不同初始正確塊數(L0–L7)。模型性能以兩種指標衡量:Acc,所有塊完全放對的比例;Score,正確拼塊數占總拼塊數的比例。在最簡單的 2×2 任務中,AGILE 使準確率從 9.5% 提升至 82.8%,比 Gemini 2.5 Pro 高出 36.4 個百分點。在更具挑戰性的 3×3 拼圖中,也從 0.4% 提升至 20.8%,標志著模型感知和推理能力大幅躍升。



      表 1:拼圖 Acc 結果。LN 表示難度級別,N 表示初始正確拼圖塊數。N 值越小,拼圖越亂,難度越高。最佳結果以粗體顯示,次佳結果以下劃線顯示。

      • 通用能力即泛化性評測:經過拼圖訓練,模型在 9 項通用視覺任務中(涵蓋真實世界場景、高分辨率場景、細粒度感知、幻覺和多模態推理)平均提升 3.1%,展現出強大的泛化能力。進一步驗證了拼圖任務作為代理任務對于通用視覺能力的泛化價值。



      表 2:不同模型在 9 個基準測試上的性能比較。縮寫:MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL),Avg. 表示所有 9 個基準測試的平均性能。? 表示強化學習相對于基礎模型 Qwen2.5-VL-7B 獲得的相對性能提升。最佳結果以粗體突出顯示,次佳結果以下劃線標出。

      • Scaling 實驗:數據規模帶來的持續增益。研究者們進一步探究了拼圖數據規模對性能的影響。當訓練數據從 0 擴展至 16K 時:拼圖任務準確率從 22.0% → 82.8%;HRBench4K 準確率提升 +2.0%;RealWorldQA 提升 +1.8%。表明 AGILE 的訓練在數據量擴增下持續有效。由于拼圖環境可自動生成,AGILE 的數據擴展幾乎零成本、無限擴容,為多模態 RL 提供了可持續的自監督范式。



      圖 3:(左圖)訓練數據規模的影響。左側 y 軸表示 HRBench4K 和 RealWorldQA 的準確率,右側 y 軸表示拼圖任務的準確率。(右圖)與常規 QA 數據的比較,在兩種實驗設置中,樣本總數始終保持在 20K。

      • 與常規 QA 數據的對比實驗:研究者們替換 20K 常規 QA 數據中的其中 10K 為拼圖數據,發現模型可以表現出更好的性能。這說明拼圖任務提供了更強的結構感知與監督信號。這一發現凸顯了拼圖任務在緩解多模態強化學習數據稀缺方面的潛力,并為推進多模態模型開發開辟了一個充滿前景的新方向。

      意義與未來

      AGILE = 交互式拼圖代理 + 自監督 RL,在無需額外人工標注的前提下,持續提升 VLMs 的感知與推理能力。它證明了「交互式拼圖代理任務」作為突破數據瓶頸、強化 VLMs 的可行性和自監督強化學習范式的潛力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      手握新疆,中國崛起就勢不可擋!這片土地的分量到底有多關鍵?

      手握新疆,中國崛起就勢不可擋!這片土地的分量到底有多關鍵?

      百科密碼
      2026-01-19 17:58:31
      欠中國的錢,委內瑞拉不還了?美財長:中國已無法繼續獲得委石油

      欠中國的錢,委內瑞拉不還了?美財長:中國已無法繼續獲得委石油

      顧史
      2026-01-22 11:50:14
      “90后”曾患唇腭裂網紅給李亞鵬捐10萬,其曾申請嫣然天使基金幫助,但當時沒排上隊“我們是天使,不是惡魔”

      “90后”曾患唇腭裂網紅給李亞鵬捐10萬,其曾申請嫣然天使基金幫助,但當時沒排上隊“我們是天使,不是惡魔”

      揚子晚報
      2026-01-20 17:53:40
      女子網購盒馬斑節蝦,煮熟后滲出藍色顆粒和液體

      女子網購盒馬斑節蝦,煮熟后滲出藍色顆粒和液體

      現代快報
      2026-01-21 14:10:04
      婆婆去世,老公失聯,王艷做夢也沒想到,如今繼子竟成自己的救贖

      婆婆去世,老公失聯,王艷做夢也沒想到,如今繼子竟成自己的救贖

      冷紫葉
      2026-01-21 13:24:02
      二百多名軍官被槍斃、撤職、處分,長津湖戰役中失職的志愿軍88師

      二百多名軍官被槍斃、撤職、處分,長津湖戰役中失職的志愿軍88師

      丞丞故事匯
      2025-12-28 00:13:54
      1億鋒霸急速隕落:7場0球,西蒙尼太失望:連續3次提前換下他

      1億鋒霸急速隕落:7場0球,西蒙尼太失望:連續3次提前換下他

      足球狗說
      2026-01-22 07:22:24
      新榮記支持西貝之后,有網友喊話要抵制

      新榮記支持西貝之后,有網友喊話要抵制

      映射生活的身影
      2026-01-21 18:42:30
      毛主席評價康熙:康熙有三個偉大的貢獻,至今使我們受益

      毛主席評價康熙:康熙有三個偉大的貢獻,至今使我們受益

      歷史回憶室
      2026-01-19 16:22:22
      吳京、李連杰新片遭受抵制,網友的吐槽方向一致,不約而同

      吳京、李連杰新片遭受抵制,網友的吐槽方向一致,不約而同

      林輕吟
      2026-01-19 19:59:16
      越南少將大實話:當年中國撤軍為啥不追?不是不想,是一份絕密命令讓人不得不服

      越南少將大實話:當年中國撤軍為啥不追?不是不想,是一份絕密命令讓人不得不服

      老杉說歷史
      2026-01-14 20:31:37
      羨慕嫉妒!上萬元RTX 5080訂單雖取消仍送貨 客服:不用退、送你了

      羨慕嫉妒!上萬元RTX 5080訂單雖取消仍送貨 客服:不用退、送你了

      快科技
      2026-01-22 10:00:01
      年終獎八千同事七萬,老板找我續約,我淡定遞上離職信他慌了

      年終獎八千同事七萬,老板找我續約,我淡定遞上離職信他慌了

      曉艾故事匯
      2026-01-06 09:08:51
      聶衛平臨終前最想見的人不是子女?孔令文:終于讀懂了父親的沉默

      聶衛平臨終前最想見的人不是子女?孔令文:終于讀懂了父親的沉默

      觀察鑒娛
      2026-01-21 10:08:06
      一場大敗!勇士肉眼可見的亂套了.....

      一場大敗!勇士肉眼可見的亂套了.....

      柚子說球
      2026-01-21 13:38:02
      一切都好,王楚欽好兄弟自曝進京看望莎頭:孫穎莎瘦了體脂率低了

      一切都好,王楚欽好兄弟自曝進京看望莎頭:孫穎莎瘦了體脂率低了

      二哥聊球
      2026-01-22 12:11:38
      6名中國籍男女因涉嫌在日本拉皮條牟利被警視廳逮捕

      6名中國籍男女因涉嫌在日本拉皮條牟利被警視廳逮捕

      隨波蕩漾的漂流瓶
      2026-01-22 12:19:29
      14歲張某某死亡,龍安區聯合工作組通報:繼母李某某有重大作案嫌疑,已被控制

      14歲張某某死亡,龍安區聯合工作組通報:繼母李某某有重大作案嫌疑,已被控制

      新京報政事兒
      2026-01-21 22:13:01
      中國應該做好迎接聯合國搬遷到中國的戰略準備

      中國應該做好迎接聯合國搬遷到中國的戰略準備

      深度報
      2026-01-21 22:37:34
      張藝謀75歲衰老體衰,相差31歲的陳婷,生了一個“年輕版的自己”

      張藝謀75歲衰老體衰,相差31歲的陳婷,生了一個“年輕版的自己”

      涵豆說娛
      2026-01-21 17:11:07
      2026-01-22 13:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12163文章數 142546關注度
      往期回顧 全部

      科技要聞

      日系彩電時代“徹底落幕”

      頭條要聞

      牛彈琴:特朗普大鬧達沃斯 將歐洲同行罵了個狗血噴頭

      頭條要聞

      牛彈琴:特朗普大鬧達沃斯 將歐洲同行罵了個狗血噴頭

      體育要聞

      珍妮回應爆料:湖人不感激詹姆斯付出絕非事實

      娛樂要聞

      鐘麗緹土耳其高空落淚 與張倫碩擁吻

      財經要聞

      申通快遞創始人被前夫索要股份

      汽車要聞

      今年集中上市 旅行車的春天可能真要來了

      態度原創

      親子
      數碼
      游戲
      本地
      教育

      親子要聞

      有好東西,要記得分享哦

      數碼要聞

      行業首款AI抗菌耳夾式耳機 一圖看懂當貝Air 1:999元

      白等了!育碧大變:《時之砂RE》被砍 粉絲哀號遍野

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      教育要聞

      時間定了!今年高考全國統考將于6月7日、8日舉行。(楊楊)

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲AV日韩AV永久无码网站| 日本黄色免费| 99在线国产视频| 最近免费中文字幕大全| 久久国产亚洲一区二区三区 | 香蕉av777xxx色综合一区| 青青草乱人| 亚州综合成人网| 超清无码一区二区三区| 产精品视频在线观看免费| 亚洲色无码中文字幕| 五月婷婷激情六月| 中文字幕va一区二区三区| 亚洲无码人妻| 亚洲色图综合| 亚洲精品国产第一页第二页_久久精品国产亚洲a片无码_国产精品乱码一区二区三 | 丝袜精品字幕| free性丰满白嫩白嫩的HD| 韩国无码av片在线观看| 蜜臀av在线不卡一区| 精品无码黑人又粗又大又长| 国产精品国产精品国产专区| 国产又色又爽又刺激在线播放| 成人亚洲一区无码久久| 国产成人无码aa精品一区| 亚洲成人性爱网| 国产色视频网站免费| 成人无号精品一区二区三区| 97se亚洲综合自在线| 暖暖 在线 日本 免费 中文| 中文日韩在线一区二区| 美日韩精品综合一区二区| 国产亚洲精品久久久久四川人 | 精品一二三| 午夜毛片免费看| 欧美成人精品三级网站| 少妇宾馆粉嫩10p| 丁香六月婷婷| 欧美精品国产综合久久| 久久综合九色综合欧洲98| 亚洲熟妇少妇任你躁在线观看无码|