<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AGILE:自監(jiān)督+交互式強(qiáng)化學(xué)習(xí)助力VLMs感知與推理全面提升

      0
      分享至



      現(xiàn)有視覺(jué)語(yǔ)言大模型(VLMs)在多模態(tài)感知和推理任務(wù)上仍存在明顯短板:1. 對(duì)圖像中的細(xì)粒度視覺(jué)信息理解有限,視覺(jué)感知和推理能力未被充分激發(fā);2. 強(qiáng)化學(xué)習(xí)雖能帶來(lái)改進(jìn),但缺乏高質(zhì)量、易擴(kuò)展的 RL 數(shù)據(jù)。

      AGILE 提出一種全新的自監(jiān)督學(xué)習(xí)范式,將「智能體交互」遷移至多模態(tài)大模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中,通過(guò)「模型生成動(dòng)作代碼 + 視覺(jué)環(huán)境反饋」的循環(huán)式交互過(guò)程,讓模型像人一樣邊觀察、邊推理、邊學(xué)習(xí),從而顯著提升模型視覺(jué)感知與邏輯推理能力。



      • Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
      • Paper:https://arxiv.org/pdf/2510.01304
      • Project Page:https://yuzeng0-0.github.io/AGILE/
      • Dataset:https://huggingface.co/datasets/YuZeng260/AGILE
      • Code:https://github.com/yuzeng0-0/AGILE
      • 作者單位:中科大、上海 AI Lab、華東師大、港中文



      圖 1:AGILE 主要工作框架

      方法核心:

      交互式智能體 + 拼圖代理任務(wù)

      為了克服數(shù)據(jù)瓶頸與可擴(kuò)展性問(wèn)題,研究者們選擇「拼圖」作為一種高效的兼具感知和推理的代理任務(wù),提出 AGILE。將拼圖過(guò)程建模為「可控、可驗(yàn)證」的交互式形式:

      • 模型在每一步生成 Python 動(dòng)作代碼(Swap、Observe、Crop、Zoom);
      • 環(huán)境執(zhí)行代碼、返回視覺(jué)反饋;
      • 模型根據(jù)環(huán)境反饋繼續(xù)規(guī)劃調(diào)整拼圖,該循環(huán)重復(fù)至拼圖完成。

      這一閉環(huán)交互形成了「觀察–交互–反饋–學(xué)習(xí)」的智能體訓(xùn)練范式,使 VLMs 能在自監(jiān)督方式下持續(xù)提升感知和推理能力。

      AGILE 的完整流程分為兩個(gè)階段:

      Cold-Start 階段,使用 Gemini 2.5 Pro 生成 1.6K 條高質(zhì)量專家拼圖交互軌跡,教會(huì)模型如何正確生成動(dòng)作代碼與交互邏輯,解決初期模型「不會(huì)動(dòng)手」的問(wèn)題;

      Reinforcement Learning 階段,在 15.6K 張圖像上訓(xùn)練拼圖任務(wù),采用 GRPO 算法,通過(guò)準(zhǔn)確率、格式規(guī)范與交互輪數(shù)三重獎(jiǎng)勵(lì)信號(hào)優(yōu)化策略。



      圖 2:模型拼圖過(guò)程中激發(fā)出來(lái)的感知和推理行為

      實(shí)驗(yàn)

      研究者們進(jìn)行了大量實(shí)驗(yàn),驗(yàn)證了 AGILE 的有效性,并得到了多條富有啟發(fā)意義的結(jié)論:

      • 研究者們?cè)O(shè)計(jì)了系統(tǒng)的拼圖評(píng)估數(shù)據(jù)集,涵蓋不同難度(2×2、3×3)與不同初始正確塊數(shù)(L0–L7)。模型性能以兩種指標(biāo)衡量:Acc,所有塊完全放對(duì)的比例;Score,正確拼塊數(shù)占總拼塊數(shù)的比例。在最簡(jiǎn)單的 2×2 任務(wù)中,AGILE 使準(zhǔn)確率從 9.5% 提升至 82.8%,比 Gemini 2.5 Pro 高出 36.4 個(gè)百分點(diǎn)。在更具挑戰(zhàn)性的 3×3 拼圖中,也從 0.4% 提升至 20.8%,標(biāo)志著模型感知和推理能力大幅躍升。



      表 1:拼圖 Acc 結(jié)果。LN 表示難度級(jí)別,N 表示初始正確拼圖塊數(shù)。N 值越小,拼圖越亂,難度越高。最佳結(jié)果以粗體顯示,次佳結(jié)果以下劃線顯示。

      • 通用能力即泛化性評(píng)測(cè):經(jīng)過(guò)拼圖訓(xùn)練,模型在 9 項(xiàng)通用視覺(jué)任務(wù)中(涵蓋真實(shí)世界場(chǎng)景、高分辨率場(chǎng)景、細(xì)粒度感知、幻覺(jué)和多模態(tài)推理)平均提升 3.1%,展現(xiàn)出強(qiáng)大的泛化能力。進(jìn)一步驗(yàn)證了拼圖任務(wù)作為代理任務(wù)對(duì)于通用視覺(jué)能力的泛化價(jià)值。



      表 2:不同模型在 9 個(gè)基準(zhǔn)測(cè)試上的性能比較。縮寫:MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL),Avg. 表示所有 9 個(gè)基準(zhǔn)測(cè)試的平均性能。? 表示強(qiáng)化學(xué)習(xí)相對(duì)于基礎(chǔ)模型 Qwen2.5-VL-7B 獲得的相對(duì)性能提升。最佳結(jié)果以粗體突出顯示,次佳結(jié)果以下劃線標(biāo)出。

      • Scaling 實(shí)驗(yàn):數(shù)據(jù)規(guī)模帶來(lái)的持續(xù)增益。研究者們進(jìn)一步探究了拼圖數(shù)據(jù)規(guī)模對(duì)性能的影響。當(dāng)訓(xùn)練數(shù)據(jù)從 0 擴(kuò)展至 16K 時(shí):拼圖任務(wù)準(zhǔn)確率從 22.0% → 82.8%;HRBench4K 準(zhǔn)確率提升 +2.0%;RealWorldQA 提升 +1.8%。表明 AGILE 的訓(xùn)練在數(shù)據(jù)量擴(kuò)增下持續(xù)有效。由于拼圖環(huán)境可自動(dòng)生成,AGILE 的數(shù)據(jù)擴(kuò)展幾乎零成本、無(wú)限擴(kuò)容,為多模態(tài) RL 提供了可持續(xù)的自監(jiān)督范式。



      圖 3:(左圖)訓(xùn)練數(shù)據(jù)規(guī)模的影響。左側(cè) y 軸表示 HRBench4K 和 RealWorldQA 的準(zhǔn)確率,右側(cè) y 軸表示拼圖任務(wù)的準(zhǔn)確率。(右圖)與常規(guī) QA 數(shù)據(jù)的比較,在兩種實(shí)驗(yàn)設(shè)置中,樣本總數(shù)始終保持在 20K。

      • 與常規(guī) QA 數(shù)據(jù)的對(duì)比實(shí)驗(yàn):研究者們替換 20K 常規(guī) QA 數(shù)據(jù)中的其中 10K 為拼圖數(shù)據(jù),發(fā)現(xiàn)模型可以表現(xiàn)出更好的性能。這說(shuō)明拼圖任務(wù)提供了更強(qiáng)的結(jié)構(gòu)感知與監(jiān)督信號(hào)。這一發(fā)現(xiàn)凸顯了拼圖任務(wù)在緩解多模態(tài)強(qiáng)化學(xué)習(xí)數(shù)據(jù)稀缺方面的潛力,并為推進(jìn)多模態(tài)模型開(kāi)發(fā)開(kāi)辟了一個(gè)充滿前景的新方向。

      意義與未來(lái)

      AGILE = 交互式拼圖代理 + 自監(jiān)督 RL,在無(wú)需額外人工標(biāo)注的前提下,持續(xù)提升 VLMs 的感知與推理能力。它證明了「交互式拼圖代理任務(wù)」作為突破數(shù)據(jù)瓶頸、強(qiáng)化 VLMs 的可行性和自監(jiān)督強(qiáng)化學(xué)習(xí)范式的潛力。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      為啥便宜的大豆油大多采用浸出工藝?浸出工藝,到底是啥工藝呢?

      為啥便宜的大豆油大多采用浸出工藝?浸出工藝,到底是啥工藝呢?

      向航說(shuō)
      2026-03-10 00:40:03
      王曼昱0比3輸給大藤,卻被惡意猜測(cè)故意輸球,想提前備戰(zhàn)世界杯

      王曼昱0比3輸給大藤,卻被惡意猜測(cè)故意輸球,想提前備戰(zhàn)世界杯

      鳳幻洋
      2026-03-10 15:27:17
      看起來(lái)似乎挺有培養(yǎng)價(jià)值的!勇士還不如給后場(chǎng)新秀多些表現(xiàn)機(jī)會(huì)?

      看起來(lái)似乎挺有培養(yǎng)價(jià)值的!勇士還不如給后場(chǎng)新秀多些表現(xiàn)機(jī)會(huì)?

      稻谷與小麥
      2026-03-11 00:32:34
      魯梅尼格:擁有孔帕尼是我們的幸運(yùn);希望瓜迪奧拉能晉級(jí)

      魯梅尼格:擁有孔帕尼是我們的幸運(yùn);希望瓜迪奧拉能晉級(jí)

      懂球帝
      2026-03-10 22:32:21
      新領(lǐng)袖上臺(tái)不到24小時(shí),伊朗突然提出停火,開(kāi)出的條件讓美國(guó)沉默

      新領(lǐng)袖上臺(tái)不到24小時(shí),伊朗突然提出停火,開(kāi)出的條件讓美國(guó)沉默

      咣當(dāng)?shù)厍?/span>
      2026-03-10 19:21:32
      央視首次曝光:全球最強(qiáng)光刻機(jī)亮相,中國(guó)再次反殺西方技術(shù)封鎖!

      央視首次曝光:全球最強(qiáng)光刻機(jī)亮相,中國(guó)再次反殺西方技術(shù)封鎖!

      粵語(yǔ)音樂(lè)噴泉
      2026-03-10 19:07:32
      我國(guó)極簡(jiǎn)渦噴發(fā)動(dòng)機(jī)即將量產(chǎn),萬(wàn)元巡飛彈讓美日破防

      我國(guó)極簡(jiǎn)渦噴發(fā)動(dòng)機(jī)即將量產(chǎn),萬(wàn)元巡飛彈讓美日破防

      世家寶
      2026-03-08 17:13:50
      科學(xué)家做了一個(gè)模擬:很可怕!科技文明或許只能持續(xù)5000年

      科學(xué)家做了一個(gè)模擬:很可怕!科技文明或許只能持續(xù)5000年

      窺探宇宙1
      2026-03-08 13:00:03
      12年前,那個(gè)美國(guó)抓捕未果,入籍俄羅斯的斯諾登,如今過(guò)得怎樣?

      12年前,那個(gè)美國(guó)抓捕未果,入籍俄羅斯的斯諾登,如今過(guò)得怎樣?

      就一點(diǎn)
      2026-03-08 23:09:47
      姐妹花的情誼海枯石爛

      姐妹花的情誼海枯石爛

      疾跑的小蝸牛
      2026-03-06 20:59:34
      一枚火箭一天內(nèi)發(fā)射兩次,送54顆衛(wèi)星上天,獵鷹九號(hào)越來(lái)越牛了

      一枚火箭一天內(nèi)發(fā)射兩次,送54顆衛(wèi)星上天,獵鷹九號(hào)越來(lái)越牛了

      科普大世界
      2026-03-10 09:44:55
      伊朗27輪反擊!從南到北炸遍以色列,伊朗提出目標(biāo),把美趕出中東

      伊朗27輪反擊!從南到北炸遍以色列,伊朗提出目標(biāo),把美趕出中東

      探史
      2026-03-09 21:30:19
      往人帽子里倒三勺螺螄粉湯,黑衣女現(xiàn)在全家抬不起頭

      往人帽子里倒三勺螺螄粉湯,黑衣女現(xiàn)在全家抬不起頭

      西莫的藝術(shù)宮殿
      2026-03-10 12:26:09
      歐盟各國(guó)抨擊馮德萊恩逾越職責(zé)。

      歐盟各國(guó)抨擊馮德萊恩逾越職責(zé)。

      世間閑事
      2026-03-10 13:46:31
      荷蘭總部遠(yuǎn)程操作,直接把中國(guó)幾千名員工的賬號(hào)全部禁用,沒(méi)通知

      荷蘭總部遠(yuǎn)程操作,直接把中國(guó)幾千名員工的賬號(hào)全部禁用,沒(méi)通知

      南權(quán)先生
      2026-03-09 15:55:08
      哈梅內(nèi)伊以身入局,帶走大批叛徒,為兒子鋪路?美以噩夢(mèng)才剛開(kāi)始

      哈梅內(nèi)伊以身入局,帶走大批叛徒,為兒子鋪路?美以噩夢(mèng)才剛開(kāi)始

      卷史
      2026-03-10 04:06:07
      毛骨悚然!網(wǎng)傳西安二婚大專女,找月薪2萬(wàn)985未婚男,全款車房…

      毛骨悚然!網(wǎng)傳西安二婚大專女,找月薪2萬(wàn)985未婚男,全款車房…

      火山詩(shī)話
      2026-03-08 06:10:43
      1978年譚震林受粟裕之托,去徐州紀(jì)念淮海戰(zhàn)役,結(jié)果氣得渾身發(fā)抖

      1978年譚震林受粟裕之托,去徐州紀(jì)念淮海戰(zhàn)役,結(jié)果氣得渾身發(fā)抖

      微野談寫作
      2026-03-03 07:30:06
      柳某、王某等4人被西安警方查獲

      柳某、王某等4人被西安警方查獲

      91.6陜西交通廣播
      2026-03-10 08:09:25
      炒股其實(shí)不復(fù)雜,當(dāng)你弄懂了“量比+換手率”,你離財(cái)富就不遠(yuǎn)了

      炒股其實(shí)不復(fù)雜,當(dāng)你弄懂了“量比+換手率”,你離財(cái)富就不遠(yuǎn)了

      一方聊市
      2025-10-02 21:14:58
      2026-03-11 01:04:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12467文章數(shù) 142581關(guān)注度
      往期回顧 全部

      科技要聞

      全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

      頭條要聞

      伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話 官方回應(yīng)

      頭條要聞

      伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話 官方回應(yīng)

      體育要聞

      加蘭沒(méi)那么差,但鱸魚會(huì)用嗎?

      娛樂(lè)要聞

      《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

      財(cái)經(jīng)要聞

      “龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      游戲
      時(shí)尚
      手機(jī)
      家居
      公開(kāi)課

      《德波尼亞》Steam 免費(fèi)領(lǐng) / 《超級(jí)馬力歐銀河大電影》最終預(yù)告曝光

      看來(lái)看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

      手機(jī)要聞

      iOS26.4 Beta4變化匯總:新Emoji正式加入,系統(tǒng)高亮效果支持關(guān)閉

      家居要聞

      自然肌理 溫度質(zhì)感婚房

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版