<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      智能體卷王誕生!干活自動配結項報告,1.5張截圖就把事說清了

      0
      分享至

      Youtu-Agent團隊 投稿
      量子位 | 公眾號 QbitAI

      在學校里做實驗的時候,老師如何確定我們做了實驗并且達到了預期效果呢?——最常見的做法是讓學生寫一份實驗報告交上來。

      現在,AI智能體拿到一個任務以后如何檢驗執行的效果有沒有達到預期呢?我們也可以讓AI在執行任務的同時主動提交一份證據鏈報告,邊做邊收集任務完成的證據,自我檢查是否符合預期,不符合就繼續做。



      在LLM/VLM驅動的智能體(Agent)的強化學習(RL)研究中,一直面臨一個巨大的挑戰:

      你交給智能體一個任務,它干完了,但你不知道完成度如何。



      為了確認它是否真的準確完成了任務,我們不得不建立龐大的“監督系統”來復核它的每一步操作。這種“被動驗證”往往需要:

      1. 手工設計的復雜校驗機制(比如:完全匹配的輸出內容);
      2. 強大的軌跡級驗證方法(比如:LLM/VLM-as-a-Judge眾投決策)。

      這兩種常見的先完成任務(task completion)再校驗軌跡(outcome verification)的機制有以下缺點:

      1. 效率較低,人工設計的準則依賴預先編寫好的評估腳本,難以簡單泛化到新的任務(比如新的APP);
      2. 軌跡帶噪且上下文冗長,將整條軌跡送給LLM/VLM來評判很容易被無關的環境信息干擾,降低評分的可靠性;
      3. 依賴持續可觀測環境的反饋信息,部分操作往往因為環境變化
      4. (如頁面刷新、操作過期)而導致驗證失敗。

      針對以上問題,我們提出了一種簡單的RL訓練方法,讓智能體自己成為“質檢員”,在盡可能減少校驗器(Verifier)審核壓力的同時,讓智能體學會主動分解子目標并且留痕存證。

      什么是SmartSnap?

      SmartSnap的核心思想是將GUI智能體從“被動的執行者”轉變為“主動的自證者”。

      簡單來說,智能體在完成任務的同時,還會主動收集、篩選并提交一份“證據快照集”。

      這份證據就像是任務的“結項報告”,讓驗證者只需看一眼快照,就能確認任務是否成功。



      三大核心突破:從“執行”到“自證”

      1. 角色升級:雙重使命的“自證代理”

      傳統的智能體只負責“做(Execute)”,而SmartSnap提出了“自證智能體”(Self-Verifying Agent),賦予了它“自我驗證(Verify)”的第二使命。

      它在操作過程中會像人類一樣思考:“為了證明我已經改好了設置,我需要把對開關狀態截圖并作為證據提交。”

      2. “3C原則”:高效率的證據美學

      為了避免給驗證者造成信息過載,SmartSnap提出了證據策展的3C原則

      • 完整性(Completeness)
      • 證據必須足以證明任務已閉環。
      • 簡潔性(Conciseness)
      • 不要冗長的視頻,只要最關鍵的幾張“定格”瞬間。
      • 創造性(Creativity)
      • 為了拿到證據,智能體甚至會主動執行“額外操作”。例如,訂完票后主動跳回訂單頁截圖。

      3. 強化學習驅動:GRPO+內在獎勵反饋

      我們利用GRPO算法對智能體進行了訓練。通過精心設計的獎勵機制(Intrinsic Reward Shaping),引導智能體在保證任務成功率的同時,不斷提升證據的質量,盡可能減少獎勵黑客行為(reward hacking)。

      戰績顯赫:小模型也不錯

      SmartSnap的表現令人驚艷,它在AndroidLab等復雜的任務上提升顯著:



      • 性能飛躍
      • 在不同規模的模型上,均實現了顯著的性能提升(最高提升達26.08%)。
      • 以小博大
      • 經過SmartSnap訓練的中等參數模型(如Qwen3-32B),在自證能力的加持下,其表現甚至持平DeepSeek-V3/Qwen3-235B等開源大模型

      通過感性分析,我們還觀察到以下特點:

      • 舉證效率
      • 平均每個任務只需提交1.5張快照證據,極大地降低了后端的驗證成本。
      • 高效交互
      • 智能體在訓練過程中由于擬合少量的訓練集而變得游刃有余,交互輪數不斷減少。
      • 知識欠缺
      • 在部分APP上,我們觀察到智能體存在反復、沒有顯著增益的表現,其領域知識的欠缺導致無法收斂到有效的解決方案(比如地圖APP的各項復雜路徑規劃任務)。這表明模型需要依賴更多知識注入來指導探索。

      為什么這簡化了智能體RL訓練的準備工作?

      在手機端、OS端這類環境的操作中,由于其時效性特點,傳統的外部驗證器很難精準捕捉瞬時的成功信號。

      SmartSnap就像是給智能體配上了一臺取證相機。它不再需要事先對環境所有狀態有一個預期的變化感知來撰寫校驗腳本,或者讓裁判員模型盯著全程軌跡來仔細推敲,而是讓智能體自己邊做邊收集必要的證據。

      這允許我們基于合成的任務輕松拓展其訓練場景,并針對有限的證據鏈來判斷成功與否,讓RL訓練更加便捷。

      面向未來

      SmartSnap的出現,標志著GUI智能體正從“蠻力執行”走向“認知協同”。這種主動尋找證據的能力,不僅提升了AI的可靠性,更為未來大規模、低成本的AI部署鋪平了道路。

      未來的AI,不僅要“能干”,更要“可信”。

      論文標題:

      SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
      論文地址:

      https://arxiv.org/abs/2512.22322
      代碼地址:

      https://github.com/TencentYoutuResearch/SmartSnap

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      示弱就是毀滅!網友怒了:若20億拿不回,誰來守護百萬億海外資產

      示弱就是毀滅!網友怒了:若20億拿不回,誰來守護百萬億海外資產

      達文西看世界
      2026-02-27 11:35:54
      冬奧會剛結束!2歸化或離開國家隊,谷愛凌年賺1.6億+還獲贈3臺車

      冬奧會剛結束!2歸化或離開國家隊,谷愛凌年賺1.6億+還獲贈3臺車

      法老不說教
      2026-02-27 17:10:58
      歐冠1/8賽抽簽揭曉,皇馬曼城連續第五年淘汰賽相遇

      歐冠1/8賽抽簽揭曉,皇馬曼城連續第五年淘汰賽相遇

      澎湃新聞
      2026-02-27 19:36:26
      1歲男童家門口丟失已遇難!死因曝光,父母一手造成,本來不用死

      1歲男童家門口丟失已遇難!死因曝光,父母一手造成,本來不用死

      奇思妙想草葉君
      2026-02-26 21:27:52
      開拓者4大主力缺陣,10人輪換出場!楊瀚森看清斯普利特表面一套

      開拓者4大主力缺陣,10人輪換出場!楊瀚森看清斯普利特表面一套

      球場沒跑道
      2026-02-27 12:03:28
      55歲主持人李靜自曝絕經過程,很快失去性魅力,連男人也沒興趣了

      55歲主持人李靜自曝絕經過程,很快失去性魅力,連男人也沒興趣了

      林輕吟
      2026-02-23 07:16:08
      特朗普“低俗玩笑”惹眾怒!美國冰球女隊隊長奈特強勢回擊:令人不快!

      特朗普“低俗玩笑”惹眾怒!美國冰球女隊隊長奈特強勢回擊:令人不快!

      去山野間追風
      2026-02-27 15:08:16
      網傳米哈游36歲員工猝死,補貼僅3萬,打工人看完沉默了

      網傳米哈游36歲員工猝死,補貼僅3萬,打工人看完沉默了

      雷科技
      2026-02-27 15:56:07
      指甲上出現豎紋是身體預警?皮膚科醫生教你讀懂指甲健康

      指甲上出現豎紋是身體預警?皮膚科醫生教你讀懂指甲健康

      全球軍事記
      2026-02-27 09:39:26
      梅根為返回英國曬女兒正臉,要求待遇對標凱特,威廉:愛回不回

      梅根為返回英國曬女兒正臉,要求待遇對標凱特,威廉:愛回不回

      白露文娛志
      2026-02-26 10:51:42
      孫穎莎3-1戰勝石洵瑤,晉級新加坡大滿貫八強將對陣早田希娜

      孫穎莎3-1戰勝石洵瑤,晉級新加坡大滿貫八強將對陣早田希娜

      懂球帝
      2026-02-27 19:29:07
      原來他們是兩口子,低調拍戲,都是國家一級演員,如今丁克也幸福

      原來他們是兩口子,低調拍戲,都是國家一級演員,如今丁克也幸福

      卷史
      2026-02-27 11:35:54
      又一“星二代”想出道,網友:沒他爸當年帥,媽媽回應:還沒長開

      又一“星二代”想出道,網友:沒他爸當年帥,媽媽回應:還沒長開

      娛人細品
      2026-02-26 20:38:29
      全球只有5位領導人被永久保留遺體,他們都是誰

      全球只有5位領導人被永久保留遺體,他們都是誰

      扶蘇聊歷史
      2026-01-29 16:13:42
      Claude Code上線自動記憶,告別重復解釋

      Claude Code上線自動記憶,告別重復解釋

      InfoQ
      2026-02-27 17:06:08
      不用霍金森,桶谷大有更好武器對付我們,警惕鋒線和后衛

      不用霍金森,桶谷大有更好武器對付我們,警惕鋒線和后衛

      兵哥籃球故事
      2026-02-26 14:54:19
      2026年春晚,釋放了3個信號,普通人要清醒

      2026年春晚,釋放了3個信號,普通人要清醒

      老特有話說
      2026-02-25 22:03:08
      見到交警強行開車門坐自己旁邊,陳賡忽然開口:我的車你也敢坐?

      見到交警強行開車門坐自己旁邊,陳賡忽然開口:我的車你也敢坐?

      芊芊子吟
      2026-02-22 16:45:08
      巴薩紐卡此前五次相遇全在歐冠聯賽當中,巴薩4勝1負占據上風

      巴薩紐卡此前五次相遇全在歐冠聯賽當中,巴薩4勝1負占據上風

      懂球帝
      2026-02-27 20:12:20
      胡志明精通漢字,為何一掌權后,立馬選擇廢漢字?其實是無奈之舉

      胡志明精通漢字,為何一掌權后,立馬選擇廢漢字?其實是無奈之舉

      墨說古今
      2026-02-27 17:35:52
      2026-02-27 20:31:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12209文章數 176397關注度
      往期回顧 全部

      科技要聞

      單張不到五毛!谷歌深夜發布Nano Banana 2

      頭條要聞

      世界經濟論壇總裁辭職 曾私信愛潑斯坦稱對方"天才"

      頭條要聞

      世界經濟論壇總裁辭職 曾私信愛潑斯坦稱對方"天才"

      體育要聞

      一場必須要贏的比賽,男籃何止擊敗了裁判

      娛樂要聞

      繼網暴谷愛凌后 美國欲沒收其全部收入

      財經要聞

      沈明高提共富建議 百姓持科技股國家兜底

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      教育
      健康
      手機
      游戲
      藝術

      教育要聞

      最高學費26萬!2026濟南、青島私立學費匯總!

      轉頭就暈的耳石癥,能開車上班嗎?

      手機要聞

      三星版“豆包手機”發布 深度綁定AI

      微軟立大功!Xbox商店曝光《紅色沙漠》發售時間

      藝術要聞

      紫氣東來,好運一整年!

      無障礙瀏覽 進入關懷版