<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      智能體卷王誕生!干活自動配結項報告,1.5張截圖就把事說清了

      0
      分享至

      Youtu-Agent團隊 投稿
      量子位 | 公眾號 QbitAI

      在學校里做實驗的時候,老師如何確定我們做了實驗并且達到了預期效果呢?——最常見的做法是讓學生寫一份實驗報告交上來。

      現(xiàn)在,AI智能體拿到一個任務以后如何檢驗執(zhí)行的效果有沒有達到預期呢?我們也可以讓AI在執(zhí)行任務的同時主動提交一份證據(jù)鏈報告,邊做邊收集任務完成的證據(jù),自我檢查是否符合預期,不符合就繼續(xù)做。



      在LLM/VLM驅(qū)動的智能體(Agent)的強化學習(RL)研究中,一直面臨一個巨大的挑戰(zhàn):

      你交給智能體一個任務,它干完了,但你不知道完成度如何。



      為了確認它是否真的準確完成了任務,我們不得不建立龐大的“監(jiān)督系統(tǒng)”來復核它的每一步操作。這種“被動驗證”往往需要:

      1. 手工設計的復雜校驗機制(比如:完全匹配的輸出內(nèi)容);
      2. 強大的軌跡級驗證方法(比如:LLM/VLM-as-a-Judge眾投決策)。

      這兩種常見的先完成任務(task completion)再校驗軌跡(outcome verification)的機制有以下缺點:

      1. 效率較低,人工設計的準則依賴預先編寫好的評估腳本,難以簡單泛化到新的任務(比如新的APP);
      2. 軌跡帶噪且上下文冗長,將整條軌跡送給LLM/VLM來評判很容易被無關的環(huán)境信息干擾,降低評分的可靠性;
      3. 依賴持續(xù)可觀測環(huán)境的反饋信息,部分操作往往因為環(huán)境變化
      4. (如頁面刷新、操作過期)而導致驗證失敗。

      針對以上問題,我們提出了一種簡單的RL訓練方法,讓智能體自己成為“質(zhì)檢員”,在盡可能減少校驗器(Verifier)審核壓力的同時,讓智能體學會主動分解子目標并且留痕存證。

      什么是SmartSnap?

      SmartSnap的核心思想是將GUI智能體從“被動的執(zhí)行者”轉(zhuǎn)變?yōu)椤爸鲃拥淖宰C者”。

      簡單來說,智能體在完成任務的同時,還會主動收集、篩選并提交一份“證據(jù)快照集”。

      這份證據(jù)就像是任務的“結項報告”,讓驗證者只需看一眼快照,就能確認任務是否成功。



      三大核心突破:從“執(zhí)行”到“自證”

      1. 角色升級:雙重使命的“自證代理”

      傳統(tǒng)的智能體只負責“做(Execute)”,而SmartSnap提出了“自證智能體”(Self-Verifying Agent),賦予了它“自我驗證(Verify)”的第二使命。

      它在操作過程中會像人類一樣思考:“為了證明我已經(jīng)改好了設置,我需要把對開關狀態(tài)截圖并作為證據(jù)提交。”

      2. “3C原則”:高效率的證據(jù)美學

      為了避免給驗證者造成信息過載,SmartSnap提出了證據(jù)策展的3C原則

      • 完整性(Completeness)
      • 證據(jù)必須足以證明任務已閉環(huán)。
      • 簡潔性(Conciseness)
      • 不要冗長的視頻,只要最關鍵的幾張“定格”瞬間。
      • 創(chuàng)造性(Creativity)
      • 為了拿到證據(jù),智能體甚至會主動執(zhí)行“額外操作”。例如,訂完票后主動跳回訂單頁截圖。

      3. 強化學習驅(qū)動:GRPO+內(nèi)在獎勵反饋

      我們利用GRPO算法對智能體進行了訓練。通過精心設計的獎勵機制(Intrinsic Reward Shaping),引導智能體在保證任務成功率的同時,不斷提升證據(jù)的質(zhì)量,盡可能減少獎勵黑客行為(reward hacking)。

      戰(zhàn)績顯赫:小模型也不錯

      SmartSnap的表現(xiàn)令人驚艷,它在AndroidLab等復雜的任務上提升顯著:



      • 性能飛躍
      • 在不同規(guī)模的模型上,均實現(xiàn)了顯著的性能提升(最高提升達26.08%)。
      • 以小博大
      • 經(jīng)過SmartSnap訓練的中等參數(shù)模型(如Qwen3-32B),在自證能力的加持下,其表現(xiàn)甚至持平DeepSeek-V3/Qwen3-235B等開源大模型

      通過感性分析,我們還觀察到以下特點:

      • 舉證效率
      • 平均每個任務只需提交1.5張快照證據(jù),極大地降低了后端的驗證成本。
      • 高效交互
      • 智能體在訓練過程中由于擬合少量的訓練集而變得游刃有余,交互輪數(shù)不斷減少。
      • 知識欠缺
      • 在部分APP上,我們觀察到智能體存在反復、沒有顯著增益的表現(xiàn),其領域知識的欠缺導致無法收斂到有效的解決方案(比如地圖APP的各項復雜路徑規(guī)劃任務)。這表明模型需要依賴更多知識注入來指導探索。

      為什么這簡化了智能體RL訓練的準備工作?

      在手機端、OS端這類環(huán)境的操作中,由于其時效性特點,傳統(tǒng)的外部驗證器很難精準捕捉瞬時的成功信號。

      SmartSnap就像是給智能體配上了一臺取證相機。它不再需要事先對環(huán)境所有狀態(tài)有一個預期的變化感知來撰寫校驗腳本,或者讓裁判員模型盯著全程軌跡來仔細推敲,而是讓智能體自己邊做邊收集必要的證據(jù)。

      這允許我們基于合成的任務輕松拓展其訓練場景,并針對有限的證據(jù)鏈來判斷成功與否,讓RL訓練更加便捷。

      面向未來

      SmartSnap的出現(xiàn),標志著GUI智能體正從“蠻力執(zhí)行”走向“認知協(xié)同”。這種主動尋找證據(jù)的能力,不僅提升了AI的可靠性,更為未來大規(guī)模、低成本的AI部署鋪平了道路。

      未來的AI,不僅要“能干”,更要“可信”。

      論文標題:

      SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
      論文地址:

      https://arxiv.org/abs/2512.22322
      代碼地址:

      https://github.com/TencentYoutuResearch/SmartSnap

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      U23亞洲杯瘋狂一夜:韓國4-2逆轉(zhuǎn) 日本3-0接近進8強 中國隊爭首勝

      U23亞洲杯瘋狂一夜:韓國4-2逆轉(zhuǎn) 日本3-0接近進8強 中國隊爭首勝

      侃球熊弟
      2026-01-10 21:31:34
      2026年返鄉(xiāng)潮巨變,從一票難求到車站冷清,中國經(jīng)濟在悄悄換賽道

      2026年返鄉(xiāng)潮巨變,從一票難求到車站冷清,中國經(jīng)濟在悄悄換賽道

      老特有話說
      2026-01-11 01:15:50
      人民日報罕見“鐘才平”四連評,釋放極強政策信號,信息量巨大!

      人民日報罕見“鐘才平”四連評,釋放極強政策信號,信息量巨大!

      識局Insight
      2026-01-10 13:23:53
      買洗碗機丈夫砸家后續(xù):知情人曝內(nèi)幕,女子作精愛花錢欠外債20萬

      買洗碗機丈夫砸家后續(xù):知情人曝內(nèi)幕,女子作精愛花錢欠外債20萬

      青梅侃史啊
      2026-01-10 08:58:19
      俄軍擊中卡塔爾大使館,又有救援人員殉職!別爾哥羅德全城大停電

      俄軍擊中卡塔爾大使館,又有救援人員殉職!別爾哥羅德全城大停電

      鷹眼Defence
      2026-01-10 17:14:20
      日本知名巨頭退出中國內(nèi)地市場,平價品牌狂奔,有門店日排隊3000桌

      日本知名巨頭退出中國內(nèi)地市場,平價品牌狂奔,有門店日排隊3000桌

      21世紀經(jīng)濟報道
      2026-01-10 12:58:46
      官媒發(fā)文!宗馥莉再破天花板,讓親叔宗澤后和整個商界沉默了

      官媒發(fā)文!宗馥莉再破天花板,讓親叔宗澤后和整個商界沉默了

      小老頭奇聞
      2026-01-10 11:57:51
      伊朗流亡王儲向警察軍人喊話:保護人民,不要隨這艘船一起沉沒

      伊朗流亡王儲向警察軍人喊話:保護人民,不要隨這艘船一起沉沒

      通往遠方的路
      2026-01-09 10:17:26
      被大家猜中了!洗碗機的女主角起號成功,直播間人數(shù)超過3000…

      被大家猜中了!洗碗機的女主角起號成功,直播間人數(shù)超過3000…

      火山詩話
      2026-01-10 15:13:33
      馬斯克成伊朗明星;哈梅內(nèi)伊咒罵美國

      馬斯克成伊朗明星;哈梅內(nèi)伊咒罵美國

      跟著老李看世界
      2026-01-10 00:02:23
      足總杯刺激夜:衛(wèi)冕冠軍爆大冷門1-2,曼城10-1,切爾西5-1,紐卡10-9

      足總杯刺激夜:衛(wèi)冕冠軍爆大冷門1-2,曼城10-1,切爾西5-1,紐卡10-9

      側身凌空斬
      2026-01-11 06:15:25
      那個轉(zhuǎn)崗女保安的副教授,開始反擊了

      那個轉(zhuǎn)崗女保安的副教授,開始反擊了

      大張的自留地
      2026-01-09 17:21:09
      霍啟剛公布個人名下財產(chǎn)!全球共有35個物業(yè),收租頗豐生活卻節(jié)儉

      霍啟剛公布個人名下財產(chǎn)!全球共有35個物業(yè),收租頗豐生活卻節(jié)儉

      阿纂看事
      2026-01-10 22:39:19
      美國ICE特工射殺女子細節(jié)曝光:遇害女子被槍擊前曾對執(zhí)法人員說“我不生你的氣”

      美國ICE特工射殺女子細節(jié)曝光:遇害女子被槍擊前曾對執(zhí)法人員說“我不生你的氣”

      環(huán)球網(wǎng)資訊
      2026-01-10 16:58:15
      神仙姐姐的野生圖,太美了。

      神仙姐姐的野生圖,太美了。

      微微熱評
      2026-01-09 12:20:53
      洗碗機大反轉(zhuǎn)!砸家男越看越冤,知情人曝更多,難怪丈夫會崩潰

      洗碗機大反轉(zhuǎn)!砸家男越看越冤,知情人曝更多,難怪丈夫會崩潰

      八斗小先生
      2026-01-10 15:30:07
      下滑嚴重!全場0分+2失誤,剛拿1.25億啊,就這水平?拉胯到家了

      下滑嚴重!全場0分+2失誤,剛拿1.25億啊,就這水平?拉胯到家了

      球童無忌
      2026-01-11 00:42:32
      演員孫濤力挺閆學晶后續(xù):抖音評論區(qū)徹底淪陷了,各種調(diào)侃他

      演員孫濤力挺閆學晶后續(xù):抖音評論區(qū)徹底淪陷了,各種調(diào)侃他

      小徐講八卦
      2026-01-10 14:14:29
      比往鍋底撒尿更惡心!海底撈再曝大瓜,警方介入,可怕的事在后面

      比往鍋底撒尿更惡心!海底撈再曝大瓜,警方介入,可怕的事在后面

      以茶帶書
      2026-01-10 13:26:57
      成都61歲男子將長約17cm紅薯塞入肛門,卡住無法取出,紅薯尺寸過大,最終手術取出

      成都61歲男子將長約17cm紅薯塞入肛門,卡住無法取出,紅薯尺寸過大,最終手術取出

      觀威海
      2026-01-10 16:54:03
      2026-01-11 07:47:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      11998文章數(shù) 176357關注度
      往期回顧 全部

      科技要聞

      必看 | 2026開年最頂格的AI對話

      頭條要聞

      宜家確定關閉全國7家商場清倉 大批上海人涌入"撿漏"

      頭條要聞

      宜家確定關閉全國7家商場清倉 大批上海人涌入"撿漏"

      體育要聞

      怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

      娛樂要聞

      吳速玲曝兒子Joe是戀愛腦

      財經(jīng)要聞

      這不算詐騙嗎?水滴保誘導扣款惹眾怒

      汽車要聞

      寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

      態(tài)度原創(chuàng)

      健康
      親子
      教育
      藝術
      時尚

      這些新療法,讓化療不再那么痛苦

      親子要聞

      寶寶第一次吃米糊,寶寶:有這好東西不早點拿出來!網(wǎng)友:眼里全是對食物的渴望

      教育要聞

      填志愿怕代碼查錯?三步精準查詢避免失誤!

      藝術要聞

      這位和尚寫梅花,疏疏幾點,勁峭孤逸

      伊姐周六熱推:電視劇《小城大事》;電視劇《軋戲》......

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 性动态图无遮挡试看30秒| 国产高清A片| 日本熟女Va视频| 97久久久久人妻精品专区| 日韩一区日韩二区日韩三区| 欧美一级黄色影院| 在线 | 国产精品99传媒a| 人妻少妇av无码一区二区| 免费午夜无码片在线观看影院| 亚洲熟妇无码成人A片| 兴义市| 亚洲av成人午夜电影在线观看| 成人无号精品一区二区三区| 欧美精品v国产精品v日韩精品| 天天爽天天爽夜夜爽毛片| 一区二区三区av天堂| 91视频网页| 精品久久久久久无码免费| 亚洲国产精品500在线观看| ww无码| 青草精品国产福利在线视频| 在线视频不卡在线亚洲| 精品A片| 真实国产乱子伦精品一区二区三区| 又黄又硬又湿又刺激视频免费| 欧美性猛交xxxx黑人| 与子敌伦刺激对白播放的优点| 亚洲精品午夜精品| 国产一区二区三区av高清| 丝袜高潮流白浆潮喷在线播放| 国产三级a三级三级| 无码视频一区二区三区| 一本二本无码| 中文在线8资源库| 国产AV无码专区亚洲AV漫画 | www.狠狠干| 乱熟女高潮一区二区在线| 奇骏影院在线观看免费版| 337p日本欧洲亚洲大胆色噜噜| 亚洲丝袜熟女在线樱桃| 欧州人妻天天躁Av|