<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      微軟提出Computer-Using World Model,教智能體理解動作的后果

      0
      分享至



      把大模型「放進電腦里」,會出現一種很奇特的反差:

      它能寫代碼、能推理、能把論文總結得頭頭是道;但一旦讓它去操作 Excel、Word 這種真實桌面軟件,卻像第一次用電腦的人 -- 點錯菜單、來回切換,甚至在同一頁里循環點擊。

      很多人第一反應會覺得是 Agent 沒看清按鈕,或者沒理解任務,不知道界面上各個選項是什么意思。但在真實軟件里,更大的問題往往不是「看不見」,而是「不知道點下去會發生什么」。

      在同一個界面上,不同的操作會把系統帶到完全不同的狀態,一旦點錯,往往很難簡單撤銷。操作會產生延遲,流程被打斷,有時甚至會直接破壞文檔。因此,關鍵不只是識別界面或讀懂指令,而是能提前判斷每個動作可能帶來的結果。

      人學習使用軟件時,看起來像是在界面里「到處試一試」。

      比如你要給一個 Excel 工作簿加密。面對界面時,你會下意識地判斷:點這個入口會不會彈出密碼窗口?點那個標簽只是切換視圖,還是在真正推進任務?哪個操作更像是在朝目標靠近?

      你并不是隨便點擊,而是在挑一個更可能有效的下一步。

      這種在行動前先預想結果、再用一次操作去驗證的過程,在認知科學中通常被稱為反事實推理。

      很多時候,人并不是等系統反饋才知道對錯,而是先對可能發生的結果有一個大致預期,再去確認。

      相比之下,不少 GUI Agent 更像「看一步、做一步」:它能讀懂當前截圖里的內容,卻缺少對「這個動作通常會帶來什么變化」的判斷,因此只能在真實環境中反復嘗試,試錯成本也更高。

      CUWM:在真正點擊之前,先在「腦海里點一遍」

      微軟研究團隊提出的 Computer-Using World Model(CUWM),想解決的正是這個問題。它做的事情可以簡單理解為:在真的操作軟件之前,先讓智能體「想象一下會發生什么」。



      • 論文鏈接:https://arxiv.org/html/2602.17365v1

      更具體地說,給定當前界面的截圖,以及一個候選操作(例如點擊某個按鈕),CUWM 會預測執行這個操作后的界面圖像。

      圖 1 展示了以當前軟件界面的截圖和對應操作作為輸入,CUWM 預測執行該操作后出現的下一步界面圖像。當智能體面對多個可選動作時,它不需要立刻在真實軟件里一個個去試,而是先把這些動作交給世界模型模擬 —— 于是會得到幾種「想象出來的下一步界面」。



      圖 1:CUWM 預測的不同動作導致的軟件界面圖片。從同一當前界面(current state)出發,執行不同操作,如點擊 Encrypt with Password、打開 Images 或放大視圖,會得到不同的下一個狀態(例如彈出密碼窗口、展開工具面板或改變顯示比例)。

      接下來,智能體只需比較:哪一種結果更接近任務目標?選出最合理的一步,再在真實系統中執行。

      論文把這個過程稱為world-model-guided test-time action search。重要的是,智能體本身的策略是凍結的,沒有重新訓練;性能提升來自于更好的「預演」和更充分的測試時計算,而不是把 Agent 本身變得更復雜。

      換句話說,CUWM 不是在教智能體更會操作,而是在給它一種「先想后做」的能力。



      圖 2:CUWM 概述:給定當前 UI 截圖與動作(如點擊 Excel 的列「H」),CUWM 先生成一段聚焦局部變化的過渡描述(Stage 1),再在保持不變區域穩定的前提下對截圖進行條件編輯,生成預測的下一狀態(Stage 2)。

      關鍵設計:模型關注的不是像素,而是「變化」

      桌面軟件 UI 的特點是:大部分區域長期不變,變化通常發生在局部 —— 選區高亮、面板展開、彈窗出現、光標移動…… 如果端到端預測整張下一幀截圖,模型既要背負巨大的不變背景,又要捕捉極小但關鍵的變化,低效且容易「注意力錯位」。

      CUWM 的關鍵設計是把「下一步預測」拆成兩段:

      • Stage 1:先說清楚「變了什么」(Textual State Transition):輸出一段結構化、盡量簡潔的「過渡描述」,只寫與動作相關的界面變化;
      • Stage 2:再把變化落實到截圖上(Visual State Realization):用條件圖像編輯把變化渲染到原圖上,盡量保持不變區域穩定,生成下一步截圖。

      這一分解的重點不在「畫得多逼真」,而在讓模型學到:動作改變的是系統狀態,而智能體真正需要的是「點了之后世界怎么變」。

      圖 2 展示了 CUWM 的兩階段流程:先生成「變化描述」,再把變化實現成下一幀 UI。這種「what changes /how it appears」的分解,讓模型把注意力放在動作后果上,而不是低效地重繪整張界面。

      訓練數據怎么來:從真實交互里抽三元組,再自動寫「變化描述」

      CUWM 不依賴昂貴的在線強化學習環境,而是從真實軟件的交互軌跡中構造訓練樣本:把一次操作前后的界面截圖配對,再附上對應的動作表示,形成標準的 ((s_t, a_t, s_{t+1})) 訓練三元組。

      關鍵在于 Stage 1 的監督信號 ——「變化描述」怎么得到?論文做法是用 GPT-5 作為自動標注器:對每個三元組生成一段簡潔的 UI 變化描述,明確「哪些變了、哪些不變」,用來監督微調 Stage 1。

      為了讓描述更短、更結構化、更少幻覺,作者還在 SFT 之后用 GRPO 做輕量 RL 細化:獎勵由 LLM-as-a-Judge 的結構一致性評分與長度懲罰組合,從而有效覆蓋關鍵 UI 結構。

      結果:智能體開始「規劃行動」

      在實驗中,智能體需要完成「給 Excel 工作簿添加密碼保護」的任務。它不會立刻在真實環境里點來點去,而是先提出多個候選動作,并逐個調用 CUWM 進行模擬,得到每個動作可能帶來的「下一步界面」。

      隨后,智能體把這些模擬結果與任務目標進行對照,最終選擇點擊「Protect Workbook」—— 因為這一候選動作對應的預測界面最符合「進入保護 / 加密流程」的預期方向。

      那么,智能體是如何在點擊前完成一次「內部試錯」的?圖 3 給出了直觀示例。



      圖 3:先模擬后執行:world model 做「模擬器」,Agent 做「決策者」。 智能體先提出多個候選動作,CUWM 分別預測每個動作會導致怎樣的下一步 UI;智能體再根據這些預測結果與任務目標的匹配程度,選擇更可能推進任務的那一步(示例中為「Protect Workbook」),從而減少真實環境中的反復試錯與無效點擊。

      這正是 CUWM 的價值所在:把高成本的環境試錯轉移到模型內部。智能體先在「想象出來的下一屏」里完成比較與選擇,再把最有希望的一步落到真實軟件執行。從「高成本試錯」變成「低成本模擬」,顯著降低無效操作與循環點擊,讓 GUI Agent 從反應式點擊走向規劃式決策。

      更進一步,論文指出,性能提升的關鍵更多來自對界面結構變化的正確預測(例如面板是否展開、關鍵入口是否出現),而不只是生成圖像的視覺逼真度。這也側面說明,GUI Agent 的核心能力并非純視覺識別,而是面向交互的規劃與決策。

      更深層的意義:Agent 決策能力意味著什么

      如果把大模型的發展看成一條連續的能力變化,其實不只是「更聰明了」,而是能力的類型在改變。

      過去,大模型主要解決的是理解與表達的問題:它能讀懂一段話、回答問題、寫文章、解釋概念。這些能力本質上都發生在「信息空間」里 —— 輸入是文本,輸出也是文本。模型只需要給出一個合理的回答,不需要承擔真實后果。

      但當 AI 進入軟件環境,問題發生了變化,這里不再是「回答是否合理」,而是「動作是否有效」。一次點擊、一次輸入、一次拖拽,都會改變系統狀態,并影響之后還能不能繼續完成任務。也就是說,AI 不再只是解釋世界,而是在改變世界(哪怕只是數字世界)。

      這時,Agent 的核心能力就變成了決策能力:它必須在多個可能動作中做選擇,并對選擇的后果負責。關鍵不再是「這句話對不對」,而是「這一步走完之后,任務更接近還是更遠」。

      人類在操作軟件時,之所以效率很高,是因為在行動前會形成一種內部判斷:這個操作大概會帶來什么結果。如果結果不符合目標,往往在點擊前就會放棄,而不是等系統報錯。這其實是一種對「動作 → 狀態變化」的理解。

      而很多當前的 GUI Agent 缺少的正是這一層。它能識別界面、能理解指令,卻仍然主要依賴真實交互去排除錯誤路徑。也就是在環境里不斷試錯,直到碰到正確步驟。換句話說,它更像是在反應,而不是在決策。

      CUWM 的意義,不只是提高成功率,而是讓 Agent 開始具備一種新的能力:在執行之前先評估后果。

      當智能體可以先模擬不同動作帶來的不同未來,再選擇更合適的一步時,它做的就不再只是「操作界面」,而是進行路徑規劃。試錯仍然存在,但優先發生在內部,而不是直接作用于真實系統。

      因此,這里的轉變可以這樣理解:大模型讓 AI 學會了「如何回答」,而決策能力讓 AI 開始學會「如何行動」。當 AI 能根據預期后果來選擇動作時,它才真正從一個對話工具,變成一個能夠在數字環境中推進任務的行動體。

      作者介紹

      CUWM 的作者是微軟實習生以及微軟 UFO 團隊的成員,包括Yiming Guan、Rui Yu、John Zhang、Lu Wang、Chaoyun Zhang、Liqun Li、Bo Qiao、Si Qin、He Huang、Fangkai Yang、Pu Zhao等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      八登春晚演員作死被捕,56歲面相大變,老搭檔斷絕往來

      八登春晚演員作死被捕,56歲面相大變,老搭檔斷絕往來

      落雪聽梅a
      2026-04-24 04:18:02
      19歲女孩迷上韓劇,嫁給31歲殘疾韓國男人!20年過去她怎么樣了?

      19歲女孩迷上韓劇,嫁給31歲殘疾韓國男人!20年過去她怎么樣了?

      東方不敗然多多
      2026-04-24 05:37:06
      施壓中方讓步?日代表團強求訪華,中國“4箭齊發”,抗議也無效

      施壓中方讓步?日代表團強求訪華,中國“4箭齊發”,抗議也無效

      牛鍋巴小釩
      2026-04-23 18:16:56
      陳佩斯父親與周總理合影:周總理橫坐在欄桿上開懷大笑,十分罕見

      陳佩斯父親與周總理合影:周總理橫坐在欄桿上開懷大笑,十分罕見

      元哥說歷史
      2026-04-23 22:10:03
      世錦賽戰報:7位冠軍名將一輪游!世界冠軍連輸5局,3-5爆冷落后

      世錦賽戰報:7位冠軍名將一輪游!世界冠軍連輸5局,3-5爆冷落后

      小火箭愛體育
      2026-04-24 05:45:13
      美國現在徹底沒希望了,因為已經遇到了,世界上最強大的大國崛起

      美國現在徹底沒希望了,因為已經遇到了,世界上最強大的大國崛起

      混沌錄
      2026-04-23 16:50:14
      比7板圣陽股份還猛?這家4元低價+液冷龍頭  主力底部凈搶籌3億

      比7板圣陽股份還猛?這家4元低價+液冷龍頭 主力底部凈搶籌3億

      元芳說投資
      2026-04-24 06:10:09
      追覓推出星環無葉風扇MF10,2499元

      追覓推出星環無葉風扇MF10,2499元

      IT之家
      2026-04-22 19:29:11
      2026.4.24【A股早報】:中辦、國辦聯合印發重要文件!

      2026.4.24【A股早報】:中辦、國辦聯合印發重要文件!

      旌陽財經視角
      2026-04-24 06:30:03
      外媒:迪拜青年國民就亞冠戰町田絕平球被吹一事請求重賽

      外媒:迪拜青年國民就亞冠戰町田絕平球被吹一事請求重賽

      懂球帝
      2026-04-23 18:25:03
      注意!蘋果宣布 Mac mini 已經無法下單

      注意!蘋果宣布 Mac mini 已經無法下單

      XCiOS俱樂部
      2026-04-23 17:20:08
      郵報:特里一直被切爾西高層刻意疏遠,他不懂變通、丑聞太多

      郵報:特里一直被切爾西高層刻意疏遠,他不懂變通、丑聞太多

      懂球帝
      2026-04-24 01:06:10
      “天生的壞種,典型的倀鬼”,小學生地鐵站一個動作,被全網討伐

      “天生的壞種,典型的倀鬼”,小學生地鐵站一個動作,被全網討伐

      妍妍教育日記
      2026-04-16 09:10:09
      九億前夫不能生了

      九億前夫不能生了

      毒舌扒姨太
      2026-04-23 22:33:26
      德黑蘭上空傳出爆炸聲 防空系統啟動

      德黑蘭上空傳出爆炸聲 防空系統啟動

      北青網-北京青年報
      2026-04-24 07:16:18
      北京三環地下7米挖出古沉船,可否改寫兩個千年定論?

      北京三環地下7米挖出古沉船,可否改寫兩個千年定論?

      娛樂喵喵說
      2026-04-23 13:38:24
      “針灸”,不要再讀zhēn jiū了,錯得太想當然!

      “針灸”,不要再讀zhēn jiū了,錯得太想當然!

      未央看點
      2026-04-24 00:12:52
      張雪自曝供應鏈出現危機,正遭遇業內圍剿

      張雪自曝供應鏈出現危機,正遭遇業內圍剿

      童叔不飆車
      2026-04-21 21:50:42
      2032奧運舉辦地揭曉:小城市以72-5票意外當選

      2032奧運舉辦地揭曉:小城市以72-5票意外當選

      月下守候
      2026-04-23 01:48:46
      因為GPT-image-2,整個互聯網都變成了巨大的黑暗森林。

      因為GPT-image-2,整個互聯網都變成了巨大的黑暗森林。

      數字生命卡茲克
      2026-04-23 10:13:15
      2026-04-24 08:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12839文章數 142635關注度
      往期回顧 全部

      科技要聞

      馬斯克喊出"史上最大產品",但量產難預測

      頭條要聞

      特朗普發文后 伊朗最高領袖、總統、議長、外長齊發聲

      頭條要聞

      特朗普發文后 伊朗最高領袖、總統、議長、外長齊發聲

      體育要聞

      給文班剃頭的馬刺DJ,成為NBA最佳第六人

      娛樂要聞

      王大陸因涉黑討債被判 女友也一同獲刑

      財經要聞

      普華永道賠償10億 恒大股東見到"回頭錢"

      汽車要聞

      預售30.29萬起 嵐圖泰山X8配896線激光雷達

      態度原創

      游戲
      時尚
      旅游
      房產
      藝術

      《刺客信條4:黑旗 記憶重置》前瞻:總有一天我會回到你身邊"/> 主站 商城 論壇 自運營 登錄 注冊 《刺客信條4:黑旗 記憶重置》前瞻:總有一天我會...

      李昀銳:林深見木

      旅游要聞

      走進櫸溪村

      房產要聞

      三亞安居房,突然官宣!

      藝術要聞

      罕見曝光!毛澤東 36 幅經典對聯,每一幅都是絕品!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中国少妇内射xxxhd| 四虎影视214hu永久免费观看| 羞羞影院午夜男女爽爽| 日韩乱码人妻无码中文字幕视频| 日日噜噜夜夜狠狠视频| 亚洲伊人色| 最新精品露脸国产在线| 久久欧美国产伦子伦精品| 日韩内射美女人妻一区二区三区 | 久久精品国产99国产精品导航| 大方县| 国产精品久久精品三级| 国产xxxx| 少妇被粗大的猛烈xx动态图| 久久ww| 国产精品白浆一区二小说| 亚洲中文字幕av| 精品偷拍一区二区| 亚洲国产精品久久久久4婷婷| 国产xxxx| 18禁黄无码免费网站高潮| 娇小萝被两个黑人用半米长| 无码专区无码专区视频网址 | 69久久精品无码一区二区| 中文字幕av久久波多野结| 国产精品爆乳奶水无码视频免费| 国产又粗又爽视频| 中文无码一区二区不卡av| 一本色道久久88综合无码| 熟妇人妻午夜寂寞影院| 亚欧精品人妻| 亚洲午夜性猛春交xxxx| 99在线视频免费观看| 色色二区| 久久一级电影| 欧美日韩在线视频一区| 成人国产一区二区三区| 国产女人18毛片水真多1| 人妻精品动漫H无码中字| 精品一区二区三区自拍图片区| 97在线视频观看|