網易首頁 > 網易號 > 正文申請入駐

微軟提出Computer-Using World Model，教智能體理解動作的后果

2026-03-09 11:59:44　來源: 機器之心Pro

河北舉報

分享至

把大模型「放進電腦里」，會出現一種很奇特的反差：

它能寫代碼、能推理、能把論文總結得頭頭是道；但一旦讓它去操作 Excel、Word 這種真實桌面軟件，卻像第一次用電腦的人 -- 點錯菜單、來回切換，甚至在同一頁里循環點擊。

很多人第一反應會覺得是 Agent 沒看清按鈕，或者沒理解任務，不知道界面上各個選項是什么意思。但在真實軟件里，更大的問題往往不是「看不見」，而是「不知道點下去會發生什么」。

在同一個界面上，不同的操作會把系統帶到完全不同的狀態，一旦點錯，往往很難簡單撤銷。操作會產生延遲，流程被打斷，有時甚至會直接破壞文檔。因此，關鍵不只是識別界面或讀懂指令，而是能提前判斷每個動作可能帶來的結果。

人學習使用軟件時，看起來像是在界面里「到處試一試」。

比如你要給一個 Excel 工作簿加密。面對界面時，你會下意識地判斷：點這個入口會不會彈出密碼窗口？點那個標簽只是切換視圖，還是在真正推進任務？哪個操作更像是在朝目標靠近？

你并不是隨便點擊，而是在挑一個更可能有效的下一步。

這種在行動前先預想結果、再用一次操作去驗證的過程，在認知科學中通常被稱為反事實推理。

很多時候，人并不是等系統反饋才知道對錯，而是先對可能發生的結果有一個大致預期，再去確認。

相比之下，不少 GUI Agent 更像「看一步、做一步」：它能讀懂當前截圖里的內容，卻缺少對「這個動作通常會帶來什么變化」的判斷，因此只能在真實環境中反復嘗試，試錯成本也更高。

CUWM：在真正點擊之前，先在「腦海里點一遍」

微軟研究團隊提出的 Computer-Using World Model（CUWM），想解決的正是這個問題。它做的事情可以簡單理解為：在真的操作軟件之前，先讓智能體「想象一下會發生什么」。

論文鏈接：https://arxiv.org/html/2602.17365v1

更具體地說，給定當前界面的截圖，以及一個候選操作（例如點擊某個按鈕），CUWM 會預測執行這個操作后的界面圖像。

圖 1 展示了以當前軟件界面的截圖和對應操作作為輸入，CUWM 預測執行該操作后出現的下一步界面圖像。當智能體面對多個可選動作時，它不需要立刻在真實軟件里一個個去試，而是先把這些動作交給世界模型模擬 —— 于是會得到幾種「想象出來的下一步界面」。

圖 1：CUWM 預測的不同動作導致的軟件界面圖片。從同一當前界面（current state）出發，執行不同操作，如點擊 Encrypt with Password、打開 Images 或放大視圖，會得到不同的下一個狀態（例如彈出密碼窗口、展開工具面板或改變顯示比例）。

接下來，智能體只需比較：哪一種結果更接近任務目標？選出最合理的一步，再在真實系統中執行。

論文把這個過程稱為world-model-guided test-time action search。重要的是，智能體本身的策略是凍結的，沒有重新訓練；性能提升來自于更好的「預演」和更充分的測試時計算，而不是把 Agent 本身變得更復雜。

換句話說，CUWM 不是在教智能體更會操作，而是在給它一種「先想后做」的能力。

圖 2：CUWM 概述：給定當前 UI 截圖與動作（如點擊 Excel 的列「H」），CUWM 先生成一段聚焦局部變化的過渡描述（Stage 1），再在保持不變區域穩定的前提下對截圖進行條件編輯，生成預測的下一狀態（Stage 2）。

關鍵設計：模型關注的不是像素，而是「變化」

桌面軟件 UI 的特點是：大部分區域長期不變，變化通常發生在局部 —— 選區高亮、面板展開、彈窗出現、光標移動…… 如果端到端預測整張下一幀截圖，模型既要背負巨大的不變背景，又要捕捉極小但關鍵的變化，低效且容易「注意力錯位」。

CUWM 的關鍵設計是把「下一步預測」拆成兩段：

Stage 1：先說清楚「變了什么」（Textual State Transition）：輸出一段結構化、盡量簡潔的「過渡描述」，只寫與動作相關的界面變化；
Stage 2：再把變化落實到截圖上（Visual State Realization）：用條件圖像編輯把變化渲染到原圖上，盡量保持不變區域穩定，生成下一步截圖。

這一分解的重點不在「畫得多逼真」，而在讓模型學到：動作改變的是系統狀態，而智能體真正需要的是「點了之后世界怎么變」。

圖 2 展示了 CUWM 的兩階段流程：先生成「變化描述」，再把變化實現成下一幀 UI。這種「what changes /how it appears」的分解，讓模型把注意力放在動作后果上，而不是低效地重繪整張界面。

訓練數據怎么來：從真實交互里抽三元組，再自動寫「變化描述」

CUWM 不依賴昂貴的在線強化學習環境，而是從真實軟件的交互軌跡中構造訓練樣本：把一次操作前后的界面截圖配對，再附上對應的動作表示，形成標準的 ((s_t, a_t, s_{t+1})) 訓練三元組。

關鍵在于 Stage 1 的監督信號 ——「變化描述」怎么得到？論文做法是用 GPT-5 作為自動標注器：對每個三元組生成一段簡潔的 UI 變化描述，明確「哪些變了、哪些不變」，用來監督微調 Stage 1。

為了讓描述更短、更結構化、更少幻覺，作者還在 SFT 之后用 GRPO 做輕量 RL 細化：獎勵由 LLM-as-a-Judge 的結構一致性評分與長度懲罰組合，從而有效覆蓋關鍵 UI 結構。

結果：智能體開始「規劃行動」

在實驗中，智能體需要完成「給 Excel 工作簿添加密碼保護」的任務。它不會立刻在真實環境里點來點去，而是先提出多個候選動作，并逐個調用 CUWM 進行模擬，得到每個動作可能帶來的「下一步界面」。

隨后，智能體把這些模擬結果與任務目標進行對照，最終選擇點擊「Protect Workbook」—— 因為這一候選動作對應的預測界面最符合「進入保護 / 加密流程」的預期方向。

那么，智能體是如何在點擊前完成一次「內部試錯」的？圖 3 給出了直觀示例。

圖 3：先模擬后執行：world model 做「模擬器」，Agent 做「決策者」。智能體先提出多個候選動作，CUWM 分別預測每個動作會導致怎樣的下一步 UI；智能體再根據這些預測結果與任務目標的匹配程度，選擇更可能推進任務的那一步（示例中為「Protect Workbook」），從而減少真實環境中的反復試錯與無效點擊。

這正是 CUWM 的價值所在：把高成本的環境試錯轉移到模型內部。智能體先在「想象出來的下一屏」里完成比較與選擇，再把最有希望的一步落到真實軟件執行。從「高成本試錯」變成「低成本模擬」，顯著降低無效操作與循環點擊，讓 GUI Agent 從反應式點擊走向規劃式決策。

更進一步，論文指出，性能提升的關鍵更多來自對界面結構變化的正確預測（例如面板是否展開、關鍵入口是否出現），而不只是生成圖像的視覺逼真度。這也側面說明，GUI Agent 的核心能力并非純視覺識別，而是面向交互的規劃與決策。

更深層的意義：Agent 決策能力意味著什么

如果把大模型的發展看成一條連續的能力變化，其實不只是「更聰明了」，而是能力的類型在改變。

過去，大模型主要解決的是理解與表達的問題：它能讀懂一段話、回答問題、寫文章、解釋概念。這些能力本質上都發生在「信息空間」里 —— 輸入是文本，輸出也是文本。模型只需要給出一個合理的回答，不需要承擔真實后果。

但當 AI 進入軟件環境，問題發生了變化，這里不再是「回答是否合理」，而是「動作是否有效」。一次點擊、一次輸入、一次拖拽，都會改變系統狀態，并影響之后還能不能繼續完成任務。也就是說，AI 不再只是解釋世界，而是在改變世界（哪怕只是數字世界）。

這時，Agent 的核心能力就變成了決策能力：它必須在多個可能動作中做選擇，并對選擇的后果負責。關鍵不再是「這句話對不對」，而是「這一步走完之后，任務更接近還是更遠」。

人類在操作軟件時，之所以效率很高，是因為在行動前會形成一種內部判斷：這個操作大概會帶來什么結果。如果結果不符合目標，往往在點擊前就會放棄，而不是等系統報錯。這其實是一種對「動作 → 狀態變化」的理解。

而很多當前的 GUI Agent 缺少的正是這一層。它能識別界面、能理解指令，卻仍然主要依賴真實交互去排除錯誤路徑。也就是在環境里不斷試錯，直到碰到正確步驟。換句話說，它更像是在反應，而不是在決策。

CUWM 的意義，不只是提高成功率，而是讓 Agent 開始具備一種新的能力：在執行之前先評估后果。

當智能體可以先模擬不同動作帶來的不同未來，再選擇更合適的一步時，它做的就不再只是「操作界面」，而是進行路徑規劃。試錯仍然存在，但優先發生在內部，而不是直接作用于真實系統。

因此，這里的轉變可以這樣理解：大模型讓 AI 學會了「如何回答」，而決策能力讓 AI 開始學會「如何行動」。當 AI 能根據預期后果來選擇動作時，它才真正從一個對話工具，變成一個能夠在數字環境中推進任務的行動體。

作者介紹

CUWM 的作者是微軟實習生以及微軟 UFO 團隊的成員，包括Yiming Guan、Rui Yu、John Zhang、Lu Wang、Chaoyun Zhang、Liqun Li、Bo Qiao、Si Qin、He Huang、Fangkai Yang、Pu Zhao等。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.