<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      微軟提出Computer-Using World Model,教智能體理解動(dòng)作的后果

      0
      分享至



      把大模型「放進(jìn)電腦里」,會(huì)出現(xiàn)一種很奇特的反差:

      它能寫(xiě)代碼、能推理、能把論文總結(jié)得頭頭是道;但一旦讓它去操作 Excel、Word 這種真實(shí)桌面軟件,卻像第一次用電腦的人 -- 點(diǎn)錯(cuò)菜單、來(lái)回切換,甚至在同一頁(yè)里循環(huán)點(diǎn)擊。

      很多人第一反應(yīng)會(huì)覺(jué)得是 Agent 沒(méi)看清按鈕,或者沒(méi)理解任務(wù),不知道界面上各個(gè)選項(xiàng)是什么意思。但在真實(shí)軟件里,更大的問(wèn)題往往不是「看不見(jiàn)」,而是「不知道點(diǎn)下去會(huì)發(fā)生什么」。

      在同一個(gè)界面上,不同的操作會(huì)把系統(tǒng)帶到完全不同的狀態(tài),一旦點(diǎn)錯(cuò),往往很難簡(jiǎn)單撤銷(xiāo)。操作會(huì)產(chǎn)生延遲,流程被打斷,有時(shí)甚至?xí)苯悠茐奈臋n。因此,關(guān)鍵不只是識(shí)別界面或讀懂指令,而是能提前判斷每個(gè)動(dòng)作可能帶來(lái)的結(jié)果。

      人學(xué)習(xí)使用軟件時(shí),看起來(lái)像是在界面里「到處試一試」。

      比如你要給一個(gè) Excel 工作簿加密。面對(duì)界面時(shí),你會(huì)下意識(shí)地判斷:點(diǎn)這個(gè)入口會(huì)不會(huì)彈出密碼窗口?點(diǎn)那個(gè)標(biāo)簽只是切換視圖,還是在真正推進(jìn)任務(wù)?哪個(gè)操作更像是在朝目標(biāo)靠近?

      你并不是隨便點(diǎn)擊,而是在挑一個(gè)更可能有效的下一步。

      這種在行動(dòng)前先預(yù)想結(jié)果、再用一次操作去驗(yàn)證的過(guò)程,在認(rèn)知科學(xué)中通常被稱(chēng)為反事實(shí)推理。

      很多時(shí)候,人并不是等系統(tǒng)反饋才知道對(duì)錯(cuò),而是先對(duì)可能發(fā)生的結(jié)果有一個(gè)大致預(yù)期,再去確認(rèn)。

      相比之下,不少 GUI Agent 更像「看一步、做一步」:它能讀懂當(dāng)前截圖里的內(nèi)容,卻缺少對(duì)「這個(gè)動(dòng)作通常會(huì)帶來(lái)什么變化」的判斷,因此只能在真實(shí)環(huán)境中反復(fù)嘗試,試錯(cuò)成本也更高。

      CUWM:在真正點(diǎn)擊之前,先在「腦海里點(diǎn)一遍」

      微軟研究團(tuán)隊(duì)提出的 Computer-Using World Model(CUWM),想解決的正是這個(gè)問(wèn)題。它做的事情可以簡(jiǎn)單理解為:在真的操作軟件之前,先讓智能體「想象一下會(huì)發(fā)生什么」。



      • 論文鏈接:https://arxiv.org/html/2602.17365v1

      更具體地說(shuō),給定當(dāng)前界面的截圖,以及一個(gè)候選操作(例如點(diǎn)擊某個(gè)按鈕),CUWM 會(huì)預(yù)測(cè)執(zhí)行這個(gè)操作后的界面圖像。

      圖 1 展示了以當(dāng)前軟件界面的截圖和對(duì)應(yīng)操作作為輸入,CUWM 預(yù)測(cè)執(zhí)行該操作后出現(xiàn)的下一步界面圖像。當(dāng)智能體面對(duì)多個(gè)可選動(dòng)作時(shí),它不需要立刻在真實(shí)軟件里一個(gè)個(gè)去試,而是先把這些動(dòng)作交給世界模型模擬 —— 于是會(huì)得到幾種「想象出來(lái)的下一步界面」。



      圖 1:CUWM 預(yù)測(cè)的不同動(dòng)作導(dǎo)致的軟件界面圖片。從同一當(dāng)前界面(current state)出發(fā),執(zhí)行不同操作,如點(diǎn)擊 Encrypt with Password、打開(kāi) Images 或放大視圖,會(huì)得到不同的下一個(gè)狀態(tài)(例如彈出密碼窗口、展開(kāi)工具面板或改變顯示比例)。

      接下來(lái),智能體只需比較:哪一種結(jié)果更接近任務(wù)目標(biāo)?選出最合理的一步,再在真實(shí)系統(tǒng)中執(zhí)行。

      論文把這個(gè)過(guò)程稱(chēng)為world-model-guided test-time action search。重要的是,智能體本身的策略是凍結(jié)的,沒(méi)有重新訓(xùn)練;性能提升來(lái)自于更好的「預(yù)演」和更充分的測(cè)試時(shí)計(jì)算,而不是把 Agent 本身變得更復(fù)雜。

      換句話(huà)說(shuō),CUWM 不是在教智能體更會(huì)操作,而是在給它一種「先想后做」的能力。



      圖 2:CUWM 概述:給定當(dāng)前 UI 截圖與動(dòng)作(如點(diǎn)擊 Excel 的列「H」),CUWM 先生成一段聚焦局部變化的過(guò)渡描述(Stage 1),再在保持不變區(qū)域穩(wěn)定的前提下對(duì)截圖進(jìn)行條件編輯,生成預(yù)測(cè)的下一狀態(tài)(Stage 2)。

      關(guān)鍵設(shè)計(jì):模型關(guān)注的不是像素,而是「變化」

      桌面軟件 UI 的特點(diǎn)是:大部分區(qū)域長(zhǎng)期不變,變化通常發(fā)生在局部 —— 選區(qū)高亮、面板展開(kāi)、彈窗出現(xiàn)、光標(biāo)移動(dòng)…… 如果端到端預(yù)測(cè)整張下一幀截圖,模型既要背負(fù)巨大的不變背景,又要捕捉極小但關(guān)鍵的變化,低效且容易「注意力錯(cuò)位」。

      CUWM 的關(guān)鍵設(shè)計(jì)是把「下一步預(yù)測(cè)」拆成兩段:

      • Stage 1:先說(shuō)清楚「變了什么」(Textual State Transition):輸出一段結(jié)構(gòu)化、盡量簡(jiǎn)潔的「過(guò)渡描述」,只寫(xiě)與動(dòng)作相關(guān)的界面變化;
      • Stage 2:再把變化落實(shí)到截圖上(Visual State Realization):用條件圖像編輯把變化渲染到原圖上,盡量保持不變區(qū)域穩(wěn)定,生成下一步截圖。

      這一分解的重點(diǎn)不在「畫(huà)得多逼真」,而在讓模型學(xué)到:動(dòng)作改變的是系統(tǒng)狀態(tài),而智能體真正需要的是「點(diǎn)了之后世界怎么變」。

      圖 2 展示了 CUWM 的兩階段流程:先生成「變化描述」,再把變化實(shí)現(xiàn)成下一幀 UI。這種「what changes /how it appears」的分解,讓模型把注意力放在動(dòng)作后果上,而不是低效地重繪整張界面。

      訓(xùn)練數(shù)據(jù)怎么來(lái):從真實(shí)交互里抽三元組,再自動(dòng)寫(xiě)「變化描述」

      CUWM 不依賴(lài)昂貴的在線(xiàn)強(qiáng)化學(xué)習(xí)環(huán)境,而是從真實(shí)軟件的交互軌跡中構(gòu)造訓(xùn)練樣本:把一次操作前后的界面截圖配對(duì),再附上對(duì)應(yīng)的動(dòng)作表示,形成標(biāo)準(zhǔn)的 ((s_t, a_t, s_{t+1})) 訓(xùn)練三元組。

      關(guān)鍵在于 Stage 1 的監(jiān)督信號(hào) ——「變化描述」怎么得到?論文做法是用 GPT-5 作為自動(dòng)標(biāo)注器:對(duì)每個(gè)三元組生成一段簡(jiǎn)潔的 UI 變化描述,明確「哪些變了、哪些不變」,用來(lái)監(jiān)督微調(diào) Stage 1。

      為了讓描述更短、更結(jié)構(gòu)化、更少幻覺(jué),作者還在 SFT 之后用 GRPO 做輕量 RL 細(xì)化:獎(jiǎng)勵(lì)由 LLM-as-a-Judge 的結(jié)構(gòu)一致性評(píng)分與長(zhǎng)度懲罰組合,從而有效覆蓋關(guān)鍵 UI 結(jié)構(gòu)。

      結(jié)果:智能體開(kāi)始「規(guī)劃行動(dòng)」

      在實(shí)驗(yàn)中,智能體需要完成「給 Excel 工作簿添加密碼保護(hù)」的任務(wù)。它不會(huì)立刻在真實(shí)環(huán)境里點(diǎn)來(lái)點(diǎn)去,而是先提出多個(gè)候選動(dòng)作,并逐個(gè)調(diào)用 CUWM 進(jìn)行模擬,得到每個(gè)動(dòng)作可能帶來(lái)的「下一步界面」。

      隨后,智能體把這些模擬結(jié)果與任務(wù)目標(biāo)進(jìn)行對(duì)照,最終選擇點(diǎn)擊「Protect Workbook」—— 因?yàn)檫@一候選動(dòng)作對(duì)應(yīng)的預(yù)測(cè)界面最符合「進(jìn)入保護(hù) / 加密流程」的預(yù)期方向。

      那么,智能體是如何在點(diǎn)擊前完成一次「內(nèi)部試錯(cuò)」的?圖 3 給出了直觀示例。



      圖 3:先模擬后執(zhí)行:world model 做「模擬器」,Agent 做「決策者」。 智能體先提出多個(gè)候選動(dòng)作,CUWM 分別預(yù)測(cè)每個(gè)動(dòng)作會(huì)導(dǎo)致怎樣的下一步 UI;智能體再根據(jù)這些預(yù)測(cè)結(jié)果與任務(wù)目標(biāo)的匹配程度,選擇更可能推進(jìn)任務(wù)的那一步(示例中為「Protect Workbook」),從而減少真實(shí)環(huán)境中的反復(fù)試錯(cuò)與無(wú)效點(diǎn)擊。

      這正是 CUWM 的價(jià)值所在:把高成本的環(huán)境試錯(cuò)轉(zhuǎn)移到模型內(nèi)部。智能體先在「想象出來(lái)的下一屏」里完成比較與選擇,再把最有希望的一步落到真實(shí)軟件執(zhí)行。從「高成本試錯(cuò)」變成「低成本模擬」,顯著降低無(wú)效操作與循環(huán)點(diǎn)擊,讓 GUI Agent 從反應(yīng)式點(diǎn)擊走向規(guī)劃式?jīng)Q策。

      更進(jìn)一步,論文指出,性能提升的關(guān)鍵更多來(lái)自對(duì)界面結(jié)構(gòu)變化的正確預(yù)測(cè)(例如面板是否展開(kāi)、關(guān)鍵入口是否出現(xiàn)),而不只是生成圖像的視覺(jué)逼真度。這也側(cè)面說(shuō)明,GUI Agent 的核心能力并非純視覺(jué)識(shí)別,而是面向交互的規(guī)劃與決策。

      更深層的意義:Agent 決策能力意味著什么

      如果把大模型的發(fā)展看成一條連續(xù)的能力變化,其實(shí)不只是「更聰明了」,而是能力的類(lèi)型在改變。

      過(guò)去,大模型主要解決的是理解與表達(dá)的問(wèn)題:它能讀懂一段話(huà)、回答問(wèn)題、寫(xiě)文章、解釋概念。這些能力本質(zhì)上都發(fā)生在「信息空間」里 —— 輸入是文本,輸出也是文本。模型只需要給出一個(gè)合理的回答,不需要承擔(dān)真實(shí)后果。

      但當(dāng) AI 進(jìn)入軟件環(huán)境,問(wèn)題發(fā)生了變化,這里不再是「回答是否合理」,而是「動(dòng)作是否有效」。一次點(diǎn)擊、一次輸入、一次拖拽,都會(huì)改變系統(tǒng)狀態(tài),并影響之后還能不能繼續(xù)完成任務(wù)。也就是說(shuō),AI 不再只是解釋世界,而是在改變世界(哪怕只是數(shù)字世界)。

      這時(shí),Agent 的核心能力就變成了決策能力:它必須在多個(gè)可能動(dòng)作中做選擇,并對(duì)選擇的后果負(fù)責(zé)。關(guān)鍵不再是「這句話(huà)對(duì)不對(duì)」,而是「這一步走完之后,任務(wù)更接近還是更遠(yuǎn)」。

      人類(lèi)在操作軟件時(shí),之所以效率很高,是因?yàn)樵谛袆?dòng)前會(huì)形成一種內(nèi)部判斷:這個(gè)操作大概會(huì)帶來(lái)什么結(jié)果。如果結(jié)果不符合目標(biāo),往往在點(diǎn)擊前就會(huì)放棄,而不是等系統(tǒng)報(bào)錯(cuò)。這其實(shí)是一種對(duì)「動(dòng)作 → 狀態(tài)變化」的理解。

      而很多當(dāng)前的 GUI Agent 缺少的正是這一層。它能識(shí)別界面、能理解指令,卻仍然主要依賴(lài)真實(shí)交互去排除錯(cuò)誤路徑。也就是在環(huán)境里不斷試錯(cuò),直到碰到正確步驟。換句話(huà)說(shuō),它更像是在反應(yīng),而不是在決策。

      CUWM 的意義,不只是提高成功率,而是讓 Agent 開(kāi)始具備一種新的能力:在執(zhí)行之前先評(píng)估后果。

      當(dāng)智能體可以先模擬不同動(dòng)作帶來(lái)的不同未來(lái),再選擇更合適的一步時(shí),它做的就不再只是「操作界面」,而是進(jìn)行路徑規(guī)劃。試錯(cuò)仍然存在,但優(yōu)先發(fā)生在內(nèi)部,而不是直接作用于真實(shí)系統(tǒng)。

      因此,這里的轉(zhuǎn)變可以這樣理解:大模型讓 AI 學(xué)會(huì)了「如何回答」,而決策能力讓 AI 開(kāi)始學(xué)會(huì)「如何行動(dòng)」。當(dāng) AI 能根據(jù)預(yù)期后果來(lái)選擇動(dòng)作時(shí),它才真正從一個(gè)對(duì)話(huà)工具,變成一個(gè)能夠在數(shù)字環(huán)境中推進(jìn)任務(wù)的行動(dòng)體。

      作者介紹

      CUWM 的作者是微軟實(shí)習(xí)生以及微軟 UFO 團(tuán)隊(duì)的成員,包括Yiming Guan、Rui Yu、John Zhang、Lu Wang、Chaoyun Zhang、Liqun Li、Bo Qiao、Si Qin、He Huang、Fangkai Yang、Pu Zhao等。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      叫停!上海浦東雙子塔地標(biāo)暫緩建設(shè)

      叫停!上海浦東雙子塔地標(biāo)暫緩建設(shè)

      GA環(huán)球建筑
      2026-03-10 00:07:45
      用親人生命逼她們低頭!伊朗女足的“國(guó)歌表演”,看哭了全世界

      用親人生命逼她們低頭!伊朗女足的“國(guó)歌表演”,看哭了全世界

      戧詞奪理
      2026-03-09 16:42:57
      聚餐后瘋狂砸家后續(xù):原因曝光,想讓兒子擔(dān)保借錢(qián),女兒再曝黑料

      聚餐后瘋狂砸家后續(xù):原因曝光,想讓兒子擔(dān)保借錢(qián),女兒再曝黑料

      奇思妙想草葉君
      2026-03-10 01:26:22
      2-1!澳大利亞隊(duì)悲劇了,挑選中國(guó)女足,卻遇亞洲第2,進(jìn)4強(qiáng)難了

      2-1!澳大利亞隊(duì)悲劇了,挑選中國(guó)女足,卻遇亞洲第2,進(jìn)4強(qiáng)難了

      何老師呀
      2026-03-09 19:48:19
      投降國(guó)誕生,伊朗硬撐了1周,特朗普收到信函,委代總統(tǒng)做出示范

      投降國(guó)誕生,伊朗硬撐了1周,特朗普收到信函,委代總統(tǒng)做出示范

      琴琴有氧運(yùn)動(dòng)
      2026-03-10 04:09:20
      迪拜“神話(huà)”一夜歸零,導(dǎo)彈一響富豪全跑,零稅收也留不住人?

      迪拜“神話(huà)”一夜歸零,導(dǎo)彈一響富豪全跑,零稅收也留不住人?

      老特有話(huà)說(shuō)
      2026-03-09 15:15:24
      黃金、白銀大跌!美元飆升,原油飆升!

      黃金、白銀大跌!美元飆升,原油飆升!

      每日經(jīng)濟(jì)新聞
      2026-03-09 10:07:57
      一堆人不知道!iPhone內(nèi)置防暈車(chē)神器:網(wǎng)友實(shí)測(cè)超強(qiáng)大

      一堆人不知道!iPhone內(nèi)置防暈車(chē)神器:網(wǎng)友實(shí)測(cè)超強(qiáng)大

      快科技
      2026-03-08 18:15:04
      重磅:曝烏克蘭準(zhǔn)備對(duì)俄羅斯領(lǐng)土發(fā)動(dòng)春季大反攻!

      重磅:曝烏克蘭準(zhǔn)備對(duì)俄羅斯領(lǐng)土發(fā)動(dòng)春季大反攻!

      項(xiàng)鵬飛
      2026-03-09 15:57:15
      驚喜2-1!中國(guó)女足逆轉(zhuǎn)奪頭名,破20年魔咒,朝鮮逃紅牌+一度罷賽

      驚喜2-1!中國(guó)女足逆轉(zhuǎn)奪頭名,破20年魔咒,朝鮮逃紅牌+一度罷賽

      侃球熊弟
      2026-03-09 18:05:04
      亞洲杯神奇一幕:僅靠多2個(gè)進(jìn)球出線(xiàn),中國(guó)女足1/4決賽時(shí)間已確定

      亞洲杯神奇一幕:僅靠多2個(gè)進(jìn)球出線(xiàn),中國(guó)女足1/4決賽時(shí)間已確定

      侃球熊弟
      2026-03-10 00:31:37
      張藝興被封殺事件:網(wǎng)傳張藝興因去年年底赴境外敏感地區(qū)參加活動(dòng)未提前報(bào)備而被開(kāi)除。

      張藝興被封殺事件:網(wǎng)傳張藝興因去年年底赴境外敏感地區(qū)參加活動(dòng)未提前報(bào)備而被開(kāi)除。

      貼小君
      2026-03-10 00:02:42
      伊朗電視臺(tái)稱(chēng)穆杰塔巴受傷,當(dāng)選至今仍未露面

      伊朗電視臺(tái)稱(chēng)穆杰塔巴受傷,當(dāng)選至今仍未露面

      山河路口
      2026-03-09 20:08:17
      2026年4月1日起全國(guó)統(tǒng)一施行國(guó)家醫(yī)保局第7號(hào)令,所有參保人必看

      2026年4月1日起全國(guó)統(tǒng)一施行國(guó)家醫(yī)保局第7號(hào)令,所有參保人必看

      西莫的藝術(shù)宮殿
      2026-03-09 12:19:06
      大風(fēng)315 | 游客稱(chēng)飛3000公里在西雙版納一景區(qū)游玩,因明星錄制綜藝節(jié)目被清場(chǎng);景區(qū):具體情況需由游客回應(yīng)

      大風(fēng)315 | 游客稱(chēng)飛3000公里在西雙版納一景區(qū)游玩,因明星錄制綜藝節(jié)目被清場(chǎng);景區(qū):具體情況需由游客回應(yīng)

      大風(fēng)新聞
      2026-03-09 17:06:09
      伊朗新任最高領(lǐng)袖亮相,他“冒死”當(dāng)選的三大原因!

      伊朗新任最高領(lǐng)袖亮相,他“冒死”當(dāng)選的三大原因!

      仕道
      2026-03-09 10:21:53
      江西母女喝了3瓶牛奶,被老公數(shù)落2小時(shí),眼神太嚇人,網(wǎng)友炸鍋

      江西母女喝了3瓶牛奶,被老公數(shù)落2小時(shí),眼神太嚇人,網(wǎng)友炸鍋

      青梅侃史啊
      2026-03-08 07:18:01
      伊朗還能高強(qiáng)度作戰(zhàn)至少半年?專(zhuān)家:影響戰(zhàn)爭(zhēng)長(zhǎng)短和走向的因素有很多

      伊朗還能高強(qiáng)度作戰(zhàn)至少半年?專(zhuān)家:影響戰(zhàn)爭(zhēng)長(zhǎng)短和走向的因素有很多

      紅星新聞
      2026-03-09 20:44:41
      官方:阿根廷國(guó)家隊(duì)將于3月12日在工體舉行2026世界杯發(fā)布會(huì)

      官方:阿根廷國(guó)家隊(duì)將于3月12日在工體舉行2026世界杯發(fā)布會(huì)

      懂球帝
      2026-03-09 21:09:05
      伊朗公開(kāi)道歉!海灣國(guó)家醒悟,反將美一軍,特朗普弄巧成拙被逼宮

      伊朗公開(kāi)道歉!海灣國(guó)家醒悟,反將美一軍,特朗普弄巧成拙被逼宮

      策略述
      2026-03-09 16:10:11
      2026-03-10 05:24:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專(zhuān)業(yè)的人工智能媒體
      12451文章數(shù) 142579關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw更新,"養(yǎng)蝦"再也不會(huì)犯健忘癥了

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      體育要聞

      36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

      娛樂(lè)要聞

      薛之謙老婆懷二胎,現(xiàn)身產(chǎn)檢心情愉快

      財(cái)經(jīng)要聞

      油價(jià)破100美元年內(nèi)漲80% 全球市場(chǎng)劇震

      汽車(chē)要聞

      對(duì)標(biāo)奔馳小號(hào)G級(jí) 路虎小型衛(wèi)士最新消息曝光

      態(tài)度原創(chuàng)

      親子
      旅游
      藝術(shù)
      數(shù)碼
      本地

      親子要聞

      框框。。。

      旅游要聞

      楓葉小鎮(zhèn)奧萊落子寶山濱江!賦能?chē)?guó)際郵輪度假區(qū)提質(zhì)升級(jí)

      藝術(shù)要聞

      扎哈·哈迪德事務(wù)所未來(lái)或更名

      數(shù)碼要聞

      ROG槍神10X:當(dāng)全息投影闖入頂級(jí)電競(jìng)旗艦專(zhuān)業(yè)電競(jìng)臺(tái)式機(jī)

      本地新聞

      食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版