<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      蘋果AI研究院突破:讓電腦代理人既能點擊又能編程的混合行動技術(shù)

      0
      分享至


      這項由蘋果公司和香港大學聯(lián)合開展的研究發(fā)表于2025年10月,論文編號為arXiv:2510.17790v1,有興趣深入了解的讀者可以通過該編號查詢完整論文。研究團隊由蘋果公司的楊雨昊、楊振、竇梓藝等多位研究員以及香港大學的黃超教授等學者組成,他們共同開發(fā)了一個名為UltraCUA的突破性AI系統(tǒng)。

      在我們的數(shù)字時代,幾乎每個人每天都要和電腦打交道——點擊鼠標、敲打鍵盤、拖拽文件。但是,如果有一個AI助手能夠像人類一樣操作電腦,會是什么樣子呢?目前的AI助手雖然能夠通過API接口完成很多任務(wù),但它們無法像人類一樣直接操作屏幕上的按鈕和菜單。而現(xiàn)有的電腦操作AI又只能進行基礎(chǔ)的點擊和輸入,無法調(diào)用高級的程序功能。這就像是一個廚師要么只能用最基本的刀具切菜,要么只能使用高科技設(shè)備但不能碰任何食材一樣。

      蘋果研究團隊發(fā)現(xiàn)了這個問題的核心所在:為什么不能讓AI既會"手工操作"又會"程序調(diào)用"呢?他們開發(fā)的UltraCUA系統(tǒng)就像是培養(yǎng)了一個既能精細手工制作又能熟練使用各種現(xiàn)代化工具的全能工匠。這個系統(tǒng)能夠在需要精確控制的時候使用鼠標點擊,在需要高效執(zhí)行的時候調(diào)用程序工具,真正實現(xiàn)了兩種能力的完美結(jié)合。

      一、傳統(tǒng)電腦AI的困境:只會一招的"專才"

      要理解這項研究的重要性,我們先來看看現(xiàn)有的電腦操作AI面臨的問題。目前的AI助手可以分為兩大類型,就像兩種不同的工人。

      第一種AI就像是只會使用基礎(chǔ)工具的學徒工。它們只能通過點擊、輸入、滾動這些最基本的動作來操作電腦,就好比一個人只能用最原始的工具來完成所有工作。比如說,如果要從多個電子表格中提取數(shù)據(jù),這種AI必須一步步地打開每個文件、手動選擇單元格、復制內(nèi)容、切換應(yīng)用程序、粘貼內(nèi)容。整個過程不僅耗時,而且任何一個步驟出錯都可能導致整個任務(wù)失敗,就像多米諾骨牌一樣產(chǎn)生連鎖反應(yīng)。

      第二種AI則像是高級技師,它們能夠直接調(diào)用各種API接口和程序工具,效率極高。這些AI在處理結(jié)構(gòu)化任務(wù)時表現(xiàn)優(yōu)異,在某些基準測試中甚至能達到80%以上的成功率。但是,它們有一個致命弱點:無法處理需要視覺判斷的任務(wù),無法像人類一樣看著屏幕進行操作。

      研究團隊通過大量實驗發(fā)現(xiàn),純粹依賴基礎(chǔ)操作的AI在復雜任務(wù)中的錯誤率會急劇上升。這是因為每增加一個操作步驟,出錯的可能性就會累積。就像搭積木一樣,積木越高,倒塌的風險就越大。而且,許多本來可以通過一個程序調(diào)用就能完成的任務(wù),卻需要幾十個基礎(chǔ)操作步驟,不僅效率低下,還容易出錯。

      更重要的是,當前的電腦操作AI與那些能夠使用豐富程序接口的AI之間存在著一道看似無法跨越的鴻溝。前者只能進行最基本的視覺操作,后者只能處理純程序任務(wù),兩者無法互補。這就好比一個團隊里有會開車的司機和會修車的技師,但他們無法協(xié)作,司機不懂維修,技師不會駕駛。

      二、革命性解決方案:混合行動的巧妙設(shè)計

      面對這個困境,蘋果研究團隊提出了一個革命性的解決方案:混合行動技術(shù)。這個概念的核心思想非常簡單卻又極其巧妙——為什么不能讓AI在同一個任務(wù)中既使用基礎(chǔ)的點擊操作,又調(diào)用高級的程序工具呢?

      混合行動就像是培養(yǎng)一個全能型選手。在需要精確視覺定位的時候,AI會像人類一樣點擊屏幕上的特定位置;在需要批量處理或復雜計算的時候,AI會直接調(diào)用相應(yīng)的程序工具。這種設(shè)計讓AI能夠在最合適的時機選擇最有效的操作方式。

      為了實現(xiàn)這個想法,研究團隊需要解決幾個關(guān)鍵問題。首先是工具收集問題。他們開發(fā)了一套自動化的工具收集系統(tǒng),這個系統(tǒng)就像是一個勤奮的圖書管理員,能夠從軟件文檔中提取有用的功能,整合開源社區(qū)的現(xiàn)有工具,甚至能夠讓AI自己編寫新的工具。比如,系統(tǒng)發(fā)現(xiàn)在VS Code中更改主題需要通過復雜的菜單導航時,它會自動提取快捷鍵信息,將其轉(zhuǎn)換為一個簡單的程序調(diào)用:vscode.set_theme()。

      其次是訓練數(shù)據(jù)問題。傳統(tǒng)的電腦操作數(shù)據(jù)集只包含基礎(chǔ)的GUI操作序列,完全沒有程序工具調(diào)用的示例。研究團隊設(shè)計了一個雙管齊下的合成數(shù)據(jù)生成引擎。這個引擎就像是一個創(chuàng)意十足的劇本作家,能夠創(chuàng)造出各種真實場景下的任務(wù),并確保每個任務(wù)都有可靠的驗證方法。

      他們的數(shù)據(jù)生成方法分為兩種策略。第一種是"評估器優(yōu)先"策略,就像是先制定好考試標準,然后設(shè)計符合標準的題目。系統(tǒng)首先收集各種狀態(tài)檢查函數(shù),比如檢查文件是否存在、檢查網(wǎng)頁URL是否正確等,然后將這些簡單檢查組合成復雜的驗證條件,最后讓AI生成滿足這些條件的任務(wù)。第二種是"指令優(yōu)先"策略,讓AI在電腦環(huán)境中自由探索,當遇到有趣的界面狀態(tài)時,就生成一個相應(yīng)的任務(wù)。

      最關(guān)鍵的是軌跡收集過程。研究團隊使用了一個多智能體系統(tǒng)來生成高質(zhì)量的混合行動演示。這個系統(tǒng)包含一個規(guī)劃智能體和一個執(zhí)行智能體,就像是一個優(yōu)秀的指揮家和一個技藝精湛的演奏者的組合。規(guī)劃智能體負責制定策略,決定什么時候使用程序工具,什么時候進行GUI操作;執(zhí)行智能體則負責精確地完成具體的操作。通過這種方式,他們收集了超過26,800個成功的混合行動軌跡。

      三、智能化的工具生態(tài)系統(tǒng):從文檔到代碼的全方位收集

      要讓AI能夠真正掌握混合行動,首先需要為它準備一個豐富的工具箱。研究團隊開發(fā)的工具收集系統(tǒng)就像是一個不知疲倦的工具收集家,能夠從各種渠道獲取和創(chuàng)造實用的程序工具。

      軟件文檔挖掘是這個系統(tǒng)的第一個重要功能。每個軟件都有詳細的用戶手冊和文檔,其中包含了大量的快捷鍵和高級功能介紹。系統(tǒng)會自動分析這些文檔,提取出有用的信息。比如,當系統(tǒng)發(fā)現(xiàn)VS Code的文檔中提到更改顏色主題的快捷鍵是Ctrl+K,然后Ctrl+T時,它會自動將這個操作封裝成一個簡單的函數(shù)調(diào)用。這樣,原本需要多個步驟的GUI操作就變成了一個可靠的程序調(diào)用。

      開源資源整合是另一個重要渠道。研究團隊發(fā)現(xiàn),開源社區(qū)已經(jīng)開發(fā)了許多優(yōu)秀的自動化工具,比如AgentS2和AgentStore項目中的各種實用函數(shù)。系統(tǒng)會自動收集這些現(xiàn)有工具,并將它們整合到自己的工具庫中。比如,有一個電子表格操作工具能夠批量設(shè)置單元格數(shù)值,原本需要逐個單元格點擊輸入的任務(wù),現(xiàn)在只需要一個函數(shù)調(diào)用就能完成。

      最有趣的是編程智能體生成功能。當系統(tǒng)遇到?jīng)]有現(xiàn)成工具可用的情況時,它會啟動一個專門的編程智能體來創(chuàng)造新工具。這個智能體就像是一個經(jīng)驗豐富的程序員,能夠分析任務(wù)需求,編寫相應(yīng)的代碼,并通過自動化測試確保代碼的正確性。比如,當需要批量修改VS Code的鍵盤綁定設(shè)置時,編程智能體會分析相關(guān)的配置文件格式,編寫一個專門的函數(shù)來處理這類任務(wù)。

      通過這三種方式,研究團隊最終收集了881個涵蓋不同應(yīng)用領(lǐng)域的程序工具。這些工具覆蓋了從Chrome瀏覽器操作到圖像編輯,從文檔處理到代碼開發(fā)等各個方面。每個工具都被精心設(shè)計成Python函數(shù)的形式,配有詳細的文檔說明,讓AI能夠理解什么時候使用哪個工具。

      四、合成數(shù)據(jù)引擎:創(chuàng)造真實世界的虛擬訓練場

      有了豐富的工具庫,下一個挑戰(zhàn)是如何生成足夠的訓練數(shù)據(jù)。傳統(tǒng)的AI訓練往往依賴于人工標注的數(shù)據(jù),但是為混合行動AI生成訓練數(shù)據(jù)面臨著獨特的挑戰(zhàn):任務(wù)必須足夠復雜以體現(xiàn)混合行動的優(yōu)勢,同時又必須有可靠的方法來驗證任務(wù)是否完成。

      研究團隊設(shè)計的合成數(shù)據(jù)引擎就像是一個精密的任務(wù)制造工廠,能夠自動生成各種真實場景下的電腦操作任務(wù)。這個引擎使用兩種互補的策略來確保生成的任務(wù)既有質(zhì)量又有數(shù)量。

      評估器優(yōu)先策略的工作原理類似于"先定標準,后出題目"。系統(tǒng)首先從OSWorld等基準測試中收集各種原子級的驗證函數(shù),這些函數(shù)就像是小型的檢查員,能夠驗證特定的系統(tǒng)狀態(tài)。比如,有些函數(shù)檢查特定文件是否存在,有些檢查網(wǎng)頁URL是否正確,還有些檢查應(yīng)用程序的設(shè)置是否符合要求。然后,系統(tǒng)會對這些基礎(chǔ)檢查函數(shù)進行重新編程,修改參數(shù)或組合多個檢查條件,創(chuàng)造出更復雜的驗證標準。

      最后,系統(tǒng)讓大語言模型根據(jù)這些驗證條件生成相應(yīng)的任務(wù)。比如,當系統(tǒng)組合了文件檢查器和URL檢查器后,可能會生成這樣的任務(wù):"瀏覽Python官方文檔頁面,并將教程PDF下載到Documents文件夾"。這個任務(wù)需要AI既能進行網(wǎng)頁瀏覽操作,又能進行文件系統(tǒng)操作,完美體現(xiàn)了混合行動的價值。通過這種方式,系統(tǒng)生成了超過4,000個高質(zhì)量的復雜任務(wù)。

      指令優(yōu)先策略則采用了相反的思路,就像是"先探索環(huán)境,后發(fā)現(xiàn)任務(wù)"。系統(tǒng)讓AI在各種應(yīng)用程序中進行探索性的隨機操作,當?shù)竭_某個有趣的界面狀態(tài)時,就分析當前的環(huán)境并生成一個合適的任務(wù)。比如,當AI在文件管理器中瀏覽時,系統(tǒng)可能會生成"創(chuàng)建一個新的電子表格"這樣的任務(wù)。這種方法生成的任務(wù)更貼近真實用戶的使用模式,為系統(tǒng)提供了超過12,000個多樣化的訓練任務(wù)。

      為了讓生成的任務(wù)更加真實,系統(tǒng)還包含了一個工作空間模擬組件。這個組件就像是一個細心的舞臺設(shè)計師,能夠為不同類型的任務(wù)準備合適的環(huán)境。當任務(wù)涉及代碼編輯時,系統(tǒng)會從GitHub上下載真實的代碼項目;當任務(wù)涉及圖像處理時,系統(tǒng)會從維基百科公共資源庫中獲取開源圖片;當任務(wù)涉及文檔編輯時,系統(tǒng)會生成各種格式的示例文檔。這種細致的環(huán)境準備確保AI在訓練時面對的是真實世界的復雜情況,而不是簡化的理想化場景。

      五、多智能體協(xié)作:規(guī)劃者與執(zhí)行者的完美配合

      為了生成高質(zhì)量的混合行動訓練數(shù)據(jù),研究團隊設(shè)計了一個精巧的多智能體系統(tǒng)。這個系統(tǒng)就像是一個優(yōu)秀樂團的指揮家和首席演奏者的組合——規(guī)劃智能體負責整體策略制定,執(zhí)行智能體負責精確操作實現(xiàn)。

      規(guī)劃智能體使用的是OpenAI的o3模型,這是一個強大的推理模型,擅長制定復雜的行動計劃。它的工作就像是一個經(jīng)驗豐富的項目經(jīng)理,能夠分析任務(wù)需求,評估可用資源,然后決定最優(yōu)的執(zhí)行策略。當面對一個復雜任務(wù)時,規(guī)劃智能體會考慮多個因素:哪些部分可以通過程序工具快速完成,哪些部分需要精確的視覺定位,如何在兩種操作模式之間進行最優(yōu)切換。

      執(zhí)行智能體使用的是GTA1-7B模型,這是一個專門為GUI操作優(yōu)化的視覺模型。它就像是一個技藝精湛的演奏者,能夠精確地執(zhí)行規(guī)劃智能體制定的每一個操作指令。當需要進行GUI操作時,執(zhí)行智能體會仔細分析屏幕圖像,精確定位目標元素,然后執(zhí)行相應(yīng)的點擊或輸入操作。

      兩個智能體之間的協(xié)作過程非常有趣。規(guī)劃智能體會根據(jù)任務(wù)的性質(zhì)選擇最合適的行動方式。如果某個操作有對應(yīng)的程序工具,并且使用工具會更高效可靠,規(guī)劃智能體就會選擇調(diào)用程序工具。如果某個操作需要視覺判斷或者沒有對應(yīng)的程序工具,規(guī)劃智能體就會將控制權(quán)轉(zhuǎn)交給執(zhí)行智能體進行GUI操作。

      這種協(xié)作模式帶來了顯著的效果提升。在復雜任務(wù)中,純GUI操作的成功率通常只有44%左右,而混合行動的成功率能夠達到48.2%,同時平均步驟數(shù)還減少了近15%。這個改進看似不大,但考慮到任務(wù)的復雜性,這已經(jīng)是一個非常顯著的進步。

      更重要的是,這個系統(tǒng)生成的軌跡展現(xiàn)了真正的智能行為模式。AI學會了在合適的時機進行模式切換,比如先用GUI操作選擇目標文件夾,然后用程序工具進行批量操作,最后再用GUI操作驗證結(jié)果。這種靈活的策略制定能力是傳統(tǒng)單一模式系統(tǒng)無法達到的。

      六、工作記憶機制:讓AI不會忘記之前做了什么

      在復雜的多步驟任務(wù)中,AI面臨著一個類似人類的挑戰(zhàn):如何在長時間的操作過程中保持對任務(wù)狀態(tài)的準確記憶。當AI在程序工具調(diào)用和GUI操作之間頻繁切換時,很容易丟失重要的中間信息,就像一個人在廚房里同時準備多道菜時可能會忘記哪個鍋里的湯已經(jīng)煮了多久。

      研究團隊為此設(shè)計了一個巧妙的工作記憶機制。這個機制使用了特殊的記憶標簽來幫助AI維護任務(wù)狀態(tài)。AI會在執(zhí)行過程中自主地記錄重要信息,包括任務(wù)目標、已完成的步驟、提取的關(guān)鍵數(shù)據(jù)以及需要在后續(xù)步驟中使用的中間結(jié)果。

      工作記憶的內(nèi)容通常包含三個核心部分。首先是任務(wù)目標和約束條件的記錄,確保AI在長時間操作過程中不會偏離原始目標。其次是進度跟蹤信息,記錄哪些步驟已經(jīng)完成,當前處于什么狀態(tài),下一步需要做什么。最后是信息傳遞內(nèi)容,記錄在不同操作步驟之間需要傳遞的數(shù)據(jù),比如文件路徑、界面元素狀態(tài)、提取的數(shù)值等。

      比如,在一個書簽管理任務(wù)中,AI的工作記憶可能會記錄:"任務(wù):在書簽欄創(chuàng)建'收藏夾'文件夾;進度:Chrome已打開,書簽欄可見;下一步:通過Ctrl+Shift+O訪問書簽管理器"。這種結(jié)構(gòu)化的信息記錄確保AI在每個操作步驟都能準確理解當前狀況和下一步行動。

      實驗結(jié)果顯示,工作記憶機制雖然看起來簡單,但效果顯著。使用工作記憶的模型比不使用的模型成功率提高了6.3%,平均步驟數(shù)也略有減少。這個改進對于需要持久狀態(tài)信息的任務(wù)特別重要,比如文件操作、表單填寫和跨應(yīng)用程序的工作流程。工作記憶幫助AI避免了重復操作,比如重新導航到之前訪問過的頁面,或者重新提取已經(jīng)獲得的信息。

      七、兩階段訓練策略:從模仿學習到強化優(yōu)化

      擁有了工具庫、合成數(shù)據(jù)和協(xié)作框架后,下一個關(guān)鍵步驟是如何訓練AI模型。研究團隊采用了一個精心設(shè)計的兩階段訓練策略,就像是先讓學生通過教科書學習基礎(chǔ)知識,然后通過實踐練習來掌握高級技巧。

      第一階段是監(jiān)督微調(diào)階段,類似于傳統(tǒng)的課堂教學。AI通過學習26,800個高質(zhì)量的混合行動軌跡來掌握基本的操作模式。這些軌跡就像是優(yōu)秀師傅的操作示范,展示了在不同情況下應(yīng)該如何選擇和組合不同的行動方式。為了確保訓練的均衡性,研究團隊對每個軌跡的每個步驟都進行了平等的訓練,避免模型過度關(guān)注軌跡的早期步驟而忽略后期的重要操作。

      監(jiān)督學習階段讓AI掌握了混合行動的基本語法和語義。AI學會了程序工具的調(diào)用語法,理解了不同工具的適用場景,也掌握了GUI操作的基本技巧。但是,僅僅通過模仿學習很難讓AI真正理解什么時候應(yīng)該選擇哪種操作方式,這就需要第二階段的強化學習。

      第二階段是在線強化學習階段,類似于讓學生通過實際項目來提升技能。在這個階段,AI需要在真實環(huán)境中嘗試不同的策略,通過成功和失敗的反饋來優(yōu)化自己的決策能力。研究團隊設(shè)計了一個特殊的獎勵機制來指導這個學習過程。

      獎勵機制包含兩個組成部分。基礎(chǔ)獎勵反映任務(wù)的完成情況:成功完成任務(wù)獲得+1分,失敗獲得-1分。工具使用獎勵則鼓勵A(yù)I在成功完成任務(wù)的前提下使用程序工具:如果任務(wù)成功完成且使用了程序工具,額外獲得0.3分的獎勵。這種設(shè)計確保AI不僅要學會完成任務(wù),還要學會高效地完成任務(wù)。

      有趣的是,研究團隊發(fā)現(xiàn)傳統(tǒng)強化學習中常用的格式獎勵在這里并不適用。由于程序工具的語法比較復雜,AI在學習初期經(jīng)常出現(xiàn)語法錯誤。如果對這些格式錯誤進行懲罰,反而會阻礙AI學習工具使用。因此,他們選擇只關(guān)注結(jié)果獎勵,讓AI通過成功的例子自然地掌握正確的語法。

      強化學習階段帶來了顯著的行為改變。訓練前,AI經(jīng)常盲目地使用程序工具,即使在不合適的場景下也會強行調(diào)用,導致大量的工具調(diào)用失敗。訓練后,AI變得更加謹慎和智能,學會了在合適的時機選擇合適的工具。失敗的工具調(diào)用減少了46%,而成功的工具調(diào)用增加了5%,整體的工具使用策略變得更加成熟。

      八、實驗驗證:在真實世界中的卓越表現(xiàn)

      為了驗證UltraCUA系統(tǒng)的實際效果,研究團隊在多個具有挑戰(zhàn)性的基準測試上進行了全面評估。這些測試就像是為AI準備的綜合性考試,既要測試基礎(chǔ)技能,也要考察在復雜環(huán)境下的應(yīng)對能力。

      OSWorld基準測試是主要的評估平臺,這是一個包含369個真實電腦操作任務(wù)的測試集。這些任務(wù)涵蓋了從辦公軟件操作到開發(fā)環(huán)境配置的各個方面,每個任務(wù)都有確定的起始狀態(tài)和明確的成功標準。在這個測試中,UltraCUA-7B模型達到了28.9%的成功率,比基礎(chǔ)的UI-TARS-1.5-7B模型提高了23.5%。更令人印象深刻的是UltraCUA-32B模型,成功率達到了41.0%,超過了許多更大規(guī)模的模型。

      更有趣的是跨平臺泛化能力的測試。研究團隊在WindowsAgentArena上測試了完全沒有接受過Windows訓練的UltraCUA-7B模型。這就像是讓一個只在中式廚房工作過的廚師去法式廚房展示技藝。結(jié)果令人驚喜:UltraCUA-7B在Windows環(huán)境下達到了21.7%的成功率,超過了專門在Windows數(shù)據(jù)上訓練的Qwen2-VL-7B模型的13.5%,也超過了UI-TARS-1.5-7B的18.1%。這個結(jié)果證明了混合行動策略具有很強的跨平臺適應(yīng)性。

      詳細的領(lǐng)域分析揭示了混合行動的廣泛適用性。在不同的應(yīng)用程序類別中,UltraCUA都表現(xiàn)出了顯著的改進。在GIMP圖像編輯任務(wù)中,32B模型的成功率達到了70.0%,在LibreOffice Writer文檔處理任務(wù)中達到了62.5%,在VS Code開發(fā)環(huán)境任務(wù)中達到了54.3%。這些改進并不是某個特定領(lǐng)域的偶然成功,而是混合行動策略的普遍優(yōu)勢。

      效率分析同樣令人印象深刻。UltraCUA不僅在成功率上有所提升,在執(zhí)行效率上也有明顯改進。平均而言,UltraCUA完成任務(wù)的步驟數(shù)比傳統(tǒng)方法減少了約11%。這種效率提升主要來自于程序工具的使用——原本需要多個GUI操作才能完成的任務(wù),現(xiàn)在可以通過一個工具調(diào)用來實現(xiàn)。

      九、深度分析:混合行動的智能決策模式

      為了更深入地理解UltraCUA的工作原理,研究團隊對模型的工具使用模式進行了詳細分析。這種分析就像是研究一個優(yōu)秀工匠的工作習慣,試圖理解他們是如何在不同情況下選擇最合適工具的。

      工具使用頻率與模型能力之間存在著有趣的正相關(guān)關(guān)系。更強大的模型傾向于使用更多的工具,并且工具使用的多樣性也更高。GTA1-7B+o3這樣的多智能體框架在每個應(yīng)用域中使用60-80個工具調(diào)用和8-10種不同工具,而UltraCUA-32B使用20-40個工具調(diào)用,UltraCUA-7B則相對保守,只使用0-20個工具調(diào)用。這種模式表明,隨著模型能力的提升,AI能夠更好地識別和利用程序工具的效率優(yōu)勢。

      強化學習階段的行為變化分析揭示了學習過程的內(nèi)在機制。訓練初期,AI經(jīng)常出現(xiàn)工具調(diào)用失敗的情況,就像是一個新手工人不知道什么時候該使用什么工具。通過強化學習,AI逐漸學會了更加謹慎和選擇性的工具使用策略。失敗的工具調(diào)用從122個減少到66個,減少了46%,而成功的工具調(diào)用則穩(wěn)步增加。

      更重要的是,AI學會了戰(zhàn)略性的工具使用。在訓練后,AI不再盲目地嘗試使用每一個可用的工具,而是會根據(jù)任務(wù)的具體需求進行選擇。這種行為變化反映了AI對工具適用性的深度理解。比如,在處理文檔格式化任務(wù)時,AI會優(yōu)先選擇文檔編輯工具;在處理批量文件操作時,AI會選擇文件系統(tǒng)工具。

      跨域工具泛化能力的測試提供了另一個有趣的發(fā)現(xiàn)。當向系統(tǒng)引入訓練時未見過的新工具時,UltraCUA仍然能夠有效地使用這些工具,成功率甚至略有提升。這種零樣本工具泛化能力表明,AI不僅學會了使用特定工具,更重要的是學會了理解工具的一般性原理和使用模式。

      十、技術(shù)細節(jié):記憶機制的精妙設(shè)計

      UltraCUA系統(tǒng)中最精妙的設(shè)計之一是工作記憶機制的實現(xiàn)。這個機制解決了復雜多步驟任務(wù)中的狀態(tài)維護問題,就像是為AI配備了一個智能的筆記本,能夠記錄和檢索關(guān)鍵信息。

      工作記憶的設(shè)計哲學是讓AI自主管理任務(wù)狀態(tài),而不是依賴外部存儲系統(tǒng)。AI通過特殊的記憶標簽來結(jié)構(gòu)化地維護信息,這些標簽包含在AI的輸出中,形成了一個自包含的記憶系統(tǒng)。這種設(shè)計的優(yōu)勢在于,記憶內(nèi)容與推理過程緊密集成,AI可以在生成每個行動決策時同時更新和利用記憶信息。

      記憶內(nèi)容的組織遵循三層結(jié)構(gòu)。頂層是任務(wù)目標和約束條件,這些信息在整個執(zhí)行過程中保持相對穩(wěn)定,為所有后續(xù)決策提供指導。中間層是動態(tài)的進度跟蹤信息,記錄當前的執(zhí)行狀態(tài)、已完成的里程碑以及下一步的計劃。底層是具體的數(shù)據(jù)載荷,包括文件路徑、用戶界面元素的狀態(tài)、從屏幕或程序調(diào)用中提取的數(shù)值等。

      記憶機制在跨模態(tài)操作切換中發(fā)揮著特別重要的作用。當AI從GUI操作切換到程序工具調(diào)用時,記憶系統(tǒng)確保重要的視覺信息能夠傳遞給程序邏輯。反之,當從程序調(diào)用切換回GUI操作時,程序執(zhí)行的結(jié)果也能夠被有效地利用。比如,AI可能先通過GUI操作選擇了一個文件夾,將路徑信息記錄在記憶中,然后調(diào)用程序工具進行批量處理,最后再通過GUI操作驗證結(jié)果。

      實驗數(shù)據(jù)顯示,工作記憶機制帶來的6.3%成功率提升雖然看似不大,但在復雜任務(wù)中意義重大。特別是在需要多次信息傳遞的任務(wù)中,比如從多個源收集數(shù)據(jù)然后在另一個應(yīng)用中使用,記憶機制的價值更加明顯。沒有記憶機制的AI經(jīng)常會重復執(zhí)行已經(jīng)完成的操作,或者在后續(xù)步驟中忘記重要的中間結(jié)果。

      十一、實際應(yīng)用案例:三個精彩的操作示例

      為了更直觀地展示UltraCUA的工作原理,研究團隊提供了三個典型的操作案例,這些案例就像是精心編排的表演,展示了混合行動的優(yōu)雅和高效。

      第一個案例是電子郵件批量加星標任務(wù)。傳統(tǒng)的AI需要逐個選擇郵件,然后為每封郵件單獨點擊星標按鈕,整個過程繁瑣且容易出錯。UltraCUA則采用了一個聰明的策略:首先使用精確的GUI點擊選擇目標文件夾"Bills",建立操作上下文;然后立即切換到程序工具模式,調(diào)用select_all函數(shù)選擇所有郵件,接著調(diào)用add_or_remove_star函數(shù)批量添加星標。這種操作方式將原本需要幾十個步驟的任務(wù)壓縮到了四個步驟,不僅效率高,而且?guī)缀醪粫鲥e。

      第二個案例展示了瀏覽器歷史記錄清理任務(wù)。這個任務(wù)的挑戰(zhàn)在于需要導航到特定的設(shè)置頁面,然后進行精確的篩選和刪除操作。UltraCUA首先調(diào)用open_history_page工具直接跳轉(zhuǎn)到歷史記錄頁面,繞過了復雜的菜單導航過程。然后在搜索框中輸入"youtube.com"進行篩選,選中所有相關(guān)記錄,最后點擊刪除按鈕。這個案例完美展示了程序工具在導航中的效率優(yōu)勢和GUI操作在精細控制中的靈活性。

      第三個案例是最具挑戰(zhàn)性的批量圖像處理任務(wù)。當用戶要求"將桌面上的所有圖像亮度調(diào)整到50%"時,UltraCUA展現(xiàn)了真正的智能。它認識到這是一個典型的批處理任務(wù),單純的GUI操作會非常低效。因此,AI選擇了一個程序化的解決方案:調(diào)用系統(tǒng)終端工具,安裝必要的圖像處理軟件ImageMagick,然后編寫并執(zhí)行一個shell腳本來批量處理所有圖像。這種解決方案不僅高效,而且展示了AI在面對復雜問題時的創(chuàng)造性思維能力。

      這三個案例揭示了UltraCUA的核心智能:它不是簡單地在兩種操作模式之間隨機切換,而是會根據(jù)任務(wù)的性質(zhì)、效率要求和可靠性需求來做出最優(yōu)選擇。當需要精確定位時,它會使用GUI操作;當需要批量處理時,它會選擇程序工具;當面對復雜的自動化需求時,它甚至會編寫代碼來解決問題。

      十二、技術(shù)突破的深層意義:重新定義人機交互

      UltraCUA的成功不僅僅是一個技術(shù)指標的提升,它代表了人機交互paradigm的一個重要轉(zhuǎn)變。這種轉(zhuǎn)變的意義就像是從馬車時代跨入汽車時代一樣深遠。

      傳統(tǒng)的電腦操作AI面臨著一個根本性的限制:它們只能模仿人類的操作方式,通過點擊和輸入來與計算機交互。這種設(shè)計雖然保證了廣泛的兼容性,但也繼承了人類操作的所有局限性。人類需要通過圖形界面操作計算機,是因為我們需要直觀的視覺反饋,但AI并不一定需要這種間接的交互方式。

      UltraCUA的混合行動方法打破了這個思維定式。它讓AI能夠在需要視覺判斷的時候像人類一樣操作,在需要高效執(zhí)行的時候像程序一樣工作。這種設(shè)計哲學認識到,AI不應(yīng)該完全模仿人類的行為模式,而應(yīng)該發(fā)揮自己的獨特優(yōu)勢。

      從技術(shù)架構(gòu)的角度來看,混合行動代表了一種新的智能系統(tǒng)設(shè)計思路。傳統(tǒng)的AI系統(tǒng)往往專注于單一的接口類型:要么是API調(diào)用系統(tǒng),要么是GUI操作系統(tǒng)。UltraCUA證明了多接口融合的可行性和優(yōu)越性。這種設(shè)計思路可能會影響未來AI系統(tǒng)的架構(gòu)方向,促使更多的系統(tǒng)采用多模態(tài)、多接口的設(shè)計。

      從應(yīng)用前景來看,混合行動技術(shù)為AI助手的實用化開辟了新的道路。目前的AI助手要么局限于特定的API生態(tài)系統(tǒng),要么在復雜任務(wù)中表現(xiàn)不佳。UltraCUA展示了一個未來的可能性:AI助手能夠無縫地在任何計算環(huán)境中工作,既能利用現(xiàn)有的程序接口,又能處理沒有API支持的應(yīng)用程序。

      更重要的是,這項研究為AI的自主學習能力提供了新的啟示。UltraCUA不僅能夠使用預(yù)定義的工具,還能夠在遇到新工具時快速適應(yīng),甚至能夠編寫新的工具來解決未預(yù)見的問題。這種能力暗示著一個更加自主和創(chuàng)造性的AI未來。

      說到底,UltraCUA的真正價值在于它展示了一種新的思考方式:如何讓AI系統(tǒng)既保持人類操作的靈活性,又發(fā)揮計算機程序的效率優(yōu)勢。這種思路不僅適用于電腦操作領(lǐng)域,也可能啟發(fā)其他需要多模態(tài)交互的AI應(yīng)用。歸根結(jié)底,這項研究提醒我們,最優(yōu)秀的AI系統(tǒng)不是那些最完美地模仿人類的系統(tǒng),而是那些能夠結(jié)合人類智慧和機器能力的系統(tǒng)。

      研究團隊的工作為我們描繪了一個令人興奮的未來圖景:AI助手將不再被局限于特定的接口或環(huán)境,而是能夠像真正的數(shù)字助理一樣,在任何情況下都能找到最有效的方式來幫助用戶完成任務(wù)。這種技術(shù)進步最終會讓我們的數(shù)字生活變得更加便利和高效,讓計算機真正成為我們創(chuàng)造和工作的得力伙伴。

      Q&A

      Q1:UltraCUA是什么?

      A:UltraCUA是由蘋果公司和香港大學聯(lián)合開發(fā)的AI系統(tǒng),它的核心能力是能夠同時使用鼠標點擊操作和程序工具調(diào)用來操作電腦。這就像培養(yǎng)了一個既會手工操作又會使用高科技設(shè)備的全能工匠,能夠根據(jù)任務(wù)需要選擇最合適的操作方式。

      Q2:混合行動技術(shù)比傳統(tǒng)方法有什么優(yōu)勢?

      A:混合行動技術(shù)的主要優(yōu)勢是效率和可靠性的雙重提升。在OSWorld測試中,UltraCUA比傳統(tǒng)方法成功率提高了22%,步驟數(shù)減少了11%。這是因為AI可以在需要精確控制時使用GUI操作,在需要批量處理時使用程序工具,避免了傳統(tǒng)方法中容易出現(xiàn)的連鎖錯誤。

      Q3:普通用戶什么時候能用上這種技術(shù)?

      A:目前UltraCUA還處于研究階段,蘋果公司表示會開源相關(guān)代碼和數(shù)據(jù)集以促進研究發(fā)展。雖然具體的商業(yè)化時間表還未公布,但這種技術(shù)未來可能會集成到智能助手產(chǎn)品中,幫助用戶自動完成復雜的電腦操作任務(wù)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      涉嫌嚴重違紀違法!吳飚,被查!

      涉嫌嚴重違紀違法!吳飚,被查!

      中國基金報
      2025-12-11 20:57:14
      努爾哈赤叛亂早期,從鐵嶺到遼陽,只要滿清八旗兵來攻城,城門就會突然失守,豁然洞開,跟兒戲一樣

      努爾哈赤叛亂早期,從鐵嶺到遼陽,只要滿清八旗兵來攻城,城門就會突然失守,豁然洞開,跟兒戲一樣

      歷史按察使司
      2025-12-11 17:48:06
      300068籌劃控制權(quán)變更,停牌!

      300068籌劃控制權(quán)變更,停牌!

      新浪財經(jīng)
      2025-12-12 07:21:29
      一場大火燒怕了有錢人!11月:理想MEGA交出一份“黑色”成績單

      一場大火燒怕了有錢人!11月:理想MEGA交出一份“黑色”成績單

      言車有徐
      2025-12-10 15:55:09
      野心勃勃!中超新土豪大手筆不斷 一口氣敲定4大國腳+2名巴西新援

      野心勃勃!中超新土豪大手筆不斷 一口氣敲定4大國腳+2名巴西新援

      零度眼看球
      2025-12-11 07:39:27
      這事有點詭異:“中國英偉達”上市3天,H200芯片就解禁了

      這事有點詭異:“中國英偉達”上市3天,H200芯片就解禁了

      互聯(lián)網(wǎng).亂侃秀
      2025-12-11 10:30:49
      原來所有崗位都可以混進去再學!網(wǎng)友分享令人眼前一亮:還能這樣

      原來所有崗位都可以混進去再學!網(wǎng)友分享令人眼前一亮:還能這樣

      另子維愛讀史
      2025-12-08 20:56:00
      1.55米廣西“小孩姐”球技驚艷全網(wǎng)!面對記者采訪,她這樣說……

      1.55米廣西“小孩姐”球技驚艷全網(wǎng)!面對記者采訪,她這樣說……

      環(huán)球網(wǎng)資訊
      2025-12-11 17:40:07
      重慶崖洞干尸身份確定后續(xù),家屬已認領(lǐng),兒女曝父親死亡具體細節(jié)

      重慶崖洞干尸身份確定后續(xù),家屬已認領(lǐng),兒女曝父親死亡具體細節(jié)

      知法而形
      2025-12-11 09:17:12
      歐洲多國街頭現(xiàn)“京東快遞”,旅德華人:周日晚9點下單,次日上午9點收貨,感受到“中國速度”

      歐洲多國街頭現(xiàn)“京東快遞”,旅德華人:周日晚9點下單,次日上午9點收貨,感受到“中國速度”

      極目新聞
      2025-12-11 18:29:31
      41歲男演員向佐哭訴:娛樂圈的人很恐怖!向華強此前稱為捧向佐虧了幾個億,“我這輩子唯一捧不起來的就是我的親兒子”

      41歲男演員向佐哭訴:娛樂圈的人很恐怖!向華強此前稱為捧向佐虧了幾個億,“我這輩子唯一捧不起來的就是我的親兒子”

      極目新聞
      2025-12-10 21:26:55
      起拍價1個億6000萬成交,廣西這家破產(chǎn)房地產(chǎn),有人接手了!

      起拍價1個億6000萬成交,廣西這家破產(chǎn)房地產(chǎn),有人接手了!

      嶺南美玉
      2025-12-12 00:08:59
      日本航母緊急出動,迎戰(zhàn)遼寧艦?美國突然發(fā)話,給中國送上國運!

      日本航母緊急出動,迎戰(zhàn)遼寧艦?美國突然發(fā)話,給中國送上國運!

      老范談史
      2025-12-10 20:26:38
      CCTV 8黃金檔,12月15號正式開播!這部27集電視劇深得我心

      CCTV 8黃金檔,12月15號正式開播!這部27集電視劇深得我心

      小邵說劇
      2025-12-12 08:00:14
      奇瑞固態(tài)電池炸場:600Wh/kg1500公里續(xù)航,新能源汽車要“變天了

      奇瑞固態(tài)電池炸場:600Wh/kg1500公里續(xù)航,新能源汽車要“變天了

      娛樂圈的筆娛君
      2025-12-11 13:24:31
      男子彩票中748萬遭店主扣押實體票后續(xù),重慶市體彩中心回應(yīng):獎金仍凍結(jié),等待判決

      男子彩票中748萬遭店主扣押實體票后續(xù),重慶市體彩中心回應(yīng):獎金仍凍結(jié),等待判決

      瀟湘晨報
      2025-12-09 17:01:21
      今年三九天,“十年不遇”,今年冬天到底冷不冷,答案來了

      今年三九天,“十年不遇”,今年冬天到底冷不冷,答案來了

      三農(nóng)雷哥
      2025-12-11 09:07:38
      許家印為保命爆出三大靠山!百億房東浮出水面,抱得美人歸引熱議

      許家印為保命爆出三大靠山!百億房東浮出水面,抱得美人歸引熱議

      詩意世界
      2025-09-26 10:31:06
      老太破壞修路路面后續(xù):民警走了又挖,村干部曝真相,子女被牽連

      老太破壞修路路面后續(xù):民警走了又挖,村干部曝真相,子女被牽連

      奇思妙想草葉君
      2025-12-11 00:25:02
      天災(zāi)還沒完,中國突然傳來倆噩耗,高市的臉上,第一次出現(xiàn)了慌張

      天災(zāi)還沒完,中國突然傳來倆噩耗,高市的臉上,第一次出現(xiàn)了慌張

      阿器談史
      2025-12-12 03:30:44
      2025-12-12 08:43:00
      至頂AI實驗室 incentive-icons
      至頂AI實驗室
      一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
      751文章數(shù) 151關(guān)注度
      往期回顧 全部

      科技要聞

      凌晨突發(fā)!GPT-5.2上線,首批實測感受來了

      頭條要聞

      牛彈琴:美國被指要組建C5來替代G7 中俄在列沒有歐洲

      頭條要聞

      牛彈琴:美國被指要組建C5來替代G7 中俄在列沒有歐洲

      體育要聞

      你最看不上的人,關(guān)鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節(jié)!

      財經(jīng)要聞

      美國要組建C5,全世界大吃一驚

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態(tài)度原創(chuàng)

      游戲
      親子
      本地
      家居
      公開課

      國產(chǎn)抗日FPS《烽火十四》開發(fā)商入駐微博

      親子要聞

      這嘟嘟嘴太可愛了吧

      本地新聞

      打工人夢想中的生活,寵物已經(jīng)提前過上了

      家居要聞

      歐式風格 純粹優(yōu)雅氣質(zhì)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 色88久久久久高潮综合影院| AV一区二区三区| 亚洲中文无码手机永久| 91狠狠综合| 人妻系列一区| 一本久道中文无码字幕av| 一本加勒比hezyo无码资源网| 亚洲AV成人片在线观看| 97色婷婷| 亚洲欧美一区二区成人片| 福利所第一导航福利 | 亚洲无码久久| 国产综合久久久777777| 国产精品日本一区二区在线播放| 国产美女久久久亚洲综合| 91露脸熟女对白不带套| 一卡二卡三| 熟女人妻视频| 中文字幕精品久久久久人妻红杏1| 加勒比久久AV| 久久亚洲专区| 亚洲人成色77777| 怡春院久久国语视频免费| 亚洲V色| 精品人妻中文字幕专区| 性饥渴艳妇性色生活片在线播放| 在线免费观看毛片av| 日韩OL丝袜无码AV啪啪| 亚洲人成网站色7799| 久久无码人妻热线精品| 日日猛噜噜狠狠扒开双腿小说 | 狠狠色噜噜狠狠狠狠2021 | 昌吉市| 午夜不卡久久精品无码免费| 99久久国产综合精品麻豆| 影音先锋一区| 怀安县| 亚洲中文字幕无码久久2017| 国产99视频精品免费视频76| 久草大| 国产性色av免费观看|