![]()
當你詢問AI開發者智能體能為你做什么時,答案往往聽起來像旅游手冊:預訂航班、找酒店、規劃暑假。這是一個迷人的畫面——一個無形的禮賓員在你喝咖啡時輕松地為你安排行程。
但在亞馬遜內部,研究人員深知,在大事成就之前,必須先解決成千上萬的小問題。舉個例子:在AI能規劃假期之前,它必須先學會滾動頁面。
真的是字面意思。
它必須學會滾動...點擊...切換標簽...選擇隱藏在彈窗后面的日期...在表單靜默重置時恢復...區分日歷組件和下拉菜單...準確地重新輸入字段而不覆蓋其他內容...導航自2004年以來就沒有重新設計過的會員門戶。
一個簡單的"預訂我的暑假"命令會在各種旅游服務中觸發數百個微交互:仍在運行幾十年前界面的航空預訂系統;使用模式不一致的酒店庫存工具;信用卡驗證層;會員計劃;支付系統;移動確認;以及隱藏在基于瀏覽器表單后面的合規檢查。每一個微小動作都必須成功——可靠地、確定性地、每次都成功——神奇的消費者體驗才能實現。這就是AI智能體敘事與構建現實之間的差距。
在亞馬遜,這些平凡的細節不是事后考慮,而是基礎。要在現實世界中成功運作,智能體必須首先掌握一套原子行為。在內部,我們有時將此描述為構建"標準化智能體":訓練系統在非常簡單、非常無聊但支撐真實軟件可靠運行的交互中表現出色。
掌握這些原子行為需要大量練習,這就是為什么亞馬遜通用人工智能實驗室正在構建高保真強化學習"健身房"生態系統,讓智能體可以磨練技能。就像運動員通過在受控條件下重復基本動作來建立核心穩定性一樣,智能體通過在可重復的、儀器化場景中練習最小的交互單元來發展可靠性。
健身房的設計反映了真實網絡系統的混亂性,它隔離技能、變化技能、測試技能并測量技能。最終結果是一個智能體基底——一個共享的能力基礎,智能體群體可以在真實世界應用中構建特定領域的效率:使地址可用于配送或預訂的表單完成;指示費用、福利或選項是否適用的下拉選擇;以及保證交易達到有效、可驗證最終狀態的多步驟工作流。
如今,亞馬遜AGI實驗室已經在涵蓋數十個應用領域和數千個單獨任務的健身房中構建和訓練了智能體,更多還在開發中。這些健身房不僅教會智能體如何預訂假期;它們教會智能體如何在任務下方的不可預測地形中生存。如何推理網絡界面。如何檢測和從錯誤中恢復。如何與人類可以容忍但機器經常誤解的遺留系統交互。要構建一個能做人類在計算機上所做一切的智能體,我們的團隊必須教它處理人類本能導航的模糊性。
從自動駕駛汽車的經驗中學習
如果智能體預訂暑假的路徑要經過數百個微小的、容易失敗的步驟,那么載我們到機場的自動駕駛汽車面臨的環境則更加嚴酷。所以亞馬遜AGI實驗室內的一些工程師和研究人員來自自動駕駛汽車領域并非偶然。他們在"幾乎正確"與"不安全"無法區分的環境中工作了多年,在這種環境中,一個瞬間完美執行但下一刻靜默失敗的系統是不適合部署的。在自動駕駛車輛中,正確性不是概率性的;系統必須每次都正確。
這種思維模式現在塑造了我們實驗室處理智能體AI的方式。智能體不只是產生輸出;它們在活躍系統內采取行動。它們觸及數據庫、啟動交易并修改系統狀態。當模型的輸出是世界中的真實變化時,可靠性變得不可協商。
為了達到這個標準,智能體必須做大語言模型無法做到的事情:確定系統是否正確響應了其動作。這不意味著智能體固有地知道正確性;這意味著訓練環境暴露足夠的真實情況——文檔對象模型結構、UI時序、網絡行為、后端狀態轉換——讓智能體比較它試圖做的與實際發生的,并在結果模糊或需要批準時升級或推遲給人類。
這就是形式驗證器的用武之地。健身房內的每個任務都由一個規范錨定,該規范精確定義成功完成的樣子。它描述所需的最終狀態、允許產生它的后端更改以及永遠不能發生的更改。例如,"發送電子郵件"這樣的工作流不僅僅因為按鈕看起來被點擊了就被宣布成功;它被宣布成功是因為數據庫中恰好存在一條新的電子郵件記錄,并且沒有無關記錄被創建、修改或刪除。
在我們的強化學習健身房中,這些驗證器是評分函數的基礎。智能體只有在環境反映出準確允許的更改且沒有禁止的更改時才會獲得獎勵,這提供了關于"正確"意味著什么的信號。
智能體必須在變化的時序、網絡和UI條件下不是一次而是數千次滿足這些驗證器。這種重復暴露——在精確設計的強化學習健身房內隔離技能、變化條件并強制可驗證結果——將孤立的成功轉化為持久的能力。只有當智能體達到近乎完美可靠性的標準時,才能被信任運行真實工作流。只有這樣,它才能在生產環境中安全運行,在那里每個動作都有后果。
微技能訓練實例
仔細觀察任何真實世界的工作流,你會發現一系列必須完美執行的微小任務。這些是我們強化學習健身房內的標準化訓練:集中的練習程序,智能體在其中學習使大事成就的小事。以下是幾個例子:
構建對不一致UI組件的魯棒性
在日歷應用程序中,即使選擇日期也需要令人驚訝的協調。在整個網絡中,日歷以微妙不同的方式行為:元素在縮放時移位,小部件隱藏在其他UI層后面或在點擊過程中重新渲染。在強化學習健身房中,這些變化有意出現,教導智能體識別小部件的當前狀態,在其漂移時恢復,并準確提交正確的日期一次——然后驗證結果后端狀態是否正確。這個基礎技能適用于各處的工作流,從旅行預訂到調度工具到合規應用程序。
學習區分UI外觀與系統狀態
下拉菜單可能看起來已經更新,但后端實際上還沒有處理更改。這種不匹配出現在企業應用程序、消費者門戶和政府系統中。智能體必須確認系統——而不僅僅是UI——已經注冊了動作。訓練建立紀律:信任系統狀態,而不是表面。
在長期、時序敏感的流程中保持一致性
許多工作流涉及異步步驟的長鏈——搜索、過濾、驗證、刷新——每個都有不同的時序和失敗模式。強化學習健身房將這些流程分解為原子段:與自動建議列表競爭的文本字段、無序加載的模態窗口、間歇性返回錯誤的后端,以及在填充之前構建的頁面。智能體學會耐力——在數十或數百個步驟中與系統的真實狀態保持一致。
Q&A
Q1:什么是"標準化智能體"?
A:"標準化智能體"是指專門訓練在非常簡單、看似無聊但對真實軟件可靠運行至關重要的交互中表現出色的系統。這些智能體掌握諸如滾動、點擊、選擇日期等基本原子行為,為處理復雜現實世界任務奠定基礎。
Q2:亞馬遜AGI實驗室的強化學習健身房如何工作?
A:強化學習健身房是高保真的訓練環境,旨在反映真實網絡系統的復雜性。它們隔離特定技能,在變化條件下進行測試,并通過形式驗證器測量成果。智能體在這些受控環境中反復練習,直到能夠可靠地執行任務。
Q3:為什么AI智能體需要學會處理遺留系統?
A:現實世界中充滿了使用幾十年前界面的系統,如航空預訂系統、酒店庫存工具等。這些系統的界面不一致、時序復雜,人類可以容忍但機器容易誤解。智能體必須學會在這些不可預測的環境中導航和恢復,才能在真實世界中可靠運行。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.