![]()
在當今快速發展的人工智能環境中,組織機構越來越需要在特定領域和業務環境中表現出色的AI智能體。盡管通用人工智能系統在廣泛任務中展現出令人印象深刻的能力,但當它們部署在需要深度理解特定工作流程、工具和組織需求的專業環境中時,往往表現不佳。
在最新研究中,亞馬遜網絡服務AI實驗室的科學家們一直在研究如何在不需要機器學習廣泛專業知識或過高計算資源的情況下,有效地將通用智能體適配到特定領域。通過在兩個不同用例——個人助理智能體和智能體增強檢索生成(RAG)——中進行系統實驗,我們證明了基于強化學習的定制可以顯著提高不同用例的任務成功率,即使使用相對較少的訓練數據。
智能體定制的挑戰
考慮一個客戶服務智能體,需要導航復雜的內部系統,理解公司特定政策,并在數千次交互中保持一致的品牌聲音。或者想象一個編碼助手,必須適應特定組織的編碼標準、架構模式和開發工作流程。這些場景需要的不僅僅是現成的AI解決方案:它們需要能夠系統地定制和優化以適應其預期環境的智能體。我們的工作探索了使用強化學習來定制此類智能體。
為了為我們的實驗建立實用基礎,我們做了幾個簡化假設。我們主要專注于異步多輪智能體,這些智能體可以使用工具自主完成任務,結果可以根據基準真值進行驗證。這種方法減少了我們對模擬用戶的依賴,同時保持了適用于許多場景的框架。
此外,我們利用了來自公共基準數據集和智能體的現有環境和工具模擬器,使我們能夠專注于核心強化學習方法,而不是從頭開始構建模擬基礎設施。對于獎勵信號,我們依賴直接從環境中獲得的可驗證反饋,如任務完成率、代碼執行成功率或信息檢索準確性。這些約束為開始我們的實驗提供了最少的條件,同時保持場景的現實性。
實驗設置和方法
對于涉及個人助理智能體的實驗,我們使用了AppWorld基準,該基準涉及通過手機應用程序交互完成日常活動。對于智能體RAG實驗,我們實施了用于智能信息檢索和合成的DeepSearch智能體,使用了兩個不同的數據集。對于獎勵函數,我們依賴基于環境的可驗證反饋進行AppWorld,以及RAG任務的精確匹配和語義準確性。
我們的強化學習訓練框架有兩個主要組件:在線模擬器和在線強化學習訓練器。在線模擬器接收一批任務并產生一批軌跡展開——智能體與其環境之間的交互序列,通常涉及數十個API調用。它還通過對基準真值進行檢查為每個軌跡產生獎勵。
在線強化學習訓練器接收軌跡展開和來自在線模擬器的獎勵來更新演員策略。在內部,在線強化學習訓練器具有演員、評論家(用于近似策略優化,它近似任何一個訓練示例在策略更新期間應該被給予的最優權重)和參考模型等組件。在在線強化學習訓練器中更新演員策略后,演員模型的權重與在線模擬器中的智能體同步。
強化學習流水線詳解
讓我們更仔細地看看強化學習流水線,以AppWorld實驗為例。首先,模擬器基于提供的任務ID并行模擬智能體和AppWorld環境之間的交互,并產生一批軌跡展開。我們將考慮其中一個軌跡,它展示了智能體如何系統地將高級指令——"為文件添加日期前綴并將非當前年份文件移動到回收站"——分解為跨多個應用程序和推理步驟的32個離散API調用序列。
智能體首先使用主管提供的憑據對文件系統進行身份驗證,然后通過內省調用有條理地探索可用API。每個步驟都涉及對下一個行動的明確推理,當API不符合預期時的錯誤處理(如智能體發現沒有"rename_file"函數并適應,改為使用"move_file"),以及在多個文件操作中維護狀態。
該軌跡展示了智能體處理日期和時間復雜解析、迭代文件集合以及在不同目錄結構間協調操作同時維護數據完整性的能力。關鍵是,環境提供關于任務執行是否成功的可驗證信息,使強化學習框架能夠通過具體、可測量的結果進行學習,而不是在每一步都需要人工評估。此外,獎勵僅在最后一輪收集,這種稀疏獎勵收集相對于類似方法提供了顯著的性能優勢。
實驗結果與發現
以下綜合表格顯示,強化學習可以顯著提升智能體在不同用例中的性能,即使將相對較小的訓練數據集應用于相對較小的模型。
用例:個人助理智能體,數據集:AppWorld,基礎模型:Qwen2.5-32B-Instruct,基礎模型性能:39.20%,強化學習訓練后性能:72%(相比Sonnet 3.7/4.0約69%),指標:任務目標完成率
用例:智能體RAG,數據集:NQ,基礎模型:Qwen2.5-3b-Base,基礎模型性能:0.106,強化學習訓練后性能:0.406,指標:精確匹配
用例:智能體RAG,數據集:Musique,基礎模型:Llama-3.2-3B-inst,基礎模型性能:0.04,強化學習訓練后性能:0.1,指標:精確匹配
以下是我們的一些實驗發現:
更大的基礎模型在絕對性能上從強化學習訓練中獲得更大收益。這可能源于它們在訓練期間生成更高質量的軌跡展開,創造了增強強化學習過程的正反饋循環。
將在線強化學習定制應用于能力日益增強的基礎模型可能會解鎖超越當前專有模型建立的基準的性能,這些專有模型通常比基礎模型大幾倍或復雜幾倍。
以1%到2%的成本通過小規模強化學習訓練(AppWorld中72個示例)實現接近專有模型的性能,展示了模型定制經濟學的根本轉變。在某些情況下,在線強化學習從第一個訓練步驟就顯示出直接有效性,在30步內快速進展到競爭性性能。
強化學習訓練還誘導了可能有用的特定行為改進,例如在編寫代碼之前總是檢查API文檔,這導致代碼錯誤的減少。模型還在提示變化中維護穩健的語義理解,即使精確匹配分數下降,也表明了真正的理解而不是模式匹配。
在我們的實驗中,較小的模型面臨基本推理限制(無法識別無法回答的問題或從相關上下文中提取答案),僅靠強化學習無法克服。對于受限模型,從更有能力的模型進行有針對性的蒸餾可能比擴展強化學習訓練更有效。
基于這些發現,我們建議投資在線強化學習作為智能體定制的方法,適用于助理智能體和其他用例,如編碼智能體。然而,在部署中出現了幾個值得仔細關注的關鍵因素:數據質量和格式正確性在流水線的每個階段都被證明是必要的;更大的基礎模型從強化學習訓練中展示了不成比例的好處;戰略任務選擇——在訓練期間優先考慮更難的問題——通過對簡單任務的不對稱轉移實現了更高效的學習。
展望未來,我們的研究路線圖專注于兩個主要方向。第一個是通過合成數據生成和自適應數據過濾來擴展我們方法的適用性,以提高訓練效率。第二個是通過跨模型家族的更徹底比較、超越基于結果指標的獎勵信號探索和流水線優化來加深我們對強化學習算法的理解。這些研究旨在使基于強化學習的智能體定制對尋求部署在特定操作環境中真正出色的AI智能體的組織更加可訪問、高效和有效。
我們最新的研究論文——"SALT:通過軌跡圖為長期智能體進行步驟級優勢分配"和"通過技能庫自我改進智能體的強化學習"——展示了智能體強化學習算法的進一步進展,通過細粒度優勢分配和智能體技能學習的獎勵塑造,進一步證明了該領域的巨大潛力。
Q&A
Q1:什么是基于強化學習的AI智能體定制?
A:基于強化學習的AI智能體定制是一種將通用AI系統適配到特定業務領域和環境的方法。通過強化學習訓練,智能體能夠學會特定組織的工作流程、工具使用和業務需求,從而在專業環境中表現更出色。
Q2:這種方法相比傳統AI系統有什么優勢?
A:該方法可以顯著提升任務成功率,在AppWorld實驗中從39.20%提升到72%。同時,以1%到2%的成本就能實現接近專有大模型的性能,大大降低了模型定制的經濟門檻,并能快速適應特定業務場景。
Q3:強化學習訓練需要多少數據才能見效?
A:研究表明,即使使用相對較少的訓練數據也能取得顯著效果。在AppWorld實驗中,僅用72個訓練示例就實現了大幅性能提升。在某些情況下,在線強化學習從第一個訓練步驟就顯示出效果,在30步內就能達到競爭性性能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.