<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      微軟推Agent Lightning:AI 智能體訓練與執行徹底解耦,零改代碼即用!

      0
      分享至

      大數據文摘出品

      近日,微軟研究院的一個團隊發布了一個名為Agent Lightning的框架,它使任何人工智能(AI)智能體都能通過強化學習進行訓練。


      這個框架的核心突破在于,它實現了智能體執行與強化學習(RL)訓練過程的完全解耦

      這一設計允許開發者將該框架無縫集成到他們現有的智能體中,并且幾乎不需要修改任何代碼。

      這意味著,無論智能體是使用LangChain、AutoGen等流行框架構建,還是從頭開始編寫,都能應用此訓練方法。

      01 訓練與執行的徹底解耦


      Overview of Agent Lightning

      當前訓練AI智能體的方法,通常將訓練系統與智能體的內部邏輯緊密耦合在一起 。

      這種緊密耦合的方式,要求開發者必須在訓練系統內部重建或大幅改造他們的智能體,過程費時費力且容易出錯 。

      為了打破這一瓶頸,Agent Lightning 提出了一種創新的“訓練-智能體解聚合” (TA Disaggregation) 架構 。


      圖注:Training-Agent Disaggregation architecture

      這個架構將系統清晰地劃分為兩個核心組件:Lightning 服務器和Lightning客戶端 。

      Lightning 服務器作為強化學習訓練系統的控制器,負責管理整個訓練流程和模型參數的更新 。

      Lightning 客戶端則作為智能體的運行時環境,獨立負責運行智能體的具體應用邏輯和數據收集 。

      服務器通過一個類似OpenAI的API接口,向客戶端提供更新后的模型訪問權限 。

      客戶端的智能體在執行任務時調用此API,就像使用任何標準的LLM服務一樣,完全無需感知背后復雜的訓練過程 。

      這種分離設計使得訓練框架變得“智能體無關”,它只專注于優化模型和管理硬件資源,不關心智能體的具體實現 。

      同時,智能體也變得“訓練器無關”,開發者可以聚焦于智能體的業務邏輯,而不受限于訓練基礎設施的束縛 。

      為了實現無代碼修改的數據捕獲,客戶端巧妙地運用了如OpenTelemetry等可觀測性框架,自動檢測和記錄執行軌跡 。

      這種架構還天然支持數據并行,客戶端可以同時在單個或多個節點上運行大量智能體實例,極大地提升了數據吞吐量和訓練效率 。

      此外,客戶端運行時還內置了全面的錯誤處理機制,確保單個智能體的崩潰不會中斷整個長時間的訓練流程 。

      它還提供了一種“自動中間獎勵”(AIR)機制,能夠基于系統監控信號為智能體的中間步驟分配獎勵,有效緩解了稀疏獎勵問題 。

      通過這種方式,Agent Lightning 成功地將計算密集的模型訓練與邏輯靈活多樣的智能體應用分離開來,為大規模訓練真實世界的AI智能體鋪平了道路 。

      02 統一數據接口與分層強化學習


      該圖展示了 Agent Lightning 如何通過統一數據接口在執行過程中系統化地記錄狀態變化與軌跡,用于強化學習優化。

      Agent Lightning的理論基石,是將復雜的智能體執行過程抽象為一個馬爾可夫決策過程(MDP)。

      在這個模型中,智能體執行的某個瞬間快照被定義為“狀態”,它包含了描述執行狀況所需的一組變量 。

      策略大語言模型(LLM)生成的輸出則被視為“動作”,這個動作會驅動智能體轉換到下一個狀態 。

      智能體完成任務后獲得的結果,被量化為“獎勵”信號,用于評估動作的質量 。

      基于MDP的建模,Agent Lightning 提出了一個統一的數據接口,該接口能適用于從任何AI智能體收集的數據 。

      這個接口將智能體的執行軌跡,無論其內部邏輯多么復雜,都統一表示為一系列(狀態,動作,獎勵)的轉換序列 。

      這種設計巧妙地忽略了智能體內部繁瑣多變的具體實現邏輯,只關注策略LLM的輸入和輸出,從而極大簡化了數據建模 。

      為了利用這些收集到的數據來優化LLM,研究團隊進一步設計了一種名為 LightningRL 的分層強化學習算法 。

      LightningRL 的核心在于一個信用分配模塊,它首先將整個任務最終獲得的總獎勵,分配給過程中的每一次LLM調用(即每一個動作) 。

      然后,這些分配到單次動作的獎勵,會被用于指導現有的單輪次強化學習算法(如GRPO、PPO等)來更新模型參數 。

      這種分層優化的方法,完美兼容了現有的高效RL算法,使其可以直接應用于更復雜的多輪交互場景中 。

      與以往將多輪交互拼接成一個長序列并使用掩碼(masking)進行訓練的方法相比,LightningRL 的設計優勢顯著 。

      它避免了設計復雜且容易出錯的掩碼策略,因為數據被天然地分解為獨立的轉換單元,無需拼接 。

      同時,這種方式也緩解了因多輪對話累積上下文,導致輸入序列過長而超出模型限制或增加計算負擔的問題 。

      LightningRL 的數據組織方式還支持靈活的上下文構建,模型的輸入可以根據需要動態生成,例如包含歷史摘要或特定的角色指令 。

      總而言之,通過MDP建模、統一數據接口和LightningRL算法,Agent Lightning為在模塊化和動態化的智能體系統中進行有效的策略優化奠定了堅實的基礎 。

      03 跨場景應用的穩定提升


      該圖對比了單次調用 GRPO、多輪 GRPO 與 LightningRL,突出 LightningRL 通過將軌跡分解為轉換并分組估計優勢,實現更精細的優化。

      為了驗證框架的真實效能,研究團隊在三個具有代表性且實現方式各不相同的任務上進行了測試 。

      第一個任務是使用LangChain框架構建的文本到SQL智能體。


      Text-to-SQL 任務的獎勵曲線

      該智能體需要在復雜的Spider數據集上,根據自然語言問題生成可執行的SQL查詢并回答問題 。

      這個場景的特殊之處在于它是一個多智能體系統,由同一個LLM扮演SQL編寫、檢查和重寫三個不同角色 。

      實驗證明,Agent Lightning 不僅能夠驅動整個系統性能提升,還能選擇性地同時優化其中的兩個智能體(編寫和重寫),展示了其在多智能體協同優化中的靈活性 。

      第二個任務是利用OpenAI Agents SDK實現的檢索增強生成(RAG)智能體。

      這個智能體需要通過從包含2100萬份文檔的整個維基百科中檢索信息,來回答MuSiQue數據集中的多跳推理問題 。

      這項任務的挑戰在于查詢的開放性和巨大的信息檢索空間,非常考驗智能體制定有效檢索策略和進行文本推理的能力 。

      第三個任務則是通過AutoGen框架開發的數學問答智能體

      該智能體必須在Calc-X數據集上,學會如何以及何時調用計算器工具來解決數學問題 。


      Reward curves for the Calculator task

      這要求模型不僅要理解數學邏輯,還要能生成語法正確的工具調用指令,并將工具返回的結果正確地整合到最終的解題步驟中 。

      在所有這三個場景中,獎勵曲線圖都清晰地顯示,經過Agent Lightning 的訓練,模型的性能都獲得了穩定且持續的提升

      這些跨越不同框架、不同任務、不同復雜度的成功案例,有力地證明了

      Agent Lightning作為一個通用優化框架的強大潛力,能夠賦能AI智能體解決更加開放和動態的現實世界問題 。

      via https://github.com/microsoft/agent-lightning

      作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      芬蘭小姐歧視風波升級:政界聲援引發對種族議題的更大爭論

      芬蘭小姐歧視風波升級:政界聲援引發對種族議題的更大爭論

      華人生活網
      2025-12-14 03:38:57
      搞笑圖片第1086期:什么樣的設計師腦洞能設計出這樣的T恤來?

      搞笑圖片第1086期:什么樣的設計師腦洞能設計出這樣的T恤來?

      今天的快樂
      2025-12-13 20:30:21
      無視中俄警告,美軍派B52給高市早苗助威,8架殲-16不給F-15J機會

      無視中俄警告,美軍派B52給高市早苗助威,8架殲-16不給F-15J機會

      南宮一二
      2025-12-11 17:31:24
      官媒接連發聲:一查到底!是誰在糊弄國家和人民

      官媒接連發聲:一查到底!是誰在糊弄國家和人民

      詩意世界
      2025-12-12 21:22:07
      少林新規范眾怒?十公里50元車費引來爭議,印樂法師近況爆出

      少林新規范眾怒?十公里50元車費引來爭議,印樂法師近況爆出

      自娛眾樂
      2025-12-12 16:00:08
      WTT總決賽!男單4強名單出爐,張本智和絕殺晉級,林詩棟壓力很大

      WTT總決賽!男單4強名單出爐,張本智和絕殺晉級,林詩棟壓力很大

      知軒體育
      2025-12-13 18:14:53
      深圳樓市:房價太離譜了。。

      深圳樓市:房價太離譜了。。

      樓市諸葛
      2025-12-13 14:52:49
      在窗戶LED屏上惡意投放動態火焰,引來5輛消防車,廣州一市民被行政處罰

      在窗戶LED屏上惡意投放動態火焰,引來5輛消防車,廣州一市民被行政處罰

      環球網資訊
      2025-12-13 08:23:04
      為什么全世界只有中國人實現了“蔬菜自由”?竟是中國頂級特權?

      為什么全世界只有中國人實現了“蔬菜自由”?竟是中國頂級特權?

      歷史求知所
      2025-10-26 10:25:08
      中國有多少城市能撐住七日游?網友分享殺瘋了,各種神回復笑不活

      中國有多少城市能撐住七日游?網友分享殺瘋了,各種神回復笑不活

      墻頭草
      2025-10-23 07:58:58
      T2航站樓即將停用?不會!未來將與T1航站樓統籌使用

      T2航站樓即將停用?不會!未來將與T1航站樓統籌使用

      上游新聞
      2025-12-13 15:07:04
      克里米亞戰爭,歐洲禍水東引,受害最深的是誰?

      克里米亞戰爭,歐洲禍水東引,受害最深的是誰?

      地圖帝
      2025-12-13 13:17:48
      特朗普拿出“新五常”名單,日本和印度頂替英法,中美俄穩坐不動

      特朗普拿出“新五?!泵麊?,日本和印度頂替英法,中美俄穩坐不動

      博覽歷史
      2025-12-12 21:23:17
      香煙為何要分軟包和硬包,這二者有什么區別?經常吸煙不妨了解下

      香煙為何要分軟包和硬包,這二者有什么區別?經常吸煙不妨了解下

      三農老歷
      2025-12-13 15:01:06
      澤連斯基造訪庫皮揚斯克,多個細節泄露位置,該城估計馬上就失控

      澤連斯基造訪庫皮揚斯克,多個細節泄露位置,該城估計馬上就失控

      堅果甜瓜
      2025-12-13 04:53:01
      越來越多孩子得白血???醫生坦言:家里4樣東西是禍根,趁早扔了

      越來越多孩子得白血???醫生坦言:家里4樣東西是禍根,趁早扔了

      DrX說
      2025-11-19 14:42:09
      劍南春|巴黎3-2梅斯,杜埃、恩賈恩圖破門,姆巴耶助攻雙響

      劍南春|巴黎3-2梅斯,杜埃、恩賈恩圖破門,姆巴耶助攻雙響

      懂球帝
      2025-12-14 04:09:11
      美國男子發現一個清除社區流浪漢的好辦法:送給他們5美元假鈔

      美國男子發現一個清除社區流浪漢的好辦法:送給他們5美元假鈔

      詩意世界
      2025-12-13 20:33:51
      官媒親宣,34歲韋東奕再破天花板,辦公室內景曝光,新水杯未開封

      官媒親宣,34歲韋東奕再破天花板,辦公室內景曝光,新水杯未開封

      烏娛子醬
      2025-12-11 16:37:45
      趙繼偉傷停,布朗16分,CBA遼籃80-68天津男籃,贏得賽季開門紅!

      趙繼偉傷停,布朗16分,CBA遼籃80-68天津男籃,贏得賽季開門紅!

      晚池
      2025-12-14 00:35:03
      2025-12-14 04:24:49
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6806文章數 94518關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      "小米公司不讓賣小米"涉事村莊村民:馮書記直播不收錢

      頭條要聞

      "小米公司不讓賣小米"涉事村莊村民:馮書記直播不收錢

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      插刀門后,印小天一舉動實現口碑逆轉

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      游戲
      本地
      數碼
      公開課
      軍事航空

      神途得道飛升,魔道奪魄煉獄!是你,你會選哪條路?

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      數碼要聞

      飛傲雪漫天預熱DISC便攜播放器:仿CD機外觀、雙耳機接口

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄烏“和平計劃”磋商頓巴斯成焦點

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 69人妻人人澡人人爽人人精品| 无码人妻h动漫| 四虎永久精品免费视频| 一本久久88中| 中国AV第一站| 国产偷人妻精品一区二区在线 | 国产露脸无套对白在线播放| 日本女V片| 91福利导航大全| www.成人人妻| 少妇人妻综合久久中文字幕| 国产熟女内射oooo| 亚洲产在线精品亚洲第一站一| 午夜男人天堂| 99在线精品免费视频| 特级毛片爽www免费版| 九九热精品免费视频| 18禁123| 一本色道久久88亚洲精品综合 | 亚洲伊人久久综合成人| 精品九九在线| 亚洲精品乱码久久久久红杏| 国产看黄网站又黄又爽又色| 91激情| 内黄县| 亚洲a∨国产av综合av下载| 99无码中文字幕视频| 欧美成人动态图| 亚洲精品aa| 国产人妻一区二区三区四区五区六| 日韩无码一区二区三区四区| 蜜臀久久99精品久久久久酒店| 久久久久久AV| 丰满妇女毛茸茸刮毛| 国产成人亚洲无码淙合青草| 中文字幕在线v| 日韩熟女AV| 九九九九精品视频在线观看| 最新午夜男女福利片视频| 2014AV天堂网| 亚洲国产成人av毛片大全|