<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      微軟推Agent Lightning:AI 智能體訓練與執(zhí)行徹底解耦,零改代碼即用!

      0
      分享至

      大數(shù)據(jù)文摘出品

      近日,微軟研究院的一個團隊發(fā)布了一個名為Agent Lightning的框架,它使任何人工智能(AI)智能體都能通過強化學習進行訓練。


      這個框架的核心突破在于,它實現(xiàn)了智能體執(zhí)行與強化學習(RL)訓練過程的完全解耦

      這一設計允許開發(fā)者將該框架無縫集成到他們現(xiàn)有的智能體中,并且?guī)缀?b>不需要修改任何代碼。

      這意味著,無論智能體是使用LangChain、AutoGen等流行框架構建,還是從頭開始編寫,都能應用此訓練方法。

      01 訓練與執(zhí)行的徹底解耦


      Overview of Agent Lightning

      當前訓練AI智能體的方法,通常將訓練系統(tǒng)與智能體的內(nèi)部邏輯緊密耦合在一起 。

      這種緊密耦合的方式,要求開發(fā)者必須在訓練系統(tǒng)內(nèi)部重建或大幅改造他們的智能體,過程費時費力且容易出錯 。

      為了打破這一瓶頸,Agent Lightning 提出了一種創(chuàng)新的“訓練-智能體解聚合” (TA Disaggregation) 架構 。


      圖注:Training-Agent Disaggregation architecture

      這個架構將系統(tǒng)清晰地劃分為兩個核心組件:Lightning 服務器和Lightning客戶端 。

      Lightning 服務器作為強化學習訓練系統(tǒng)的控制器,負責管理整個訓練流程和模型參數(shù)的更新 。

      Lightning 客戶端則作為智能體的運行時環(huán)境,獨立負責運行智能體的具體應用邏輯和數(shù)據(jù)收集 。

      服務器通過一個類似OpenAI的API接口,向客戶端提供更新后的模型訪問權限 。

      客戶端的智能體在執(zhí)行任務時調(diào)用此API,就像使用任何標準的LLM服務一樣,完全無需感知背后復雜的訓練過程 。

      這種分離設計使得訓練框架變得“智能體無關”,它只專注于優(yōu)化模型和管理硬件資源,不關心智能體的具體實現(xiàn) 。

      同時,智能體也變得“訓練器無關”,開發(fā)者可以聚焦于智能體的業(yè)務邏輯,而不受限于訓練基礎設施的束縛 。

      為了實現(xiàn)無代碼修改的數(shù)據(jù)捕獲,客戶端巧妙地運用了如OpenTelemetry等可觀測性框架,自動檢測和記錄執(zhí)行軌跡 。

      這種架構還天然支持數(shù)據(jù)并行,客戶端可以同時在單個或多個節(jié)點上運行大量智能體實例,極大地提升了數(shù)據(jù)吞吐量和訓練效率 。

      此外,客戶端運行時還內(nèi)置了全面的錯誤處理機制,確保單個智能體的崩潰不會中斷整個長時間的訓練流程 。

      它還提供了一種“自動中間獎勵”(AIR)機制,能夠基于系統(tǒng)監(jiān)控信號為智能體的中間步驟分配獎勵,有效緩解了稀疏獎勵問題 。

      通過這種方式,Agent Lightning 成功地將計算密集的模型訓練與邏輯靈活多樣的智能體應用分離開來,為大規(guī)模訓練真實世界的AI智能體鋪平了道路 。

      02 統(tǒng)一數(shù)據(jù)接口與分層強化學習


      該圖展示了 Agent Lightning 如何通過統(tǒng)一數(shù)據(jù)接口在執(zhí)行過程中系統(tǒng)化地記錄狀態(tài)變化與軌跡,用于強化學習優(yōu)化。

      Agent Lightning的理論基石,是將復雜的智能體執(zhí)行過程抽象為一個馬爾可夫決策過程(MDP)

      在這個模型中,智能體執(zhí)行的某個瞬間快照被定義為“狀態(tài)”,它包含了描述執(zhí)行狀況所需的一組變量 。

      策略大語言模型(LLM)生成的輸出則被視為“動作”,這個動作會驅動智能體轉換到下一個狀態(tài) 。

      智能體完成任務后獲得的結果,被量化為“獎勵”信號,用于評估動作的質量 。

      基于MDP的建模,Agent Lightning 提出了一個統(tǒng)一的數(shù)據(jù)接口,該接口能適用于從任何AI智能體收集的數(shù)據(jù) 。

      這個接口將智能體的執(zhí)行軌跡,無論其內(nèi)部邏輯多么復雜,都統(tǒng)一表示為一系列(狀態(tài),動作,獎勵)的轉換序列 。

      這種設計巧妙地忽略了智能體內(nèi)部繁瑣多變的具體實現(xiàn)邏輯,只關注策略LLM的輸入和輸出,從而極大簡化了數(shù)據(jù)建模 。

      為了利用這些收集到的數(shù)據(jù)來優(yōu)化LLM,研究團隊進一步設計了一種名為 LightningRL 的分層強化學習算法 。

      LightningRL 的核心在于一個信用分配模塊,它首先將整個任務最終獲得的總獎勵,分配給過程中的每一次LLM調(diào)用(即每一個動作) 。

      然后,這些分配到單次動作的獎勵,會被用于指導現(xiàn)有的單輪次強化學習算法(如GRPO、PPO等)來更新模型參數(shù) 。

      這種分層優(yōu)化的方法,完美兼容了現(xiàn)有的高效RL算法,使其可以直接應用于更復雜的多輪交互場景中 。

      與以往將多輪交互拼接成一個長序列并使用掩碼(masking)進行訓練的方法相比,LightningRL 的設計優(yōu)勢顯著 。

      它避免了設計復雜且容易出錯的掩碼策略,因為數(shù)據(jù)被天然地分解為獨立的轉換單元,無需拼接 。

      同時,這種方式也緩解了因多輪對話累積上下文,導致輸入序列過長而超出模型限制或增加計算負擔的問題 。

      LightningRL 的數(shù)據(jù)組織方式還支持靈活的上下文構建,模型的輸入可以根據(jù)需要動態(tài)生成,例如包含歷史摘要或特定的角色指令 。

      總而言之,通過MDP建模、統(tǒng)一數(shù)據(jù)接口和LightningRL算法,Agent Lightning為在模塊化和動態(tài)化的智能體系統(tǒng)中進行有效的策略優(yōu)化奠定了堅實的基礎 。

      03 跨場景應用的穩(wěn)定提升


      該圖對比了單次調(diào)用 GRPO、多輪 GRPO 與 LightningRL,突出 LightningRL 通過將軌跡分解為轉換并分組估計優(yōu)勢,實現(xiàn)更精細的優(yōu)化。

      為了驗證框架的真實效能,研究團隊在三個具有代表性且實現(xiàn)方式各不相同的任務上進行了測試 。

      第一個任務是使用LangChain框架構建的文本到SQL智能體。


      Text-to-SQL 任務的獎勵曲線

      該智能體需要在復雜的Spider數(shù)據(jù)集上,根據(jù)自然語言問題生成可執(zhí)行的SQL查詢并回答問題 。

      這個場景的特殊之處在于它是一個多智能體系統(tǒng),由同一個LLM扮演SQL編寫、檢查和重寫三個不同角色 。

      實驗證明,Agent Lightning 不僅能夠驅動整個系統(tǒng)性能提升,還能選擇性地同時優(yōu)化其中的兩個智能體(編寫和重寫),展示了其在多智能體協(xié)同優(yōu)化中的靈活性 。

      第二個任務是利用OpenAI Agents SDK實現(xiàn)的檢索增強生成(RAG)智能體。

      這個智能體需要通過從包含2100萬份文檔的整個維基百科中檢索信息,來回答MuSiQue數(shù)據(jù)集中的多跳推理問題 。

      這項任務的挑戰(zhàn)在于查詢的開放性和巨大的信息檢索空間,非常考驗智能體制定有效檢索策略和進行文本推理的能力 。

      第三個任務則是通過AutoGen框架開發(fā)的數(shù)學問答智能體

      該智能體必須在Calc-X數(shù)據(jù)集上,學會如何以及何時調(diào)用計算器工具來解決數(shù)學問題 。


      Reward curves for the Calculator task

      這要求模型不僅要理解數(shù)學邏輯,還要能生成語法正確的工具調(diào)用指令,并將工具返回的結果正確地整合到最終的解題步驟中 。

      在所有這三個場景中,獎勵曲線圖都清晰地顯示,經(jīng)過Agent Lightning 的訓練,模型的性能都獲得了穩(wěn)定且持續(xù)的提升

      這些跨越不同框架、不同任務、不同復雜度的成功案例,有力地證明了

      Agent Lightning作為一個通用優(yōu)化框架的強大潛力,能夠賦能AI智能體解決更加開放和動態(tài)的現(xiàn)實世界問題 。

      via https://github.com/microsoft/agent-lightning

      作者長期關注 AI 產(chǎn)業(yè)與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動態(tài)與技術趨勢!

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!

      掃碼了解詳情?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗國防部隊: 進入全面?zhèn)鋺?zhàn)狀態(tài)

      伊朗國防部隊: 進入全面?zhèn)鋺?zhàn)狀態(tài)

      每日經(jīng)濟新聞
      2026-02-19 16:07:49
      意大利知名地標“愛情拱門”突然崩塌,永久消失,當?shù)厥虚L:曾有成千上萬的情侶來打卡,旅游業(yè)遭“毀滅性打擊”

      意大利知名地標“愛情拱門”突然崩塌,永久消失,當?shù)厥虚L:曾有成千上萬的情侶來打卡,旅游業(yè)遭“毀滅性打擊”

      大風新聞
      2026-02-17 19:26:03
      南京一商場晚上突發(fā)火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      南京一商場晚上突發(fā)火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      極目新聞
      2026-02-19 12:49:48
      浙江一地通知:即日起全域禁止銷售

      浙江一地通知:即日起全域禁止銷售

      都市快報橙柿互動
      2026-02-19 17:58:37
      后續(xù),江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      后續(xù),江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      離離言幾許
      2026-02-18 23:24:35
      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      全景體育V
      2026-02-19 10:10:31
      南方大米產(chǎn)量第一,為啥超市里大部分還是東北米?南方米去哪了?

      南方大米產(chǎn)量第一,為啥超市里大部分還是東北米?南方米去哪了?

      天下十三洲獵奇
      2026-02-18 23:53:55
      突發(fā)!美國出手封殺多家中國機構

      突發(fā)!美國出手封殺多家中國機構

      芯火相承
      2026-02-19 10:02:18
      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      翰飛觀事
      2026-02-16 11:29:39
      林丹在西班牙過年,別墅內(nèi)景曝光,全家人與朋友除夕吃海鮮大餐

      林丹在西班牙過年,別墅內(nèi)景曝光,全家人與朋友除夕吃海鮮大餐

      手工制作阿殲
      2026-02-19 11:58:33
      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統(tǒng)遭摧毀

      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統(tǒng)遭摧毀

      軍迷戰(zhàn)情室
      2026-02-18 23:58:09
      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      米果說識
      2026-02-19 09:32:34
      凌晨發(fā)送恐嚇信息?桔子酒店涉事門店:已報警,非員工發(fā)送

      凌晨發(fā)送恐嚇信息?桔子酒店涉事門店:已報警,非員工發(fā)送

      大風新聞
      2026-02-19 09:46:23
      12死!湖北煙花店爆炸:店主身份被扒,大量內(nèi)幕披露,知情者發(fā)聲

      12死!湖北煙花店爆炸:店主身份被扒,大量內(nèi)幕披露,知情者發(fā)聲

      博士觀察
      2026-02-19 00:06:41
      2月17日俄烏最新: 2.5 年來的最大戰(zhàn)果

      2月17日俄烏最新: 2.5 年來的最大戰(zhàn)果

      西樓飲月
      2026-02-17 20:49:47
      湖北12死煙花爆燃:死者身份公布,大量內(nèi)部照流出,責任人被控制

      湖北12死煙花爆燃:死者身份公布,大量內(nèi)部照流出,責任人被控制

      博士觀察
      2026-02-19 11:41:09
      尹錫悅庭審細節(jié)曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      尹錫悅庭審細節(jié)曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      紅星新聞
      2026-02-19 17:28:30
      太尷尬了!大年初一,上海網(wǎng)友哭訴稱大門被鄰居貼兩張“大字報”

      太尷尬了!大年初一,上海網(wǎng)友哭訴稱大門被鄰居貼兩張“大字報”

      火山詩話
      2026-02-19 15:05:12
      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網(wǎng)

      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網(wǎng)

      火山詩話
      2026-02-19 13:50:13
      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      涵豆說娛
      2026-01-19 17:21:55
      2026-02-19 18:43:00
      大數(shù)據(jù)文摘 incentive-icons
      大數(shù)據(jù)文摘
      專注大數(shù)據(jù),每日有分享!
      6825文章數(shù) 94529關注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節(jié)阿里決戰(zhàn)春節(jié)

      頭條要聞

      媒體:高市2.0 日本政局發(fā)生了意料之中的變動

      頭條要聞

      媒體:高市2.0 日本政局發(fā)生了意料之中的變動

      體育要聞

      中國隊第二金!徐夢桃贏女子空中技巧兩連冠 邵琪銅牌

      娛樂要聞

      明星過年百態(tài)!黃曉明等現(xiàn)身三亞

      財經(jīng)要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產(chǎn)甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態(tài)度原創(chuàng)

      本地
      藝術
      數(shù)碼
      教育
      軍事航空

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      藝術要聞

      震驚!安徒生竟是畫家,他的田園生活太美了!

      數(shù)碼要聞

      內(nèi)存價格崩了 國內(nèi)最高降價20%:去華強北市場揭秘實情!

      教育要聞

      聽懂這5點,下學期教書,哪還有什么不幸福的?

      軍事要聞

      金正恩出席火箭炮贈送儀式 強調(diào)確保朝鮮安全環(huán)境

      無障礙瀏覽 進入關懷版