henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
強(qiáng)化學(xué)習(xí)+任意一張牌,往往就是王炸。
專注于LLM+RL的科技公司OpenPipe提出全新開源強(qiáng)化學(xué)習(xí)框架——MCP·RL。
只需一個MCP Server的地址,agent就能自動發(fā)現(xiàn)工具、生成任務(wù),通過強(qiáng)化學(xué)習(xí)在閉環(huán)反饋中摸索出最優(yōu)調(diào)用策略。
在實(shí)測中,MCP·RL更是在2/3的benchmark上達(dá)到或超過SOTA性能,效果直接拉滿。
![]()
不套公式,在“做中學(xué)”,這就是專屬RL的power!
![]()
MCP·RL的做中學(xué)
想明白MCP·RL怎么個“做中學(xué)”法,咱們有必要簡單過一下傳統(tǒng)MCP的流程:
舉個例子,假如你想讓agent幫自己讀郵件、分類、寫回復(fù),那么你就得提前設(shè)置好整個工作流:
準(zhǔn)備郵件數(shù)據(jù)、注冊工具、寫prompt規(guī)劃執(zhí)行順序。
此外,你還得設(shè)置回退邏輯,以防中途崩掉。
而這只是一個發(fā)郵件的例子,功能一多,配置量指數(shù)級上升。
最關(guān)鍵的是——你得知道怎么拆任務(wù)、調(diào)工具、寫邏輯。
換句話說,agent就是在做你給他出的完形填空。
而你,我的朋友,要填除了空以外的所有東西。
MCP·RL的提出就是為了解決這一問題。
你只需提供MCP Server地址,不用配置工具、不用寫prompt、不用人工標(biāo)注。
模型就能自己發(fā)現(xiàn)工具、自己設(shè)計任務(wù)、自己實(shí)戰(zhàn)訓(xùn)練,邊跑邊學(xué)。
![]()
簡單來說,MCP·RL的訓(xùn)練流程分四步:
- 發(fā)現(xiàn)工具:自動連接MCP Server,獲取所有可用工具和參數(shù)。
- 生成任務(wù):根據(jù)工具信息自己“腦補(bǔ)”出一批使用場景,作為訓(xùn)練任務(wù)(數(shù)據(jù))。
- 實(shí)戰(zhàn)訓(xùn)練:通過跑任務(wù)直接從經(jīng)驗(yàn)中學(xué)習(xí),搭配RULER評估策略,調(diào)參優(yōu)化。
- 測試泛化:用新任務(wù)檢驗(yàn)策略泛化性,讓agent越用越順手。
總結(jié)下來就是:任務(wù)場景是什么?AI找;工具怎么用?AI學(xué);流程怎么拆?AI想;效果好不好?AI試。
一位網(wǎng)友精辟的點(diǎn)出了這一轉(zhuǎn)變:
- 我們曾借助MCP讓AI調(diào)用工具,而現(xiàn)在是AI反過來利用MCP。
![]()
那么,它的效果如何呢?
正如我們開頭提到的,MCP·RL在2/3的基準(zhǔn)測試中達(dá)到SOTA。
![]()
而在具體的部署層面,MCP·RL無需標(biāo)注數(shù)據(jù),適用于任何Server,無需定制MCP接口,開箱即用。
One more thing
MCP·RL是科技公司OpenPipe基于強(qiáng)化學(xué)習(xí)的智能體訓(xùn)練系統(tǒng)(Agent Reinforcement Trainer,ART)的最新項(xiàng)目。
ART是一個開源強(qiáng)化學(xué)習(xí)框架,其核心思想是讓LLM從經(jīng)驗(yàn)中學(xué)習(xí),從而提高agent的可靠性,ART可以將GRPO集成到任何Python應(yīng)用中。
在此前的實(shí)測中,ART(Agent Reinforcement Trainer)對Qwen 2.5-14B進(jìn)行強(qiáng)化訓(xùn)練,其在一項(xiàng)電子郵件檢索任務(wù)中表現(xiàn)優(yōu)于o3,實(shí)現(xiàn)了SOTA(state-of-the-art)。
![]()
[1]https://x.com/corbtt/status/1953171838382817625
[2]https://github.com/OpenPipe/ART?tab=readme-ov-file#-notebooks
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.