英偉達端著一個8B小模型對GPT-5說:
不好意思,你還得練(bushi)。
何出此言?——英偉達攜手香港大學(xué)開源的Orchestrator-8B,人類終極考試HLE分?jǐn)?shù)更高、花錢更少、跑起來速度還更快。
![]()
哦對了,還在HuggingFace被狂贊,沖到了熱門模型前五。
![]()
而它超越GPT-5的打法是不當(dāng)推理者,而是“工具主理人”,協(xié)調(diào)使用各路工具。
如何吊打GPT-5?
人在解決問題時會找各種幫手,比如搜索引擎、計算器 ,那這個工作能不能由模型代勞?
Orchestrator干的就是這事兒。
雖然自己只有8B參數(shù),但手下管著一整個工具團隊。
既有GPT-5、Claude Opus 4.1這樣的頂級大模型,也有Qwen2.5-Math這樣的專業(yè)數(shù)學(xué)工具,還有網(wǎng)頁搜索、本地檢索、代碼解釋器這些實用小幫手。
![]()
它并不是自己解題,而是判斷現(xiàn)在該用哪個工具、控制工具的順序和使用次數(shù)、還能兼顧效果、成本、用戶偏好,工作日常如下:
- 拿到難題先分析:這題需要算數(shù)學(xué)?那就調(diào)用Qwen2.5-Math;
- 過程中動態(tài)調(diào)整:搜完資料發(fā)現(xiàn)需要驗證?那就先用代碼解釋器跑一遍;
- 全程把控用戶偏好:用戶說要省錢,那GPT-5能不用就不用,優(yōu)先用本地工具。
簡單說,大模型是一個人干所有活,而Orchestrator-8B是帶著團隊干專業(yè)活。
![]()
能讓小模型精準(zhǔn)協(xié)調(diào)這么多工具,全靠英偉達的ToolOrchestra訓(xùn)練大法。
核心有兩個,一個是有獎有罰的強化學(xué)習(xí),一個是量身定制的ToolScale數(shù)據(jù)集。
訓(xùn)練時給Orchestrator立了三條獎懲規(guī)則:
- 效果獎:讓GPT-5判對錯,解題對了加分,錯了扣分;
- 效率獎:用的錢少、耗時短加分,反之扣分;
- 偏好獎:聽用戶的話加分,比如用戶要隱私保護,多用本地搜索就加分。
研究者建了個包含金融、醫(yī)療、電商、旅游等10個領(lǐng)域的訓(xùn)練素材庫,里面全是“怎么用工具解題”的案例,讓模型充分接觸各類場景。
Orchestrator-8B也在權(quán)威測試中交出了令人滿意的答卷。
![]()
HLE測試?yán)锼孟?7.1%的得分,超過GPT-5的35.1%,成本卻僅為后者的1/2.5;
![]()
FRAMES、τ2-Bench測試中也拿下SOTA成績,降低了開支,運行速度更是快了一倍多。
小模型的逆襲
實際上,在AI領(lǐng)域工具編排和小模型驅(qū)動復(fù)合系統(tǒng)的賽道上,英偉達ToolOrchestra訓(xùn)練的Orchestrator-8B并非孤例。
最早探索讓小模型學(xué)會調(diào)用工具的代表性研究,是谷歌DeepMind在2023年提出的Toolformer,通過監(jiān)督學(xué)習(xí)+自生成數(shù)據(jù),讓12B參數(shù)的模型學(xué)會調(diào)用計算器、翻譯API、搜索引擎等基礎(chǔ)工具;
但當(dāng)時,Toolformer僅聚焦基礎(chǔ)工具,并沒有把大模型納入工具庫。
MIT和CMU聯(lián)合團隊的ToolRL,提出以獎勵為核心的工具學(xué)習(xí)框架,訓(xùn)練小模型通過強化學(xué)習(xí)動態(tài)選擇工具,主要是解決“傳統(tǒng)工具學(xué)習(xí)過度依賴人工標(biāo)注數(shù)據(jù)” 的問題,通過自動生成工具交互軌跡訓(xùn)練模型。
雖然也是獎勵機制,但ToolRL的獎勵函數(shù)更側(cè)重于任務(wù)的正確性和工具調(diào)用效率,并沒有明確納入用戶偏好,且工具庫以基礎(chǔ)工具和專業(yè)API為主。
今年,香港大學(xué)和微軟提出的Optimal Tool Calls(OCT),也是專門針對“工具調(diào)用成本優(yōu)化”的小模型訓(xùn)練方法。
越來越多的團隊在做相關(guān)研究,也有越來越多的人關(guān)注該領(lǐng)域的進展。
就拿Orchestrator-8B來說,為什么它能獲得HuggingFace高贊?
最明顯的原因就是實用。大模型雖強,但太貴、太慢,而Orchestrator-8B參數(shù)量小,還能實現(xiàn)「強+省錢」,直接解決了落地時的成本難題。
用低成本實現(xiàn)高智能,這么一看,AI的未來還真不一定是超級大模型單打獨斗了。
作者簡介
Orchestrator-8B這篇論文的一作是香港大學(xué)博士蘇弘錦,主要研究方向是數(shù)據(jù)科學(xué)和自然語言處理,現(xiàn)在英偉達實習(xí)。
![]()
共一是英偉達研究院的研究科學(xué)家Shizhe Diao,主要進行大型基礎(chǔ)模型的預(yù)訓(xùn)練、高效調(diào)優(yōu)和對齊方面的研究,曾與字節(jié)跳動人工智能實驗室的李航博士合作。
![]()
論文地址:https://arxiv.org/abs/2511.21689
項目主頁:https://research.nvidia.com/labs/lpr/ToolOrchestra/
數(shù)據(jù)集:https://huggingface.co/datasets/nvidia/ToolScale
HuggingFace地址:https://huggingface.co/nvidia/Nemotron-Orchestrator-8B
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.