<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      英偉達巧用8B模型秒掉GPT-5,開源了

      0
      分享至

      英偉達端著一個8B小模型對GPT-5說:

      不好意思,你還得練(bushi)。

      何出此言?——英偉達攜手香港大學開源的Orchestrator-8B,人類終極考試HLE分數(shù)更高、花錢更少、跑起來速度還更快。



      哦對了,還在HuggingFace被狂贊,沖到了熱門模型前五。



      而它超越GPT-5的打法是不當推理者,而是“工具主理人”,協(xié)調(diào)使用各路工具。

      如何吊打GPT-5?

      人在解決問題時會找各種幫手,比如搜索引擎、計算器 ,那這個工作能不能由模型代勞?

      Orchestrator干的就是這事兒。

      雖然自己只有8B參數(shù),但手下管著一整個工具團隊。

      既有GPT-5、Claude Opus 4.1這樣的頂級大模型,也有Qwen2.5-Math這樣的專業(yè)數(shù)學工具,還有網(wǎng)頁搜索、本地檢索、代碼解釋器這些實用小幫手。



      它并不是自己解題,而是判斷現(xiàn)在該用哪個工具、控制工具的順序和使用次數(shù)、還能兼顧效果、成本、用戶偏好,工作日常如下:

      • 拿到難題先分析:這題需要算數(shù)學?那就調(diào)用Qwen2.5-Math;
      • 過程中動態(tài)調(diào)整:搜完資料發(fā)現(xiàn)需要驗證?那就先用代碼解釋器跑一遍;
      • 全程把控用戶偏好:用戶說要省錢,那GPT-5能不用就不用,優(yōu)先用本地工具。

      簡單說,大模型是一個人干所有活,而Orchestrator-8B是帶著團隊干專業(yè)活。



      能讓小模型精準協(xié)調(diào)這么多工具,全靠英偉達的ToolOrchestra訓練大法。

      核心有兩個,一個是有獎有罰的強化學習,一個是量身定制的ToolScale數(shù)據(jù)集

      訓練時給Orchestrator立了三條獎懲規(guī)則:

      • 效果獎:讓GPT-5判對錯,解題對了加分,錯了扣分;
      • 效率獎:用的錢少、耗時短加分,反之扣分;
      • 偏好獎:聽用戶的話加分,比如用戶要隱私保護,多用本地搜索就加分。

      研究者建了個包含金融、醫(yī)療、電商、旅游等10個領域的訓練素材庫,里面全是“怎么用工具解題”的案例,讓模型充分接觸各類場景。

      Orchestrator-8B也在權威測試中交出了令人滿意的答卷。



      HLE測試里它拿下37.1%的得分,超過GPT-5的35.1%,成本卻僅為后者的1/2.5;



      FRAMES、τ2-Bench測試中也拿下SOTA成績,降低了開支,運行速度更是快了一倍多。

      小模型的逆襲

      實際上,在AI領域工具編排和小模型驅(qū)動復合系統(tǒng)的賽道上,英偉達ToolOrchestra訓練的Orchestrator-8B并非孤例。

      最早探索讓小模型學會調(diào)用工具的代表性研究,是谷歌DeepMind在2023年提出的Toolformer,通過監(jiān)督學習+自生成數(shù)據(jù),讓12B參數(shù)的模型學會調(diào)用計算器、翻譯API、搜索引擎等基礎工具;

      但當時,Toolformer僅聚焦基礎工具,并沒有把大模型納入工具庫。

      MIT和CMU聯(lián)合團隊的ToolRL,提出以獎勵為核心的工具學習框架,訓練小模型通過強化學習動態(tài)選擇工具,主要是解決“傳統(tǒng)工具學習過度依賴人工標注數(shù)據(jù)” 的問題,通過自動生成工具交互軌跡訓練模型。

      雖然也是獎勵機制,但ToolRL的獎勵函數(shù)更側(cè)重于任務的正確性和工具調(diào)用效率,并沒有明確納入用戶偏好,且工具庫以基礎工具和專業(yè)API為主。

      今年,香港大學和微軟提出的Optimal Tool Calls(OCT),也是專門針對“工具調(diào)用成本優(yōu)化”的小模型訓練方法。

      越來越多的團隊在做相關研究,也有越來越多的人關注該領域的進展。

      就拿Orchestrator-8B來說,為什么它能獲得HuggingFace高贊?

      最明顯的原因就是實用。大模型雖強,但太貴、太慢,而Orchestrator-8B參數(shù)量小,還能實現(xiàn)「強+省錢」,直接解決了落地時的成本難題。

      用低成本實現(xiàn)高智能,這么一看,AI的未來還真不一定是超級大模型單打獨斗了。

      作者簡介

      Orchestrator-8B這篇論文的一作是香港大學博士蘇弘錦,主要研究方向是數(shù)據(jù)科學和自然語言處理,現(xiàn)在英偉達實習。



      共一是英偉達研究院的研究科學家Shizhe Diao,主要進行大型基礎模型的預訓練、高效調(diào)優(yōu)和對齊方面的研究,曾與字節(jié)跳動人工智能實驗室的李航博士合作。



      論文地址:https://arxiv.org/abs/2511.21689
      項目主頁:https://research.nvidia.com/labs/lpr/ToolOrchestra/
      數(shù)據(jù)集:https://huggingface.co/datasets/nvidia/ToolScale
      HuggingFace地址:https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      哈梅內(nèi)伊沒有“遇害”

      哈梅內(nèi)伊沒有“遇害”

      西樓飲月
      2026-03-02 22:33:08
      敏捷集團創(chuàng)始人譚炳照滯留香港

      敏捷集團創(chuàng)始人譚炳照滯留香港

      地產(chǎn)微資訊
      2026-03-07 17:20:41
      CBA扣籃大賽預賽!俞澤辰100分力壓張鼎巖排第1,攜劉禮嘉晉級!

      CBA扣籃大賽預賽!俞澤辰100分力壓張鼎巖排第1,攜劉禮嘉晉級!

      籃球資訊達人
      2026-03-07 22:44:59
      集體下挫!美聯(lián)儲降息,突傳大消息!

      集體下挫!美聯(lián)儲降息,突傳大消息!

      證券時報e公司
      2026-03-07 22:27:40
      大學生就業(yè)真相曝光:1270萬畢業(yè)生擠破頭,真正吃香的是這3類!

      大學生就業(yè)真相曝光:1270萬畢業(yè)生擠破頭,真正吃香的是這3類!

      戶外阿毽
      2026-03-07 19:35:07
      周杰倫突然發(fā)文:給我等著

      周杰倫突然發(fā)文:給我等著

      觀察者網(wǎng)
      2026-03-07 07:33:08
      悲報:或因中日關系緊張,木村拓哉原定出演《九龍城寨》續(xù)集,開拍前突然被臨時換掉!

      悲報:或因中日關系緊張,木村拓哉原定出演《九龍城寨》續(xù)集,開拍前突然被臨時換掉!

      日本物語
      2026-03-07 20:35:30
      國務院研究員丁一凡:“35歲失業(yè)不一定是壞事,可倒逼二次創(chuàng)業(yè)”

      國務院研究員丁一凡:“35歲失業(yè)不一定是壞事,可倒逼二次創(chuàng)業(yè)”

      葉初七
      2026-03-07 16:00:58
      CBA外援縮減人數(shù)!重回6年前,遼籃吃到紅利,上海、廣廈受限

      CBA外援縮減人數(shù)!重回6年前,遼籃吃到紅利,上海、廣廈受限

      體壇大事記
      2026-03-07 16:28:12
      恐遭禁賽?中超最貴外援不滿判罰!做蒙眼吹哨手勢嘲諷張雷+染黃

      恐遭禁賽?中超最貴外援不滿判罰!做蒙眼吹哨手勢嘲諷張雷+染黃

      我愛英超
      2026-03-07 22:33:36
      3月7日俄烏最新:小澤上前線

      3月7日俄烏最新:小澤上前線

      西樓飲月
      2026-03-07 20:59:30
      內(nèi)塔尼亞胡做夢也沒想到:親手扶持的“棋子”,正從背后捅戈蘭高地一刀

      內(nèi)塔尼亞胡做夢也沒想到:親手扶持的“棋子”,正從背后捅戈蘭高地一刀

      起喜電影
      2026-03-07 17:04:09
      河南小伙在非洲16年,當?shù)匾环蚨嗥拗?,男人只用玩,女人掙錢養(yǎng)家

      河南小伙在非洲16年,當?shù)匾环蚨嗥拗?,男人只用玩,女人掙錢養(yǎng)家

      網(wǎng)絡易不易
      2026-02-08 11:32:05
      任職少林寺住持剛5個月,釋印樂再迎喜訊,釋永信腸子悔青也晚了

      任職少林寺住持剛5個月,釋印樂再迎喜訊,釋永信腸子悔青也晚了

      元寶課堂
      2026-03-06 18:06:10
      同樣搞核武,美國為啥不敢動朝鮮,卻把伊朗往死里打?

      同樣搞核武,美國為啥不敢動朝鮮,卻把伊朗往死里打?

      三目觀史
      2026-03-06 07:31:12
      23歲男子嘴對嘴喝易拉罐飲料,感染鼠尿病,僅一周時間就不幸去世

      23歲男子嘴對嘴喝易拉罐飲料,感染鼠尿病,僅一周時間就不幸去世

      齊魯壹點
      2026-03-07 05:15:12
      金價:大家做好準備,信號很明確,下周或迎新一輪歷史行情?

      金價:大家做好準備,信號很明確,下周或迎新一輪歷史行情?

      三農(nóng)老歷
      2026-03-08 00:12:07
      踢了23分鐘就掛靴!瓦拉內(nèi)退役后首發(fā)聲:身體零件已散架,不硬撐

      踢了23分鐘就掛靴!瓦拉內(nèi)退役后首發(fā)聲:身體零件已散架,不硬撐

      仰臥撐FTUer
      2026-03-06 13:38:03
      特朗普脖子被發(fā)現(xiàn)異常,瞞不住的白宮承認,總統(tǒng)確實正在接受治療

      特朗普脖子被發(fā)現(xiàn)異常,瞞不住的白宮承認,總統(tǒng)確實正在接受治療

      牛鍋巴小釩
      2026-03-07 15:23:05
      命中了!650公里導彈命中,印度洋美軍驅(qū)逐艦和補給艦:燃起大火

      命中了!650公里導彈命中,印度洋美軍驅(qū)逐艦和補給艦:燃起大火

      東極妙嚴
      2026-03-04 18:00:02
      2026-03-08 03:59:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12223文章數(shù) 176404關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

      頭條要聞

      選舉24小時內(nèi)舉行 伊朗今天或選出最高領袖

      頭條要聞

      選舉24小時內(nèi)舉行 伊朗今天或選出最高領袖

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      汪小菲曝親媽猛料,張?zhí)m公開財產(chǎn)分配

      財經(jīng)要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩(wěn)

      態(tài)度原創(chuàng)

      時尚
      本地
      教育
      數(shù)碼
      家居

      2026春夏一定要擁有的6只包,好看又百搭

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      教育要聞

      原來走讀生更容易學壞!家長曬初中叛逆女兒,網(wǎng)友:可能已經(jīng)懷孕

      數(shù)碼要聞

      英特爾 Core Ultra 3 “Panther Lake-H” 結構細節(jié)曝光

      家居要聞

      暖棕撞色 輕法奶油風

      無障礙瀏覽 進入關懷版