<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      英偉達巧用8B模型秒掉GPT-5,開源了

      0
      分享至

      英偉達端著一個8B小模型對GPT-5說:

      不好意思,你還得練(bushi)。

      何出此言?——英偉達攜手香港大學(xué)開源的Orchestrator-8B,人類終極考試HLE分?jǐn)?shù)更高、花錢更少、跑起來速度還更快。



      哦對了,還在HuggingFace被狂贊,沖到了熱門模型前五。



      而它超越GPT-5的打法是不當(dāng)推理者,而是“工具主理人”,協(xié)調(diào)使用各路工具。

      如何吊打GPT-5?

      人在解決問題時會找各種幫手,比如搜索引擎、計算器 ,那這個工作能不能由模型代勞?

      Orchestrator干的就是這事兒。

      雖然自己只有8B參數(shù),但手下管著一整個工具團隊。

      既有GPT-5、Claude Opus 4.1這樣的頂級大模型,也有Qwen2.5-Math這樣的專業(yè)數(shù)學(xué)工具,還有網(wǎng)頁搜索、本地檢索、代碼解釋器這些實用小幫手。



      它并不是自己解題,而是判斷現(xiàn)在該用哪個工具、控制工具的順序和使用次數(shù)、還能兼顧效果、成本、用戶偏好,工作日常如下:

      • 拿到難題先分析:這題需要算數(shù)學(xué)?那就調(diào)用Qwen2.5-Math;
      • 過程中動態(tài)調(diào)整:搜完資料發(fā)現(xiàn)需要驗證?那就先用代碼解釋器跑一遍;
      • 全程把控用戶偏好:用戶說要省錢,那GPT-5能不用就不用,優(yōu)先用本地工具。

      簡單說,大模型是一個人干所有活,而Orchestrator-8B是帶著團隊干專業(yè)活。



      能讓小模型精準(zhǔn)協(xié)調(diào)這么多工具,全靠英偉達的ToolOrchestra訓(xùn)練大法。

      核心有兩個,一個是有獎有罰的強化學(xué)習(xí),一個是量身定制的ToolScale數(shù)據(jù)集

      訓(xùn)練時給Orchestrator立了三條獎懲規(guī)則:

      • 效果獎:讓GPT-5判對錯,解題對了加分,錯了扣分;
      • 效率獎:用的錢少、耗時短加分,反之扣分;
      • 偏好獎:聽用戶的話加分,比如用戶要隱私保護,多用本地搜索就加分。

      研究者建了個包含金融、醫(yī)療、電商、旅游等10個領(lǐng)域的訓(xùn)練素材庫,里面全是“怎么用工具解題”的案例,讓模型充分接觸各類場景。

      Orchestrator-8B也在權(quán)威測試中交出了令人滿意的答卷。



      HLE測試?yán)锼孟?7.1%的得分,超過GPT-5的35.1%,成本卻僅為后者的1/2.5;



      FRAMES、τ2-Bench測試中也拿下SOTA成績,降低了開支,運行速度更是快了一倍多。

      小模型的逆襲

      實際上,在AI領(lǐng)域工具編排和小模型驅(qū)動復(fù)合系統(tǒng)的賽道上,英偉達ToolOrchestra訓(xùn)練的Orchestrator-8B并非孤例。

      最早探索讓小模型學(xué)會調(diào)用工具的代表性研究,是谷歌DeepMind在2023年提出的Toolformer,通過監(jiān)督學(xué)習(xí)+自生成數(shù)據(jù),讓12B參數(shù)的模型學(xué)會調(diào)用計算器、翻譯API、搜索引擎等基礎(chǔ)工具;

      但當(dāng)時,Toolformer僅聚焦基礎(chǔ)工具,并沒有把大模型納入工具庫。

      MIT和CMU聯(lián)合團隊的ToolRL,提出以獎勵為核心的工具學(xué)習(xí)框架,訓(xùn)練小模型通過強化學(xué)習(xí)動態(tài)選擇工具,主要是解決“傳統(tǒng)工具學(xué)習(xí)過度依賴人工標(biāo)注數(shù)據(jù)” 的問題,通過自動生成工具交互軌跡訓(xùn)練模型。

      雖然也是獎勵機制,但ToolRL的獎勵函數(shù)更側(cè)重于任務(wù)的正確性和工具調(diào)用效率,并沒有明確納入用戶偏好,且工具庫以基礎(chǔ)工具和專業(yè)API為主。

      今年,香港大學(xué)和微軟提出的Optimal Tool Calls(OCT),也是專門針對“工具調(diào)用成本優(yōu)化”的小模型訓(xùn)練方法。

      越來越多的團隊在做相關(guān)研究,也有越來越多的人關(guān)注該領(lǐng)域的進展。

      就拿Orchestrator-8B來說,為什么它能獲得HuggingFace高贊?

      最明顯的原因就是實用。大模型雖強,但太貴、太慢,而Orchestrator-8B參數(shù)量小,還能實現(xiàn)「強+省錢」,直接解決了落地時的成本難題。

      用低成本實現(xiàn)高智能,這么一看,AI的未來還真不一定是超級大模型單打獨斗了。

      作者簡介

      Orchestrator-8B這篇論文的一作是香港大學(xué)博士蘇弘錦,主要研究方向是數(shù)據(jù)科學(xué)和自然語言處理,現(xiàn)在英偉達實習(xí)。



      共一是英偉達研究院的研究科學(xué)家Shizhe Diao,主要進行大型基礎(chǔ)模型的預(yù)訓(xùn)練、高效調(diào)優(yōu)和對齊方面的研究,曾與字節(jié)跳動人工智能實驗室的李航博士合作。



      論文地址:https://arxiv.org/abs/2511.21689
      項目主頁:https://research.nvidia.com/labs/lpr/ToolOrchestra/
      數(shù)據(jù)集:https://huggingface.co/datasets/nvidia/ToolScale
      HuggingFace地址:https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      復(fù)旦大學(xué)領(lǐng)導(dǎo)班子調(diào)整

      復(fù)旦大學(xué)領(lǐng)導(dǎo)班子調(diào)整

      TOP大學(xué)來了
      2025-12-07 13:57:32
      臺灣封禁小紅書反助躍升下載榜首,大陸網(wǎng)民嘲技術(shù)落后1秒破解

      臺灣封禁小紅書反助躍升下載榜首,大陸網(wǎng)民嘲技術(shù)落后1秒破解

      星島記事
      2025-12-07 19:06:02
      才知道,飯店這5道菜,基本都是預(yù)制菜!點菜時,盡量少吃少碰

      才知道,飯店這5道菜,基本都是預(yù)制菜!點菜時,盡量少吃少碰

      簡食記工作號
      2025-11-26 00:12:12
      突然!美國決定:撤銷!

      突然!美國決定:撤銷!

      新浪財經(jīng)
      2025-12-07 08:25:12
      王毅收到承諾后,馬克龍獲最高接見,他有4件事不得不對中方開口

      王毅收到承諾后,馬克龍獲最高接見,他有4件事不得不對中方開口

      趣史微視頻
      2025-12-07 20:00:07
      陳曉自曝光頭走紅毯真相!假發(fā)太假不如真光頭,網(wǎng)友:這顏值絕了

      陳曉自曝光頭走紅毯真相!假發(fā)太假不如真光頭,網(wǎng)友:這顏值絕了

      農(nóng)村娛樂光哥
      2025-12-06 12:49:53
      23歲男中介帶看房9分鐘,女客戶報警稱被強奸,6個G視頻揭露真相

      23歲男中介帶看房9分鐘,女客戶報警稱被強奸,6個G視頻揭露真相

      懸案解密檔案
      2025-05-09 17:03:55
      貝佐斯攜妻子逛夜店,桑切斯臉上堆笑容光煥發(fā),身上穿6萬元外套

      貝佐斯攜妻子逛夜店,桑切斯臉上堆笑容光煥發(fā),身上穿6萬元外套

      手工制作阿殲
      2025-12-07 14:52:38
      年底惹不起!這3生肖橫財暴漲,貴人護體,誰人不羨慕?

      年底惹不起!這3生肖橫財暴漲,貴人護體,誰人不羨慕?

      毅談生肖
      2025-12-07 13:24:46
      1954年,尹先炳多次奸污女護士并致其自殺,毛主席大怒:開除黨籍

      1954年,尹先炳多次奸污女護士并致其自殺,毛主席大怒:開除黨籍

      帝哥說史
      2025-12-07 16:54:03
      汪峰再曝出軌,皮褲男為何桃花不斷

      汪峰再曝出軌,皮褲男為何桃花不斷

      不正確
      2025-12-05 19:59:53
      69年,河北某部隊師政委借宿農(nóng)民家,閑聊中得知對方竟是特等功臣

      69年,河北某部隊師政委借宿農(nóng)民家,閑聊中得知對方竟是特等功臣

      鶴羽說個事
      2025-12-06 14:24:28
      韓國總統(tǒng)府本月遷回青瓦臺

      韓國總統(tǒng)府本月遷回青瓦臺

      界面新聞
      2025-12-07 20:09:07
      丟冠后再遭重創(chuàng)!曝河南隊外援或遭足協(xié)處罰,韓國主裁判成導(dǎo)火索

      丟冠后再遭重創(chuàng)!曝河南隊外援或遭足協(xié)處罰,韓國主裁判成導(dǎo)火索

      體壇鑒春秋
      2025-12-07 12:56:43
      連續(xù)三屆入決賽劍指三連冠!國乒8-3韓國太輕松 莎頭5戰(zhàn)未丟1局

      連續(xù)三屆入決賽劍指三連冠!國乒8-3韓國太輕松 莎頭5戰(zhàn)未丟1局

      顏小白的籃球夢
      2025-12-07 12:03:18
      12生肖“首富潛力榜”!這4個生肖最會聚財,恭喜上榜

      12生肖“首富潛力榜”!這4個生肖最會聚財,恭喜上榜

      人閒情事
      2025-12-03 15:17:18
      馬筱梅挺孕肚現(xiàn)身機場,與汪小菲恩愛如常破不和傳聞,很恩愛

      馬筱梅挺孕肚現(xiàn)身機場,與汪小菲恩愛如常破不和傳聞,很恩愛

      小梊搞笑解說
      2025-12-07 18:25:22
      日本財務(wù)大臣被曝漏報超50萬日元款項

      日本財務(wù)大臣被曝漏報超50萬日元款項

      界面新聞
      2025-12-06 19:12:48
      全世界都在嘲諷韓男?

      全世界都在嘲諷韓男?

      奮斗在韓國
      2025-12-07 14:04:36
      臺灣問題或?qū)⑼黄啤芭R界點”,兩大跡象表明,大陸可能準(zhǔn)備動手了

      臺灣問題或?qū)⑼黄啤芭R界點”,兩大跡象表明,大陸可能準(zhǔn)備動手了

      阿光的技巧課堂
      2025-12-04 07:25:59
      2025-12-07 20:56:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      11820文章數(shù) 176340關(guān)注度
      往期回顧 全部

      科技要聞

      漲幅最高20%!戴爾、聯(lián)想等PC廠計劃漲價

      頭條要聞

      日方軍機滋擾中國海軍訓(xùn)練 吳江浩大使提出嚴(yán)正交涉

      頭條要聞

      日方軍機滋擾中國海軍訓(xùn)練 吳江浩大使提出嚴(yán)正交涉

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經(jīng)要聞

      五糧液降價?回應(yīng)來了

      汽車要聞

      傳奇超跑電動形態(tài)重生 雷克薩斯LFA純電概念車

      態(tài)度原創(chuàng)

      藝術(shù)
      教育
      家居
      游戲
      手機

      藝術(shù)要聞

      他單身,偷拍了5萬個姑娘,但所有女人竟都愛他!

      教育要聞

      海淀官宣!“積極探索延長義務(wù)教育年限”,釋放了哪些重磅信號?

      家居要聞

      白味湯館 當(dāng)代宴飲儀式

      《艾爾登法環(huán)》大獲成功 系列銷量接近5000萬套

      手機要聞

      消息稱蘋果iPhone 18系列測試屏下3D解鎖、拼接微透玻璃

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 日本人妻丰满熟妇久久久久久| 精品人体无码一区二区三区 | 在线 | 国产精品99传媒a| 岛国一级| 亚洲成a人无码av波多野| 中文成人在线| 亚洲成人精| 国产亚洲精品第一综合| 国产后入又长又硬| 97亚洲色欲色欲综合网| 来安县| 亚洲第一无码AV无码专区| 韩日午夜在线资源一区二区| 丰宁| 熟女成人影片| 亚洲一区二区三区丝袜| 久久精品国产6699国产精 | 赤峰市| www.亚洲555久久久| mm1313亚洲国产精品| 67194熟妇| 色欲av伊人久久大香线蕉影院| 通化市| xxxxx少妇| 亚洲高清WWW色好看美女| av无码免费岛国动作片| 豆国产97在线 | 亚洲| 明光市| 操逼不卡| jizzjizzyou| 国产精品久久欧美久久一区| 亚洲永久精品ww47| 亚洲2017天堂色无码| 欧美精品在线观看| 绩溪县| 亚洲成a人片在线不卡一二三区| av色综合| 波多野结衣AV不卡无码| 97亚洲熟妇自偷自拍另类图片 | 色伦专区97中文字幕| 美女大量吞精在线观看456|