<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      英偉達(dá)巧用8B模型秒掉GPT-5,開源了

      0
      分享至

      英偉達(dá)端著一個(gè)8B小模型對(duì)GPT-5說:

      不好意思,你還得練(bushi)。

      何出此言?——英偉達(dá)攜手香港大學(xué)開源的Orchestrator-8B,人類終極考試HLE分?jǐn)?shù)更高、花錢更少、跑起來速度還更快。



      哦對(duì)了,還在HuggingFace被狂贊,沖到了熱門模型前五。



      而它超越GPT-5的打法是不當(dāng)推理者,而是“工具主理人”,協(xié)調(diào)使用各路工具。

      如何吊打GPT-5?

      人在解決問題時(shí)會(huì)找各種幫手,比如搜索引擎、計(jì)算器 ,那這個(gè)工作能不能由模型代勞?

      Orchestrator干的就是這事兒。

      雖然自己只有8B參數(shù),但手下管著一整個(gè)工具團(tuán)隊(duì)。

      既有GPT-5、Claude Opus 4.1這樣的頂級(jí)大模型,也有Qwen2.5-Math這樣的專業(yè)數(shù)學(xué)工具,還有網(wǎng)頁搜索、本地檢索、代碼解釋器這些實(shí)用小幫手。



      它并不是自己解題,而是判斷現(xiàn)在該用哪個(gè)工具、控制工具的順序和使用次數(shù)、還能兼顧效果、成本、用戶偏好,工作日常如下:

      • 拿到難題先分析:這題需要算數(shù)學(xué)?那就調(diào)用Qwen2.5-Math;
      • 過程中動(dòng)態(tài)調(diào)整:搜完資料發(fā)現(xiàn)需要驗(yàn)證?那就先用代碼解釋器跑一遍;
      • 全程把控用戶偏好:用戶說要省錢,那GPT-5能不用就不用,優(yōu)先用本地工具。

      簡(jiǎn)單說,大模型是一個(gè)人干所有活,而Orchestrator-8B是帶著團(tuán)隊(duì)干專業(yè)活。



      能讓小模型精準(zhǔn)協(xié)調(diào)這么多工具,全靠英偉達(dá)的ToolOrchestra訓(xùn)練大法。

      核心有兩個(gè),一個(gè)是有獎(jiǎng)有罰的強(qiáng)化學(xué)習(xí),一個(gè)是量身定制的ToolScale數(shù)據(jù)集。

      訓(xùn)練時(shí)給Orchestrator立了三條獎(jiǎng)懲規(guī)則:

      • 效果獎(jiǎng):讓GPT-5判對(duì)錯(cuò),解題對(duì)了加分,錯(cuò)了扣分;
      • 效率獎(jiǎng):用的錢少、耗時(shí)短加分,反之扣分;
      • 偏好獎(jiǎng):聽用戶的話加分,比如用戶要隱私保護(hù),多用本地搜索就加分。

      研究者建了個(gè)包含金融、醫(yī)療、電商、旅游等10個(gè)領(lǐng)域的訓(xùn)練素材庫,里面全是“怎么用工具解題”的案例,讓模型充分接觸各類場(chǎng)景。

      Orchestrator-8B也在權(quán)威測(cè)試中交出了令人滿意的答卷。



      HLE測(cè)試?yán)锼孟?7.1%的得分,超過GPT-5的35.1%,成本卻僅為后者的1/2.5;



      FRAMES、τ2-Bench測(cè)試中也拿下SOTA成績(jī),降低了開支,運(yùn)行速度更是快了一倍多。

      小模型的逆襲

      實(shí)際上,在AI領(lǐng)域工具編排和小模型驅(qū)動(dòng)復(fù)合系統(tǒng)的賽道上,英偉達(dá)ToolOrchestra訓(xùn)練的Orchestrator-8B并非孤例。

      最早探索讓小模型學(xué)會(huì)調(diào)用工具的代表性研究,是谷歌DeepMind在2023年提出的Toolformer,通過監(jiān)督學(xué)習(xí)+自生成數(shù)據(jù),讓12B參數(shù)的模型學(xué)會(huì)調(diào)用計(jì)算器、翻譯API、搜索引擎等基礎(chǔ)工具;

      但當(dāng)時(shí),Toolformer僅聚焦基礎(chǔ)工具,并沒有把大模型納入工具庫。

      MIT和CMU聯(lián)合團(tuán)隊(duì)的ToolRL,提出以獎(jiǎng)勵(lì)為核心的工具學(xué)習(xí)框架,訓(xùn)練小模型通過強(qiáng)化學(xué)習(xí)動(dòng)態(tài)選擇工具,主要是解決“傳統(tǒng)工具學(xué)習(xí)過度依賴人工標(biāo)注數(shù)據(jù)” 的問題,通過自動(dòng)生成工具交互軌跡訓(xùn)練模型。

      雖然也是獎(jiǎng)勵(lì)機(jī)制,但ToolRL的獎(jiǎng)勵(lì)函數(shù)更側(cè)重于任務(wù)的正確性和工具調(diào)用效率,并沒有明確納入用戶偏好,且工具庫以基礎(chǔ)工具和專業(yè)API為主。

      今年,香港大學(xué)和微軟提出的Optimal Tool Calls(OCT),也是專門針對(duì)“工具調(diào)用成本優(yōu)化”的小模型訓(xùn)練方法。

      越來越多的團(tuán)隊(duì)在做相關(guān)研究,也有越來越多的人關(guān)注該領(lǐng)域的進(jìn)展。

      就拿Orchestrator-8B來說,為什么它能獲得HuggingFace高贊?

      最明顯的原因就是實(shí)用。大模型雖強(qiáng),但太貴、太慢,而Orchestrator-8B參數(shù)量小,還能實(shí)現(xiàn)「強(qiáng)+省錢」,直接解決了落地時(shí)的成本難題。

      用低成本實(shí)現(xiàn)高智能,這么一看,AI的未來還真不一定是超級(jí)大模型單打獨(dú)斗了。

      作者簡(jiǎn)介

      Orchestrator-8B這篇論文的一作是香港大學(xué)博士蘇弘錦,主要研究方向是數(shù)據(jù)科學(xué)和自然語言處理,現(xiàn)在英偉達(dá)實(shí)習(xí)。



      共一是英偉達(dá)研究院的研究科學(xué)家Shizhe Diao,主要進(jìn)行大型基礎(chǔ)模型的預(yù)訓(xùn)練、高效調(diào)優(yōu)和對(duì)齊方面的研究,曾與字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室的李航博士合作。



      論文地址:https://arxiv.org/abs/2511.21689
      項(xiàng)目主頁:https://research.nvidia.com/labs/lpr/ToolOrchestra/
      數(shù)據(jù)集:https://huggingface.co/datasets/nvidia/ToolScale
      HuggingFace地址:https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      做好隨時(shí)失去一切的準(zhǔn)備

      做好隨時(shí)失去一切的準(zhǔn)備

      愛吃糖的貓cat
      2025-12-11 16:10:09
      知名演員官宣:已退出美國國籍,正式成為中國公民!

      知名演員官宣:已退出美國國籍,正式成為中國公民!

      動(dòng)物奇奇怪怪
      2025-12-09 14:00:54
      今年三九天,“十年不遇”,今年冬天到底冷不冷,答案來了

      今年三九天,“十年不遇”,今年冬天到底冷不冷,答案來了

      三農(nóng)雷哥
      2025-12-11 09:07:38
      “小寶探花”偷拍案回顧:拍攝上百部視頻,致多名女子家庭破裂

      “小寶探花”偷拍案回顧:拍攝上百部視頻,致多名女子家庭破裂

      就一點(diǎn)
      2025-11-05 11:32:17
      八大癥狀,說明你老了:快來自查一下,你中了幾條

      八大癥狀,說明你老了:快來自查一下,你中了幾條

      醫(yī)學(xué)原創(chuàng)故事會(huì)
      2025-12-10 23:54:06
      突發(fā)!杭州大型理財(cái)平臺(tái)爆雷,上萬投資者被騙,損失金額超200億

      突發(fā)!杭州大型理財(cái)平臺(tái)爆雷,上萬投資者被騙,損失金額超200億

      奇思妙想草葉君
      2025-12-11 00:38:31
      泰國敢不敢滅了柬埔寨?行家一句話道破真相

      泰國敢不敢滅了柬埔寨?行家一句話道破真相

      南權(quán)先生
      2025-12-11 16:04:59
      大家發(fā)現(xiàn)沒有,這次中日沖突比歷次都嚴(yán)重,卻沒有人喊抵制日貨了

      大家發(fā)現(xiàn)沒有,這次中日沖突比歷次都嚴(yán)重,卻沒有人喊抵制日貨了

      扶蘇聊歷史
      2025-11-24 15:15:15
      嬸嬸打聽我海景別墅的地址,國慶帶20口人來度假,到門口卻被攔下

      嬸嬸打聽我海景別墅的地址,國慶帶20口人來度假,到門口卻被攔下

      蕭竹輕語
      2025-12-10 20:24:52
      重慶崖洞干尸身份確定后續(xù),家屬已認(rèn)領(lǐng),兒女曝父親死亡具體細(xì)節(jié)

      重慶崖洞干尸身份確定后續(xù),家屬已認(rèn)領(lǐng),兒女曝父親死亡具體細(xì)節(jié)

      知法而形
      2025-12-11 09:17:12
      小S曬S媽收到獎(jiǎng)杯視頻,意外曝光家中靈堂,大S遺像出鏡

      小S曬S媽收到獎(jiǎng)杯視頻,意外曝光家中靈堂,大S遺像出鏡

      李健政觀察
      2025-12-10 22:26:28
      今冬河北首輪大范圍降雪來襲 河北高速交警發(fā)布出行提示

      今冬河北首輪大范圍降雪來襲 河北高速交警發(fā)布出行提示

      人民資訊
      2025-12-11 18:11:10
      王迅老師不幸逝世,官網(wǎng)已變黑白

      王迅老師不幸逝世,官網(wǎng)已變黑白

      wuhu派
      2025-12-08 08:47:33
      浙江600億“撿漏王”開始渡難關(guān)

      浙江600億“撿漏王”開始渡難關(guān)

      經(jīng)濟(jì)那道理
      2025-12-10 20:13:37
      鐵心送阿隆索下課?皇馬1.5億帝星2失良機(jī)+15次丟球權(quán)!近15場(chǎng)0球

      鐵心送阿隆索下課?皇馬1.5億帝星2失良機(jī)+15次丟球權(quán)!近15場(chǎng)0球

      我愛英超
      2025-12-11 08:39:48
      鬧大了!憤怒的鋼絲們,把北京西城文旅罵的關(guān)閉評(píng)論區(qū)了!

      鬧大了!憤怒的鋼絲們,把北京西城文旅罵的關(guān)閉評(píng)論區(qū)了!

      樂悠悠娛樂
      2025-12-11 13:17:28
      性與命和壽的關(guān)系:好命長壽的男人,往往身上有這幾種特征

      性與命和壽的關(guān)系:好命長壽的男人,往往身上有這幾種特征

      鬼菜生活
      2025-12-11 03:56:01
      歐冠綜述:5隊(duì)鎖定附加賽獨(dú)缺西甲,皇馬巴薩告急,英超排名尷尬

      歐冠綜述:5隊(duì)鎖定附加賽獨(dú)缺西甲,皇馬巴薩告急,英超排名尷尬

      嗨皮看球
      2025-12-11 10:54:00
      祁同偉吞彈前一刻,沙瑞金接到京都99道命令后慌了:讓他進(jìn)省委!

      祁同偉吞彈前一刻,沙瑞金接到京都99道命令后慌了:讓他進(jìn)省委!

      瑾瑜聊情感
      2025-10-24 08:57:50
      趙薇近照曝光!和四位男士廣州聚餐站C位,面相變了身材也發(fā)福了

      趙薇近照曝光!和四位男士廣州聚餐站C位,面相變了身材也發(fā)福了

      娛樂圈圈圓
      2025-12-10 12:25:23
      2025-12-12 04:32:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      11840文章數(shù) 176338關(guān)注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      村支書賣小米被小米法務(wù)投訴下架:希望給我們條活路

      頭條要聞

      村支書賣小米被小米法務(wù)投訴下架:希望給我們條活路

      體育要聞

      你最看不上的人,關(guān)鍵時(shí)刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細(xì)節(jié)!

      財(cái)經(jīng)要聞

      明年經(jīng)濟(jì)工作怎么干 中央經(jīng)濟(jì)工作會(huì)議定調(diào)

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時(shí)售23.29萬

      態(tài)度原創(chuàng)

      手機(jī)
      時(shí)尚
      親子
      旅游
      房產(chǎn)

      手機(jī)要聞

      OPPO Reno15c現(xiàn)身,有望本月發(fā)布

      12月的奇跡,是“白”給的!

      親子要聞

      生育使女性衰老還是延長壽命?

      旅游要聞

      第二十七屆哈爾濱冰雪大世界主塔封頂

      房產(chǎn)要聞

      成交量漲了!海口這10個(gè)小區(qū),二手房最好賣!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久精品国产亚洲av麻豆小说 | 男女做aj视频免费的网站| 丁香婷婷五月| ..真实国产乱子伦对白在线_!| 好吊妞这里有精品| 一区二区三区乱码在线 | 欧洲 | 国产福利免费在线观看| 成人亚欧欧美激情在线观看| 亚洲无码不卡| 国产精品66| 人妻少妇精品专区性色av| 久久精品成人免费看| 日韩久久精品| 临西县| 久久精品网站免费观看| 99久久久国产精品消防器材| 欧美老熟妇精品| 原平市| 精品国产一区二区三区四区阿崩| 日韩精品 在线 国产 丝袜| 精品玖玖| 亚洲国语无码| 国产色婷婷精品综合在线| 九九精品99久久久香蕉| 国产又色又爽又黄的视频在线| 国产女同疯狂摩擦奶6| 品精免费产品精品综合精品综合| 影音先锋在线资源无码| 蜜桃av多人一区二区三区| 欧美538顶级| 秘?亚洲国产精品成人网站| 在线天堂资源www在线中文| 在线看国产精品自拍内射| 精品国产国产2021| 日韩成人综合| 99精品无码一区二区| 国产91丝袜在线观看| 无码123| 麻豆一区二区三区精品视频| 性欧美vr高清极品| 日本成人有码在线视频|