<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Thinking Machines發(fā)布首個(gè)產(chǎn)品Tinker :大模型后訓(xùn)練徹底變天

      0
      分享至


      Mira Murati(OpenAI前CTO)的Thinking Machines公司終于發(fā)布了第一個(gè)產(chǎn)品Tinker,一個(gè)為微調(diào)大模型設(shè)計(jì)的靈活A(yù)PI。它的目標(biāo)是讓研究人員和技術(shù)愛好者能專注于算法和數(shù)據(jù),而將復(fù)雜的分布式訓(xùn)練交由平臺(tái)處理,從而賦能更多人對(duì)前沿模型進(jìn)行研究和定制,簡(jiǎn)單來(lái)說(shuō)Tinker可以極大的簡(jiǎn)化LLM后訓(xùn)練過(guò)程


      北大校友,Thinking Machines聯(lián)創(chuàng)Lilian Weng介紹說(shuō)現(xiàn)在GPU 價(jià)格昂貴,并且設(shè)置基礎(chǔ)設(shè)施以使 GPU 正常工作非常復(fù)雜,這使得研究人員和 ML 從業(yè)者對(duì)尖端模型進(jìn)行實(shí)驗(yàn)具有挑戰(zhàn)性

      提供高質(zhì)量的研究工具是提高更廣泛社區(qū)研究生產(chǎn)力的最有效方法之一,而 Tinker API 是實(shí)現(xiàn)這一使命的一步,Tinker API基于團(tuán)隊(duì)在LoRA微調(diào)方面的實(shí)驗(yàn)成果構(gòu)建


      核心能力:聚焦算法,告別基建

      Tinker的設(shè)計(jì)理念是,讓用戶能夠?qū)W⒂贚LM微調(diào)中真正重要的部分——數(shù)據(jù)和算法,而平臺(tái)則負(fù)責(zé)處理分布式訓(xùn)練的繁重工作

      用戶只需在自己的CPU機(jī)器上編寫一個(gè)簡(jiǎn)單的Python訓(xùn)練循環(huán),其中包含數(shù)據(jù)(或環(huán)境)和損失函數(shù)。Tinker平臺(tái)則負(fù)責(zé)將用戶指定的計(jì)算任務(wù),高效、精確地運(yùn)行在大量GPU上

      值得一提的是,在Tinker上切換不同規(guī)模的模型非常簡(jiǎn)單,從一個(gè)小型模型換到一個(gè)大型模型,只需在代碼中更改一個(gè)字符串

      Tinker并非一個(gè)讓微調(diào)變簡(jiǎn)單的黑盒,而是一個(gè)清晰的抽象層。它在為用戶屏蔽分布式訓(xùn)練復(fù)雜性的同時(shí),完整保留了用戶對(duì)訓(xùn)練循環(huán)和所有算法細(xì)節(jié)的控制權(quán)。

      具體來(lái)說(shuō),用戶與平臺(tái)的職責(zé)分工如下:

      你關(guān)注

      你編寫

      我們處理

      數(shù)據(jù)集和強(qiáng)化學(xué)習(xí)環(huán)境
      你的自定義訓(xùn)練數(shù)據(jù)

      簡(jiǎn)單的Python腳本
      在你的CPU上運(yùn)行

      ? 高效的分布式訓(xùn)練
      支持Llama 70B, Qwen 235B等大模型

      訓(xùn)練邏輯
      你的損失函數(shù)、訓(xùn)練循環(huán)和評(píng)估

      API調(diào)用
      forward_backward()
      optim_step()
      sample()
      save_state()

      ? 可靠性
      透明地處理硬件故障


      主要特性與功能

      目前,Tinker服務(wù)支持以下功能:

      支持多種開源模型: 用戶可以微調(diào)Qwen和Llama系列的開源權(quán)重模型,包括像Qwen3-235B-A22B這樣的大型混合專家(MoE)模型


      采用LoRA微調(diào): Tinker實(shí)現(xiàn)的是低秩適應(yīng)(LoRA)微調(diào),而非全量微調(diào)。團(tuán)隊(duì)認(rèn)為,對(duì)于許多重要用例,尤其是在強(qiáng)化學(xué)習(xí)領(lǐng)域,LoRA能達(dá)到與全量微調(diào)相當(dāng)?shù)男阅堋M瑫r(shí),通過(guò)LoRA,平臺(tái)可以在多個(gè)訓(xùn)練任務(wù)間共享同一計(jì)算資源池,從而降低成本

      支持權(quán)重導(dǎo)出: 用戶可以下載自己訓(xùn)練好的模型權(quán)重,并在Tinker之外的任何地方使用,例如部署到自己選擇的推理服務(wù)商

      開源Cookbook: 為了幫助用戶更好地獲得理想結(jié)果,Tinker發(fā)布了一個(gè)名為Tinker Cookbook的開源庫(kù),其中包含了在Tinker API之上運(yùn)行的多種現(xiàn)代訓(xùn)練后方法的實(shí)現(xiàn)。

      API的核心功能主要包含在幾個(gè)關(guān)鍵函數(shù)中:

      forward_backward:輸入數(shù)據(jù)和損失函數(shù),平臺(tái)將為你計(jì)算并累積梯度。
      optim_step:使用累積的梯度更新模型。
      sample:從你訓(xùn)練好的模型生成輸出。
      其他函數(shù):用于保存和加載權(quán)重及優(yōu)化器狀態(tài)。

      已被頂尖機(jī)構(gòu)采用

      在正式發(fā)布前,普林斯頓大學(xué)、斯坦福大學(xué)、加州大學(xué)伯克利分校和Redwood Research等機(jī)構(gòu)已經(jīng)開始使用Tinker:

      普林斯頓哥德爾團(tuán)隊(duì):用Tinker訓(xùn)練數(shù)學(xué)定理證明器。
      斯坦福Rotskoff化學(xué)小組:微調(diào)了一個(gè)模型來(lái)完成化學(xué)推理任務(wù)。
      伯克利SkyRL小組:運(yùn)行了一個(gè)包含多智能體和多輪工具使用的自定義異步離策略強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練循環(huán)。
      Redwood Research:使用Tinker在困難的AI控制任務(wù)上對(duì)Qwen3-32B模型進(jìn)行了強(qiáng)化學(xué)習(xí)

      使用

      Tinker現(xiàn)已面向研究人員和開發(fā)者開放私有測(cè)試版,用戶可以通過(guò)官網(wǎng)鏈接注冊(cè)并加入等待名單

      https://form.typeform.com/to/jH2xNWIg

      Tinker初期將免費(fèi)開放。在未來(lái)幾周內(nèi),團(tuán)隊(duì)將引入基于使用量的定價(jià)方案。對(duì)Tinker感興趣的組織也可以通過(guò)官網(wǎng)直接聯(lián)系

      Andrej Karpathy評(píng)價(jià)


      對(duì)于研究人員和開發(fā)者而言,Tinker極大地簡(jiǎn)化了LLM的后訓(xùn)練過(guò)程。你可以保留90%的算法創(chuàng)新主導(dǎo)權(quán)(這部分通常與數(shù)據(jù)、損失函數(shù)和算法設(shè)計(jì)相關(guān)),而Tinker則負(fù)責(zé)處理那些你通常不愿頻繁接觸的硬核難題(如基礎(chǔ)設(shè)施、模型本身的前向/反向傳播、分布式訓(xùn)練)。這意味著,你完成這些工作所需的復(fù)雜度,將遠(yuǎn)低于常規(guī)方式的10%。

      相比于市面上更常見的“你上傳數(shù)據(jù),我們幫你后訓(xùn)練模型”這種模式,我認(rèn)為Tinker找到了一個(gè)更巧妙的“切入點(diǎn)”來(lái)分解后訓(xùn)練的復(fù)雜度。它既能幫你扛下所有繁重的底層工作,又將大部分關(guān)于數(shù)據(jù)和算法的創(chuàng)新主導(dǎo)權(quán)交還給你。

      在我看來(lái),整個(gè)社區(qū)其實(shí)仍在探索一個(gè)問(wèn)題:相比于直接用提示詞(Prompt)調(diào)用超大模型這種(通常效果已經(jīng)很強(qiáng)的)基線方法,微調(diào)究竟在何種場(chǎng)景下才真正有意義。我觀察到的早期跡象表明,微調(diào)的價(jià)值更多在于 “收窄任務(wù)范圍”,而不是改變模型的“風(fēng)格”,尤其是在你擁有大量訓(xùn)練樣本的情況下。一個(gè)典型的例子就是分類任務(wù),比如垃圾郵件或內(nèi)容過(guò)濾器,但微調(diào)的適用范圍遠(yuǎn)不止于此。與其為一個(gè)大模型設(shè)計(jì)一套復(fù)雜的少樣本提示(few-shot prompt),不如針對(duì)你的特定任務(wù)去微調(diào)一個(gè)更小的模型,這樣做效果可能更好,速度也快得多!

      如今,LLM在實(shí)際生產(chǎn)中的應(yīng)用,正越來(lái)越多地表現(xiàn)為由多個(gè)模型協(xié)同合作的復(fù)雜工作流(pipeline),它們以有向無(wú)環(huán)圖(DAG)或流程的形式組合在一起。在這個(gè)工作流中,有些組件或許用提示詞就能搞定,但還有大量組件,通過(guò)專門的微調(diào)模型來(lái)處理,效果可能會(huì)好得多。Tinker正是讓“微調(diào)”這一步變得輕而易舉,從而讓你能方便地去實(shí)驗(yàn)和驗(yàn)證,在工作流的每一個(gè)階段,到底哪種方案才是最優(yōu)解

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      太陽(yáng)報(bào):薩拉赫今天駕駛勞斯萊斯離開訓(xùn)練基地,面無(wú)表情

      太陽(yáng)報(bào):薩拉赫今天駕駛勞斯萊斯離開訓(xùn)練基地,面無(wú)表情

      懂球帝
      2025-12-08 00:06:23
      我國(guó)壓力最大的三所985高校,已5年無(wú)新增院士,排名明顯下降!

      我國(guó)壓力最大的三所985高校,已5年無(wú)新增院士,排名明顯下降!

      教育導(dǎo)向分享
      2025-12-07 12:35:21
      三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

      三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

      歷史有些冷
      2025-12-04 20:20:06
      法媒:從歐洲列強(qiáng)到過(guò)氣戲子,中國(guó)變了,中國(guó)人眼里的法國(guó)也變了

      法媒:從歐洲列強(qiáng)到過(guò)氣戲子,中國(guó)變了,中國(guó)人眼里的法國(guó)也變了

      小青年淥淥
      2025-12-07 19:23:54
      哇塞!董潔秋冬穿搭高級(jí)感十足,這作業(yè)直接“抄”!

      哇塞!董潔秋冬穿搭高級(jí)感十足,這作業(yè)直接“抄”!

      策略剖析
      2025-12-08 14:38:04
      師徒變死敵?刀郎撤回版權(quán)不到一年,云朵終于反擊,結(jié)果大快人心

      師徒變死敵?刀郎撤回版權(quán)不到一年,云朵終于反擊,結(jié)果大快人心

      凡知
      2025-09-29 10:37:29
      廣東3消息!杜鋒終于認(rèn)清事實(shí),徐杰打臉郭士強(qiáng),薩姆納最新傷情

      廣東3消息!杜鋒終于認(rèn)清事實(shí),徐杰打臉郭士強(qiáng),薩姆納最新傷情

      多特體育說(shuō)
      2025-12-07 22:22:54
      毀三觀! 富商公公睡兒媳被兒子撞飛 4人行迪斯尼 又差點(diǎn)鬧出人命

      毀三觀! 富商公公睡兒媳被兒子撞飛 4人行迪斯尼 又差點(diǎn)鬧出人命

      北國(guó)向錫安
      2025-12-08 09:38:23
      墻倒眾人推!郭德綱被官方約談僅3天,令人擔(dān)心的事還是發(fā)生了

      墻倒眾人推!郭德綱被官方約談僅3天,令人擔(dān)心的事還是發(fā)生了

      千言?shī)蕵?lè)記
      2025-12-08 19:41:54
      一場(chǎng)香港大火,讓大家看清38歲劉亦菲的“真面目”,趙立堅(jiān)說(shuō)對(duì)了

      一場(chǎng)香港大火,讓大家看清38歲劉亦菲的“真面目”,趙立堅(jiān)說(shuō)對(duì)了

      春秋論娛
      2025-12-06 21:38:14
      人民日?qǐng)?bào)專訪,揭開32歲周深的真實(shí)處境,那英確實(shí)一個(gè)字都沒(méi)說(shuō)錯(cuò)

      人民日?qǐng)?bào)專訪,揭開32歲周深的真實(shí)處境,那英確實(shí)一個(gè)字都沒(méi)說(shuō)錯(cuò)

      八斗小先生
      2025-11-01 08:46:54
      “網(wǎng)購(gòu)”vs“實(shí)體店”大衣到底差在哪?看5組對(duì)比就懂,區(qū)別太大

      “網(wǎng)購(gòu)”vs“實(shí)體店”大衣到底差在哪?看5組對(duì)比就懂,區(qū)別太大

      小陳聊搭配
      2025-12-08 20:07:40
      當(dāng)年網(wǎng)文大神,怎么不寫了

      當(dāng)年網(wǎng)文大神,怎么不寫了

      投稿指南
      2025-12-08 11:34:53
      沈海高速不用堵車了!廣東這條投資844億通往粵西的高速完成招標(biāo)

      沈海高速不用堵車了!廣東這條投資844億通往粵西的高速完成招標(biāo)

      天天話事
      2025-12-08 09:11:50
      人均600萬(wàn)到欠400億,毀掉“天下第一村”的不是別人,是他們自己

      人均600萬(wàn)到欠400億,毀掉“天下第一村”的不是別人,是他們自己

      一家說(shuō)
      2025-05-23 15:05:58
      海軍發(fā)布,首次見到高超音速導(dǎo)彈垂直打擊

      海軍發(fā)布,首次見到高超音速導(dǎo)彈垂直打擊

      三叔的裝備空間
      2025-12-06 16:07:36
      喜訊!上海嘉定匯龍下賽季有望迎來(lái)大牌新援助陣,曾是申花隊(duì)長(zhǎng)

      喜訊!上海嘉定匯龍下賽季有望迎來(lái)大牌新援助陣,曾是申花隊(duì)長(zhǎng)

      張麗說(shuō)足球
      2025-12-08 14:23:45
      已被列入“黑名單”的8種零食,一口都不能給孩子吃!快告訴老人

      已被列入“黑名單”的8種零食,一口都不能給孩子吃!快告訴老人

      Home范
      2025-11-22 15:58:10
      電訊報(bào):就算免費(fèi)放走薩拉赫,利物浦也能節(jié)省超3000萬(wàn)鎊支出

      電訊報(bào):就算免費(fèi)放走薩拉赫,利物浦也能節(jié)省超3000萬(wàn)鎊支出

      懂球帝
      2025-12-08 16:38:04
      C羅躺槍!薩拉赫跟利物浦撕破臉皮后!ESPN對(duì)比他和C羅!

      C羅躺槍!薩拉赫跟利物浦撕破臉皮后!ESPN對(duì)比他和C羅!

      氧氣是個(gè)地鐵
      2025-12-08 17:56:34
      2025-12-08 21:27:01
      AI寒武紀(jì) incentive-icons
      AI寒武紀(jì)
      專注于人工智能,科技領(lǐng)域
      1001文章數(shù) 375關(guān)注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      中方戰(zhàn)機(jī)持續(xù)雷達(dá)照射日本戰(zhàn)機(jī)目的是什么 外交部回應(yīng)

      頭條要聞

      中方戰(zhàn)機(jī)持續(xù)雷達(dá)照射日本戰(zhàn)機(jī)目的是什么 外交部回應(yīng)

      體育要聞

      一位大學(xué)美術(shù)生,如何用4年成為頂級(jí)跑者?

      娛樂(lè)要聞

      章子怡被說(shuō)拜高踩低 主動(dòng)和卡梅隆熱聊

      財(cái)經(jīng)要聞

      重磅!政治局會(huì)議定調(diào)明年經(jīng)濟(jì)工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報(bào)圖曝光

      態(tài)度原創(chuàng)

      數(shù)碼
      游戲
      手機(jī)
      藝術(shù)
      親子

      數(shù)碼要聞

      預(yù)算卡死6K-8K?別慌!雙12“甜點(diǎn)級(jí)”游戲本終極選購(gòu)清單

      《刺客信條:影》副總監(jiān):將重拾跑酷元素 會(huì)深挖雙主角設(shè)計(jì)

      手機(jī)要聞

      小米17 Pro系列背屏功能上新:電子寵物、動(dòng)態(tài)/視頻壁紙來(lái)了

      藝術(shù)要聞

      一棵樹的力量

      親子要聞

      小滿第一次看到大雪 今年韓國(guó)的第一場(chǎng)雪

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久国产精品夜色| 国产精品久久久久久福利69堂| 亚洲第一成年网| 泸州市| 露脸叫床粗话东北少妇| a片在线免费观看| 久久影院午夜理论片无码| 熟妇无码熟妇毛片| 无码久久久| 龙南县| 99热这里有精品| 午夜成人亚洲理伦片在线观看| 欧美肥老太交视频免费| 日韩久久中文字幕| 宁化县| 国产成人无码网站| 亚洲电影av| 亚洲 欧美 唯美 国产 伦 综合| 色噜噜狠狠一区二区三区Av蜜芽| 中文字幕亚洲天堂| 色屁屁www影院免费观看| 亚洲精品久综合蜜| 欧美丝袜另类| 亚洲AV日韩Aⅴ无码色老头| 夜夜躁狠狠躁2021| 国产成人一区二区视频免费| 中文无码人妻少妇| 扶余县| 日韩人妻无码精品无码中文字幕 | 久久av无码精品人妻系列试探| 国产内射性高湖| 日韩色美女| 四虎精品一区二区三区| 亚洲无人区码一码二码三码的含义| 最新的国产成人精品2022| 91丝袜在线| 精品99在线| 四川丰满妇女毛片四川话 | 国产视频一区二区三区四区视频| 高清无码在线不卡| 999久久久国产精品消防器材|