![]()
Mira Murati(OpenAI前CTO)的Thinking Machines公司終于發(fā)布了第一個(gè)產(chǎn)品Tinker,一個(gè)為微調(diào)大模型設(shè)計(jì)的靈活A(yù)PI。它的目標(biāo)是讓研究人員和技術(shù)愛好者能專注于算法和數(shù)據(jù),而將復(fù)雜的分布式訓(xùn)練交由平臺(tái)處理,從而賦能更多人對(duì)前沿模型進(jìn)行研究和定制,簡(jiǎn)單來(lái)說(shuō)Tinker可以極大的簡(jiǎn)化LLM后訓(xùn)練過(guò)程
![]()
北大校友,Thinking Machines聯(lián)創(chuàng)Lilian Weng介紹說(shuō)現(xiàn)在GPU 價(jià)格昂貴,并且設(shè)置基礎(chǔ)設(shè)施以使 GPU 正常工作非常復(fù)雜,這使得研究人員和 ML 從業(yè)者對(duì)尖端模型進(jìn)行實(shí)驗(yàn)具有挑戰(zhàn)性
提供高質(zhì)量的研究工具是提高更廣泛社區(qū)研究生產(chǎn)力的最有效方法之一,而 Tinker API 是實(shí)現(xiàn)這一使命的一步,Tinker API基于團(tuán)隊(duì)在LoRA微調(diào)方面的實(shí)驗(yàn)成果構(gòu)建
![]()
核心能力:聚焦算法,告別基建
Tinker的設(shè)計(jì)理念是,讓用戶能夠?qū)W⒂贚LM微調(diào)中真正重要的部分——數(shù)據(jù)和算法,而平臺(tái)則負(fù)責(zé)處理分布式訓(xùn)練的繁重工作
用戶只需在自己的CPU機(jī)器上編寫一個(gè)簡(jiǎn)單的Python訓(xùn)練循環(huán),其中包含數(shù)據(jù)(或環(huán)境)和損失函數(shù)。Tinker平臺(tái)則負(fù)責(zé)將用戶指定的計(jì)算任務(wù),高效、精確地運(yùn)行在大量GPU上
值得一提的是,在Tinker上切換不同規(guī)模的模型非常簡(jiǎn)單,從一個(gè)小型模型換到一個(gè)大型模型,只需在代碼中更改一個(gè)字符串
Tinker并非一個(gè)讓微調(diào)變簡(jiǎn)單的黑盒,而是一個(gè)清晰的抽象層。它在為用戶屏蔽分布式訓(xùn)練復(fù)雜性的同時(shí),完整保留了用戶對(duì)訓(xùn)練循環(huán)和所有算法細(xì)節(jié)的控制權(quán)。
具體來(lái)說(shuō),用戶與平臺(tái)的職責(zé)分工如下:
你關(guān)注
你編寫
我們處理
數(shù)據(jù)集和強(qiáng)化學(xué)習(xí)環(huán)境
你的自定義訓(xùn)練數(shù)據(jù)
簡(jiǎn)單的Python腳本
在你的CPU上運(yùn)行
? 高效的分布式訓(xùn)練
支持Llama 70B, Qwen 235B等大模型
訓(xùn)練邏輯
你的損失函數(shù)、訓(xùn)練循環(huán)和評(píng)估
API調(diào)用forward_backward()optim_step()sample()save_state()
? 可靠性
透明地處理硬件故障
主要特性與功能
目前,Tinker服務(wù)支持以下功能:
支持多種開源模型: 用戶可以微調(diào)Qwen和Llama系列的開源權(quán)重模型,包括像Qwen3-235B-A22B這樣的大型混合專家(MoE)模型
![]()
采用LoRA微調(diào): Tinker實(shí)現(xiàn)的是低秩適應(yīng)(LoRA)微調(diào),而非全量微調(diào)。團(tuán)隊(duì)認(rèn)為,對(duì)于許多重要用例,尤其是在強(qiáng)化學(xué)習(xí)領(lǐng)域,LoRA能達(dá)到與全量微調(diào)相當(dāng)?shù)男阅堋M瑫r(shí),通過(guò)LoRA,平臺(tái)可以在多個(gè)訓(xùn)練任務(wù)間共享同一計(jì)算資源池,從而降低成本
支持權(quán)重導(dǎo)出: 用戶可以下載自己訓(xùn)練好的模型權(quán)重,并在Tinker之外的任何地方使用,例如部署到自己選擇的推理服務(wù)商
開源Cookbook: 為了幫助用戶更好地獲得理想結(jié)果,Tinker發(fā)布了一個(gè)名為Tinker Cookbook的開源庫(kù),其中包含了在Tinker API之上運(yùn)行的多種現(xiàn)代訓(xùn)練后方法的實(shí)現(xiàn)。
API的核心功能主要包含在幾個(gè)關(guān)鍵函數(shù)中:
forward_backward:輸入數(shù)據(jù)和損失函數(shù),平臺(tái)將為你計(jì)算并累積梯度。optim_step:使用累積的梯度更新模型。sample:從你訓(xùn)練好的模型生成輸出。
其他函數(shù):用于保存和加載權(quán)重及優(yōu)化器狀態(tài)。
已被頂尖機(jī)構(gòu)采用
在正式發(fā)布前,普林斯頓大學(xué)、斯坦福大學(xué)、加州大學(xué)伯克利分校和Redwood Research等機(jī)構(gòu)已經(jīng)開始使用Tinker:
普林斯頓哥德爾團(tuán)隊(duì):用Tinker訓(xùn)練數(shù)學(xué)定理證明器。
斯坦福Rotskoff化學(xué)小組:微調(diào)了一個(gè)模型來(lái)完成化學(xué)推理任務(wù)。
伯克利SkyRL小組:運(yùn)行了一個(gè)包含多智能體和多輪工具使用的自定義異步離策略強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練循環(huán)。
Redwood Research:使用Tinker在困難的AI控制任務(wù)上對(duì)Qwen3-32B模型進(jìn)行了強(qiáng)化學(xué)習(xí)
使用
Tinker現(xiàn)已面向研究人員和開發(fā)者開放私有測(cè)試版,用戶可以通過(guò)官網(wǎng)鏈接注冊(cè)并加入等待名單
https://form.typeform.com/to/jH2xNWIg
Tinker初期將免費(fèi)開放。在未來(lái)幾周內(nèi),團(tuán)隊(duì)將引入基于使用量的定價(jià)方案。對(duì)Tinker感興趣的組織也可以通過(guò)官網(wǎng)直接聯(lián)系
Andrej Karpathy評(píng)價(jià)
![]()
對(duì)于研究人員和開發(fā)者而言,Tinker極大地簡(jiǎn)化了LLM的后訓(xùn)練過(guò)程。你可以保留90%的算法創(chuàng)新主導(dǎo)權(quán)(這部分通常與數(shù)據(jù)、損失函數(shù)和算法設(shè)計(jì)相關(guān)),而Tinker則負(fù)責(zé)處理那些你通常不愿頻繁接觸的硬核難題(如基礎(chǔ)設(shè)施、模型本身的前向/反向傳播、分布式訓(xùn)練)。這意味著,你完成這些工作所需的復(fù)雜度,將遠(yuǎn)低于常規(guī)方式的10%。
相比于市面上更常見的“你上傳數(shù)據(jù),我們幫你后訓(xùn)練模型”這種模式,我認(rèn)為Tinker找到了一個(gè)更巧妙的“切入點(diǎn)”來(lái)分解后訓(xùn)練的復(fù)雜度。它既能幫你扛下所有繁重的底層工作,又將大部分關(guān)于數(shù)據(jù)和算法的創(chuàng)新主導(dǎo)權(quán)交還給你。
在我看來(lái),整個(gè)社區(qū)其實(shí)仍在探索一個(gè)問(wèn)題:相比于直接用提示詞(Prompt)調(diào)用超大模型這種(通常效果已經(jīng)很強(qiáng)的)基線方法,微調(diào)究竟在何種場(chǎng)景下才真正有意義。我觀察到的早期跡象表明,微調(diào)的價(jià)值更多在于 “收窄任務(wù)范圍”,而不是改變模型的“風(fēng)格”,尤其是在你擁有大量訓(xùn)練樣本的情況下。一個(gè)典型的例子就是分類任務(wù),比如垃圾郵件或內(nèi)容過(guò)濾器,但微調(diào)的適用范圍遠(yuǎn)不止于此。與其為一個(gè)大模型設(shè)計(jì)一套復(fù)雜的少樣本提示(few-shot prompt),不如針對(duì)你的特定任務(wù)去微調(diào)一個(gè)更小的模型,這樣做效果可能更好,速度也快得多!
如今,LLM在實(shí)際生產(chǎn)中的應(yīng)用,正越來(lái)越多地表現(xiàn)為由多個(gè)模型協(xié)同合作的復(fù)雜工作流(pipeline),它們以有向無(wú)環(huán)圖(DAG)或流程的形式組合在一起。在這個(gè)工作流中,有些組件或許用提示詞就能搞定,但還有大量組件,通過(guò)專門的微調(diào)模型來(lái)處理,效果可能會(huì)好得多。Tinker正是讓“微調(diào)”這一步變得輕而易舉,從而讓你能方便地去實(shí)驗(yàn)和驗(yàn)證,在工作流的每一個(gè)階段,到底哪種方案才是最優(yōu)解
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.