![]()
作者|林易
編輯|重點(diǎn)君
2月1日,知名科技播客博主Lex Fridman與兩位機(jī)器學(xué)習(xí)領(lǐng)域的重量級(jí)嘉賓開展了一場深度對話。Sebastian Raschka是知名機(jī)器學(xué)習(xí)研究員與教育家,Nathan Lambert是艾倫人工智能研究所(AI2)的后訓(xùn)練負(fù)責(zé)人,同時(shí)也是RLHF領(lǐng)域的權(quán)威專家。兩位嘉賓恰好代表了當(dāng)前AI領(lǐng)域的兩大核心關(guān)切:原理與技術(shù)路線。
這場長達(dá)數(shù)小時(shí)的硬核訪談信息密度極高,既是對過去一年AI技術(shù)突破的復(fù)盤,更是對2026年技術(shù)風(fēng)向的深度預(yù)判。我們給你劃下重點(diǎn):
第一,關(guān)于中美AI競爭:2025年的最大變量是DeepSeek時(shí)刻,中國公司在開源權(quán)重模型上已占據(jù)主導(dǎo)地位。
2025年1月發(fā)布的DeepSeek R1被視為中美AI競爭的分水嶺,該模型以更低的算力成本達(dá)到了接近最先進(jìn)(SOTA)的性能,震驚了業(yè)界。Nathan Lamber說,在開源模型方面表現(xiàn)強(qiáng)勢。DeepSeek、阿里Qwen、MiniMax、Kimi等公司發(fā)布了大量高性能開源模型,贏得了開源社區(qū)的青睞。
相比之下,美國曾經(jīng)的開源標(biāo)桿Llama卻在這一年迷失了方向。Sebastian Raschka說,Meta試圖通過構(gòu)建巨大的Llama 4模型在基準(zhǔn)測試中擊敗ChatGPT,但陷入刷榜陷阱,忽略了AI領(lǐng)域真正需要的是輕量級(jí)、可用的模型。這導(dǎo)致Llama留下的生態(tài)空白正在被中國的開源模型迅速填補(bǔ)。
第二,主要AI實(shí)驗(yàn)室與模型現(xiàn)狀:Anthropic最有序,OpenAI內(nèi)部混亂,Meta開源策略可能動(dòng)搖。
Anthropic:Claude Opus4.5是當(dāng)前頂流,特別是在編程方面表現(xiàn)出色,深受開發(fā)者喜愛。Anthropic組織最有序、最不混亂。
Google:Gemini 3 雖發(fā)布時(shí)營銷聲量不如對手,但性能極其強(qiáng)大。Google的優(yōu)勢在于擁有完整的全棧垂直整合能力(TPU芯片、云計(jì)算、模型、應(yīng)用),利潤率極高,不依賴英偉達(dá)的高價(jià)GPU芯片。
OpenAI:盡管內(nèi)部混亂,但仍具有極強(qiáng)的交付能力。GPT-5系列(包括o1/o3推理模型)通過推理時(shí)計(jì)算節(jié)省了大量成本,并定義了新范式。
Meta:LLaMA系列似乎面臨內(nèi)部政治和激勵(lì)問題,未來是否會(huì)有開源的LLaMA5存疑,Meta的開源策略可能在動(dòng)搖。
第三,關(guān)于技術(shù)范式轉(zhuǎn)移:預(yù)訓(xùn)練的紅利正在消退,AI技術(shù)戰(zhàn)場轉(zhuǎn)向后訓(xùn)練和RLVR。
Nathan Lamber認(rèn)為,預(yù)訓(xùn)練已經(jīng)變得極其昂貴且邊際效益遞減,而現(xiàn)在的模型能力提升重點(diǎn)源自后訓(xùn)練階段的創(chuàng)新。2025年最大的技術(shù)突破是帶有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)。這徹底改變了模型的訓(xùn)練方式。
傳統(tǒng)的基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)更多是調(diào)整模型的語氣和風(fēng)格,屬于微調(diào)偏好,容易觸及天花板。RLVR則是讓模型在數(shù)學(xué)、代碼等有客觀答案的領(lǐng)域進(jìn)行大規(guī)模試錯(cuò)。通過“生成-評分”的迭代循環(huán),模型能像人類學(xué)生一樣,在數(shù)萬次的練習(xí)中自我修正,從而解鎖預(yù)訓(xùn)練中已有的知識(shí)。
預(yù)訓(xùn)練是計(jì)算密集型(算力受限),而后訓(xùn)練階段的RLVR則更像是內(nèi)存密集型(內(nèi)存受限),更看重GPU的運(yùn)行時(shí)間而非單純的算力堆疊。
第四,關(guān)于AI編程:AI催生Vibe Coding,軟件工程正從寫代碼轉(zhuǎn)向系統(tǒng)設(shè)計(jì)。
AI對編程領(lǐng)域的重塑遠(yuǎn)超預(yù)期。Vibe Coding讓開發(fā)者不再糾結(jié)于具體的代碼細(xì)節(jié),而是通過自然語言描述需求,快速生成并修改代碼Diffs。在這種模式下,人類的角色從代碼編寫者轉(zhuǎn)變?yōu)橄到y(tǒng)設(shè)計(jì)師和審查者。
Nathan Lambert預(yù)測,隨著AI能力的提升,軟件開發(fā)將變得高度工業(yè)化。雖然完全自動(dòng)化的超級(jí)智能編程因數(shù)據(jù)分布的參差不齊而難以在短期內(nèi)完美實(shí)現(xiàn),但工具的門檻正在急劇降低。未來,一個(gè)不懂底層代碼的人,只要擁有清晰的系統(tǒng)設(shè)計(jì)思維,利用Claude Code或Cursor等工具,就能構(gòu)建出復(fù)雜的軟件系統(tǒng)。
第五,關(guān)于Scaling Laws:規(guī)模定律并沒有失效,但維度變得更加豐富了。
針對AI發(fā)展是否遇到瓶頸的質(zhì)疑,嘉賓們給出了否定的回答。Nathan Lambert認(rèn)為,Scaling Laws依然是技術(shù)發(fā)展的基石,但現(xiàn)在的擴(kuò)展已從單一的預(yù)訓(xùn)練規(guī)模分裂為三個(gè)維度:
傳統(tǒng)規(guī)模定律:繼續(xù)堆疊模型參數(shù)和數(shù)據(jù)集。
強(qiáng)化學(xué)習(xí)規(guī)模:可以進(jìn)行多長時(shí)間的試錯(cuò)學(xué)習(xí)。
推理側(cè)算力:讓模型在回答前思考更久,生成更多的思維鏈Token。
這種多維度的擴(kuò)展策略,使得科技巨頭們在2026年依然敢于投入數(shù)百億美元建設(shè)吉瓦級(jí)規(guī)模的算力集群。Sebastian Raschka形象地比喻:在一個(gè)擁有無限算力的理想世界里,你會(huì)把這三個(gè)維度的旋鈕全部拉滿;但在現(xiàn)實(shí)中,這變成了一場關(guān)于性價(jià)比的權(quán)衡游戲,大公司需要考慮是花1億美元訓(xùn)練更大的模型,還是花200萬美元做推理側(cè)擴(kuò)展。
第六,關(guān)于AGI的終局:單一通用模型的夢想已經(jīng)破滅,未來屬于多智能體與專業(yè)化模型。
對于未來,嘉賓們打破了一個(gè)全能模型統(tǒng)治世界的幻想。Nathan Lambert認(rèn)為,未來的AI生態(tài)不會(huì)是贏家通吃,而是一個(gè)分工明確的系統(tǒng)。
未來不會(huì)依賴一個(gè)單一的ChatGPT去處理所有事務(wù),而是會(huì)有專門負(fù)責(zé)法律、醫(yī)療、編程的垂直模型。現(xiàn)實(shí)正在演變?yōu)槿藗冡槍Σ煌蝿?wù)調(diào)用不同的Agent。未來的數(shù)據(jù)中心里,將是許多專門的AGI在相互交流、管理和執(zhí)行任務(wù)。
![]()
以下為Lex Fridman播客訪談實(shí)錄:
1、中國 vs 美國:誰將贏得 AI 競賽?
Lex Fridman:以下是一場關(guān)于人工智能前沿動(dòng)態(tài)的對話,涵蓋了過去一年AI領(lǐng)域激動(dòng)人心的突破,以及我們對未來一年的展望。雖然內(nèi)容有時(shí)會(huì)涉及深度的專業(yè)技術(shù),但我們力求讓非專業(yè)人士也能聽懂,同時(shí)絕不降低內(nèi)容的專業(yè)深度。我很榮幸能邀請到AI社區(qū)中我最喜歡的兩位嘉賓:Sebastian Raschka 和 Nathan Lambert。他們都是備受尊敬的機(jī)器學(xué)習(xí)研究員、工程師,同時(shí)也是優(yōu)秀的傳播者、教育者和作家。Sebastian著有兩本我強(qiáng)烈推薦給初學(xué)者和專家的書:第一本是《從零開始構(gòu)建大語言模型》(Build a Large Language Model From Scratch),另一本是《從零開始構(gòu)建推理模型》(Build a Reasoning Model From Scratch)。我堅(jiān)信在機(jī)器學(xué)習(xí)和計(jì)算機(jī)科學(xué)領(lǐng)域,學(xué)習(xí)并理解某項(xiàng)事物的最佳方式就是親手從零開始構(gòu)建它。Nathan是艾倫人工智能研究所的后訓(xùn)練負(fù)責(zé)人,也是關(guān)于人類反饋強(qiáng)化學(xué)習(xí)(RLHF)權(quán)威著作的作者。
Lex Fridman:讓我們從“DeepSeek時(shí)刻”這個(gè)視角切入。這大約發(fā)生在一年前的2025年1月,當(dāng)時(shí)中國公司DeepSeek發(fā)布了開放權(quán)重的DeepSeek R1。我認(rèn)為可以公平地說,它以更少的算力和更低廉的價(jià)格,達(dá)到了接近或持平SOTA(最先進(jìn))的性能,驚艷了所有人。從那時(shí)起到今天,AI領(lǐng)域的競爭在研究和產(chǎn)品層面都變得異常激烈,這種趨勢一直在加速。讓我們今天探討所有這些話題。首先我想問一個(gè)尖銳的問題:在國際層面上誰處于領(lǐng)先地位?是中國的一系列公司,還是美國的公司?Sebastian,你認(rèn)為誰是贏家?
Sebastian Raschka:“贏”這個(gè)詞涵蓋面很廣。既然你提到了DeepSeek時(shí)刻,我確實(shí)認(rèn)為DeepSeek通過分享開源模型,絕對贏得了那些致力于開放權(quán)重模型(open weight models)的人們的心。我認(rèn)為“贏”包含多個(gè)時(shí)間尺度:當(dāng)下、明年,還有十年后。我唯一可以肯定的是,我不認(rèn)為到了2026年的今天,還會(huì)存在哪家公司能掌握其他公司無法觸及的獨(dú)占技術(shù)。主要原因是研究人員頻繁地更換工作和實(shí)驗(yàn)室,人才在不斷流動(dòng)。因此,我不認(rèn)為在技術(shù)獲取層面會(huì)有明顯的贏家。然而,差異化因素將體現(xiàn)在預(yù)算和硬件限制上。這些創(chuàng)意本身并非專利,實(shí)現(xiàn)這些創(chuàng)意的方式和資源才是關(guān)鍵。所以,目前我看不到一個(gè)“贏家通吃”的局面。
Lex Fridman:Nathan,你怎么看?
Nathan Lambert:你可以看到各個(gè)實(shí)驗(yàn)室在目標(biāo)投入上存在差異。為了標(biāo)記我們錄制的時(shí)間點(diǎn),目前針對Anthropic的Claude Opus 4.5模型的炒作簡直瘋狂。我在過去幾周一直用它構(gòu)建東西,它的熱度甚至有點(diǎn)像個(gè)“梗”了。這很有趣,因?yàn)檫@種熱度非常自然。如果我們回到幾個(gè)月前,Google發(fā)布Gemini 3時(shí)的營銷手段和驚艷程度都非常高。但隨后11月底Claude Opus 4.5發(fā)布,熱度一路攀升,感覺大家對Gemini 3的討論反而沒那么多了,盡管它剛推出時(shí)被視為Google奪回AI架構(gòu)優(yōu)勢的時(shí)機(jī)。Gemini 3依然是一款出色的模型,我目前仍在使用它,只是其差異化程度較低。
我同意Sebastian的觀點(diǎn),創(chuàng)意空間是非常流動(dòng)的。但在文化層面上,Anthropic以敢于在代碼能力(即Claude Code)上重注而聞名,目前效果很不錯(cuò)。所以我認(rèn)為,即使想法可以自由流動(dòng),但很大程度上仍然受限于人力投入以及組織的文化氛圍。Anthropic目前看起來是表現(xiàn)得最不混亂的,這算是一個(gè)小小的優(yōu)勢。另一方面,在技術(shù)層面,中國有很多令人驚嘆的技術(shù)。除了DeepSeek之外,還有更多的實(shí)驗(yàn)室。DeepSeek在中國引發(fā)了一場運(yùn)動(dòng),類似于ChatGPT在美國引發(fā)的浪潮,當(dāng)時(shí)所有產(chǎn)品都加上了聊天機(jī)器人。現(xiàn)在中國有大量科技公司正在發(fā)布實(shí)力強(qiáng)勁的前沿開源權(quán)重模型,以至于我會(huì)說DeepSeek在某種程度上正在失去其作為中國卓越開源模型制作者的桂冠,像智譜AI的GLM模型、MiniMax的模型以及月之暗面(Kimi),尤其是在過去幾個(gè)月里,表現(xiàn)得更加出色。
Lex Fridman:所以像DeepSeek這樣的一些模型因?yàn)殚_源權(quán)重而受到了大眾的喜愛。你認(rèn)為中國公司發(fā)布開放權(quán)重模型的策略會(huì)堅(jiān)持多久?
Nathan Lambert:我認(rèn)為會(huì)持續(xù)幾年。就像在美國一樣,目前還沒有一個(gè)清晰的商業(yè)模式。我寫關(guān)于開放模型的文章有一段時(shí)間了,中國公司也意識(shí)到了這一點(diǎn)。他們很聰明,也看到了同樣的限制:許多美國頂尖科技公司出于安全擔(dān)憂,不會(huì)購買中國公司的API訂閱服務(wù)。這在技術(shù)領(lǐng)域是長期存在的習(xí)慣。因此,這些公司的從業(yè)者將開放權(quán)重模型視為一種能力,以此來通過這種方式參與到美國巨大且不斷增長的AI支出市場中。他們對此有著非常務(wù)實(shí)的認(rèn)識(shí),而且這對他們很有效。但是開發(fā)這些模型非常昂貴,所以我預(yù)計(jì)在某個(gè)時(shí)間點(diǎn)會(huì)出現(xiàn)整合,但我不認(rèn)為這會(huì)發(fā)生在2026年。2026年開放模型構(gòu)建者的數(shù)量將比2025年更多,而且其中許多著名的構(gòu)建者將來自中國。
Lex Fridman:Sebastian,你剛才想補(bǔ)充什么嗎?
Sebastian Raschka:是的。你提到DeepSeek失去領(lǐng)先地位,我在某種程度上認(rèn)同,但也必須考慮到,我認(rèn)為他們?nèi)匀惶幱谖⑷醯念I(lǐng)先地位。其他模型的情況并非是DeepSeek變差了,而是其他模型正在借鑒DeepSeek的思路。例如你提到的Kimi,采用了相同的架構(gòu)進(jìn)行訓(xùn)練。我們再次看到了這種“跳躍式領(lǐng)先”的情況:一個(gè)人發(fā)布了某個(gè)東西,另一個(gè)緊隨其后。最新的模型往往就是最好的模型。我認(rèn)為這又回到了那個(gè)事實(shí),不會(huì)有一個(gè)絕對的贏家。
Nathan Lambert:是的。我們還會(huì)看到中國公司有著不同的激勵(lì)機(jī)制。比如DeepSeek非常神秘,而其他一些初創(chuàng)公司則不同,像MiniMax和零一萬物(01.AI)這類公司已經(jīng)提交了IPO文件,正努力爭取西方市場的關(guān)注,并在那里進(jìn)行了大量推廣。DeepSeek是由幻方量化(Highflyer Capital)這家對沖基金創(chuàng)立的,我們并不確切知道他們將這些模型用于什么,或者他們是否在意商業(yè)化。
Lex Fridman:他們在溝通方面很神秘,但在描述模型工作原理的技術(shù)報(bào)告方面并不保守,在這方面他們?nèi)匀槐3珠_放。我們還應(yīng)該談?wù)剬laude Opus 4.5的炒作。這其中包含了一些層面,即它作為X(原Twitter)信息繭房里的寵兒的熱度,與實(shí)際使用該模型的人數(shù)之間存在差距。我認(rèn)為可以公平地說,ChatGPT和Gemini專注于那些僅僅想使用工具解決日常問題的廣泛用戶群體,那個(gè)群體非常龐大。所以關(guān)于編程能力的炒作可能并不能完全代表實(shí)際的大眾使用情況。
Sebastian Raschka:很多使用模式也是出于知名度和品牌,同時(shí)也形成了一種肌肉記憶。ChatGPT已經(jīng)存在很長時(shí)間了,人們習(xí)慣了使用它,這像一種飛輪效應(yīng)。還有一個(gè)有趣的觀點(diǎn)是LLM的定制化。例如ChatGPT有記憶功能,你可能有一個(gè)訂閱用于處理個(gè)人事務(wù),但你不一定想在工作中使用同一個(gè)賬號(hào)。因?yàn)樗饺松詈凸ぷ髦g存在界限。我認(rèn)為這也是一個(gè)有趣的切入點(diǎn),你可能會(huì)擁有多個(gè)訂閱:一個(gè)只用于編寫純凈的代碼,不包含任何個(gè)人照片或愛好;另一個(gè)則是你個(gè)人的東西。我認(rèn)為未來會(huì)是多個(gè)并存的。
2、ChatGPT vs Claude vs Gemini vs Grok:誰正在領(lǐng)先?
Lex Fridman:你認(rèn)為哪個(gè)模型贏得了2025年?又有哪些模型將贏得2026年?
Nathan Lambert:在消費(fèi)級(jí)聊天機(jī)器人的語境下,問題在于你是否愿意押注Gemini而非ChatGPT。直覺告訴我,這似乎是一個(gè)有點(diǎn)冒險(xiǎn)的賭注,因?yàn)镺penAI一直是該領(lǐng)域的領(lǐng)先者,這在科技行業(yè)會(huì)帶來諸多優(yōu)勢。回顧2025年,勢頭似乎在Gemini這邊,但我認(rèn)為他們當(dāng)時(shí)的起點(diǎn)太低了。愿Bard以及那些早期的嘗試安息吧。他們能克服組織內(nèi)部的混亂并實(shí)現(xiàn)這一目標(biāo),確實(shí)值得稱贊。但與此同時(shí),也很難去賭OpenAI會(huì)輸。因?yàn)樗麄冸m然表面上顯得混亂,但非常擅長讓項(xiàng)目落地。就我個(gè)人而言,我對GPT-5的評價(jià)褒貶不一,但它肯定通過高端線路功能的路由機(jī)制為他們節(jié)省了大量資金,即大多數(shù)用戶不再像以前那樣消耗昂貴的GPU資源了。
Lex Fridman:你對2026年怎么看?誰會(huì)勝出?
Nathan Lambert:盡管有風(fēng)險(xiǎn),我還是要說,我認(rèn)為Gemini將繼續(xù)追趕ChatGPT的進(jìn)展。當(dāng)兩者都以如此極端的規(guī)模運(yùn)行時(shí),Google的規(guī)模優(yōu)勢在于它能夠更好地將研究與產(chǎn)品分開。而OpenAI在運(yùn)營上常被傳非常混亂,一直在追求高影響力的事物,這是典型的創(chuàng)業(yè)公司文化。在軟件和企業(yè)端,我認(rèn)為Anthropic將會(huì)延續(xù)他們的成功。Google Cloud擁有豐富的產(chǎn)品線,Gemini這個(gè)品牌對他們的建設(shè)至關(guān)重要。Google Cloud將繼續(xù)保持良好的發(fā)展勢頭,但在生態(tài)系統(tǒng)中解釋清楚這一點(diǎn)會(huì)更加復(fù)雜,因?yàn)槟鞘桥cAzure和AWS的競爭。
Lex Fridman:所以在基礎(chǔ)設(shè)施方面,你認(rèn)為TPU帶來了優(yōu)勢?
Nathan Lambert:很大程度上是因?yàn)镹VIDIA芯片的利潤率高得離譜,而Google可以從上到下開發(fā)一切來適配他們的技術(shù)棧,不需要支付這部分利潤空間。而且他們在建設(shè)數(shù)據(jù)中心方面擁有先發(fā)優(yōu)勢。因此,在這些既需要漫長前置時(shí)間,又有著極高利潤門檻的領(lǐng)域,Google擁有一種歷史性的優(yōu)勢。如果將出現(xiàn)新的范式,它最有可能來自O(shè)penAI,因?yàn)樗麄兊难芯坎块T一次又一次地證明了這一點(diǎn),比如Deep Research、Sora、o1推理模型。這種落地全新研究理念或產(chǎn)品的能力是OpenAI的核心特質(zhì)。很難賭他們會(huì)輸,但我認(rèn)為今年的重點(diǎn)將很大程度上圍繞規(guī)模化(Scaling)和優(yōu)化模型中那些“垂手可得的果實(shí)”。
Lex Fridman:顯然,在智能與速度之間存在權(quán)衡。這就是ChatGPT-5在幕后試圖解決的問題。廣大公眾到底是想要智能,還是想要速度?
Sebastian Raschka:我覺得這實(shí)際上是一個(gè)很棒的多樣化選擇。就我個(gè)人的使用習(xí)慣而言,大多數(shù)時(shí)候當(dāng)我查閱某些內(nèi)容時(shí),我會(huì)用ChatGPT問一個(gè)簡單的問題,快速獲取信息。對于大多數(shù)日常任務(wù),我會(huì)使用快速模型。現(xiàn)在自動(dòng)模式已經(jīng)做得相當(dāng)不錯(cuò)了。但有時(shí)我也想要Pro模式。例如當(dāng)我寫好東西后,我會(huì)把它放入ChatGPT并說:“做一個(gè)非常徹底的檢查。我的所有引用、想法、格式都正確嗎?”這種情況下我不需要立即得到答案,可以讓它運(yùn)行著,回頭再看。這就是擁有這種選項(xiàng)的重要性。如果每個(gè)查詢都要讓我等30分鐘甚至10分鐘,我一定會(huì)瘋掉的。
Nathan Lambert:那就是我。我坐在這兒簡直要瘋了,你居然還在用路由模式和非思考模型(non-thinking models)。我心想:“你是怎么受得了那種東西的?”我已經(jīng)重度使用ChatGPT很長時(shí)間了,從來沒碰過非思考模型。我覺得它的語氣和出錯(cuò)的概率似乎更高。這可以追溯到OpenAI發(fā)布o(jì)3的時(shí)候,那是第一個(gè)能夠進(jìn)行深度搜索、整合多個(gè)來源的模型。我已經(jīng)習(xí)慣了那樣。所以在處理工作信息查詢時(shí),我只會(huì)使用GPT-5.2 Thinking或Pro版本。我經(jīng)常會(huì)同時(shí)進(jìn)行五個(gè)Pro查詢,尋找特定的論文或代碼參考。
Sebastian Raschka:我有一個(gè)有趣的例子,當(dāng)時(shí)我只需要盡快得到答案。在這次旅行之前的播客中,我家里運(yùn)行著一個(gè)本地GPU,我想運(yùn)行一個(gè)長時(shí)間的RL(強(qiáng)化學(xué)習(xí))實(shí)驗(yàn)。通常我會(huì)拔掉電源,但我如果不小心拔掉了GPU電源,當(dāng)時(shí)我妻子已經(jīng)在車?yán)锏戎耍倚南耄骸班蓿懔恕!蔽蚁胍宰羁斓乃俣葘懗鲆粋€(gè)Bash腳本,用來運(yùn)行不同的實(shí)驗(yàn)和評估。我知道怎么用Bash終端,但在那一刻我只需要大概10秒鐘把命令給我。所以我用了不帶思考過程的最快模型。它給了我Bash命令,我需要將不同的腳本串聯(lián)在一起,這就解決了問題。
Nathan Lambert:我用Gemini處理這類需求。我會(huì)用思考模型處理所有信息類事務(wù),然后用Gemini處理追求速度的任務(wù),或者那些通過Google搜索能更好解釋的內(nèi)容。Gemini應(yīng)用也變得好多了。對于代碼和任何形式的哲學(xué)討論,我會(huì)使用Claude Opus 4.5,而且總是開啟擴(kuò)展思考(extended thinking)。擴(kuò)展思考和推理時(shí)間擴(kuò)展(inference time scaling)只是讓模型變得稍微更聰明一點(diǎn)的方式。然后有時(shí)我會(huì)使用Grok來獲取實(shí)時(shí)信息,或者在AI Twitter上尋找內(nèi)容。Grok-4 Super Heavy發(fā)布時(shí)表現(xiàn)非常出色,但我后來因?yàn)榱?xí)慣用ChatGPT App就慢慢把它忘了。
Lex Fridman:是的,我確實(shí)也在用Grok-4 Heavy用于調(diào)試。對于那些其他模型無法解決的硬核調(diào)試問題,我發(fā)現(xiàn)它是最擅長的。這很有趣,因?yàn)槟阏fChatGPT是最好的界面,對我來說Gemini是更好的界面。我想是因?yàn)槲覑凵狭怂鼈冏畛錾摹按蠛漆槨保╪eedle in the haystack)能力。如果我放入包含大量上下文的內(nèi)容并尋找非常具體的信息,Gemini一直表現(xiàn)最好。這就像有一種閾值效應(yīng):你會(huì)堅(jiān)持使用一個(gè)模型,直到它做了一件蠢事,然后你就會(huì)換個(gè)工具。
Sebastian Raschka:沒錯(cuò),你會(huì)一直使用它直到它出故障。就像我們使用瀏覽器一樣,你不會(huì)在不同瀏覽器中輸入同一個(gè)網(wǎng)址對比,除非網(wǎng)頁無法渲染。關(guān)于長上下文,我之前也是為了這個(gè)功能使用Gemini,但GPT-4o發(fā)布時(shí)展示了驚人的長上下文評分提升。現(xiàn)在我更看好GPT-5.2的長上下文。
3、最適合編程的AI
Lex Fridman:我們還沒怎么提到編程。那是另一個(gè)很多人非常關(guān)注的使用場景。所以我基本上是一半一半地在使用Cursor和Claude Code。你們呢?
Sebastian Raschka:我用的是VSCode的Codex插件。它非常方便,就像一個(gè)可以訪問你代碼庫的聊天界面。我知道Claude Code似乎有點(diǎn)不同,它更具智能體(agentic)特征,能為你完成整個(gè)項(xiàng)目。我目前還沒到能完全放心使用它的程度,也許是因?yàn)槲矣锌刂朴蚁M芸吹骄唧w發(fā)生了什么。Cursor對我來說目前處于一個(gè)恰到好處的平衡點(diǎn),它在幫助我,但沒有完全取代我的工作。
Lex Fridman:我使用Claude寫代碼的原因之一是為了培養(yǎng)用英語編程的能力。這種體驗(yàn)從根本上是不同的。你不再是微觀管理代碼生成的細(xì)節(jié),而是查看diff。如果你使用Cursor這種IDE,你可以看到修改和變更代碼時(shí)的差異。去觀察、閱讀并深入理解代碼,而不是僅僅停留在設(shè)計(jì)層面進(jìn)行宏觀引導(dǎo),這是思考編程過程的另一種方式。Claude Code似乎更好地利用了Claude 3.5 Opus。
Nathan Lambert:這對人們來說是一個(gè)很好的并排對比。你可以同時(shí)打開Claude Code、Cursor和VSCode,選擇相同的模型并提出問題。Claude在代碼能力那個(gè)領(lǐng)域要出色得多。
Lex Fridman:好的,我們應(yīng)該說明你們兩位在多個(gè)領(lǐng)域都是名副其實(shí)的專家,包括研究員、程序員、教育者以及作家。Nathan,希望你能很快出一本關(guān)于RLHF的書。
Nathan Lambert:已經(jīng)可以預(yù)訂了,而且有完整的數(shù)字預(yù)印本。我只是在為實(shí)體書做美化和更好的排版。
Lex Fridman:Sebastian Raschka是一位機(jī)器學(xué)習(xí)研究員和作家,出版了多本具有影響力的書籍。其中有兩本我想特別提一下:一本是我強(qiáng)烈推薦的《從零開始構(gòu)建大語言模型》,以及新書《從零開始構(gòu)建推理模型》。我感到非常興奮,因?yàn)閺念^開始構(gòu)建東西是學(xué)習(xí)最有效的方式之一。
Sebastian Raschka:說實(shí)話,從頭開始構(gòu)建一個(gè)LLM非常有趣。這也是一個(gè)學(xué)習(xí)很多東西的過程。正如你所說,這可能是了解事物真實(shí)運(yùn)作機(jī)制的最佳方式。你可以看圖表,但圖表可能會(huì)有錯(cuò)誤;你可以看概念,但可能會(huì)誤解。但如果你看到代碼并且能運(yùn)行,你就知道它是正確的,它是精確的。這就是編程背后的魅力,它不會(huì)撒謊。即使是數(shù)學(xué),我認(rèn)為書里也可能存在你永遠(yuǎn)察覺不到的錯(cuò)誤。因?yàn)槟阍谧x書時(shí)并沒有實(shí)際運(yùn)行那些數(shù)學(xué)計(jì)算,所以無法去驗(yàn)證它。而代碼的優(yōu)勢就在于,你可以動(dòng)手驗(yàn)證。
Lex Fridman:沒錯(cuò),我同意你關(guān)于《LLM From Scratch》這本書的看法。屏蔽掉互聯(lián)網(wǎng)等一切干擾,全身心投入到書本中,這種感覺確實(shí)很好。但是,我也讀過一些書,比如歷史書。某種程度上,讀書讓你不再感到孤獨(dú),這真的更有趣。不過在編程方面,我認(rèn)為與LLM一起編程確實(shí)更有意思。其實(shí)我認(rèn)為與LLM一起閱讀也更有趣。你說得對。不過這種干擾應(yīng)該被降到最低。也就是說,你是利用LLM來從根本上豐富體驗(yàn),通過它增加更多的上下文。也許吧。我只是覺得,在小規(guī)模應(yīng)用上,LLM帶給我的“頓悟時(shí)刻”頻率真的很高。
Sebastian Raschka:確實(shí)如此。我也想修正一下我的觀點(diǎn),我并不是建議完全不使用LLM。我建議的是分階段進(jìn)行:先進(jìn)行一輪離線、專注模式的學(xué)習(xí),這時(shí)候雖然我會(huì)記筆記,但我會(huì)努力克制住立即查閱資料的沖動(dòng);之后我會(huì)進(jìn)行第二輪。對我來說,以這種方式組織學(xué)習(xí)更有效。有時(shí)候問題在后續(xù)章節(jié)中自然會(huì)得到解答,而有時(shí)候,讓問題沉淀一下、多思考一會(huì)兒也會(huì)有所幫助。當(dāng)然,每個(gè)人的偏好不同。我強(qiáng)烈建議在閱讀書籍時(shí)使用LLM,只是對我而言,它不是首選步驟,更像是第二輪的復(fù)習(xí)工具。
Lex Fridman:作為一個(gè)建議,我的做法恰恰相反。我喜歡在開始時(shí)就使用LLM。我想先理清整個(gè)背景,比如了解我正要踏入的是一個(gè)什么樣的世界。但我會(huì)盡量避免從LLM的界面跳轉(zhuǎn)到Twitter或博客之類的網(wǎng)頁,因?yàn)槟菢幽憔驼娴臅?huì)陷入無底洞。你會(huì)讀到某人的觀點(diǎn),或者看到關(guān)于某個(gè)特定話題的激烈爭論,突然間你就脫離了學(xué)習(xí)狀態(tài),進(jìn)入了互聯(lián)網(wǎng)和Reddit的領(lǐng)域。但如果你純粹是讓LLM為你提供“這件事為什么重要”的背景,以及大局觀是什么,這會(huì)非常有幫助。雖然有些書本身也很擅長搭建背景,但并不總是如此。
Nathan Lambert:這就是為什么我喜歡ChatGPT的桌面應(yīng)用,因?yàn)樗袮I整合到了你的電腦工作中,你可以全身心投入其中,而不只是把它當(dāng)作雜亂無章的瀏覽器標(biāo)簽頁中的一個(gè)。我認(rèn)為Claude Code以及類似的特定工具在營造這種愉悅感方面做得很好。作為一種產(chǎn)品設(shè)計(jì),它非常吸引人,充當(dāng)了一個(gè)讓你的AI走向世界的界面。Claude與OpenAI的Codex之間有一種難以言表的區(qū)別:Claude給人一種溫暖且引人入勝的感覺;而Codex雖然通常也同樣出色,但總讓人覺得在細(xì)節(jié)處理上稍微有點(diǎn)粗糙。相比之下,Claude Code讓構(gòu)建東西變得很有趣,尤其是從零開始的時(shí)候,你完全不用操心,因?yàn)槟阆嘈潘欢茏龀鰜怼?/p>
這對搭建網(wǎng)站和類似的數(shù)據(jù)刷新工具非常有用。我用它來進(jìn)行數(shù)據(jù)分析。比如我的博客需要爬取Hugging Face的數(shù)據(jù),以便持續(xù)保存每個(gè)數(shù)據(jù)集和模型的下載量。現(xiàn)在我們有了這些數(shù)據(jù),Claude就像是說:“沒問題,我已經(jīng)利用這些數(shù)據(jù)做好了分析。”我當(dāng)時(shí)心想,這原本得花掉我好幾天的時(shí)間。我有足夠的局勢感知能力去判斷它生成的趨勢是合理的,并且可以去核查。這確實(shí)是一種美妙的交互界面,你擁有了一個(gè)中間層,而不必親自去處理那些維護(hù)Web項(xiàng)目時(shí)必須面對的底層繁瑣工作。
![]()
4、開源 vs 閉源 LLMs
Lex Fridman:好的。剛才我們討論了一系列關(guān)于閉源模型的話題。讓我們聊聊開源模型。跟我說說開源LLM的格局。哪些模型比較有趣?哪些讓你印象深刻,為什么?我們已經(jīng)提到了DeepSeek。
Nathan Lambert:你想看看我們憑記憶能說出多少個(gè)嗎?
Lex Fridman:來吧,不用看筆記。
Nathan Lambert:DeepSeek、Kimi、MiniMax、智譜AI(Zhipu AI)、面壁智能(ModelBest)。這就已經(jīng)是不少中國模型了。然后我們把Mistral AI、Gemma也加進(jìn)來。還有GPT-OSS,也就是ChatGPT相關(guān)的開源模型。實(shí)際上,NVIDIA也有一個(gè)非常酷的模型叫Nemotron 3。特別是在年底這段時(shí)間,涌現(xiàn)了很多東西。Qwen(通義千問)也是一個(gè)顯而易見的名字。你至少可以列出10個(gè)中國的和10個(gè)西方的模型。
OpenAI實(shí)際上也發(fā)布了他們的第一個(gè)開源模型——隔了很久,自GPT-2以來。這就是我當(dāng)時(shí)寫關(guān)于“OpenAI發(fā)布開源模型”的文章時(shí)所指的。當(dāng)時(shí)人們都說“別忘了GPT-2”,我覺得這很有趣,因?yàn)槟峭耆遣煌臅r(shí)代了。但GPT-OSS實(shí)際上是一個(gè)非常強(qiáng)大的模型,并且能做到其他模型做得不太好的一些事情。
出于私心,我也想推介一些西方公司。在美國和歐洲都有完全開放的模型。我在艾倫人工智能研究所工作,我們一直在構(gòu)建OLMo,并發(fā)布了數(shù)據(jù)、代碼以及所有相關(guān)內(nèi)容。現(xiàn)在我們面臨著真正的競爭,人們正致力于發(fā)布所有內(nèi)容以便他人訓(xùn)練模型。例如基礎(chǔ)模型研究所(Institute for Foundation Models)推出的LM360,他們發(fā)布了K2模型。Apertus是一個(gè)瑞士的研究聯(lián)盟。Hugging Face推出了SmallLM,非常受歡迎。此外,NVIDIA的Nemotron也已經(jīng)開始發(fā)布數(shù)據(jù)。還有斯坦福大學(xué)的Marin社區(qū)項(xiàng)目,它建立了一套流程,讓人們可以通過提交GitHub issue來實(shí)現(xiàn)新想法,并使其在穩(wěn)定的語言建模棧中運(yùn)行。所以在2024年,這個(gè)領(lǐng)域的名單要比以前豐富得多。我認(rèn)為這對于更多人參與進(jìn)來并理解語言模型是一件好事。
目前還沒有一家中國公司有類似的對應(yīng)機(jī)構(gòu)。我要指出的是,中國的開源語言模型往往規(guī)模大得多,這使得它們作為混合專家模型(MoE)具有更高的峰值性能。而許多我們非常喜歡的西方模型,無論是Gemma還是Nemotron,往往是來自美國的較小模型。不過這種情況正開始改變。Mistral Large 3在12月發(fā)布了,它是一個(gè)巨大的MoE模型,架構(gòu)與DeepSeek非常相似。還有一家名為Reka的初創(chuàng)公司。Nemotron和NVIDIA已經(jīng)預(yù)告了參數(shù)量遠(yuǎn)超1000億甚至達(dá)到4000億級(jí)別的MoE模型,將在2026年第一季度左右推出。所以我認(rèn)為,在“人們使用中國還是美國的開源模型”這一問題上的平衡狀態(tài),今年將會(huì)發(fā)生改變。這是我個(gè)人非常期待看到的。
Lex Fridman:首先,非常佩服你能叫出這么多名字。LLaMA是你命名的嗎?
Nathan Lambert:不是我。
Lex Fridman:好的。你能提到有哪些表現(xiàn)突出的有趣模型嗎?你剛才提到了Qwen3顯然是一個(gè)佼佼者。
Sebastian Raschka:這一年幾乎是以DeepSeek的兩個(gè)動(dòng)作作為開端和結(jié)尾的:DeepSeek V3和R1。DeepSeek V3是在2024年12月發(fā)布的,R1緊隨其后。我喜歡它們的地方在于,它們總是在架構(gòu)上有一些有趣的微調(diào),這是其他公司所不具備的。
除此之外,如果你想選擇熟悉但性能非常出色的模型,Qwen3是個(gè)好選擇。另外我還提到了GPT-OSS。我認(rèn)為GPT-OSS的有趣之處在于,它算是第一個(gè)在訓(xùn)練時(shí)就充分考慮到“工具調(diào)用(Tool Use)”的公開權(quán)重模型。我確實(shí)認(rèn)為這在某種程度上是一種范式轉(zhuǎn)移,之前的生態(tài)系統(tǒng)尚未完全準(zhǔn)備好。
所謂“工具調(diào)用”,是指LLM能夠進(jìn)行網(wǎng)頁搜索,或者調(diào)用Python解釋器。我認(rèn)為這是一個(gè)巨大的突破。因?yàn)殛P(guān)于LLM最常見的抱怨之一就是“幻覺(Hallucinations)”。在我看來,解決幻覺問題的最佳方法之一,就是不要試圖讓模型總是去記憶信息或憑空捏造。對于數(shù)學(xué)問題,為什么不直接讓它使用計(jì)算器應(yīng)用或Python呢?如果我問LLM“誰贏得了1998年的世界杯?”,與其讓它去死記硬背,不如讓它完全通過搜索來回答。它會(huì)進(jìn)行工具調(diào)用來訪問Google,也許會(huì)找到FIFA官網(wǎng),然后告訴你“哦,是法國隊(duì)”。它能可靠地為你獲取信息。
所以我認(rèn)為這是一個(gè)巨大的突破,目前尚未被開源、開放權(quán)重生態(tài)系統(tǒng)充分利用。很多人不使用工具調(diào)用模式,首先是因?yàn)樾湃螁栴}。你不想在自己的電腦上運(yùn)行一個(gè)擁有訪問工具權(quán)限的模型,因?yàn)樗赡軙?huì)抹掉你的硬盤。所以你可能需要將其容器化。但我確實(shí)認(rèn)為,擁有這種能力是未來幾年非常重要的一步。
Lex Fridman:有幾件事簡要說一下。首先,謝謝你定義了你所說的“工具調(diào)用”的具體含義。在討論這些概念時(shí),這樣做非常好。即使是像MoE這樣已經(jīng)非常成熟的概念,你也得說明那代表“混合專家模型(Mixture of Experts)”,建立起直覺,讓人們理解那意味著什么,它是如何被實(shí)際應(yīng)用的,以及有哪些不同的變體。那么,開放模型如此爆發(fā)式增長意味著什么?你的直覺是怎么樣的?
Nathan Lambert:如果你發(fā)布一個(gè)開放模型,首要目的就是希望人們?nèi)ナ褂盟>o隨其后的是透明度和信任等因素。當(dāng)你觀察中國時(shí),最大的原因在于他們希望全球用戶都能使用這些模型。如果你觀察美國以外的地區(qū),很多人不會(huì)為軟件付費(fèi),但他們可能擁有計(jì)算資源,可以把模型部署在本地運(yùn)行。此外,還有一些數(shù)據(jù)是你不想發(fā)送到云端的。因此,首要任務(wù)是讓人們開始使用AI,或者使用你的AI,因?yàn)槿绻麤]有模型訪問權(quán)限,他們無法做到這一點(diǎn)。
Lex Fridman:我想我們應(yīng)該明確說明,我們一直在討論這些中國模型和權(quán)重開放模型,通常情況下,它們的運(yùn)行方式是在本地運(yùn)行。所以這并不是說你把數(shù)據(jù)發(fā)送到了中國,或者發(fā)送給了硅谷的任何開發(fā)者。
Nathan Lambert:沒錯(cuò)。許多美國初創(chuàng)公司通過托管這些來自中國的模型并進(jìn)行銷售來賺錢,這被稱為賣Token,意味著有人會(huì)調(diào)用該模型來完成工作。
我認(rèn)為另一個(gè)原因是,像OpenAI這樣的美國公司非常缺乏GPU。他們已經(jīng)達(dá)到了GPU的極限。每當(dāng)他們發(fā)布新產(chǎn)品時(shí),總是在說GPU資源非常緊張。在GPT-4o的發(fā)布環(huán)節(jié)中,Sam Altman曾暗示過,發(fā)布這個(gè)是因?yàn)榭梢岳糜脩舻腉PU,他們不必動(dòng)用自己的資源,卻仍然可以獲得分發(fā)渠道。這對他們來說沒有任何成本,是一個(gè)非常現(xiàn)實(shí)的考量。
Sebastian Raschka:對于用戶來說,有些用戶只是像使用ChatGPT那樣在本地使用模型。但對于公司而言,擁有這些模型是一個(gè)巨大的突破,因?yàn)槟憧梢远ㄖ扑鼈儯梢酝ㄟ^后期訓(xùn)練添加更多數(shù)據(jù)。比如將它們專門化為法律、醫(yī)療模型等。
此外,中國權(quán)重開放模型的吸引力在于,它們的許可協(xié)議往往更加友好,通常是無限制的開源許可(如Apache 2.0)。而如果我們使用像LLaMA或Gemma這樣的模型,其實(shí)是附帶條件的。比如在用戶數(shù)量方面有一個(gè)上限,如果你超過了幾百萬用戶,就必須向Meta之類的公司報(bào)告財(cái)務(wù)狀況。雖然它是免費(fèi)模型,但確實(shí)存在束縛。人們更喜歡沒有束縛的東西。除了性能之外,這也是為什么來自中國的開源權(quán)重模型如此受歡迎的原因之一:你可以直接使用它們,沒有任何陷阱。
Nathan Lambert:在這方面,生態(tài)系統(tǒng)已經(jīng)變得更好了。當(dāng)你打開Perplexity并看到它顯示“在美國托管的Kimi-K2 Thinking”時(shí),這真的很有趣。這正是我們所討論的現(xiàn)象。Kimi-K2是一款非常受歡迎的模型,人們評價(jià)它在創(chuàng)意寫作以及處理軟件方面表現(xiàn)出色。這些就是人們在不同模型中發(fā)現(xiàn)并喜愛的細(xì)微特質(zhì)。
Lex Fridman:那么,在這些模型探索過的想法中,有哪些是你覺得特別有趣、值得聊聊的嗎?也許我們可以按時(shí)間順序來談。
Sebastian Raschka:首先當(dāng)然是DeepSeek。如果我們聚焦2025年,R1其實(shí)是基于前一年(2024年12月)發(fā)布的DeepSeek V3。
在架構(gòu)方面,令人著迷的是,你仍然可以像我在《從零開始構(gòu)建LLM》項(xiàng)目中做的那樣,從GPT-2開始,通過添加組件將其轉(zhuǎn)化為另一個(gè)模型。它們之間有著非常緊密的血脈聯(lián)系。DeepSeek的獨(dú)特之處在于混合專家模型(MoE)——當(dāng)然,并不是他們發(fā)明了MoE,我們稍后可以詳細(xì)聊聊MoE具體意味著什么。除了MoE,他們還采用了多頭潛在注意力(Multi-head Latent Attention, MLA),這是對注意力機(jī)制的一種改進(jìn)。
我想說,在2025年,這些權(quán)重開放模型之間的主要區(qū)別因素在于針對推理或KV緩存(KV cache)大小所做的各種微調(diào)。其目的主要是為了讓長上下文的成本更低,通過縮小KV緩存的體積來實(shí)現(xiàn)。
我們可以做哪些調(diào)整?大部分集中在注意力機(jī)制上。DeepSeek使用了多頭潛在注意力。還有一種“分組查詢注意力(Group Query Attention, GQA)”,目前仍然非常流行,這也不是新發(fā)明的。OLMo-3使用了滑動(dòng)窗口注意力(Sliding Window Attention)。這些不同的微調(diào)使得模型各不相同。但我曾把它們?nèi)糠旁谝黄恼吕镞M(jìn)行過對比,發(fā)現(xiàn)它們驚人地相似。只是在中間層有多少次Transformer塊的重復(fù)等數(shù)字上有所不同。這就像是微調(diào)了一些小旋鈕,但無論如何它都能奏效。你可以移動(dòng)歸一化層來獲得性能提升。OLMo在消融實(shí)驗(yàn)(Ablation Studies)中展示了移動(dòng)組件對模型的具體影響。
實(shí)現(xiàn)Transformer并使其保持運(yùn)行的方法有很多。目前盛行的大思路包括MoE、MLA、滑動(dòng)窗口注意力以及GQA。到了年底,研究重點(diǎn)轉(zhuǎn)向了使注意力機(jī)制能夠隨推理Token數(shù)量線性擴(kuò)展。例如Qwen2.5-1M增加了一個(gè)門控Delta網(wǎng)絡(luò)(Gated Delta Net),有點(diǎn)像受到了狀態(tài)空間模型(SSM)的啟發(fā),本質(zhì)上是用一種更廉價(jià)的操作取代了昂貴的注意力機(jī)制。
![]()
5、Transformers:2019 年以來 LLMs 的演進(jìn)
Lex Fridman:也許退一步來談?wù)凾ransformer架構(gòu)的總體情況會(huì)很有幫助。
Sebastian Raschka:好的,也許我們應(yīng)該從GPT-2架構(gòu)開始。Transformer源自《Attention Is All You Need》這篇論文,原始架構(gòu)包含編碼器(Encoder)和解碼器(Decoder)。而GPT只專注于解碼器部分。它本質(zhì)上仍然是一個(gè)神經(jīng)網(wǎng)絡(luò),內(nèi)部包含注意力機(jī)制。你一次預(yù)測一個(gè)Token。將其通過一個(gè)嵌入層(Embedding Layer),接著是Transformer塊(包含注意力模塊和全連接層),中間還有一些歸一化層。
從GPT-2發(fā)展到現(xiàn)在,出現(xiàn)了例如混合專家(MoE)層。MoE并不是新發(fā)明的,其核心思想是在不增加每次前向傳播算力消耗的情況下,使模型參數(shù)總量變大。
在Transformer內(nèi)部有一個(gè)全連接層(可以想象成微型多層感知器MLP),它非常昂貴,因?yàn)樗侨B接的。如果你有一千個(gè)輸入、一千個(gè)輸出,那就是一百萬個(gè)連接。MoE的想法是將這個(gè)全連接層擴(kuò)展為多個(gè)前饋網(wǎng)絡(luò)。假設(shè)你有256個(gè)這樣的網(wǎng)絡(luò)(專家),但你不會(huì)同時(shí)使用所有的。你有一個(gè)路由器(Router),它會(huì)根據(jù)輸入Token決定:“好的,使用這個(gè)專家網(wǎng)絡(luò)會(huì)很有用。”
這就叫混合專家。根據(jù)輸入內(nèi)容,比如是數(shù)學(xué)密集型任務(wù),還是英譯西任務(wù),它可能會(huì)咨詢不同的專家。當(dāng)然,這種分工并不像“數(shù)學(xué)專家”或“語言專家”那樣界限分明,它是一個(gè)更模糊的概念。但其核心思想是你把更多知識(shí)封裝進(jìn)了網(wǎng)絡(luò),但并非所有知識(shí)都會(huì)被時(shí)刻調(diào)用,因?yàn)槟菢犹速M(fèi)了。在Token生成過程中,路由器會(huì)有選擇性地分配任務(wù)。這增加了復(fù)雜性和訓(xùn)練難度,有很多環(huán)節(jié)可能出錯(cuò)。這可能也是為什么OLMo-3仍然使用稠密(Dense)模型的原因。稠密是指只有一個(gè)全連接模塊,并且始終被利用;而MoE被稱為稀疏(Sparse),因?yàn)橹挥胁糠謱<沂腔钴S的。
Lex Fridman:從根本上說,從GPT-2到現(xiàn)在,有多少新想法被實(shí)現(xiàn)了?比如,這些架構(gòu)之間到底有多大區(qū)別?
Sebastian Raschka:想象一下GPT-OSS中的分組查詢注意力(GQA),它只是從多頭注意力(MHA)微調(diào)而來的。或者他們把LayerNorm換成了RMSNorm,但這只是一種不同的歸一化方式。非線性激活函數(shù)從Sigmoid換成ReLU,這也并沒有從根本上改變網(wǎng)絡(luò)。
這只是微調(diào),做了一點(diǎn)點(diǎn)調(diào)整。我會(huì)說,它在本質(zhì)上并沒有那么大的不同,仍然是相同的架構(gòu)。你可以通過添加這些改動(dòng),從一個(gè)模型演進(jìn)到另一個(gè)。例如,我那本書里用的是GPT-2模型(約1.2億參數(shù)),但在獎(jiǎng)勵(lì)材料中,我?guī)缀鯊牧汩_始構(gòu)建了Gemma 3.0。我總是從GPT-2模型開始,然后調(diào)整組件,就能從一個(gè)模型演進(jìn)到另一個(gè)。從某種意義上說,這是一種傳承。
Lex Fridman:這真的很有意思。當(dāng)你退一步審視,你會(huì)發(fā)現(xiàn)AI領(lǐng)域的發(fā)展如此迅猛,但與此同時(shí),從根本上講,架構(gòu)并沒有發(fā)生翻天覆地的改變。那么,這種劇烈變革和進(jìn)步的動(dòng)能究竟源自何處?收益究竟在哪里?
Sebastian Raschka:在開發(fā)或訓(xùn)練網(wǎng)絡(luò)的過程中存在不同的階段。在過去GPT-2的時(shí)代,只有預(yù)訓(xùn)練(Pre-training)。而現(xiàn)在,我們有了預(yù)訓(xùn)練、中訓(xùn)(Mid-training)和后訓(xùn)練(Post-training)。所以我認(rèn)為,我們目前正處于“后訓(xùn)練聚焦”階段。當(dāng)然,如果你能利用更好、更高質(zhì)量的數(shù)據(jù)進(jìn)行擴(kuò)展,預(yù)訓(xùn)練仍然會(huì)帶來優(yōu)勢。
但是,我們現(xiàn)在擁有了GPT-2所不具備的能力解鎖。例如ChatGPT,它本質(zhì)上是一個(gè)GPT-3模型。就架構(gòu)而言,GPT-3與GPT-2是相同的。新的突破在于增加了有監(jiān)督微調(diào)(SFT)以及人類反饋強(qiáng)化學(xué)習(xí)(RLHF)。所以這更多是算法層面的改進(jìn),而非架構(gòu)層面的變革。
Nathan Lambert:我認(rèn)為系統(tǒng)層面也發(fā)生了很大變化。如果你關(guān)注過Nvidia的發(fā)布會(huì),他們會(huì)提到諸如“現(xiàn)在支持FP8,支持FP4”之類的技術(shù)。這些實(shí)驗(yàn)室正在研究如何將更多的算力投入到單個(gè)模型中,這讓他們能夠訓(xùn)練得更快,從而輸入更多數(shù)據(jù)。通過這種方式,你可以更快地找到更優(yōu)的配置。
沒錯(cuò),本質(zhì)上“每GPU每秒處理的Token數(shù)”是你進(jìn)行大規(guī)模訓(xùn)練時(shí)關(guān)注的核心指標(biāo)。通過開啟FP8訓(xùn)練,性能可以從10K提升到13K左右。這意味著模型中每個(gè)參數(shù)占用的內(nèi)存更少,通信開銷降低,從而實(shí)現(xiàn)更快的訓(xùn)練速度。所有這些系統(tǒng)層面的優(yōu)化,支撐了數(shù)據(jù)和算法上更快速的實(shí)驗(yàn)迭代。
這就是一個(gè)不斷循環(huán)的過程。當(dāng)你觀察它們的架構(gòu)時(shí),很難描述清楚,因?yàn)樗鼈兛雌饋韼缀跻粯樱?xùn)練這些模型的代碼庫卻截然不同。比如訓(xùn)練GPT-OSS 20B的實(shí)際用時(shí)比當(dāng)年訓(xùn)練GPT-2要快得多。在混合專家模型(MoE)中,他們采用了FP4優(yōu)化,從而獲得了更高的吞吐量。但這并沒有賦予模型新的“能力”,這僅僅關(guān)乎我們能在多大程度上使計(jì)算變得更粗粒度,而不導(dǎo)致模型性能下降。
目前Transformer架構(gòu)的替代方案正在涌現(xiàn),比如文本擴(kuò)散模型(Text Diffusion Models)或Mamba這種狀態(tài)空間模型(SSM)。但它們都存在權(quán)衡,事實(shí)是目前還沒有任何東西能取代自回歸Transformer作為SOTA(最先進(jìn))模型的地位。所以對于追求最先進(jìn)性能而言,你仍然會(huì)選擇它。
6、AI Scaling Laws:它們已經(jīng)失效還是依然成立?
Lex Fridman:我想這里的大問題是,規(guī)模定律(Scaling Laws)在預(yù)訓(xùn)練、后訓(xùn)練、推理、上下文長度、數(shù)據(jù)以及合成數(shù)據(jù)方面是否依然穩(wěn)固?
Nathan Lambert:我想先從規(guī)模定律的技術(shù)定義開始。它本質(zhì)上是一種冪律關(guān)系,你可以將X軸視為算力和數(shù)據(jù)的結(jié)合,而Y軸是對下一個(gè)Token的留出預(yù)測準(zhǔn)確率。人們發(fā)現(xiàn)這是一種非常可預(yù)測的關(guān)系,我認(rèn)為這一技術(shù)趨勢仍在繼續(xù)。
現(xiàn)在的維度更加豐富了。OpenAI的o1引入了推理時(shí)擴(kuò)展(Inference Time Scaling)。此外,你還可以通過擴(kuò)展強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練來獲得性能提升。所以目前存在三個(gè)維度:
傳統(tǒng)規(guī)模定律:即模型規(guī)模和數(shù)據(jù)集規(guī)模。
強(qiáng)化學(xué)習(xí)規(guī)模:即你可以進(jìn)行多長時(shí)間的試錯(cuò)學(xué)習(xí)。
推理側(cè)算力:即讓模型針對特定問題生成更多的思維鏈Token。
我對這三者都持看好態(tài)度。過去一年在強(qiáng)化學(xué)習(xí)方面(特別是可驗(yàn)證獎(jiǎng)勵(lì)學(xué)習(xí),即RLVR)以及推理側(cè)擴(kuò)展方面已經(jīng)達(dá)成了很多容易實(shí)現(xiàn)的目標(biāo)。這就是為什么現(xiàn)在的模型使用起來感覺如此不同:以前你會(huì)立即得到第一個(gè)Token,而現(xiàn)在它們在給出回答前會(huì)思考幾秒鐘甚至幾小時(shí),生成隱藏的思維鏈。這在模型能力變化方面簡直是一種美妙的階躍函數(shù)。
這種能力幾乎完全源自于通過可驗(yàn)證獎(jiǎng)勵(lì)進(jìn)行的強(qiáng)化學(xué)習(xí)訓(xùn)練。當(dāng)你觀察模型生成大量Token時(shí)的推理過程,你會(huì)發(fā)現(xiàn)它經(jīng)常在嘗試:調(diào)用一個(gè)工具,查看結(jié)果;再嘗試另一個(gè)API,查看結(jié)果。模型很快就能學(xué)會(huì)執(zhí)行這些操作,這為模型在代碼庫中使用CLI命令、處理Git、整理文件等提供了通用基礎(chǔ)。
Lex Fridman:你提到你基本上看好每一種形式的Scaling。那么關(guān)于預(yù)訓(xùn)練,我們是否在暗示預(yù)訓(xùn)練規(guī)模化中那些“唾手可得的果實(shí)”已經(jīng)被采摘殆盡了?預(yù)訓(xùn)練是否遇到了瓶頸,還是你依然看好它?
Nathan Lambert:預(yù)訓(xùn)練已經(jīng)變得極其昂貴。要擴(kuò)大預(yù)訓(xùn)練規(guī)模,意味著你要提供一個(gè)非常龐大的模型。目前業(yè)內(nèi)共識(shí)是,像GPT-4這一代模型的大小大約在萬億參數(shù)量級(jí)。其實(shí)隨著訓(xùn)練效率的提高,你會(huì)希望把模型做小,因?yàn)檫@樣提供服務(wù)的成本會(huì)成比例下降。
相對于向數(shù)億用戶提供服務(wù)的成本來說,訓(xùn)練成本其實(shí)是非常低的。DeepSeek有一個(gè)著名的數(shù)據(jù),按云市場價(jià)格計(jì)算,預(yù)訓(xùn)練費(fèi)用約為500萬美元。在我們剛剛發(fā)布的OLMo 3論文中詳細(xì)說明了,包括工程調(diào)試、實(shí)驗(yàn)和集群閑置在內(nèi),訓(xùn)練一個(gè)模型大約花費(fèi)了200萬美元。很多人都能籌到幾百萬美元來訓(xùn)練模型,但為數(shù)百萬用戶提供服務(wù)的持續(xù)成本需要耗費(fèi)價(jià)值數(shù)十億美元的算力。
問題在于,如果擴(kuò)展規(guī)模確實(shí)能帶來更好的模型,它在財(cái)務(wù)上是否值得?我認(rèn)為隨著AI解決更多引人注目的任務(wù),市場會(huì)推動(dòng)這一點(diǎn)。比如Claude 3.5 Opus與之前的模型相比,徹底解決了我在七月份構(gòu)建項(xiàng)目時(shí)遇到的問題。所以進(jìn)步仍在繼續(xù)。
Lex Fridman:所以你的直覺是,如果不考慮財(cái)務(wù)可行性,僅僅從定律的角度來看,如果擴(kuò)展計(jì)算規(guī)模,模型會(huì)變得更聰明嗎?
Nathan Lambert:是的。雖然這聽起來像是對AI公司領(lǐng)導(dǎo)層的盲目信任,但這一規(guī)律已經(jīng)支撐了13個(gè)數(shù)量級(jí)的算力增長,不太可能突然停止。只是最終我們可能無法測試更大的規(guī)模,因?yàn)橐?guī)模越大帶來的算力問題越多。
現(xiàn)在大家都在討論2026年,屆時(shí)超大規(guī)模云服務(wù)商將投入運(yùn)營吉瓦(Gigawatt)級(jí)規(guī)模的Blackwell算力集群。這些電力和數(shù)據(jù)中心合同都是在ChatGPT發(fā)布前后簽署的,建設(shè)周期需要兩三年。實(shí)驗(yàn)室將擁有更多的算力用于訓(xùn)練,這是一個(gè)既定事實(shí)。我預(yù)計(jì)我們會(huì)看到訂閱服務(wù)價(jià)格上漲,比如出現(xiàn)2000美元的訂閱服務(wù),這都源于更大一點(diǎn)的模型所提供的技術(shù)優(yōu)勢。
Lex Fridman:據(jù)報(bào)道xAI將在2026年初達(dá)到1吉瓦規(guī)模,并在年底達(dá)到2吉瓦。你認(rèn)為他們會(huì)在規(guī)模定律的背景下如何利用這些資源?很大一部分是推理嗎?還是訓(xùn)練?
Nathan Lambert:結(jié)果證明是“以上所有”。你在訓(xùn)練模型時(shí)做出的所有決策最終都會(huì)回到預(yù)訓(xùn)練。即使你打算擴(kuò)展RL,你也需要決定能夠?qū)崿F(xiàn)這一點(diǎn)的架構(gòu)。比如我們討論的混合專家模型(MoE),其稀疏特性使得生成效率大大提高,這已成為后訓(xùn)練的重要組成部分。
但我認(rèn)為大多數(shù)算力仍然正投入到預(yù)訓(xùn)練階段,因?yàn)槟闳匀幌M麚碛斜M可能最好的基礎(chǔ)模型。幾年后這可能會(huì)達(dá)到飽和,屆時(shí)RL算力投入的比例將會(huì)變大。
Lex Fridman:是否有人不同意你的觀點(diǎn),認(rèn)為預(yù)訓(xùn)練基本上已經(jīng)過時(shí)了?認(rèn)為現(xiàn)在的重點(diǎn)全在于推理擴(kuò)展、后訓(xùn)練擴(kuò)展、上下文擴(kuò)展以及合成數(shù)據(jù)?
Nathan Lambert:人們普遍有這種感覺,但我認(rèn)為實(shí)際情況并非如此。那種“預(yù)訓(xùn)練已死”的論調(diào)只是因?yàn)榕d奮點(diǎn)轉(zhuǎn)移到了別處。
以我們在11月發(fā)布的模型為例,如果不算預(yù)訓(xùn)練,僅僅做后訓(xùn)練就花了五天時(shí)間,這對于一個(gè)300億參數(shù)的模型來說是很長的。到了12月,我們又讓強(qiáng)化學(xué)習(xí)運(yùn)行了三周半,模型變得顯著更好。把這么長的時(shí)間分配給后訓(xùn)練是前所未有的。
但這并不意味著預(yù)訓(xùn)練被遺棄了。這是一種循環(huán):你重新進(jìn)行預(yù)訓(xùn)練,然后進(jìn)行一個(gè)月的后訓(xùn)練,接著進(jìn)行安全性測試發(fā)布給用戶。總有可以改進(jìn)的地方。當(dāng)你使用10萬塊GPU進(jìn)行大規(guī)模預(yù)訓(xùn)練時(shí),你會(huì)遇到截然不同的故障,幾乎肯定隨時(shí)至少有一塊GPU是宕機(jī)的。你需要讓訓(xùn)練代碼能夠處理這種冗余,這完全是另一回事。
當(dāng)我們轉(zhuǎn)向強(qiáng)化學(xué)習(xí)時(shí),它非常適合異構(gòu)計(jì)算。簡要介紹一下語言模型的強(qiáng)化學(xué)習(xí):你需要準(zhǔn)備兩組GPU。一組是Actor(執(zhí)行者),負(fù)責(zé)生成內(nèi)容;另一組是Learner(學(xué)習(xí)者),負(fù)責(zé)實(shí)際的策略梯度更新(如PPO或GRPO算法)。你可以讓分布在世界各地的許多不同Actor處理問題,將結(jié)果發(fā)回給Learner進(jìn)行評分和學(xué)習(xí)。
至于推理側(cè)擴(kuò)展,問題變成了:你如何向1億用戶提供一個(gè)需要思考一小時(shí)的模型服務(wù)?這背后存在巨大的系統(tǒng)性挑戰(zhàn)。
Lex Fridman:但我聽下來,你對所有這些維度的擴(kuò)展都持樂觀態(tài)度。無論是推理、邏輯推理,還是預(yù)訓(xùn)練?
Sebastian Raschka:是的。在一個(gè)假設(shè)擁有無限計(jì)算資源的世界里,你會(huì)想要全面發(fā)力:預(yù)訓(xùn)練、中訓(xùn)、后訓(xùn)練、推理擴(kuò)展全部拉滿。更大的模型會(huì)賦予模型更多的知識(shí)。
但是正如Nathan所說,預(yù)訓(xùn)練變得太昂貴了。我們沒有無限的算力,所以必須進(jìn)行權(quán)衡。如果你把錢花在預(yù)訓(xùn)練上,這是一項(xiàng)固定成本,模型訓(xùn)練好后就永久擁有了這種能力。而對于推理側(cè)擴(kuò)展,你是為單次查詢付費(fèi)。
這就變成了一筆賬:如果我的模型半年后就會(huì)被替換,也許花1億美元去訓(xùn)練更大的模型并不值得,不如花200萬美元做推理側(cè)擴(kuò)展來獲得同等的性能提升。這就是ChatGPT現(xiàn)在的策略,他們擁有海量用戶,所以選擇了一條更具性價(jià)比的路線,可能使用了一個(gè)稍微小一點(diǎn)的GPT-5模型配合推理擴(kuò)展。
但在某些特定任務(wù)(如奧數(shù))中,你可能需要巔峰性能。總而言之,我認(rèn)為預(yù)訓(xùn)練、中訓(xùn)、后訓(xùn)練以及推理側(cè)擴(kuò)展都是必須做的,關(guān)鍵在于找到合適的比例以獲得最高的性價(jià)比。
![]()
7、AI是如何訓(xùn)練的:Pre-training、Mid-training 和 Post-training
Lex Fridman:我認(rèn)為這里可能是定義預(yù)訓(xùn)練、中訓(xùn)和后訓(xùn)練的好地方。
Sebastian Raschka:預(yù)訓(xùn)練(Pre-training)是經(jīng)典的訓(xùn)練方式,即在海量的互聯(lián)網(wǎng)數(shù)據(jù)、書籍、論文等語料庫上,針對交叉熵?fù)p失進(jìn)行“預(yù)測下一個(gè)Token”的訓(xùn)練。現(xiàn)在的變化在于,不再僅僅是原始數(shù)據(jù),還包括合成數(shù)據(jù)。合成數(shù)據(jù)并不一定意味著純粹由AI虛構(gòu),它也包括從文章中提取內(nèi)容并改寫為高質(zhì)量的問答或總結(jié)。這就像人類學(xué)習(xí):讀一本結(jié)構(gòu)清晰的書比看亂七八糟的Reddit帖子學(xué)得更快。高質(zhì)量數(shù)據(jù)能讓LLM訓(xùn)練得更快、更準(zhǔn)確。
中訓(xùn)(Mid-training)以前其實(shí)也被統(tǒng)稱為預(yù)訓(xùn)練。被稱為中訓(xùn)是因?yàn)樗橛陬A(yù)訓(xùn)練和后訓(xùn)練之間。它本質(zhì)上還是預(yù)訓(xùn)練,但更加專業(yè)化。例如,你在預(yù)訓(xùn)練階段沒有那么多的長上下文文檔,所以你會(huì)設(shè)立一個(gè)特定的階段來專門訓(xùn)練長上下文能力。
這就涉及到LLM的一個(gè)問題:它是神經(jīng)網(wǎng)絡(luò),存在“災(zāi)難性遺忘”。你教它新東西,它就會(huì)忘記舊東西。這就像天下沒有免費(fèi)的午餐。
Lex Fridman:Nathan剛才實(shí)際上是在說他攝取了太多的內(nèi)容,以至于出現(xiàn)了一種災(zāi)難性的遺忘問題。
Sebastian Raschka:是的。我試著學(xué)習(xí)關(guān)于AI的一切,感覺就像我正在學(xué)習(xí)預(yù)訓(xùn)練并行性時(shí),腦子里丟掉了一些東西,但我甚至不知道丟掉的是什么。
雖然我不想將LLM(大語言模型)擬人化,但在某種意義上,這和人類學(xué)習(xí)的方式是一樣的。數(shù)量并不總是越大越好,這就涉及篩選機(jī)制。Mid-training(中期訓(xùn)練)階段就是針對高質(zhì)量內(nèi)容進(jìn)行最終篩選,確保模型最后接觸到的是最優(yōu)質(zhì)的素材。隨后的Post-training(后訓(xùn)練)包含了所有的微調(diào)、監(jiān)督微調(diào)以及帶有可驗(yàn)證獎(jiǎng)勵(lì)的DPO強(qiáng)化學(xué)習(xí)。
通過人類反饋等方式進(jìn)行的微調(diào)階段非常有趣,這也涉及到成本問題。我們在預(yù)訓(xùn)練上投入了巨資,相比之下強(qiáng)化學(xué)習(xí)(RL)的作用稍小一些。我認(rèn)為RL并不真正教給模型知識(shí),它更像是解鎖知識(shí),是一種技能學(xué)習(xí),教模型如何利用預(yù)訓(xùn)練中獲得的知識(shí)來解決問題。雖然去年有幾篇關(guān)于將RL用于預(yù)訓(xùn)練的論文,但這目前還停留在玩具級(jí)示例階段,沒有人在生產(chǎn)環(huán)境中使用。泛化RL后訓(xùn)練更像是技能解鎖,而預(yù)訓(xùn)練本質(zhì)上是吸收知識(shí)。
Nathan Lambert:關(guān)于合成數(shù)據(jù),很多人誤以為它對模型訓(xùn)練不利。實(shí)際上,像DeepSeek和AI2等實(shí)驗(yàn)室都在做這方面的工作。比如OCR(光學(xué)字符識(shí)別)技術(shù),因?yàn)榫W(wǎng)絡(luò)上存在大量PDF和數(shù)字文檔,其格式難以進(jìn)行文本編碼。DeepSeek通過OCR提取了數(shù)萬億用于預(yù)訓(xùn)練的候選數(shù)據(jù)Token。預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模通常以萬億級(jí)Token衡量,研究人員的小模型大約在5到10萬億,Qwen達(dá)到了50萬億,有傳言稱閉源實(shí)驗(yàn)室甚至達(dá)到100萬億。我們通過巨大的漏斗篩選出極小部分的數(shù)據(jù)用于實(shí)際訓(xùn)練。此外,利用像ChatGPT生成的高質(zhì)量回答進(jìn)行訓(xùn)練,也屬于合成數(shù)據(jù)的一種,這與早期模型產(chǎn)生幻覺的數(shù)據(jù)截然不同。
以O(shè)LMo-3為例,盡管其訓(xùn)練數(shù)據(jù)量少于一些開放權(quán)重模型,甚至可能少于OLMo-2,但性能卻更優(yōu),這主要?dú)w功于數(shù)據(jù)質(zhì)量。當(dāng)然,如果我們有更多算力,肯定會(huì)訓(xùn)練更長時(shí)間。對于大模型而言,增加參數(shù)量和吸收更多數(shù)據(jù)是必然趨勢。目前的對數(shù)圖表顯示,小模型會(huì)更早進(jìn)入瓶頸期,而大模型能從海量數(shù)據(jù)中獲益更多。但在目前的模型規(guī)模下,獲取最高質(zhì)量數(shù)據(jù)是我們的自然起點(diǎn)。
Lex Fridman:關(guān)于數(shù)據(jù)質(zhì)量,是否還有一些唾手可得的機(jī)會(huì)可以進(jìn)一步提升它?
Nathan Lambert:這需要按部就班地推進(jìn)。開源界一直有公認(rèn)的最佳預(yù)訓(xùn)練數(shù)據(jù)集,但隨著新數(shù)據(jù)集發(fā)布,這個(gè)地位會(huì)不斷更迭。比如AI2的Dolmo、Hugging Face的FineWeb以及DCLM項(xiàng)目。以前語言模型主要測試知識(shí)和對話能力,現(xiàn)在則要求處理數(shù)學(xué)和代碼。因此,訓(xùn)練推理模型需要重新混合整個(gè)數(shù)據(jù)集。這涉及精妙的科學(xué)方法:從GitHub、Stack Exchange、Reddit、維基百科等來源提取小樣本,針對不同配比訓(xùn)練小模型并評估,最后通過線性回歸得出最優(yōu)數(shù)據(jù)集配比。OLMo-3正是引入了新數(shù)據(jù)源來提升推理能力。隨著編程環(huán)境或網(wǎng)頁導(dǎo)航等新熱門領(lǐng)域的出現(xiàn),你需要不斷引入新數(shù)據(jù)并更改預(yù)訓(xùn)練過程。
Lex Fridman:有什么出乎意料的高質(zhì)量數(shù)據(jù)源嗎?你提到過Reddit。
Nathan Lambert:Reddit確實(shí)非常有用。此外PDF也是重要來源,特別是arXiv。AI2運(yùn)營Semantic Scholar很久了,它是Google Scholar的強(qiáng)力競品。我們抓取了大量公開訪問的論文PDF,這些是真正的開放科學(xué)資源。前沿實(shí)驗(yàn)室在數(shù)據(jù)清洗和處理上早就投入了大量工作。現(xiàn)在的趨勢是,如果你想在AI領(lǐng)域產(chǎn)生影響力,與其研究花哨的算法(如O1或擴(kuò)展RL),不如致力于挖掘新數(shù)據(jù)或優(yōu)化基礎(chǔ)設(shè)施。
與此同時(shí),出于法律原因,訓(xùn)練數(shù)據(jù)的具體構(gòu)成是目前守得最嚴(yán)的秘密之一,各方都在試圖隱藏?cái)?shù)據(jù)來源以防止泄露。有些人嘗試僅使用授權(quán)數(shù)據(jù)訓(xùn)練,以符合歐盟的合規(guī)性要求。而像Common Crawl這種對整個(gè)互聯(lián)網(wǎng)的抓取,很大程度上是未經(jīng)明確授權(quán)的。
Sebastian Raschka:這里存在許可方面的區(qū)別。正如你所說,有些公司購買了Amazon Kindle或Manning出版社的電子書用于訓(xùn)練,但這處于灰色地帶,因?yàn)榧幢愀顿M(fèi)購買,用于訓(xùn)練可能仍受限制。OpenAI等巨頭也開始接觸私營企業(yè)獲取專有數(shù)據(jù),而企業(yè)為了建立護(hù)城河也更加注重保護(hù)數(shù)據(jù)。未來,制藥、法律、金融等行業(yè)可能會(huì)利用專有數(shù)據(jù)構(gòu)建內(nèi)部模型,實(shí)現(xiàn)目前無法達(dá)到的預(yù)訓(xùn)練突破。目前的通用LLM還沒觸及針對特定任務(wù)訓(xùn)練后所能發(fā)揮潛力的皮毛。
Nathan Lambert:提到數(shù)據(jù)版權(quán),Anthropic在2025年輸?shù)袅艘粓龉偎荆妨俗髡?5億美元。他們雖然購買了數(shù)千本書進(jìn)行掃描(這是合法的),但也通過種子下載了書籍,正是這種下載行為導(dǎo)致法院判決巨額賠償。
Lex Fridman:這些法庭案件將定義人類文明的未來。你們兩位都是作家,當(dāng)傾注心血的作品被不加署名地用于訓(xùn)練時(shí),感覺就像是偷竊。
Sebastian Raschka:正如Nathan所說,這包含兩個(gè)層面。一種是購買書籍后訓(xùn)練的公平性爭議,另一種是三家大公司直接使用盜版書籍且不給補(bǔ)償,后者正是讓人憤怒的癥結(jié)所在。我們需要建立某種類似Spotify流媒體模式的補(bǔ)償機(jī)制。
Lex Fridman:還有一件事,隨著LLM應(yīng)用越來越廣泛,GitHub上越來越多的代碼是由LLM生成的。這種情況有多嚴(yán)重?
Nathan Lambert:這是不可避免的。這基本上是由人類進(jìn)行篩選的LLM生成數(shù)據(jù)。
Sebastian Raschka:我有一個(gè)名為mlxtend的倉庫,是學(xué)生時(shí)代開發(fā)的,主要用于頻繁項(xiàng)集數(shù)據(jù)挖掘。最近有人在極短時(shí)間內(nèi)提交了大量PR(拉取請求),我確信這是LLM生成的。作為維護(hù)者,我感到有些應(yīng)接不暇,因?yàn)闆]時(shí)間仔細(xì)審核。但同時(shí)我也表示贊賞,因?yàn)檫@畢竟經(jīng)過了人類的驗(yàn)證,類似于RLHF中的數(shù)據(jù)標(biāo)注過程。
Lex Fridman:感覺原始的LLM生成數(shù)據(jù)與有人類參與(human in the loop)驗(yàn)證的數(shù)據(jù)之間存在本質(zhì)區(qū)別。
Sebastian Raschka:是的,即便只有一小部分經(jīng)過驗(yàn)證,也是有價(jià)值的。這就像專家使用LLM編寫代碼并剔除糟糕部分,這種經(jīng)過“預(yù)消化”的信息能節(jié)省大家的時(shí)間。與其我自己花幾個(gè)小時(shí)去閱讀并可能 產(chǎn)生誤解,不如獲取一份經(jīng)過專家篩選的執(zhí)行摘要。
Lex Fridman:這就很有意思了。我觀察到基于LLM的摘要往往會(huì)磨平原始內(nèi)容的棱角,這是否意味著信號(hào)的丟失?
Nathan Lambert:這就是我常說的“聲音(Voice)”。我在寫作時(shí)嘗試將研究者認(rèn)知的感性直覺轉(zhuǎn)化為文字,這種粗放但高信息量的風(fēng)格正是研究的本質(zhì)。然而,經(jīng)過RLHF訓(xùn)練的模型旨在收集大量人類反饋并取平均值,這種過濾器導(dǎo)致模型難以表現(xiàn)得犀利,無法提取核心洞察。這已成為RLHF研究中的基礎(chǔ)性難題:它雖然提升了性能,但也扼殺了深層表達(dá)。
這也是非常可怕的,因?yàn)橛袛?shù)百萬人正在使用這些產(chǎn)品。去年GPT-4o發(fā)布時(shí),用戶甚至因?yàn)椴煊X到模型微小的變化而發(fā)郵件投訴,就像電影《Her》一樣,人們對模型產(chǎn)生了情感依賴。
Lex Fridman:但這同時(shí)也帶來了風(fēng)險(xiǎn)。如果人們因抑郁或有自殺傾向而向LLM傾訴,記者可能會(huì)報(bào)道將自殺事件與LLM聯(lián)系起來。這會(huì)導(dǎo)致公司出于法律考量進(jìn)一步削弱模型的鋒芒,使其變得盡可能平庸。
Nathan Lambert:確實(shí)如此。你既不希望LLM對人類造成傷害,又希望它能進(jìn)行豐富、有挑戰(zhàn)性的對話,這對于RLHF研究人員來說是極難平衡的。Anthropic和OpenAI的研究人員在文化上都希望通過技術(shù)造福世界。但這確實(shí)是一種心理煎熬:一方面,這項(xiàng)技術(shù)可能成為推向極端、導(dǎo)致某人崩潰的誘因;另一方面,它也可能挽救其他人的生命。這需要極強(qiáng)的信念感,將其視為一個(gè)必須解決的艱巨難題來對待。
Lex Fridman:我們作為一個(gè)社會(huì),作為技術(shù)用戶,必須確保關(guān)于AI的對話深入且復(fù)雜,而不是僅僅散布恐懼。比如指責(zé)科技巨頭正在傷害人類或竊取數(shù)據(jù),情況其實(shí)要比這復(fù)雜得多。這些公司內(nèi)部有很多好人,其中很多你也認(rèn)識(shí),他們真誠地想幫助他人。他們不僅考慮硅谷,也在考慮全世界不同背景人們的需求。要設(shè)計(jì)一個(gè)能服務(wù)所有年齡層、文化背景和心理狀態(tài)的人的單一系統(tǒng),確實(shí)非常困難。
Nathan Lambert:我希望AI出現(xiàn)的時(shí)機(jī)能有所不同,避開目前科技巨頭與普通人之間的這種緊張關(guān)系。現(xiàn)在看來,AI不可避免地成了大公司的游戲,因?yàn)橥度雽?shí)在太昂貴了。人們常說美國正將經(jīng)濟(jì)押注在AI上,這使得溝通環(huán)境變得異常艱難。但我很喜歡你提到的“自主性”。與其因?yàn)橛憛捒萍季揞^而拒絕AI,甚至被動(dòng)消費(fèi)互聯(lián)網(wǎng)上泛濫的AI垃圾內(nèi)容,不如通過使用AI進(jìn)行構(gòu)建來獲得主動(dòng)權(quán)。建立直覺,理解它的運(yùn)作機(jī)制和弱點(diǎn),這是一種賦能。這樣你就能更有底氣地評價(jià):“這是對技術(shù)的錯(cuò)誤使用”或“這是良好的應(yīng)用”。作為深度融入系統(tǒng)的一員,你能比普通消費(fèi)者更好地引導(dǎo)它。
Sebastian Raschka:我覺得你提到的“自主性”這一點(diǎn)很好。與其忽視它,不如思考如何利用它提升自我。不過我也擔(dān)心,如果你完全用AI做你熱愛的事情,那份熱愛會(huì)不會(huì)消失?這可能會(huì)導(dǎo)致職業(yè)倦怠。舉個(gè)例子,如果我用LLM幫我完成所有的編碼工作,編碼過程本身就不存在了。我只是在管理一個(gè)幫我寫代碼的東西。假設(shè)兩年后,我每天八小時(shí)都只是在指揮AI編碼,我還會(huì)感到充實(shí)嗎?這是否會(huì)削弱我對工作的熱情,以及親手構(gòu)建事物的自豪感?
Lex Fridman:關(guān)于享受工作這點(diǎn)很有趣。最近有一項(xiàng)針對791名專業(yè)開發(fā)者的調(diào)查,“專業(yè)”指的是擁有10年以上經(jīng)驗(yàn)的人。結(jié)果顯示,無論是初級(jí)還是高級(jí)開發(fā)者,都在交付的代碼中使用了AI生成的內(nèi)容。更有趣的是,在那些超過50%代碼由AI生成的案例中,高級(jí)開發(fā)者占比更高。至于這是否會(huì)奪走熱愛,大約80%的人表示,將AI作為工作的一部分讓他們感到更有趣,甚至樂趣顯著增加。
Sebastian Raschka:我認(rèn)為這取決于具體任務(wù)。比如調(diào)整網(wǎng)站細(xì)節(jié)這種瑣事我并不喜歡,如果AI能代勞,我完全支持。但在解決復(fù)雜問題、追蹤并修復(fù)Bug時(shí),那種成就感是無與倫比的。如果直接問LLM,你就失去了這種樂趣。或許折中方案是先自己嘗試,卡住后再用LLM。正如你提到的例子,處理那種需要修復(fù)幾百個(gè)鏈接的枯燥工作,AI能消除挫敗感,表現(xiàn)非常出色。
Lex Fridman:對我來說,編程的樂趣很大一部分在于代碼本身。你說調(diào)試是一種樂趣,我會(huì)說調(diào)試就像在沙漠跋涉數(shù)日后終于喝到一口水。你是跳過了在沙漠受苦的部分。如果有結(jié)對編程的伙伴,即便他不能直接找到Bug,但他提供的直覺能陪你一起走出沙漠。這也反映了編程過程中的孤獨(dú)感,而AI能扮演這個(gè)伙伴的角色。
Sebastian Raschka:這可能也與延遲滿足有關(guān)。就像小時(shí)候期待圣誕禮物往往比真正收到時(shí)更快樂,或者餓的時(shí)候吃飯更香。調(diào)試雖然令人沮喪,但解決后的感覺很棒。這里存在一個(gè)“金發(fā)姑娘原則”般的適度區(qū)間:太難是浪費(fèi)時(shí)間,太容易則學(xué)不到東西。資深開發(fā)者使用AI生成的代碼更多,可能是因?yàn)樗麄冎廊绾胃咝褂貌彶榇a。未來的問題是,如果從未親手從頭做起,初學(xué)者如何成為專家?如果不經(jīng)歷掙扎,就難以建立深刻的思維框架。也許我們需要每天專門抽出時(shí)間進(jìn)行不依賴AI的深度學(xué)習(xí),而不是把所有事情都交給LLM。
8、Post-training 詳解:LLMs領(lǐng)域令人興奮的新研究方向
Lex Fridman:這確實(shí)是我們需要尋找的平衡點(diǎn)。現(xiàn)在讓我們回到編程語境。剛才我們聊了預(yù)訓(xùn)練和中期訓(xùn)練,現(xiàn)在談?wù)労笥?xùn)練(post-training)。在這個(gè)階段有哪些有趣的思路?
Nathan Lambert:2025年最大的突破是學(xué)習(xí)帶有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)。通過大量擴(kuò)展“生成-評分”的迭代循環(huán),模型能學(xué)習(xí)工具調(diào)用和復(fù)雜的軟件行為。這種訓(xùn)練方式完美結(jié)合了推理時(shí)擴(kuò)展(inference time scaling),徹底改變了人們處理后訓(xùn)練的方式。
Lex Fridman:你能解釋一下由DeepSeek R1推廣的RLVR的工作原理嗎?
Nathan Lambert:有趣的是,RLVR這個(gè)術(shù)語源自我們在DeepSeek之前的Tulu 3研究。學(xué)術(shù)界往往擁有定義術(shù)語的話語權(quán),因?yàn)榉忾]實(shí)驗(yàn)室透露的信息有限。DeepSeek實(shí)現(xiàn)了訓(xùn)練突破,擴(kuò)展了強(qiáng)化學(xué)習(xí)的應(yīng)用:讓模型生成答案,根據(jù)正確率評分,這個(gè)準(zhǔn)確率就是獎(jiǎng)勵(lì)。傳統(tǒng)RL是在環(huán)境中最大化獎(jiǎng)勵(lì),而在語言模型中,獎(jiǎng)勵(lì)通常是數(shù)學(xué)或編程任務(wù)的準(zhǔn)確率。現(xiàn)在這種可驗(yàn)證的邊界正擴(kuò)展到事實(shí)核查或特定格式約束。其核心是找到更多可驗(yàn)證的問題讓模型嘗試。基礎(chǔ)設(shè)施已從基于人類偏好的RLHF演變?yōu)獒槍陀^結(jié)果的優(yōu)化,這開啟了模型能力的重大變革。
Lex Fridman:RLVR適用于哪些領(lǐng)域?
Nathan Lambert:最著名的是數(shù)學(xué)和代碼。此外還有基于“評分細(xì)則”(rubrics)的方法,即“LLM作為裁判”:用另一個(gè)模型根據(jù)準(zhǔn)則給生成的回答打分。雖然不如數(shù)學(xué)那樣絕對可驗(yàn)證,但這種思路正被推向更開放的科學(xué)問題領(lǐng)域。
Sebastian Raschka:回到RLVR,我覺得美妙之處在于,當(dāng)你給LLM一個(gè)已知答案的數(shù)學(xué)題并讓它求解時(shí),即便不加太多約束,它也會(huì)像學(xué)生或數(shù)學(xué)家一樣展示推導(dǎo)步驟。這些步驟不僅提高了準(zhǔn)確性,還體現(xiàn)了“推理擴(kuò)展”,即通過消耗更多Token(思考更久)來換取更好的結(jié)果。R1論文中提到了“頓悟時(shí)刻”,即模型意識(shí)到錯(cuò)誤并自我修正,表現(xiàn)得就像人類一樣,這非常有意思,也能建立用戶對模型的信任。
今年關(guān)于“頓悟時(shí)刻”有很多爭論。我認(rèn)為這在某種程度上是虛假的,因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)包含了整個(gè)互聯(lián)網(wǎng),模型見過人類自我修正的文本。RLVR實(shí)際上是在放大這種有助于“思考”的行為。舉個(gè)實(shí)際例子,我在Math 500數(shù)據(jù)集上訓(xùn)練Qwen 3基座模型,僅用了50個(gè)步數(shù),幾分鐘內(nèi)準(zhǔn)確率就從15%飆升到50%。這說明模型并不是在幾分鐘內(nèi)學(xué)會(huì)了數(shù)學(xué),而是RL解鎖了預(yù)訓(xùn)練中已有的知識(shí)。
Nathan Lambert:關(guān)于Qwen存在數(shù)據(jù)污染的爭議很大。比如把題目中的數(shù)字改掉但保留文字描述,在不使用工具的情況下,它依然能給出極高精度的答案,這暗示它在訓(xùn)練時(shí)見過測試題。因此,RLVR帶來的迅速提升可能部分歸因于格式化或記憶,而非真正的智力提升。除非我們在模型部署截止日期后建立全新的基準(zhǔn)測試,否則很難公平評估。
Lex Fridman:我們能否總結(jié)一下后訓(xùn)練(post-training)的“配方”?除了RLVR,RLHF還有什么作用?
Nathan Lambert:這可以看作是一個(gè)序列。首先是中期訓(xùn)練(mid-training),這是O1等推理模型的核心,需要極高質(zhì)量的“推理鏈”數(shù)據(jù)(將問題分解為中間步驟),讓模型學(xué)會(huì)如何思考。
接下來是針對可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RL with Verifiable Rewards)。隨著模型變強(qiáng),簡單問題已無法提供足夠的訓(xùn)練信號(hào)(比如GRPO算法在所有答案一致時(shí)就沒有信號(hào)),所以前沿模型正向科學(xué)或復(fù)雜軟件等更難的領(lǐng)域進(jìn)軍,通過大量試錯(cuò)來提升技能。
最后是人類反饋強(qiáng)化學(xué)習(xí)(RLHF)。這依然是必不可少的“點(diǎn)睛之筆”,用于調(diào)整模型的語氣、風(fēng)格和格式(比如生成易讀的Markdown列表),使其更實(shí)用、更符合人類交互習(xí)慣。雖然RLHF也能提升數(shù)學(xué)表現(xiàn),但在可驗(yàn)證領(lǐng)域,RLVR是更直接的路徑。簡而言之:中期訓(xùn)練賦予技能,RLVR通過試錯(cuò)深化能力,RLHF負(fù)責(zé)最后的潤色與交互體驗(yàn)。
關(guān)于RLVR(基于驗(yàn)證的強(qiáng)化學(xué)習(xí))所需的算力消耗,其熱度確實(shí)在持續(xù)攀升。OpenAI的Greg Brockman曾有一句名言,提到他們在預(yù)訓(xùn)練(Pre-training)和后訓(xùn)練(Post-training)階段使用了數(shù)量相近的算力。但回到關(guān)于擴(kuò)展(Scaling)的討論,這兩個(gè)階段涉及非常不同的硬件擴(kuò)展方式。預(yù)訓(xùn)練是受限于計(jì)算能力的(Compute-bound),也就是我們常說的FLOPS(每秒浮點(diǎn)運(yùn)算次數(shù)),即單位時(shí)間內(nèi)能完成多少次矩陣乘法運(yùn)算。
而在強(qiáng)化學(xué)習(xí)(RL)階段,你是在生成答案并在真實(shí)世界環(huán)境中嘗試模型,它最終會(huì)變得更加受限于內(nèi)存(Memory-bound)。因?yàn)槟阍谏砷L序列,而注意力機(jī)制的特性導(dǎo)致內(nèi)存占用會(huì)隨著序列變長呈二次方增長。因此,計(jì)算方式變得非常不同。如果在后訓(xùn)練階段使用FLOPS這個(gè)指標(biāo),情況會(huì)變得很奇怪,現(xiàn)實(shí)情況更應(yīng)該看你分配了多少GPU小時(shí)。
我認(rèn)為RL的運(yùn)行天數(shù)正在接近預(yù)訓(xùn)練的天數(shù),但可能沒有同時(shí)使用那么多GPU。預(yù)訓(xùn)練的計(jì)算密度極高,所有GPU都在高效通信;而RL包含各種動(dòng)態(tài)環(huán)節(jié),生成一個(gè)10萬Token的序列可能需要很長時(shí)間。比如考慮到GPT-5級(jí)別模型的推理可能需要運(yùn)行一個(gè)小時(shí),如果你有一個(gè)小時(shí)長的訓(xùn)練樣本,必須設(shè)法高效處理它。所以從GPU小時(shí)數(shù)或?qū)嶋H時(shí)長來看,RL的規(guī)模正在趕上,但人們不想像GPT-4那樣把所有雞蛋放在同一個(gè)籃子里進(jìn)行一次性的超大規(guī)模訓(xùn)練,現(xiàn)在的開發(fā)更傾向于漸進(jìn)式。
Sebastian Raschka:RLVR在訓(xùn)練時(shí)長或收益獲取方面更具無限潛力,而RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))本質(zhì)上是一種偏好微調(diào),達(dá)到某個(gè)點(diǎn)后,再投入更多資源意義不大。對于同一個(gè)問題,不同人有不同的偏好(比如有人買電腦看重電池,有人看重算力),RLHF試圖找到一種“平均”的風(fēng)格。一旦模型學(xué)會(huì)了這種風(fēng)格,繼續(xù)訓(xùn)練就沒有意義了。而RLVR是讓模型解決越來越復(fù)雜的問題,因此長期來看,將更多預(yù)算分配給RL更為合理。
Nathan Lambert:目前我們正處于RL 1.0階段,即只關(guān)注“問題”和“答案”,沒有處理中間過程。未來的重點(diǎn)將是過程獎(jiǎng)勵(lì)模型(Process Reward Models),即對推理過程中的每一個(gè)中間步驟進(jìn)行評分,這可以稱為RLVR 2.0。Google的相關(guān)論文和DeepSeek Math V2都展示了能夠自我評分的模型,這將是推理擴(kuò)展(Inference Scaling)的重要方向。過去在推理模型出現(xiàn)之前,人們嘗試過過程獎(jiǎng)勵(lì)模型但并未完全證實(shí)其有效性,現(xiàn)在隨著o1等推理模型的出現(xiàn),人們對價(jià)值函數(shù)(Value Functions)再次感到樂觀。
![]()
9、給初學(xué)者進(jìn)入AI開發(fā)與研究領(lǐng)域的建議
Lex Fridman:現(xiàn)在我想稍微偏離一下主題,談?wù)劷逃H绻牨娛锹斆鞯摹幊毯虯I感興趣的人,想從零開始構(gòu)建一些東西,你建議該怎么做?
Sebastian Raschka:我建議先從頭開始實(shí)現(xiàn)一個(gè)可以在單機(jī)上運(yùn)行的簡單模型。這么做的目的不是為了用它取代ChatGPT或開源權(quán)重模型作為日常助手,而是為了確切了解LLM的輸入輸出以及預(yù)訓(xùn)練的運(yùn)作機(jī)制。在自己的電腦上從零構(gòu)建,能讓你深入理解預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)和注意力機(jī)制。
隨著模型規(guī)模擴(kuò)大,復(fù)雜性會(huì)呈指數(shù)級(jí)增長,比如需要考慮參數(shù)分片到多GPU、KV緩存(KV-cache)的各種實(shí)現(xiàn)方式。為了理解原理,你不需要一開始就寫最優(yōu)化的代碼(比如預(yù)分配Tensor),雖然這會(huì)增加代碼量。這本書(指Sebastian的書)的訣竅在于讓你理解LLM是如何工作的,一旦掌握了這些,你就能理解生產(chǎn)級(jí)的LLM。我構(gòu)建的大多數(shù)模型,包括混合專家模型(MoE),目標(biāo)都是能在單張GPU上運(yùn)行。
這幾乎就像RLVR一樣,你可以進(jìn)行自我驗(yàn)證。當(dāng)你從零編寫代碼時(shí),可以參考Hugging Face的Transformers庫,但我認(rèn)為那里不是學(xué)習(xí)LLM原理的最佳起點(diǎn)。Transformers庫為了兼容成百上千種模型和生產(chǎn)環(huán)境,代碼極其復(fù)雜且交織在一起,閱讀體驗(yàn)不是線性的。我的建議是“逆向工程”:去查看模型倉庫中的配置文件(Config),了解它用了多少層、是分組查詢注意力(GQA)還是多頭注意力。然后嘗試從你的基礎(chǔ)模型(比如GPT-2)開始,把這些組件加進(jìn)去,加載預(yù)訓(xùn)練權(quán)重,看看能否得到相同的輸出。這能作為一種可驗(yàn)證的獎(jiǎng)勵(lì),確保你的架構(gòu)正確。比如我曾花了一天時(shí)間處理Llama 3,挑戰(zhàn)在于位置嵌入的RoPE和YaRN擴(kuò)展,在這個(gè)掙扎的過程中你會(huì)逐漸真正理解它。
Nathan Lambert:我非常贊同。每一位對當(dāng)今AI領(lǐng)域感興趣的人都應(yīng)該這樣做。我是從強(qiáng)化學(xué)習(xí)和機(jī)器人領(lǐng)域轉(zhuǎn)到語言模型的,我必須花時(shí)間補(bǔ)習(xí)Transformer架構(gòu)這些極其基礎(chǔ)的東西。掌握基礎(chǔ)后,很多人會(huì)感到迷茫,不知道如何產(chǎn)生影響力或找到職業(yè)路徑。因?yàn)锳I語言模型讓基礎(chǔ)知識(shí)變得易于獲取,問題變成了“我該如何獲得參與研究的機(jī)會(huì)?”
對此我相當(dāng)樂觀。這個(gè)領(lǐng)域發(fā)展太快,很多頂尖人才會(huì)轉(zhuǎn)向解決更大、更唾手可得的難題,從而留下許多細(xì)分領(lǐng)域。我的建議是,在掌握基礎(chǔ)后,深入研究一個(gè)細(xì)分領(lǐng)域。比如我最近對“性格訓(xùn)練”產(chǎn)生了濃厚興趣,如何通過調(diào)整數(shù)據(jù)讓模型變得幽默、諷刺或嚴(yán)肅。曾有一位牛津大學(xué)的博士生聯(lián)系我,我對他說這很有趣,現(xiàn)在他已經(jīng)發(fā)布了相關(guān)論文。在這個(gè)充滿噪音的領(lǐng)域,如果你能深耕某個(gè)看似冷門或無人解答的細(xì)分問題(比如閱讀三篇論文并深入理解),你會(huì)發(fā)現(xiàn)很多有趣的東西值得學(xué)習(xí)。
Sebastian Raschka:是的,試圖面面俱到會(huì)讓人精疲力竭。說回你的書(指Nathan正在編寫的RLHF相關(guān)書籍),我認(rèn)為它性價(jià)比極高。如果想學(xué)RLHF,直接讀論文可能會(huì)浪費(fèi)兩年時(shí)間,因?yàn)楹芏嘤^點(diǎn)相互矛盾。
Nathan Lambert:沒錯(cuò),我剛編輯完那本書。書中的章節(jié)涵蓋了后訓(xùn)練的大局觀:從偏好數(shù)據(jù)、獎(jiǎng)勵(lì)建模、正則化、指令微調(diào)、拒絕采樣到強(qiáng)化學(xué)習(xí)、憲法AI(Constitutional AI)、合成數(shù)據(jù)等。RLHF的核心難點(diǎn)在于“偏好”是多么的雜亂。我們在書中有一章專門討論了為什么RLHF永遠(yuǎn)無法被完全解決,因?yàn)閺母旧现v,它試圖將多維度的偏好(如準(zhǔn)確性與風(fēng)格)壓縮為單一數(shù)值,這涉及經(jīng)濟(jì)學(xué)中的馮·諾依曼-摩根斯坦效用定理和社會(huì)選擇理論。
我認(rèn)為對數(shù)學(xué)感興趣的人會(huì)在這里發(fā)現(xiàn)很多樂趣。比如在第14章,我列出了所有我喜歡的推理模型技術(shù)報(bào)告。現(xiàn)在的語言模型非常擅長數(shù)學(xué),比如DPO(直接偏好優(yōu)化)這篇著名論文,它的推導(dǎo)過程省略了一些數(shù)學(xué)步驟。我為了寫書嘗試重新推導(dǎo)時(shí)非常痛苦,心想“這個(gè)對數(shù)技巧(log trick)到底是什么鬼?”雖然現(xiàn)在的模型可以直接告訴你答案,但我認(rèn)為經(jīng)歷這種推導(dǎo)的掙扎對學(xué)習(xí)是有好處的。
Lex Fridman:你們都提到了“掙扎”這一點(diǎn)。這非常有價(jià)值,如果學(xué)習(xí)過程中沒有感到掙扎,說明你沒有遵循正確的學(xué)習(xí)流程。
Nathan Lambert:現(xiàn)在一些提供商開始研發(fā)教育專用模型,設(shè)計(jì)初衷就是不直接給出所有信息,而是讓人們?yōu)榇烁冻雠Α_@就像玩解謎游戲(如塞爾達(dá)傳說)卡關(guān)時(shí),你只想要一個(gè)提示而不是劇透。你可以對模型說:“我算到這一步卡住了,不要直接給我答案,告訴我下一步該嘗試什么思路。”這需要自律,但也正是培養(yǎng)研究品味和長期眼光的方式。我們需要知道在哪些事情上磨煉,在哪些事情上不必糾結(jié),這很難判斷,但必須培養(yǎng)這種品味。
我之前可能在和未婚妻或朋友聊這事,感覺就像存在一個(gè)短暫的10年窗口期,期間所有的作業(yè)和考試都實(shí)現(xiàn)了數(shù)字化。但在那之前,每個(gè)人都必須在答題本上完成所有考試,因?yàn)楫?dāng)時(shí)別無他法。而現(xiàn)在有了AI,每個(gè)人似乎又要回歸紙筆考試和口試了,因?yàn)樽鞅鬃兊锰菀住8杏X這短暫的一代人經(jīng)歷了一個(gè)完全不同的教育系統(tǒng),一切雖已數(shù)字化卻依然能防止作弊,但現(xiàn)在一切又要倒退回去了,這真的很有趣。
Lex Fridman:你剛才提到了角色訓(xùn)練,讓我們放大到更宏觀的話題。就這個(gè)領(lǐng)域而言,需要多少算力支持?總的來說,作為一名研究人員,是否有一些不需要太多算力,且個(gè)人也能真正做出貢獻(xiàn)的領(lǐng)域?
Nathan Lambert:僅就字符訓(xùn)練而言,這項(xiàng)研究通常是基于微調(diào)(fine-tuning)的。比如在7B參數(shù)模型上使用LoRA技術(shù),本質(zhì)上你只微調(diào)了模型權(quán)重的一個(gè)很小的子集。雖然我不確定具體需要消耗多少GPU小時(shí),但這種做法是完全可行的。
但這并非對所有學(xué)者都可行。有些學(xué)者的處境非常艱難,唯一能做的就是進(jìn)行推理工作,無論是使用閉源模型還是開放權(quán)重模型。你可以獲取它們的補(bǔ)全結(jié)果,通過觀察這些結(jié)果來進(jìn)行研究和理解模型。這非常適合評估工作。如果你渴望成為那個(gè)最擅長設(shè)計(jì)題目、能展示模型在何處失敗或具備何種能力的人,我認(rèn)為你可以通過這種方式取得突破。
對于從事評估工作的研究人員來說,最高目標(biāo)可能就是去Frontier Labs(前沿實(shí)驗(yàn)室)。你不需要讓每個(gè)項(xiàng)目都達(dá)到那個(gè)高度,但如果你來自一所沒有算力的小型大學(xué),卻發(fā)現(xiàn)了一些Claude難以處理的問題,而下一代Claude模型在博客文章中專門提到了這點(diǎn),那就是你職業(yè)生涯的“火箭時(shí)刻”。這很難,但如果你想用最小的算力實(shí)現(xiàn)最大可能的影響力,就需要變得非常專注,并了解模型的發(fā)展方向。比如,構(gòu)建一個(gè)工具來測試Claude 4.5不會(huì)失敗的地方。如果要啟動(dòng)一個(gè)研究項(xiàng)目,我需要思考八個(gè)月后的模型會(huì)在哪些方面遇到困難。
Lex Fridman:但是開發(fā)完全新穎的想法呢?
Nathan Lambert:這是一個(gè)權(quán)衡。如果你在讀博士,你也可以認(rèn)為研究語言模型的風(fēng)險(xiǎn)太大了,從而決定關(guān)注更長遠(yuǎn)的東西,思考什么將在10年后定義語言模型的發(fā)展。
我認(rèn)為我最終成為了一個(gè)相當(dāng)務(wù)實(shí)的人。當(dāng)年我去讀博士時(shí)心想:“我考進(jìn)了Berkeley,最壞的情況也就是拿個(gè)碩士學(xué)位,然后去科技行業(yè)工作。”如今回看,在這些AI公司工作給人們帶來的生活變化是巨大的。比如OpenAI員工的平均薪酬僅股票部分每年就超過100萬美元。在美國,任何普通人只要能進(jìn)入這類AI實(shí)驗(yàn)室,人生都會(huì)發(fā)生翻天覆地的變化。
所以我非常務(wù)實(shí)地認(rèn)為,如果你足夠?qū)Wⅲ谡Z言模型領(lǐng)域工作仍然有很大的上升空間,看看這些職位的產(chǎn)出就知道了。但從研究角度來看,如果你的目標(biāo)是獲得學(xué)術(shù)獎(jiǎng)項(xiàng),想成為下一個(gè)Yann LeCun,那就不應(yīng)該太在意語言模型當(dāng)前的具體發(fā)展,因?yàn)檫@在經(jīng)濟(jì)上是一個(gè)巨大的犧牲。
我有機(jī)會(huì)和一些非常優(yōu)秀的學(xué)生一起工作,他們會(huì)問:“我應(yīng)該去AI實(shí)驗(yàn)室工作嗎?”我會(huì)說:“你正在頂尖學(xué)府攻讀博士學(xué)位,你打算離開去實(shí)驗(yàn)室嗎?”我的反應(yīng)通常是“我不知道”。如果你是去頂尖實(shí)驗(yàn)室工作,我不怪你;別去那些可能歸零的隨機(jī)創(chuàng)業(yè)公司。但如果你是去OpenAI,我覺得那確實(shí)值得為了它放棄博士學(xué)位。
Lex Fridman:讓我們更嚴(yán)謹(jǐn)?shù)厮伎家幌拢銜?huì)建議人們在哪里做出研究貢獻(xiàn)?選項(xiàng)包括:留在學(xué)術(shù)界花五年時(shí)間讀博士發(fā)論文;去那些計(jì)算資源受限但專注于開放權(quán)重模型的研究實(shí)驗(yàn)室;或者是去閉源的前沿實(shí)驗(yàn)室,比如OpenAI、Anthropic、xAI等等。
Nathan Lambert:這兩個(gè)方向的梯度是:環(huán)境越封閉,你往往能拿到的錢越多,但獲得的個(gè)人認(rèn)可越少。作為一名學(xué)者,建立個(gè)人作品集是非常清晰的,你完成了什么一目了然。而去企業(yè)就像達(dá)成了一項(xiàng)合理的交易,你在這個(gè)進(jìn)階過程中成為大機(jī)器中的一顆螺絲釘,但這也可以非常有趣。這是非常不同的職業(yè)路徑。
成為一名研究員的機(jī)會(huì)成本非常高,因?yàn)椴┦可男剿⒑跗湮ⅰN艺J(rèn)為這最終會(huì)獎(jiǎng)勵(lì)那些擁有穩(wěn)定安全網(wǎng)的人,他們意識(shí)到自己可以在長期內(nèi)運(yùn)作,想要從事有趣的工作。處于這種位置是相當(dāng)優(yōu)越的,可以說“我要讀完P(guān)hD再去解決之后的事情”。與此同時(shí),學(xué)術(shù)生態(tài)系統(tǒng)正遭受資金方面的沉重打擊,撥款被削減。這里存在太多的權(quán)衡取舍,我能理解很多人因?yàn)闊o法應(yīng)對資金搜尋的壓力或未來的不確定性,而傾向于選擇那份薪水豐厚且具有重大影響力的工作。在OpenAI并不是拿薪水閑坐,你正在構(gòu)建最前沿的東西,這些東西正在改變數(shù)以百萬計(jì)的人與技術(shù)的關(guān)系。
Lex Fridman:但在論文發(fā)表方面,這些公司變得越來越保守,趨勢日益明顯。所以你發(fā)表的東西越來越少,雖然在大范圍內(nèi)產(chǎn)生積極影響,但你只是機(jī)器上的一個(gè)齒輪。
Sebastian Raschka:老實(shí)說,我覺得情況并沒有改變那么多。我曾在學(xué)術(shù)界工作,當(dāng)時(shí)我與合作者將機(jī)器學(xué)習(xí)方法應(yīng)用于計(jì)算生物學(xué)領(lǐng)域,很多人也是直接從學(xué)術(shù)界去了Google。那時(shí)教授們會(huì)對學(xué)生進(jìn)入工業(yè)界感到難過,因?yàn)閷W(xué)生無法繼承他們的衣缽。現(xiàn)在唯一的區(qū)別在于規(guī)模。以前這是一個(gè)封閉的行業(yè),你無法談?wù)撍,F(xiàn)在的區(qū)別在于你的偏好:你是喜歡談?wù)撃愕墓ぷ鳌l(fā)表成果,還是更傾向于待在一個(gè)封閉的實(shí)驗(yàn)室里?當(dāng)然還有薪酬的差別。
目前唯一不同的是有了第三種選擇:創(chuàng)辦初創(chuàng)公司。這是非常冒險(xiǎn)的舉動(dòng),屬于高風(fēng)險(xiǎn)高回報(bào)。而加入工業(yè)界實(shí)驗(yàn)室則相當(dāng)穩(wěn)妥,且有晉升空間,一旦有過這種經(jīng)歷,未來找工作也會(huì)更容易。這取決于你有多享受團(tuán)隊(duì)合作以及開發(fā)專有技術(shù),相比之下你有多喜歡發(fā)表論文。發(fā)表論文壓力很大,會(huì)議錄用率具有隨機(jī)性,可能讓人沮喪,但如果發(fā)表了,那種署名的成就感是很高的。
Nathan Lambert:我覺得我那些當(dāng)教授的朋友平均來看似乎比在公司工作的朋友更快樂。前沿實(shí)驗(yàn)室絕對在實(shí)行“996”工作制,這基本上就是“一直工作”的代名詞。
10、AI行業(yè)的職場文化
Lex Fridman:你能描述一下996這種文化嗎?
Sebastian Raschka:就是早上9點(diǎn)工作到晚上9點(diǎn),每周六天,總共72小時(shí)。這種拼命工作的心態(tài)在硅谷AI公司里越來越普遍。
也許不完全是那樣,但確實(shí)有這種趨勢。這很有趣,我覺得情況幾乎反轉(zhuǎn)了。當(dāng)我在學(xué)術(shù)界時(shí),作為教授必須寫撥款申請、教課、做研究,這簡直是三份工作合而為一,想成功就絕不僅是一份全職工作。相比之下,教授們現(xiàn)在的壓力或工作量甚至可能比前沿實(shí)驗(yàn)室還要小。
我覺得教授們工作非常努力,只是感到非常充實(shí)。通過與學(xué)生一起工作,擁有持續(xù)的導(dǎo)師制路徑和以人為本的使命,在一個(gè)發(fā)展極快且混亂的時(shí)代,這種成就感很重要。而在初創(chuàng)公司,壓力在于必須成功。大家投入時(shí)間確實(shí)非常重要,雖然辛苦,但必須不斷交付成果。我待過初創(chuàng)公司,雖然愉快,但那種節(jié)奏我不確定是否還能再經(jīng)歷一次。正如我們一開始討論的,模型正在互相超越,競爭非常殘酷。
Nathan Lambert:這種互相超越的特性以及多方參與,實(shí)際上是語言建模進(jìn)程中一個(gè)被低估的驅(qū)動(dòng)因素。競爭深深植根于人心,這些公司有意創(chuàng)造了強(qiáng)勢的企業(yè)文化。比如Anthropic以其高度專注和嚴(yán)密組織的文化聞名,大家非常齊心協(xié)力。置身于這種凝聚力極強(qiáng)的競爭態(tài)勢中,絕對會(huì)讓你努力工作并創(chuàng)造出更好的東西。但這以人力資本為代價(jià),人們肯定會(huì)感到職業(yè)倦怠。我自己也曾深陷其中,尤其是嘗試在擔(dān)任管理者的同時(shí)還要全身心投入模型訓(xùn)練。
Sebastian Raschka:我作為學(xué)者或獨(dú)立工作者時(shí)也會(huì)過度工作,這很不健康,我曾因此有過背部和頸部問題,但這并不是因?yàn)橛腥藦?qiáng)迫我,而是因?yàn)槭虑樘钊伺d奮了。OpenAI和Anthropic的氛圍也是這樣,他們渴望做這些工作。
11、硅谷泡沫
Lex Fridman:是的,但同時(shí)也有一種正在積聚的狂熱感,特別是在硅谷。這種狂熱與“規(guī)模定律”(Scaling Laws)的理念相契合,認(rèn)為世界將在幾周內(nèi)發(fā)生翻天覆地的變化,大家都希望處于變革的中心。我有幸能觀察到各處存在的泡沫和信息繭房。硅谷某種程度上就是一個(gè)回音壁和孤島。這種泡沫實(shí)際上非常有用且有效,因?yàn)樗軒順O高的效率,類似于史蒂夫·喬布斯的“現(xiàn)實(shí)扭曲場”,通過互相說服突破近在咫尺,從而讓突破真的發(fā)生。
Burn Hobart寫過一本對泡沫分類的書,提到一種是金融泡沫(投機(jī)),另一種則是建設(shè)性泡沫。AI正處于建設(shè)性階段,但我擔(dān)心它會(huì)轉(zhuǎn)變?yōu)榻鹑谂菽6胰绻阍谄x現(xiàn)實(shí)的同時(shí)進(jìn)行996工作,可能會(huì)錯(cuò)過人類體驗(yàn)中最基本的方面。這是硅谷的一個(gè)普遍問題,作為一個(gè)特定地理區(qū)域,可能無法理解中西部地區(qū)乃至全世界其他人類的完整體驗(yàn)。這種與現(xiàn)實(shí)脫節(jié)可能會(huì)讓你陷入麻煩。
Lex Fridman:我甚至不太理解,但舊金山的AI圈已經(jīng)演變出了“永久底層階級(jí)”這種梗。其中一個(gè)觀點(diǎn)是,2025年的最后六個(gè)月是建立具有持久價(jià)值的AI初創(chuàng)公司或模型的唯一時(shí)機(jī),否則所有價(jià)值都將被現(xiàn)有公司攫取,你將因此陷入貧困。
Nathan Lambert:這就是舊金山那種走極端的例子。我仍然認(rèn)為,對于能接觸到資源的年輕人,如果你熱衷于在AI領(lǐng)域產(chǎn)生影響力,舊金山是最可能實(shí)現(xiàn)目標(biāo)的地方,但也有權(quán)衡。
Lex Fridman:舊金山是一個(gè)不可思議的地方,但確實(shí)存在泡沫。進(jìn)入泡沫固然有價(jià)值,但也請記得走出來。去讀讀歷史書、文學(xué)作品,去世界其他地方看看。Twitter和Substack并不是整個(gè)世界。
Nathan Lambert:我的一位同事準(zhǔn)備搬到舊金山,我得送他一本《Season of the Witch》,這是一本講述舊金山1960年到1985年歷史的書。書中詳細(xì)描述了嬉皮士革命、同性戀群體如何接管城市及文化的興起,還有后來的HIV/AIDS危機(jī)。舊金山經(jīng)歷了如此多的動(dòng)蕩和傷痛,同時(shí)也充滿了愛。這感覺就像發(fā)生在不久前,那是一本很棒的書。
![]()
12、文本擴(kuò)散模型(Text diffusion models)及其他新研究方向
Lex Fridman:好的,我們談了很多過去一年的事。但在今年,你們提到的一個(gè)令人興奮點(diǎn)是文本擴(kuò)散模型(Text Diffusion Models)的規(guī)模化,以及對文本擴(kuò)散的不同探索。能談?wù)勀鞘鞘裁矗约八N(yùn)含著怎樣的可能性嗎?是與目前的語言模型(LM)不同的方法嗎?
Sebastian Raschka:是的。我們討論了很多關(guān)于Transformer架構(gòu)和自回歸Transformer的內(nèi)容(如GPT)。這并不意味著沒人在研究其他東西,不把雞蛋放在同一個(gè)籃子里總是個(gè)好主意。目前Transformer架構(gòu)是主流且效果最好,但人們正在開發(fā)自回歸Transformer的替代方案,其中之一就是文本擴(kuò)散模型。
聽眾可能通過Stable Diffusion了解了圖像生成中的擴(kuò)散模型。在生成圖像領(lǐng)域,人們曾使用GAN(生成對抗網(wǎng)絡(luò)),后來出現(xiàn)了擴(kuò)散過程,通過隨時(shí)間迭代地對圖像進(jìn)行去噪,產(chǎn)生了高質(zhì)量圖像。現(xiàn)在人們想:“能不能把這種方法用于文本?”
這在直覺上不太好理解,因?yàn)槲谋臼请x散的,不像像素那樣是可微分的連續(xù)事物。這有點(diǎn)類似于Google的BERT模型。在原始Transformer中,有編碼器(Encoder)和解碼器(Decoder)。GPT使用的是解碼器,采用自回歸方式一次生成一個(gè)Token來完成句子。而在BERT(編碼器)中,你有一段帶有缺口(Mask)的文本,通過一次迭代來填補(bǔ)這些缺口。
文本擴(kuò)散與之類似,你從一段隨機(jī)文本開始,通過多次迭代不斷填補(bǔ)和完善缺失部分。最酷的一點(diǎn)是,它可以同時(shí)處理多個(gè)Token,實(shí)現(xiàn)了并行化,從而帶來更高效率的承諾。當(dāng)然權(quán)衡在于質(zhì)量。現(xiàn)在有了“去噪過程”這個(gè)維度,執(zhí)行步驟越多,文本質(zhì)量越好。
目前有一些論文表明,如果想獲得與自回歸模型相同的質(zhì)量,必須增加去噪步數(shù),最終消耗的算力可能是一樣的。另一個(gè)缺點(diǎn)是,有些任務(wù)如推理或工具調(diào)用并不是并行的,這對于擴(kuò)散模型來說有點(diǎn)棘手。Google提到正在推出Gemini Diffusion并整合到Nano2環(huán)境中,聲稱在大多數(shù)基準(zhǔn)測試中,以相同質(zhì)量可以更快地生成內(nèi)容。我不認(rèn)為文本擴(kuò)散模型會(huì)取代自回歸大語言模型,但它可能用于快速、廉價(jià)且大規(guī)模的任務(wù)。
Nathan Lambert:我覺得有幾個(gè)例子表明它已經(jīng)開始被投入使用了。舉個(gè)例子,GPT-5可能需要30分鐘才能做出響應(yīng),因?yàn)樗且淮紊梢粋€(gè)Token。而擴(kuò)散思路本質(zhì)上是在一個(gè)批次中生成所有補(bǔ)全內(nèi)容,所以快得多。
我聽說的初創(chuàng)公司,比如做代碼的,有人在進(jìn)行所謂的“氛圍編程”(vibe coding),他們對模型說“做這個(gè)修改”。代碼差異(code diff)本質(zhì)上不需要模型給出包含大量外部上下文的詳盡回復(fù)。通過使用擴(kuò)散模型,可以非常快速地獲取結(jié)果。對于面向用戶的產(chǎn)品,如果使用自回歸模型生成非常長的代碼差異可能需要幾分鐘,這會(huì)導(dǎo)致用戶流失。
所以它會(huì)不斷成長并產(chǎn)生應(yīng)用。但我原以為不同類型的模型會(huì)比現(xiàn)在更早被用于不同場景。目前的阻礙在于“工具調(diào)用”(tool use)。例如ChatGPT在使用Cloud Code時(shí),自回歸鏈會(huì)被外部工具中斷,我不知道在擴(kuò)散模型設(shè)置下該如何實(shí)現(xiàn)這一點(diǎn)。
13、工具調(diào)用
Lex Fridman:今年以及未來幾年,工具調(diào)用(tool use)的前景如何?你認(rèn)為這方面會(huì)有怎樣的發(fā)展,以及它是如何集成到整個(gè)技術(shù)棧中的?
Sebastian Raschka:我認(rèn)為這方面會(huì)有巨大的發(fā)展。目前主要集中在閉源的專有LLM上,但我認(rèn)為我們會(huì)看到更多開源工具的涌現(xiàn)。這是一個(gè)巨大的突破,因?yàn)檫@意味著你可以將某些單純依靠記憶的任務(wù)外包給工具。這就像如果你要算23加5,不需要讓LLM去死記硬背,直接調(diào)用計(jì)算器即可。
Lex Fridman:你認(rèn)為這能幫助減少幻覺問題嗎?
Sebastian Raschka:不是徹底解決,但能減少。LLM仍然需要判斷何時(shí)調(diào)用工具。但這并不意味著互聯(lián)網(wǎng)上的信息總是正確的。比如我問誰贏得了1998年世界杯,模型仍然需要找到正確的網(wǎng)站并獲取正確的信息。如果訪問了錯(cuò)誤的網(wǎng)站,依然會(huì)給出錯(cuò)誤信息。所以它不會(huì)完全解決那個(gè)問題,但確實(shí)有所改進(jìn)。
今年早些時(shí)候,或者說是去年年底,有一篇關(guān)于遞歸語言模型(recursive language model)的論文提出了很有趣的觀點(diǎn)。正如Nathan剛才提到的,學(xué)術(shù)界受限于算力預(yù)算,做前沿研究很難。那篇論文的作者甚至沒有使用本地模型,而是全部用GPT-5(注:此處可能指代當(dāng)時(shí)的SOTA模型如GPT-4等)完成的。其核心理念是:對于非長上下文任務(wù),與其讓LLM試圖一站式解決所有問題,不如將其分解為子任務(wù)。由LLM決定什么是合適的子任務(wù),然后遞歸地調(diào)用自身來解決。這種方式配合工具調(diào)用,比如在一個(gè)龐大的問答任務(wù)中,針對每個(gè)子問題去網(wǎng)上搜集信息,最后再匯總縫合。這種在不改變LLM本身的情況下改進(jìn)其使用方式和資源調(diào)用能力的模式,會(huì)帶來很多突破。
目前工具調(diào)用的一個(gè)缺點(diǎn)是必須賦予LLM權(quán)限,這需要極大的信任。如果要解鎖讓LLM回復(fù)郵件,或者僅僅是分類篩選郵件的功能,這都伴隨著巨大的風(fēng)險(xiǎn)。我不知道今天我是否敢給LLM訪問我郵件的權(quán)限。
Nathan Lambert:關(guān)于工具調(diào)用還有一點(diǎn)很有趣,那就是開源模型與閉源模型在使用工具的方式上截然不同。對于開源模型,用戶從Hugging Face下載模型后,會(huì)根據(jù)自己的偏好選擇工具,比如有人喜歡Xa作為搜索提供商,有人喜歡另一家初創(chuàng)公司。這就要求發(fā)布模型時(shí),必須將其打造為通用的推理引擎,使其能適應(yīng)多種工具和用例,這正是GPT-OSS擅長的地方。
相比之下,閉源模型是將特定的工具深度集成到體驗(yàn)中。我很難用閉源模型復(fù)制一些我喜歡的操作,比如嘗試通過提示詞讓模型像使用Codex那樣直接更新我的GitHub倉庫。那種安全的云環(huán)境非常適合將任務(wù)發(fā)送出去執(zhí)行并返回結(jié)果。最初因?yàn)榇蠹壹庇趯?shí)現(xiàn)工具調(diào)用功能,導(dǎo)致開源模型處于劣勢,這在某種程度上是不可避免的。前沿實(shí)驗(yàn)室擁有海量資源,但當(dāng)開源模型解決這個(gè)問題時(shí),情況會(huì)變得很有趣,因?yàn)檫@將需要一種更靈活的模型來配合這種遞歸模式工作,充當(dāng)編排器和工具調(diào)用者的角色。
14、持續(xù)學(xué)習(xí)
Lex Fridman:持續(xù)學(xué)習(xí)(continual learning)是一個(gè)長期存在的課題,隨著模型訓(xùn)練成本的上升,其重要性也在增加。你能解釋一下什么是持續(xù)學(xué)習(xí),以及在未來幾年中,它對于技術(shù)進(jìn)步有多重要嗎?
Nathan Lambert:這很大程度上與舊金山關(guān)于AGI(通用人工智能)和ASI(人工超智能)的時(shí)代精神有關(guān)。現(xiàn)在的語言模型雖然能解決很多任務(wù),但在AI社區(qū)看來,關(guān)鍵的里程碑是AI能夠像遠(yuǎn)程員工一樣,接收信息、執(zhí)行數(shù)字化任務(wù)。目前的局限性在于,語言模型無法像員工那樣從反饋中學(xué)習(xí)。如果你雇傭一名編輯,他犯錯(cuò)后你會(huì)指正,優(yōu)秀的編輯不會(huì)再犯同樣的錯(cuò)誤。但語言模型不具備這種自我修正和快速學(xué)習(xí)的能力。如果我們想實(shí)現(xiàn)真正的、通用的、適應(yīng)性強(qiáng)的智能,它必須能夠從反饋和在職學(xué)習(xí)中快速提升。
我個(gè)人更看好通過提供極佳的Context(上下文)來解決問題。你可以向模型提供海量文檔,告訴它這是你所有的博客文章、寫作風(fēng)格和語調(diào)。雖然以前的模型不支持這么大的上下文,但現(xiàn)在智能體模型(agentic models)才剛剛起步。這就帶來了一個(gè)權(quán)衡:我們是否真的需要通過持續(xù)學(xué)習(xí)來更新模型的權(quán)重?還是只需要提供更多的上下文信息,讓它們憑借高智能和豐富的信息表現(xiàn)出類似快速學(xué)習(xí)的效果?
Sebastian Raschka:我們需要厘清這里的術(shù)語。持續(xù)學(xué)習(xí)(continual learning)是指持續(xù)、快速且頻繁地改變權(quán)重,以便模型能夠根據(jù)新傳入的信息進(jìn)行適配。而另一面通常被稱為上下文學(xué)習(xí)(in-context learning),即利用巨大的上下文窗口,每次提示系統(tǒng)時(shí)不斷加載額外信息。這兩者都可以被視為學(xué)習(xí),只是發(fā)生的場所不同。
老實(shí)說,我認(rèn)為不同形式的持續(xù)學(xué)習(xí)(即權(quán)重更新)已經(jīng)存在了。如果是指全球范圍內(nèi)的模型更新,比如從GPT-5演進(jìn)到5.1、5.2,這本質(zhì)上就是一種包含反饋(針對失敗任務(wù)或社區(qū)反饋)的精選更新。更細(xì)粒度的例子像RLVR,運(yùn)行后會(huì)更新。
真正的問題在于個(gè)性化定制。為每個(gè)人更新權(quán)重的成本太高了,即使以O(shè)penAI的規(guī)模也無法負(fù)擔(dān)這種數(shù)據(jù)中心級(jí)別的開銷。我認(rèn)為只有當(dāng)這種運(yùn)算在設(shè)備端運(yùn)行且成本由消費(fèi)者承擔(dān)時(shí)才可行,就像Apple嘗試將基礎(chǔ)模型放在手機(jī)上并從經(jīng)驗(yàn)中學(xué)習(xí)那樣。
Lex Fridman:這引出了另一個(gè)相關(guān)話題——“記憶”,這可能是一個(gè)擬人化的術(shù)語。隨著系統(tǒng)閱歷的增加,關(guān)于如何為這些系統(tǒng)增加記憶機(jī)制,尤其是個(gè)性化記憶,有哪些不同的想法?
Sebastian Raschka:目前主流的做法還是“上下文填充”,即把東西塞進(jìn)上下文里然后通過檢索召回。但這非常昂貴,因?yàn)樾枰腡oken,且能力有限。這更多像是一種風(fēng)格偏好,比如告訴模型“按照我上次喜歡的去做”,但并不能解鎖新能力。
另一種方法是使用LoRA適配器。這種方式不更新整個(gè)權(quán)重矩陣,而是并行或疊加兩個(gè)較小的權(quán)重矩陣。但這歸根結(jié)底是經(jīng)濟(jì)學(xué)問題。有論文指出,LoRA學(xué)到的東西較少,但遺忘的也較少。天下沒有免費(fèi)的午餐,如果你想學(xué)得更多,就需要?jiǎng)佑酶鄼?quán)重,成本也會(huì)隨之升高。而且學(xué)得越多,遺忘的也越多,必須找到那個(gè)適中的平衡點(diǎn)。
15、長上下文
Lex Fridman:雖然我們沒明說,但討論中隱含了上下文長度(context length)這一因素。這方面是否還有很多創(chuàng)新的空間?
Nathan Lambert:目前的共識(shí)是這主要取決于算力和數(shù)據(jù)。架構(gòu)上的一些微調(diào),比如混合注意力模型(hybrid attention models),本質(zhì)上是在Transformer中加入類似狀態(tài)空間模型(SSM)的結(jié)構(gòu),在建模時(shí)消耗的算力更少。但這也需要大量算力和正確的數(shù)據(jù)支持。世界上并沒有那么多高質(zhì)量的10萬Token序列數(shù)據(jù)。
我認(rèn)為擴(kuò)展規(guī)模最終會(huì)變得非常昂貴。雖然我們已經(jīng)很快達(dá)到了100萬Token的水平,預(yù)計(jì)今年可能會(huì)達(dá)到200萬或500萬,但我不認(rèn)為會(huì)很快達(dá)到1億級(jí)別,那將是真正的突破。遞歸語言模型那篇論文就是試圖解決長上下文問題的嘗試之一。與其將所有內(nèi)容塞進(jìn)長上下文,不如將其分解為多個(gè)更小的任務(wù),這樣不僅節(jié)省內(nèi)存,甚至能獲得比一次性處理更高的準(zhǔn)確率。
關(guān)于預(yù)訓(xùn)練有一些經(jīng)驗(yàn)法則。以O(shè)LMo為例,我們在大約8K的上下文長度下預(yù)訓(xùn)練,然后擴(kuò)展到32K。通常當(dāng)你將訓(xùn)練上下文長度翻倍時(shí),會(huì)消耗大約2倍的算力。這在很大程度上受限于預(yù)訓(xùn)練階段的算力瓶頸。
但在后訓(xùn)練(post-training)方面,隨著智能體(agents)的發(fā)展,情況會(huì)更有趣。智能體將自行管理上下文。現(xiàn)在很多用Claude寫代碼的人擔(dān)心“壓縮”(compaction)問題,即模型將10萬Token的內(nèi)容壓縮成要點(diǎn)列表會(huì)丟失細(xì)節(jié)。但我確信下一代模型將能夠控制何時(shí)以及如何進(jìn)行壓縮。你可以訓(xùn)練RL算法,將壓縮視為一種動(dòng)作,目標(biāo)是在將歷史記錄壓縮到最短的同時(shí),保持最高的任務(wù)評估分?jǐn)?shù)。這意味著模型學(xué)會(huì)了以一種不同于以往只會(huì)“一路向前”的方式來利用上下文。
Sebastian Raschka:最近DeepSeek V3(或類似版本)采用的稀疏注意力機(jī)制(sparse attention mechanism)也是一個(gè)有趣的例子。它擁有高效輕量的索引器,不再關(guān)注所有Token,而是只選擇需要的Token。這幾乎回到了Attention最初的理念——具有選擇性,甚至直接掩蓋掉不需要處理的部分。OLMo的滑動(dòng)窗口注意力也是這類思路。
如果使用全部信息,確實(shí)最安全且性價(jià)比最高,因?yàn)椴粫?huì)遺漏信息。但今年將是探索如何變得更“聰明”的一年。大家先通過暴力計(jì)算堆出SOTA(最先進(jìn)水平),一旦達(dá)到那個(gè)準(zhǔn)確度,就開始研究如何通過技巧以更低的成本實(shí)現(xiàn)它。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.