Lex Fridman硬核訪談：5萬字2026 AI全景報(bào)告

2026-02-03 12:14:20　來源: 劃重點(diǎn)KeyPoints

浙江舉報(bào)

分享至

作者｜林易

編輯｜重點(diǎn)君

2月1日，知名科技播客博主Lex Fridman與兩位機(jī)器學(xué)習(xí)領(lǐng)域的重量級(jí)嘉賓開展了一場深度對話。Sebastian Raschka是知名機(jī)器學(xué)習(xí)研究員與教育家，Nathan Lambert是艾倫人工智能研究所（AI2）的后訓(xùn)練負(fù)責(zé)人，同時(shí)也是RLHF領(lǐng)域的權(quán)威專家。兩位嘉賓恰好代表了當(dāng)前AI領(lǐng)域的兩大核心關(guān)切：原理與技術(shù)路線。

這場長達(dá)數(shù)小時(shí)的硬核訪談信息密度極高，既是對過去一年AI技術(shù)突破的復(fù)盤，更是對2026年技術(shù)風(fēng)向的深度預(yù)判。我們給你劃下重點(diǎn)：

第一，關(guān)于中美AI競爭：2025年的最大變量是DeepSeek時(shí)刻，中國公司在開源權(quán)重模型上已占據(jù)主導(dǎo)地位。

2025年1月發(fā)布的DeepSeek R1被視為中美AI競爭的分水嶺，該模型以更低的算力成本達(dá)到了接近最先進(jìn)（SOTA）的性能，震驚了業(yè)界。Nathan Lamber說，在開源模型方面表現(xiàn)強(qiáng)勢。DeepSeek、阿里Qwen、MiniMax、Kimi等公司發(fā)布了大量高性能開源模型，贏得了開源社區(qū)的青睞。

相比之下，美國曾經(jīng)的開源標(biāo)桿Llama卻在這一年迷失了方向。Sebastian Raschka說，Meta試圖通過構(gòu)建巨大的Llama 4模型在基準(zhǔn)測試中擊敗ChatGPT，但陷入刷榜陷阱，忽略了AI領(lǐng)域真正需要的是輕量級(jí)、可用的模型。這導(dǎo)致Llama留下的生態(tài)空白正在被中國的開源模型迅速填補(bǔ)。

第二，主要AI實(shí)驗(yàn)室與模型現(xiàn)狀：Anthropic最有序，OpenAI內(nèi)部混亂，Meta開源策略可能動(dòng)搖。

Anthropic：Claude Opus4.5是當(dāng)前頂流，特別是在編程方面表現(xiàn)出色，深受開發(fā)者喜愛。Anthropic組織最有序、最不混亂。

Google：Gemini 3 雖發(fā)布時(shí)營銷聲量不如對手，但性能極其強(qiáng)大。Google的優(yōu)勢在于擁有完整的全棧垂直整合能力（TPU芯片、云計(jì)算、模型、應(yīng)用），利潤率極高，不依賴英偉達(dá)的高價(jià)GPU芯片。

OpenAI：盡管內(nèi)部混亂，但仍具有極強(qiáng)的交付能力。GPT-5系列（包括o1/o3推理模型）通過推理時(shí)計(jì)算節(jié)省了大量成本，并定義了新范式。

Meta：LLaMA系列似乎面臨內(nèi)部政治和激勵(lì)問題，未來是否會(huì)有開源的LLaMA5存疑，Meta的開源策略可能在動(dòng)搖。

第三，關(guān)于技術(shù)范式轉(zhuǎn)移：預(yù)訓(xùn)練的紅利正在消退，AI技術(shù)戰(zhàn)場轉(zhuǎn)向后訓(xùn)練和RLVR。

Nathan Lamber認(rèn)為，預(yù)訓(xùn)練已經(jīng)變得極其昂貴且邊際效益遞減，而現(xiàn)在的模型能力提升重點(diǎn)源自后訓(xùn)練階段的創(chuàng)新。2025年最大的技術(shù)突破是帶有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）。這徹底改變了模型的訓(xùn)練方式。

傳統(tǒng)的基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）更多是調(diào)整模型的語氣和風(fēng)格，屬于微調(diào)偏好，容易觸及天花板。RLVR則是讓模型在數(shù)學(xué)、代碼等有客觀答案的領(lǐng)域進(jìn)行大規(guī)模試錯(cuò)。通過“生成-評分”的迭代循環(huán)，模型能像人類學(xué)生一樣，在數(shù)萬次的練習(xí)中自我修正，從而解鎖預(yù)訓(xùn)練中已有的知識(shí)。

預(yù)訓(xùn)練是計(jì)算密集型（算力受限），而后訓(xùn)練階段的RLVR則更像是內(nèi)存密集型（內(nèi)存受限），更看重GPU的運(yùn)行時(shí)間而非單純的算力堆疊。

第四，關(guān)于AI編程：AI催生Vibe Coding，軟件工程正從寫代碼轉(zhuǎn)向系統(tǒng)設(shè)計(jì)。

AI對編程領(lǐng)域的重塑遠(yuǎn)超預(yù)期。Vibe Coding讓開發(fā)者不再糾結(jié)于具體的代碼細(xì)節(jié)，而是通過自然語言描述需求，快速生成并修改代碼Diffs。在這種模式下，人類的角色從代碼編寫者轉(zhuǎn)變?yōu)橄到y(tǒng)設(shè)計(jì)師和審查者。

Nathan Lambert預(yù)測，隨著AI能力的提升，軟件開發(fā)將變得高度工業(yè)化。雖然完全自動(dòng)化的超級(jí)智能編程因數(shù)據(jù)分布的參差不齊而難以在短期內(nèi)完美實(shí)現(xiàn)，但工具的門檻正在急劇降低。未來，一個(gè)不懂底層代碼的人，只要擁有清晰的系統(tǒng)設(shè)計(jì)思維，利用Claude Code或Cursor等工具，就能構(gòu)建出復(fù)雜的軟件系統(tǒng)。

第五，關(guān)于Scaling Laws：規(guī)模定律并沒有失效，但維度變得更加豐富了。

針對AI發(fā)展是否遇到瓶頸的質(zhì)疑，嘉賓們給出了否定的回答。Nathan Lambert認(rèn)為，Scaling Laws依然是技術(shù)發(fā)展的基石，但現(xiàn)在的擴(kuò)展已從單一的預(yù)訓(xùn)練規(guī)模分裂為三個(gè)維度：

傳統(tǒng)規(guī)模定律：繼續(xù)堆疊模型參數(shù)和數(shù)據(jù)集。

強(qiáng)化學(xué)習(xí)規(guī)模：可以進(jìn)行多長時(shí)間的試錯(cuò)學(xué)習(xí)。

推理側(cè)算力：讓模型在回答前思考更久，生成更多的思維鏈Token。

這種多維度的擴(kuò)展策略，使得科技巨頭們在2026年依然敢于投入數(shù)百億美元建設(shè)吉瓦級(jí)規(guī)模的算力集群。Sebastian Raschka形象地比喻：在一個(gè)擁有無限算力的理想世界里，你會(huì)把這三個(gè)維度的旋鈕全部拉滿；但在現(xiàn)實(shí)中，這變成了一場關(guān)于性價(jià)比的權(quán)衡游戲，大公司需要考慮是花1億美元訓(xùn)練更大的模型，還是花200萬美元做推理側(cè)擴(kuò)展。

第六，關(guān)于AGI的終局：單一通用模型的夢想已經(jīng)破滅，未來屬于多智能體與專業(yè)化模型。

對于未來，嘉賓們打破了一個(gè)全能模型統(tǒng)治世界的幻想。Nathan Lambert認(rèn)為，未來的AI生態(tài)不會(huì)是贏家通吃，而是一個(gè)分工明確的系統(tǒng)。

未來不會(huì)依賴一個(gè)單一的ChatGPT去處理所有事務(wù)，而是會(huì)有專門負(fù)責(zé)法律、醫(yī)療、編程的垂直模型。現(xiàn)實(shí)正在演變?yōu)槿藗冡槍Σ煌蝿?wù)調(diào)用不同的Agent。未來的數(shù)據(jù)中心里，將是許多專門的AGI在相互交流、管理和執(zhí)行任務(wù)。

以下為Lex Fridman播客訪談實(shí)錄：

1、中國 vs 美國：誰將贏得 AI 競賽？

Lex Fridman：以下是一場關(guān)于人工智能前沿動(dòng)態(tài)的對話，涵蓋了過去一年AI領(lǐng)域激動(dòng)人心的突破，以及我們對未來一年的展望。雖然內(nèi)容有時(shí)會(huì)涉及深度的專業(yè)技術(shù)，但我們力求讓非專業(yè)人士也能聽懂，同時(shí)絕不降低內(nèi)容的專業(yè)深度。我很榮幸能邀請到AI社區(qū)中我最喜歡的兩位嘉賓：Sebastian Raschka 和 Nathan Lambert。他們都是備受尊敬的機(jī)器學(xué)習(xí)研究員、工程師，同時(shí)也是優(yōu)秀的傳播者、教育者和作家。Sebastian著有兩本我強(qiáng)烈推薦給初學(xué)者和專家的書：第一本是《從零開始構(gòu)建大語言模型》（Build a Large Language Model From Scratch），另一本是《從零開始構(gòu)建推理模型》（Build a Reasoning Model From Scratch）。我堅(jiān)信在機(jī)器學(xué)習(xí)和計(jì)算機(jī)科學(xué)領(lǐng)域，學(xué)習(xí)并理解某項(xiàng)事物的最佳方式就是親手從零開始構(gòu)建它。Nathan是艾倫人工智能研究所的后訓(xùn)練負(fù)責(zé)人，也是關(guān)于人類反饋強(qiáng)化學(xué)習(xí)（RLHF）權(quán)威著作的作者。

Lex Fridman：讓我們從“DeepSeek時(shí)刻”這個(gè)視角切入。這大約發(fā)生在一年前的2025年1月，當(dāng)時(shí)中國公司DeepSeek發(fā)布了開放權(quán)重的DeepSeek R1。我認(rèn)為可以公平地說，它以更少的算力和更低廉的價(jià)格，達(dá)到了接近或持平SOTA（最先進(jìn)）的性能，驚艷了所有人。從那時(shí)起到今天，AI領(lǐng)域的競爭在研究和產(chǎn)品層面都變得異常激烈，這種趨勢一直在加速。讓我們今天探討所有這些話題。首先我想問一個(gè)尖銳的問題：在國際層面上誰處于領(lǐng)先地位？是中國的一系列公司，還是美國的公司？Sebastian，你認(rèn)為誰是贏家？

Sebastian Raschka：“贏”這個(gè)詞涵蓋面很廣。既然你提到了DeepSeek時(shí)刻，我確實(shí)認(rèn)為DeepSeek通過分享開源模型，絕對贏得了那些致力于開放權(quán)重模型（open weight models）的人們的心。我認(rèn)為“贏”包含多個(gè)時(shí)間尺度：當(dāng)下、明年，還有十年后。我唯一可以肯定的是，我不認(rèn)為到了2026年的今天，還會(huì)存在哪家公司能掌握其他公司無法觸及的獨(dú)占技術(shù)。主要原因是研究人員頻繁地更換工作和實(shí)驗(yàn)室，人才在不斷流動(dòng)。因此，我不認(rèn)為在技術(shù)獲取層面會(huì)有明顯的贏家。然而，差異化因素將體現(xiàn)在預(yù)算和硬件限制上。這些創(chuàng)意本身并非專利，實(shí)現(xiàn)這些創(chuàng)意的方式和資源才是關(guān)鍵。所以，目前我看不到一個(gè)“贏家通吃”的局面。

Lex Fridman：Nathan，你怎么看？

Nathan Lambert：你可以看到各個(gè)實(shí)驗(yàn)室在目標(biāo)投入上存在差異。為了標(biāo)記我們錄制的時(shí)間點(diǎn)，目前針對Anthropic的Claude Opus 4.5模型的炒作簡直瘋狂。我在過去幾周一直用它構(gòu)建東西，它的熱度甚至有點(diǎn)像個(gè)“梗”了。這很有趣，因?yàn)檫@種熱度非常自然。如果我們回到幾個(gè)月前，Google發(fā)布Gemini 3時(shí)的營銷手段和驚艷程度都非常高。但隨后11月底Claude Opus 4.5發(fā)布，熱度一路攀升，感覺大家對Gemini 3的討論反而沒那么多了，盡管它剛推出時(shí)被視為Google奪回AI架構(gòu)優(yōu)勢的時(shí)機(jī)。Gemini 3依然是一款出色的模型，我目前仍在使用它，只是其差異化程度較低。

我同意Sebastian的觀點(diǎn)，創(chuàng)意空間是非常流動(dòng)的。但在文化層面上，Anthropic以敢于在代碼能力（即Claude Code）上重注而聞名，目前效果很不錯(cuò)。所以我認(rèn)為，即使想法可以自由流動(dòng)，但很大程度上仍然受限于人力投入以及組織的文化氛圍。Anthropic目前看起來是表現(xiàn)得最不混亂的，這算是一個(gè)小小的優(yōu)勢。另一方面，在技術(shù)層面，中國有很多令人驚嘆的技術(shù)。除了DeepSeek之外，還有更多的實(shí)驗(yàn)室。DeepSeek在中國引發(fā)了一場運(yùn)動(dòng)，類似于ChatGPT在美國引發(fā)的浪潮，當(dāng)時(shí)所有產(chǎn)品都加上了聊天機(jī)器人。現(xiàn)在中國有大量科技公司正在發(fā)布實(shí)力強(qiáng)勁的前沿開源權(quán)重模型，以至于我會(huì)說DeepSeek在某種程度上正在失去其作為中國卓越開源模型制作者的桂冠，像智譜AI的GLM模型、MiniMax的模型以及月之暗面（Kimi），尤其是在過去幾個(gè)月里，表現(xiàn)得更加出色。

Lex Fridman：所以像DeepSeek這樣的一些模型因?yàn)殚_源權(quán)重而受到了大眾的喜愛。你認(rèn)為中國公司發(fā)布開放權(quán)重模型的策略會(huì)堅(jiān)持多久？

Nathan Lambert：我認(rèn)為會(huì)持續(xù)幾年。就像在美國一樣，目前還沒有一個(gè)清晰的商業(yè)模式。我寫關(guān)于開放模型的文章有一段時(shí)間了，中國公司也意識(shí)到了這一點(diǎn)。他們很聰明，也看到了同樣的限制：許多美國頂尖科技公司出于安全擔(dān)憂，不會(huì)購買中國公司的API訂閱服務(wù)。這在技術(shù)領(lǐng)域是長期存在的習(xí)慣。因此，這些公司的從業(yè)者將開放權(quán)重模型視為一種能力，以此來通過這種方式參與到美國巨大且不斷增長的AI支出市場中。他們對此有著非常務(wù)實(shí)的認(rèn)識(shí)，而且這對他們很有效。但是開發(fā)這些模型非常昂貴，所以我預(yù)計(jì)在某個(gè)時(shí)間點(diǎn)會(huì)出現(xiàn)整合，但我不認(rèn)為這會(huì)發(fā)生在2026年。2026年開放模型構(gòu)建者的數(shù)量將比2025年更多，而且其中許多著名的構(gòu)建者將來自中國。

Lex Fridman：Sebastian，你剛才想補(bǔ)充什么嗎？

Sebastian Raschka：是的。你提到DeepSeek失去領(lǐng)先地位，我在某種程度上認(rèn)同，但也必須考慮到，我認(rèn)為他們?nèi)匀惶幱谖⑷醯念I(lǐng)先地位。其他模型的情況并非是DeepSeek變差了，而是其他模型正在借鑒DeepSeek的思路。例如你提到的Kimi，采用了相同的架構(gòu)進(jìn)行訓(xùn)練。我們再次看到了這種“跳躍式領(lǐng)先”的情況：一個(gè)人發(fā)布了某個(gè)東西，另一個(gè)緊隨其后。最新的模型往往就是最好的模型。我認(rèn)為這又回到了那個(gè)事實(shí)，不會(huì)有一個(gè)絕對的贏家。

Nathan Lambert：是的。我們還會(huì)看到中國公司有著不同的激勵(lì)機(jī)制。比如DeepSeek非常神秘，而其他一些初創(chuàng)公司則不同，像MiniMax和零一萬物（01.AI）這類公司已經(jīng)提交了IPO文件，正努力爭取西方市場的關(guān)注，并在那里進(jìn)行了大量推廣。DeepSeek是由幻方量化（Highflyer Capital）這家對沖基金創(chuàng)立的，我們并不確切知道他們將這些模型用于什么，或者他們是否在意商業(yè)化。

Lex Fridman：他們在溝通方面很神秘，但在描述模型工作原理的技術(shù)報(bào)告方面并不保守，在這方面他們?nèi)匀槐３珠_放。我們還應(yīng)該談?wù)剬laude Opus 4.5的炒作。這其中包含了一些層面，即它作為X（原Twitter）信息繭房里的寵兒的熱度，與實(shí)際使用該模型的人數(shù)之間存在差距。我認(rèn)為可以公平地說，ChatGPT和Gemini專注于那些僅僅想使用工具解決日常問題的廣泛用戶群體，那個(gè)群體非常龐大。所以關(guān)于編程能力的炒作可能并不能完全代表實(shí)際的大眾使用情況。

Sebastian Raschka：很多使用模式也是出于知名度和品牌，同時(shí)也形成了一種肌肉記憶。ChatGPT已經(jīng)存在很長時(shí)間了，人們習(xí)慣了使用它，這像一種飛輪效應(yīng)。還有一個(gè)有趣的觀點(diǎn)是LLM的定制化。例如ChatGPT有記憶功能，你可能有一個(gè)訂閱用于處理個(gè)人事務(wù)，但你不一定想在工作中使用同一個(gè)賬號(hào)。因?yàn)樗饺松詈凸ぷ髦g存在界限。我認(rèn)為這也是一個(gè)有趣的切入點(diǎn)，你可能會(huì)擁有多個(gè)訂閱：一個(gè)只用于編寫純凈的代碼，不包含任何個(gè)人照片或愛好；另一個(gè)則是你個(gè)人的東西。我認(rèn)為未來會(huì)是多個(gè)并存的。

2、ChatGPT vs Claude vs Gemini vs Grok：誰正在領(lǐng)先？

Lex Fridman：你認(rèn)為哪個(gè)模型贏得了2025年？又有哪些模型將贏得2026年？

Nathan Lambert：在消費(fèi)級(jí)聊天機(jī)器人的語境下，問題在于你是否愿意押注Gemini而非ChatGPT。直覺告訴我，這似乎是一個(gè)有點(diǎn)冒險(xiǎn)的賭注，因?yàn)镺penAI一直是該領(lǐng)域的領(lǐng)先者，這在科技行業(yè)會(huì)帶來諸多優(yōu)勢。回顧2025年，勢頭似乎在Gemini這邊，但我認(rèn)為他們當(dāng)時(shí)的起點(diǎn)太低了。愿Bard以及那些早期的嘗試安息吧。他們能克服組織內(nèi)部的混亂并實(shí)現(xiàn)這一目標(biāo)，確實(shí)值得稱贊。但與此同時(shí)，也很難去賭OpenAI會(huì)輸。因?yàn)樗麄冸m然表面上顯得混亂，但非常擅長讓項(xiàng)目落地。就我個(gè)人而言，我對GPT-5的評價(jià)褒貶不一，但它肯定通過高端線路功能的路由機(jī)制為他們節(jié)省了大量資金，即大多數(shù)用戶不再像以前那樣消耗昂貴的GPU資源了。

Lex Fridman：你對2026年怎么看？誰會(huì)勝出？

Nathan Lambert：盡管有風(fēng)險(xiǎn)，我還是要說，我認(rèn)為Gemini將繼續(xù)追趕ChatGPT的進(jìn)展。當(dāng)兩者都以如此極端的規(guī)模運(yùn)行時(shí)，Google的規(guī)模優(yōu)勢在于它能夠更好地將研究與產(chǎn)品分開。而OpenAI在運(yùn)營上常被傳非常混亂，一直在追求高影響力的事物，這是典型的創(chuàng)業(yè)公司文化。在軟件和企業(yè)端，我認(rèn)為Anthropic將會(huì)延續(xù)他們的成功。Google Cloud擁有豐富的產(chǎn)品線，Gemini這個(gè)品牌對他們的建設(shè)至關(guān)重要。Google Cloud將繼續(xù)保持良好的發(fā)展勢頭，但在生態(tài)系統(tǒng)中解釋清楚這一點(diǎn)會(huì)更加復(fù)雜，因?yàn)槟鞘桥cAzure和AWS的競爭。

Lex Fridman：所以在基礎(chǔ)設(shè)施方面，你認(rèn)為TPU帶來了優(yōu)勢？

Nathan Lambert：很大程度上是因?yàn)镹VIDIA芯片的利潤率高得離譜，而Google可以從上到下開發(fā)一切來適配他們的技術(shù)棧，不需要支付這部分利潤空間。而且他們在建設(shè)數(shù)據(jù)中心方面擁有先發(fā)優(yōu)勢。因此，在這些既需要漫長前置時(shí)間，又有著極高利潤門檻的領(lǐng)域，Google擁有一種歷史性的優(yōu)勢。如果將出現(xiàn)新的范式，它最有可能來自O(shè)penAI，因?yàn)樗麄兊难芯坎块T一次又一次地證明了這一點(diǎn)，比如Deep Research、Sora、o1推理模型。這種落地全新研究理念或產(chǎn)品的能力是OpenAI的核心特質(zhì)。很難賭他們會(huì)輸，但我認(rèn)為今年的重點(diǎn)將很大程度上圍繞規(guī)模化（Scaling）和優(yōu)化模型中那些“垂手可得的果實(shí)”。

Lex Fridman：顯然，在智能與速度之間存在權(quán)衡。這就是ChatGPT-5在幕后試圖解決的問題。廣大公眾到底是想要智能，還是想要速度？

Sebastian Raschka：我覺得這實(shí)際上是一個(gè)很棒的多樣化選擇。就我個(gè)人的使用習(xí)慣而言，大多數(shù)時(shí)候當(dāng)我查閱某些內(nèi)容時(shí)，我會(huì)用ChatGPT問一個(gè)簡單的問題，快速獲取信息。對于大多數(shù)日常任務(wù)，我會(huì)使用快速模型。現(xiàn)在自動(dòng)模式已經(jīng)做得相當(dāng)不錯(cuò)了。但有時(shí)我也想要Pro模式。例如當(dāng)我寫好東西后，我會(huì)把它放入ChatGPT并說：“做一個(gè)非常徹底的檢查。我的所有引用、想法、格式都正確嗎？”這種情況下我不需要立即得到答案，可以讓它運(yùn)行著，回頭再看。這就是擁有這種選項(xiàng)的重要性。如果每個(gè)查詢都要讓我等30分鐘甚至10分鐘，我一定會(huì)瘋掉的。

Nathan Lambert：那就是我。我坐在這兒簡直要瘋了，你居然還在用路由模式和非思考模型（non-thinking models）。我心想：“你是怎么受得了那種東西的？”我已經(jīng)重度使用ChatGPT很長時(shí)間了，從來沒碰過非思考模型。我覺得它的語氣和出錯(cuò)的概率似乎更高。這可以追溯到OpenAI發(fā)布o(jì)3的時(shí)候，那是第一個(gè)能夠進(jìn)行深度搜索、整合多個(gè)來源的模型。我已經(jīng)習(xí)慣了那樣。所以在處理工作信息查詢時(shí)，我只會(huì)使用GPT-5.2 Thinking或Pro版本。我經(jīng)常會(huì)同時(shí)進(jìn)行五個(gè)Pro查詢，尋找特定的論文或代碼參考。

Sebastian Raschka：我有一個(gè)有趣的例子，當(dāng)時(shí)我只需要盡快得到答案。在這次旅行之前的播客中，我家里運(yùn)行著一個(gè)本地GPU，我想運(yùn)行一個(gè)長時(shí)間的RL（強(qiáng)化學(xué)習(xí)）實(shí)驗(yàn)。通常我會(huì)拔掉電源，但我如果不小心拔掉了GPU電源，當(dāng)時(shí)我妻子已經(jīng)在車?yán)锏戎耍倚南耄骸班蓿懔恕！蔽蚁胍宰羁斓乃俣葘懗鲆粋€(gè)Bash腳本，用來運(yùn)行不同的實(shí)驗(yàn)和評估。我知道怎么用Bash終端，但在那一刻我只需要大概10秒鐘把命令給我。所以我用了不帶思考過程的最快模型。它給了我Bash命令，我需要將不同的腳本串聯(lián)在一起，這就解決了問題。

Nathan Lambert：我用Gemini處理這類需求。我會(huì)用思考模型處理所有信息類事務(wù)，然后用Gemini處理追求速度的任務(wù)，或者那些通過Google搜索能更好解釋的內(nèi)容。Gemini應(yīng)用也變得好多了。對于代碼和任何形式的哲學(xué)討論，我會(huì)使用Claude Opus 4.5，而且總是開啟擴(kuò)展思考（extended thinking）。擴(kuò)展思考和推理時(shí)間擴(kuò)展（inference time scaling）只是讓模型變得稍微更聰明一點(diǎn)的方式。然后有時(shí)我會(huì)使用Grok來獲取實(shí)時(shí)信息，或者在AI Twitter上尋找內(nèi)容。Grok-4 Super Heavy發(fā)布時(shí)表現(xiàn)非常出色，但我后來因?yàn)榱?xí)慣用ChatGPT App就慢慢把它忘了。

Lex Fridman：是的，我確實(shí)也在用Grok-4 Heavy用于調(diào)試。對于那些其他模型無法解決的硬核調(diào)試問題，我發(fā)現(xiàn)它是最擅長的。這很有趣，因?yàn)槟阏fChatGPT是最好的界面，對我來說Gemini是更好的界面。我想是因?yàn)槲覑凵狭怂鼈冏畛錾摹按蠛漆槨保╪eedle in the haystack）能力。如果我放入包含大量上下文的內(nèi)容并尋找非常具體的信息，Gemini一直表現(xiàn)最好。這就像有一種閾值效應(yīng)：你會(huì)堅(jiān)持使用一個(gè)模型，直到它做了一件蠢事，然后你就會(huì)換個(gè)工具。

Sebastian Raschka：沒錯(cuò)，你會(huì)一直使用它直到它出故障。就像我們使用瀏覽器一樣，你不會(huì)在不同瀏覽器中輸入同一個(gè)網(wǎng)址對比，除非網(wǎng)頁無法渲染。關(guān)于長上下文，我之前也是為了這個(gè)功能使用Gemini，但GPT-4o發(fā)布時(shí)展示了驚人的長上下文評分提升。現(xiàn)在我更看好GPT-5.2的長上下文。

3、最適合編程的AI

Lex Fridman：我們還沒怎么提到編程。那是另一個(gè)很多人非常關(guān)注的使用場景。所以我基本上是一半一半地在使用Cursor和Claude Code。你們呢？

Sebastian Raschka：我用的是VSCode的Codex插件。它非常方便，就像一個(gè)可以訪問你代碼庫的聊天界面。我知道Claude Code似乎有點(diǎn)不同，它更具智能體（agentic）特征，能為你完成整個(gè)項(xiàng)目。我目前還沒到能完全放心使用它的程度，也許是因?yàn)槲矣锌刂朴蚁Ｍ芸吹骄唧w發(fā)生了什么。Cursor對我來說目前處于一個(gè)恰到好處的平衡點(diǎn)，它在幫助我，但沒有完全取代我的工作。

Lex Fridman：我使用Claude寫代碼的原因之一是為了培養(yǎng)用英語編程的能力。這種體驗(yàn)從根本上是不同的。你不再是微觀管理代碼生成的細(xì)節(jié)，而是查看diff。如果你使用Cursor這種IDE，你可以看到修改和變更代碼時(shí)的差異。去觀察、閱讀并深入理解代碼，而不是僅僅停留在設(shè)計(jì)層面進(jìn)行宏觀引導(dǎo)，這是思考編程過程的另一種方式。Claude Code似乎更好地利用了Claude 3.5 Opus。

Nathan Lambert：這對人們來說是一個(gè)很好的并排對比。你可以同時(shí)打開Claude Code、Cursor和VSCode，選擇相同的模型并提出問題。Claude在代碼能力那個(gè)領(lǐng)域要出色得多。

Lex Fridman：好的，我們應(yīng)該說明你們兩位在多個(gè)領(lǐng)域都是名副其實(shí)的專家，包括研究員、程序員、教育者以及作家。Nathan，希望你能很快出一本關(guān)于RLHF的書。

Nathan Lambert：已經(jīng)可以預(yù)訂了，而且有完整的數(shù)字預(yù)印本。我只是在為實(shí)體書做美化和更好的排版。

Lex Fridman：Sebastian Raschka是一位機(jī)器學(xué)習(xí)研究員和作家，出版了多本具有影響力的書籍。其中有兩本我想特別提一下：一本是我強(qiáng)烈推薦的《從零開始構(gòu)建大語言模型》，以及新書《從零開始構(gòu)建推理模型》。我感到非常興奮，因?yàn)閺念^開始構(gòu)建東西是學(xué)習(xí)最有效的方式之一。

Sebastian Raschka：說實(shí)話，從頭開始構(gòu)建一個(gè)LLM非常有趣。這也是一個(gè)學(xué)習(xí)很多東西的過程。正如你所說，這可能是了解事物真實(shí)運(yùn)作機(jī)制的最佳方式。你可以看圖表，但圖表可能會(huì)有錯(cuò)誤；你可以看概念，但可能會(huì)誤解。但如果你看到代碼并且能運(yùn)行，你就知道它是正確的，它是精確的。這就是編程背后的魅力，它不會(huì)撒謊。即使是數(shù)學(xué)，我認(rèn)為書里也可能存在你永遠(yuǎn)察覺不到的錯(cuò)誤。因?yàn)槟阍谧x書時(shí)并沒有實(shí)際運(yùn)行那些數(shù)學(xué)計(jì)算，所以無法去驗(yàn)證它。而代碼的優(yōu)勢就在于，你可以動(dòng)手驗(yàn)證。

Lex Fridman：沒錯(cuò)，我同意你關(guān)于《LLM From Scratch》這本書的看法。屏蔽掉互聯(lián)網(wǎng)等一切干擾，全身心投入到書本中，這種感覺確實(shí)很好。但是，我也讀過一些書，比如歷史書。某種程度上，讀書讓你不再感到孤獨(dú)，這真的更有趣。不過在編程方面，我認(rèn)為與LLM一起編程確實(shí)更有意思。其實(shí)我認(rèn)為與LLM一起閱讀也更有趣。你說得對。不過這種干擾應(yīng)該被降到最低。也就是說，你是利用LLM來從根本上豐富體驗(yàn)，通過它增加更多的上下文。也許吧。我只是覺得，在小規(guī)模應(yīng)用上，LLM帶給我的“頓悟時(shí)刻”頻率真的很高。

Sebastian Raschka：確實(shí)如此。我也想修正一下我的觀點(diǎn)，我并不是建議完全不使用LLM。我建議的是分階段進(jìn)行：先進(jìn)行一輪離線、專注模式的學(xué)習(xí)，這時(shí)候雖然我會(huì)記筆記，但我會(huì)努力克制住立即查閱資料的沖動(dòng)；之后我會(huì)進(jìn)行第二輪。對我來說，以這種方式組織學(xué)習(xí)更有效。有時(shí)候問題在后續(xù)章節(jié)中自然會(huì)得到解答，而有時(shí)候，讓問題沉淀一下、多思考一會(huì)兒也會(huì)有所幫助。當(dāng)然，每個(gè)人的偏好不同。我強(qiáng)烈建議在閱讀書籍時(shí)使用LLM，只是對我而言，它不是首選步驟，更像是第二輪的復(fù)習(xí)工具。

Lex Fridman：作為一個(gè)建議，我的做法恰恰相反。我喜歡在開始時(shí)就使用LLM。我想先理清整個(gè)背景，比如了解我正要踏入的是一個(gè)什么樣的世界。但我會(huì)盡量避免從LLM的界面跳轉(zhuǎn)到Twitter或博客之類的網(wǎng)頁，因?yàn)槟菢幽憔驼娴臅?huì)陷入無底洞。你會(huì)讀到某人的觀點(diǎn)，或者看到關(guān)于某個(gè)特定話題的激烈爭論，突然間你就脫離了學(xué)習(xí)狀態(tài)，進(jìn)入了互聯(lián)網(wǎng)和Reddit的領(lǐng)域。但如果你純粹是讓LLM為你提供“這件事為什么重要”的背景，以及大局觀是什么，這會(huì)非常有幫助。雖然有些書本身也很擅長搭建背景，但并不總是如此。

Nathan Lambert：這就是為什么我喜歡ChatGPT的桌面應(yīng)用，因?yàn)樗袮I整合到了你的電腦工作中，你可以全身心投入其中，而不只是把它當(dāng)作雜亂無章的瀏覽器標(biāo)簽頁中的一個(gè)。我認(rèn)為Claude Code以及類似的特定工具在營造這種愉悅感方面做得很好。作為一種產(chǎn)品設(shè)計(jì)，它非常吸引人，充當(dāng)了一個(gè)讓你的AI走向世界的界面。Claude與OpenAI的Codex之間有一種難以言表的區(qū)別：Claude給人一種溫暖且引人入勝的感覺；而Codex雖然通常也同樣出色，但總讓人覺得在細(xì)節(jié)處理上稍微有點(diǎn)粗糙。相比之下，Claude Code讓構(gòu)建東西變得很有趣，尤其是從零開始的時(shí)候，你完全不用操心，因?yàn)槟阆嘈潘欢茏龀鰜怼?/p>

這對搭建網(wǎng)站和類似的數(shù)據(jù)刷新工具非常有用。我用它來進(jìn)行數(shù)據(jù)分析。比如我的博客需要爬取Hugging Face的數(shù)據(jù)，以便持續(xù)保存每個(gè)數(shù)據(jù)集和模型的下載量。現(xiàn)在我們有了這些數(shù)據(jù)，Claude就像是說：“沒問題，我已經(jīng)利用這些數(shù)據(jù)做好了分析。”我當(dāng)時(shí)心想，這原本得花掉我好幾天的時(shí)間。我有足夠的局勢感知能力去判斷它生成的趨勢是合理的，并且可以去核查。這確實(shí)是一種美妙的交互界面，你擁有了一個(gè)中間層，而不必親自去處理那些維護(hù)Web項(xiàng)目時(shí)必須面對的底層繁瑣工作。

4、開源 vs 閉源 LLMs

Lex Fridman：好的。剛才我們討論了一系列關(guān)于閉源模型的話題。讓我們聊聊開源模型。跟我說說開源LLM的格局。哪些模型比較有趣？哪些讓你印象深刻，為什么？我們已經(jīng)提到了DeepSeek。

Nathan Lambert：你想看看我們憑記憶能說出多少個(gè)嗎？

Lex Fridman：來吧，不用看筆記。

Nathan Lambert：DeepSeek、Kimi、MiniMax、智譜AI（Zhipu AI）、面壁智能（ModelBest）。這就已經(jīng)是不少中國模型了。然后我們把Mistral AI、Gemma也加進(jìn)來。還有GPT-OSS，也就是ChatGPT相關(guān)的開源模型。實(shí)際上，NVIDIA也有一個(gè)非常酷的模型叫Nemotron 3。特別是在年底這段時(shí)間，涌現(xiàn)了很多東西。Qwen（通義千問）也是一個(gè)顯而易見的名字。你至少可以列出10個(gè)中國的和10個(gè)西方的模型。

OpenAI實(shí)際上也發(fā)布了他們的第一個(gè)開源模型——隔了很久，自GPT-2以來。這就是我當(dāng)時(shí)寫關(guān)于“OpenAI發(fā)布開源模型”的文章時(shí)所指的。當(dāng)時(shí)人們都說“別忘了GPT-2”，我覺得這很有趣，因?yàn)槟峭耆遣煌臅r(shí)代了。但GPT-OSS實(shí)際上是一個(gè)非常強(qiáng)大的模型，并且能做到其他模型做得不太好的一些事情。

出于私心，我也想推介一些西方公司。在美國和歐洲都有完全開放的模型。我在艾倫人工智能研究所工作，我們一直在構(gòu)建OLMo，并發(fā)布了數(shù)據(jù)、代碼以及所有相關(guān)內(nèi)容。現(xiàn)在我們面臨著真正的競爭，人們正致力于發(fā)布所有內(nèi)容以便他人訓(xùn)練模型。例如基礎(chǔ)模型研究所（Institute for Foundation Models）推出的LM360，他們發(fā)布了K2模型。Apertus是一個(gè)瑞士的研究聯(lián)盟。Hugging Face推出了SmallLM，非常受歡迎。此外，NVIDIA的Nemotron也已經(jīng)開始發(fā)布數(shù)據(jù)。還有斯坦福大學(xué)的Marin社區(qū)項(xiàng)目，它建立了一套流程，讓人們可以通過提交GitHub issue來實(shí)現(xiàn)新想法，并使其在穩(wěn)定的語言建模棧中運(yùn)行。所以在2024年，這個(gè)領(lǐng)域的名單要比以前豐富得多。我認(rèn)為這對于更多人參與進(jìn)來并理解語言模型是一件好事。

目前還沒有一家中國公司有類似的對應(yīng)機(jī)構(gòu)。我要指出的是，中國的開源語言模型往往規(guī)模大得多，這使得它們作為混合專家模型（MoE）具有更高的峰值性能。而許多我們非常喜歡的西方模型，無論是Gemma還是Nemotron，往往是來自美國的較小模型。不過這種情況正開始改變。Mistral Large 3在12月發(fā)布了，它是一個(gè)巨大的MoE模型，架構(gòu)與DeepSeek非常相似。還有一家名為Reka的初創(chuàng)公司。Nemotron和NVIDIA已經(jīng)預(yù)告了參數(shù)量遠(yuǎn)超1000億甚至達(dá)到4000億級(jí)別的MoE模型，將在2026年第一季度左右推出。所以我認(rèn)為，在“人們使用中國還是美國的開源模型”這一問題上的平衡狀態(tài)，今年將會(huì)發(fā)生改變。這是我個(gè)人非常期待看到的。

Lex Fridman：首先，非常佩服你能叫出這么多名字。LLaMA是你命名的嗎？

Nathan Lambert：不是我。

Lex Fridman：好的。你能提到有哪些表現(xiàn)突出的有趣模型嗎？你剛才提到了Qwen3顯然是一個(gè)佼佼者。

Sebastian Raschka：這一年幾乎是以DeepSeek的兩個(gè)動(dòng)作作為開端和結(jié)尾的：DeepSeek V3和R1。DeepSeek V3是在2024年12月發(fā)布的，R1緊隨其后。我喜歡它們的地方在于，它們總是在架構(gòu)上有一些有趣的微調(diào)，這是其他公司所不具備的。

除此之外，如果你想選擇熟悉但性能非常出色的模型，Qwen3是個(gè)好選擇。另外我還提到了GPT-OSS。我認(rèn)為GPT-OSS的有趣之處在于，它算是第一個(gè)在訓(xùn)練時(shí)就充分考慮到“工具調(diào)用（Tool Use）”的公開權(quán)重模型。我確實(shí)認(rèn)為這在某種程度上是一種范式轉(zhuǎn)移，之前的生態(tài)系統(tǒng)尚未完全準(zhǔn)備好。

所謂“工具調(diào)用”，是指LLM能夠進(jìn)行網(wǎng)頁搜索，或者調(diào)用Python解釋器。我認(rèn)為這是一個(gè)巨大的突破。因?yàn)殛P(guān)于LLM最常見的抱怨之一就是“幻覺（Hallucinations）”。在我看來，解決幻覺問題的最佳方法之一，就是不要試圖讓模型總是去記憶信息或憑空捏造。對于數(shù)學(xué)問題，為什么不直接讓它使用計(jì)算器應(yīng)用或Python呢？如果我問LLM“誰贏得了1998年的世界杯？”，與其讓它去死記硬背，不如讓它完全通過搜索來回答。它會(huì)進(jìn)行工具調(diào)用來訪問Google，也許會(huì)找到FIFA官網(wǎng)，然后告訴你“哦，是法國隊(duì)”。它能可靠地為你獲取信息。

所以我認(rèn)為這是一個(gè)巨大的突破，目前尚未被開源、開放權(quán)重生態(tài)系統(tǒng)充分利用。很多人不使用工具調(diào)用模式，首先是因?yàn)樾湃螁栴}。你不想在自己的電腦上運(yùn)行一個(gè)擁有訪問工具權(quán)限的模型，因?yàn)樗赡軙?huì)抹掉你的硬盤。所以你可能需要將其容器化。但我確實(shí)認(rèn)為，擁有這種能力是未來幾年非常重要的一步。

Lex Fridman：有幾件事簡要說一下。首先，謝謝你定義了你所說的“工具調(diào)用”的具體含義。在討論這些概念時(shí)，這樣做非常好。即使是像MoE這樣已經(jīng)非常成熟的概念，你也得說明那代表“混合專家模型（Mixture of Experts）”，建立起直覺，讓人們理解那意味著什么，它是如何被實(shí)際應(yīng)用的，以及有哪些不同的變體。那么，開放模型如此爆發(fā)式增長意味著什么？你的直覺是怎么樣的？

Nathan Lambert：如果你發(fā)布一個(gè)開放模型，首要目的就是希望人們?nèi)ナ褂盟＞o隨其后的是透明度和信任等因素。當(dāng)你觀察中國時(shí)，最大的原因在于他們希望全球用戶都能使用這些模型。如果你觀察美國以外的地區(qū)，很多人不會(huì)為軟件付費(fèi)，但他們可能擁有計(jì)算資源，可以把模型部署在本地運(yùn)行。此外，還有一些數(shù)據(jù)是你不想發(fā)送到云端的。因此，首要任務(wù)是讓人們開始使用AI，或者使用你的AI，因?yàn)槿绻麤]有模型訪問權(quán)限，他們無法做到這一點(diǎn)。

Lex Fridman：我想我們應(yīng)該明確說明，我們一直在討論這些中國模型和權(quán)重開放模型，通常情況下，它們的運(yùn)行方式是在本地運(yùn)行。所以這并不是說你把數(shù)據(jù)發(fā)送到了中國，或者發(fā)送給了硅谷的任何開發(fā)者。

Nathan Lambert：沒錯(cuò)。許多美國初創(chuàng)公司通過托管這些來自中國的模型并進(jìn)行銷售來賺錢，這被稱為賣Token，意味著有人會(huì)調(diào)用該模型來完成工作。

我認(rèn)為另一個(gè)原因是，像OpenAI這樣的美國公司非常缺乏GPU。他們已經(jīng)達(dá)到了GPU的極限。每當(dāng)他們發(fā)布新產(chǎn)品時(shí)，總是在說GPU資源非常緊張。在GPT-4o的發(fā)布環(huán)節(jié)中，Sam Altman曾暗示過，發(fā)布這個(gè)是因?yàn)榭梢岳糜脩舻腉PU，他們不必動(dòng)用自己的資源，卻仍然可以獲得分發(fā)渠道。這對他們來說沒有任何成本，是一個(gè)非常現(xiàn)實(shí)的考量。

Sebastian Raschka：對于用戶來說，有些用戶只是像使用ChatGPT那樣在本地使用模型。但對于公司而言，擁有這些模型是一個(gè)巨大的突破，因?yàn)槟憧梢远ㄖ扑鼈儯梢酝ㄟ^后期訓(xùn)練添加更多數(shù)據(jù)。比如將它們專門化為法律、醫(yī)療模型等。

此外，中國權(quán)重開放模型的吸引力在于，它們的許可協(xié)議往往更加友好，通常是無限制的開源許可（如Apache 2.0）。而如果我們使用像LLaMA或Gemma這樣的模型，其實(shí)是附帶條件的。比如在用戶數(shù)量方面有一個(gè)上限，如果你超過了幾百萬用戶，就必須向Meta之類的公司報(bào)告財(cái)務(wù)狀況。雖然它是免費(fèi)模型，但確實(shí)存在束縛。人們更喜歡沒有束縛的東西。除了性能之外，這也是為什么來自中國的開源權(quán)重模型如此受歡迎的原因之一：你可以直接使用它們，沒有任何陷阱。

Nathan Lambert：在這方面，生態(tài)系統(tǒng)已經(jīng)變得更好了。當(dāng)你打開Perplexity并看到它顯示“在美國托管的Kimi-K2 Thinking”時(shí)，這真的很有趣。這正是我們所討論的現(xiàn)象。Kimi-K2是一款非常受歡迎的模型，人們評價(jià)它在創(chuàng)意寫作以及處理軟件方面表現(xiàn)出色。這些就是人們在不同模型中發(fā)現(xiàn)并喜愛的細(xì)微特質(zhì)。

Lex Fridman：那么，在這些模型探索過的想法中，有哪些是你覺得特別有趣、值得聊聊的嗎？也許我們可以按時(shí)間順序來談。

Sebastian Raschka：首先當(dāng)然是DeepSeek。如果我們聚焦2025年，R1其實(shí)是基于前一年（2024年12月）發(fā)布的DeepSeek V3。

在架構(gòu)方面，令人著迷的是，你仍然可以像我在《從零開始構(gòu)建LLM》項(xiàng)目中做的那樣，從GPT-2開始，通過添加組件將其轉(zhuǎn)化為另一個(gè)模型。它們之間有著非常緊密的血脈聯(lián)系。DeepSeek的獨(dú)特之處在于混合專家模型（MoE）——當(dāng)然，并不是他們發(fā)明了MoE，我們稍后可以詳細(xì)聊聊MoE具體意味著什么。除了MoE，他們還采用了多頭潛在注意力（Multi-head Latent Attention, MLA），這是對注意力機(jī)制的一種改進(jìn)。

我想說，在2025年，這些權(quán)重開放模型之間的主要區(qū)別因素在于針對推理或KV緩存（KV cache）大小所做的各種微調(diào)。其目的主要是為了讓長上下文的成本更低，通過縮小KV緩存的體積來實(shí)現(xiàn)。

我們可以做哪些調(diào)整？大部分集中在注意力機(jī)制上。DeepSeek使用了多頭潛在注意力。還有一種“分組查詢注意力（Group Query Attention, GQA）”，目前仍然非常流行，這也不是新發(fā)明的。OLMo-3使用了滑動(dòng)窗口注意力（Sliding Window Attention）。這些不同的微調(diào)使得模型各不相同。但我曾把它們?nèi)糠旁谝黄恼吕镞M(jìn)行過對比，發(fā)現(xiàn)它們驚人地相似。只是在中間層有多少次Transformer塊的重復(fù)等數(shù)字上有所不同。這就像是微調(diào)了一些小旋鈕，但無論如何它都能奏效。你可以移動(dòng)歸一化層來獲得性能提升。OLMo在消融實(shí)驗(yàn)（Ablation Studies）中展示了移動(dòng)組件對模型的具體影響。

實(shí)現(xiàn)Transformer并使其保持運(yùn)行的方法有很多。目前盛行的大思路包括MoE、MLA、滑動(dòng)窗口注意力以及GQA。到了年底，研究重點(diǎn)轉(zhuǎn)向了使注意力機(jī)制能夠隨推理Token數(shù)量線性擴(kuò)展。例如Qwen2.5-1M增加了一個(gè)門控Delta網(wǎng)絡(luò)（Gated Delta Net），有點(diǎn)像受到了狀態(tài)空間模型（SSM）的啟發(fā)，本質(zhì)上是用一種更廉價(jià)的操作取代了昂貴的注意力機(jī)制。

5、Transformers：2019 年以來 LLMs 的演進(jìn)

Lex Fridman：也許退一步來談?wù)凾ransformer架構(gòu)的總體情況會(huì)很有幫助。

Sebastian Raschka：好的，也許我們應(yīng)該從GPT-2架構(gòu)開始。Transformer源自《Attention Is All You Need》這篇論文，原始架構(gòu)包含編碼器（Encoder）和解碼器（Decoder）。而GPT只專注于解碼器部分。它本質(zhì)上仍然是一個(gè)神經(jīng)網(wǎng)絡(luò)，內(nèi)部包含注意力機(jī)制。你一次預(yù)測一個(gè)Token。將其通過一個(gè)嵌入層（Embedding Layer），接著是Transformer塊（包含注意力模塊和全連接層），中間還有一些歸一化層。

從GPT-2發(fā)展到現(xiàn)在，出現(xiàn)了例如混合專家（MoE）層。MoE并不是新發(fā)明的，其核心思想是在不增加每次前向傳播算力消耗的情況下，使模型參數(shù)總量變大。

在Transformer內(nèi)部有一個(gè)全連接層（可以想象成微型多層感知器MLP），它非常昂貴，因?yàn)樗侨B接的。如果你有一千個(gè)輸入、一千個(gè)輸出，那就是一百萬個(gè)連接。MoE的想法是將這個(gè)全連接層擴(kuò)展為多個(gè)前饋網(wǎng)絡(luò)。假設(shè)你有256個(gè)這樣的網(wǎng)絡(luò)（專家），但你不會(huì)同時(shí)使用所有的。你有一個(gè)路由器（Router），它會(huì)根據(jù)輸入Token決定：“好的，使用這個(gè)專家網(wǎng)絡(luò)會(huì)很有用。”

這就叫混合專家。根據(jù)輸入內(nèi)容，比如是數(shù)學(xué)密集型任務(wù)，還是英譯西任務(wù)，它可能會(huì)咨詢不同的專家。當(dāng)然，這種分工并不像“數(shù)學(xué)專家”或“語言專家”那樣界限分明，它是一個(gè)更模糊的概念。但其核心思想是你把更多知識(shí)封裝進(jìn)了網(wǎng)絡(luò)，但并非所有知識(shí)都會(huì)被時(shí)刻調(diào)用，因?yàn)槟菢犹速M(fèi)了。在Token生成過程中，路由器會(huì)有選擇性地分配任務(wù)。這增加了復(fù)雜性和訓(xùn)練難度，有很多環(huán)節(jié)可能出錯(cuò)。這可能也是為什么OLMo-3仍然使用稠密（Dense）模型的原因。稠密是指只有一個(gè)全連接模塊，并且始終被利用；而MoE被稱為稀疏（Sparse），因?yàn)橹挥胁糠謱＜沂腔钴S的。

Lex Fridman：從根本上說，從GPT-2到現(xiàn)在，有多少新想法被實(shí)現(xiàn)了？比如，這些架構(gòu)之間到底有多大區(qū)別？

Sebastian Raschka：想象一下GPT-OSS中的分組查詢注意力（GQA），它只是從多頭注意力（MHA）微調(diào)而來的。或者他們把LayerNorm換成了RMSNorm，但這只是一種不同的歸一化方式。非線性激活函數(shù)從Sigmoid換成ReLU，這也并沒有從根本上改變網(wǎng)絡(luò)。

這只是微調(diào)，做了一點(diǎn)點(diǎn)調(diào)整。我會(huì)說，它在本質(zhì)上并沒有那么大的不同，仍然是相同的架構(gòu)。你可以通過添加這些改動(dòng)，從一個(gè)模型演進(jìn)到另一個(gè)。例如，我那本書里用的是GPT-2模型（約1.2億參數(shù)），但在獎(jiǎng)勵(lì)材料中，我?guī)缀鯊牧汩_始構(gòu)建了Gemma 3.0。我總是從GPT-2模型開始，然后調(diào)整組件，就能從一個(gè)模型演進(jìn)到另一個(gè)。從某種意義上說，這是一種傳承。

Lex Fridman：這真的很有意思。當(dāng)你退一步審視，你會(huì)發(fā)現(xiàn)AI領(lǐng)域的發(fā)展如此迅猛，但與此同時(shí)，從根本上講，架構(gòu)并沒有發(fā)生翻天覆地的改變。那么，這種劇烈變革和進(jìn)步的動(dòng)能究竟源自何處？收益究竟在哪里？

Sebastian Raschka：在開發(fā)或訓(xùn)練網(wǎng)絡(luò)的過程中存在不同的階段。在過去GPT-2的時(shí)代，只有預(yù)訓(xùn)練（Pre-training）。而現(xiàn)在，我們有了預(yù)訓(xùn)練、中訓(xùn)（Mid-training）和后訓(xùn)練（Post-training）。所以我認(rèn)為，我們目前正處于“后訓(xùn)練聚焦”階段。當(dāng)然，如果你能利用更好、更高質(zhì)量的數(shù)據(jù)進(jìn)行擴(kuò)展，預(yù)訓(xùn)練仍然會(huì)帶來優(yōu)勢。

但是，我們現(xiàn)在擁有了GPT-2所不具備的能力解鎖。例如ChatGPT，它本質(zhì)上是一個(gè)GPT-3模型。就架構(gòu)而言，GPT-3與GPT-2是相同的。新的突破在于增加了有監(jiān)督微調(diào)（SFT）以及人類反饋強(qiáng)化學(xué)習(xí)（RLHF）。所以這更多是算法層面的改進(jìn)，而非架構(gòu)層面的變革。

Nathan Lambert：我認(rèn)為系統(tǒng)層面也發(fā)生了很大變化。如果你關(guān)注過Nvidia的發(fā)布會(huì)，他們會(huì)提到諸如“現(xiàn)在支持FP8，支持FP4”之類的技術(shù)。這些實(shí)驗(yàn)室正在研究如何將更多的算力投入到單個(gè)模型中，這讓他們能夠訓(xùn)練得更快，從而輸入更多數(shù)據(jù)。通過這種方式，你可以更快地找到更優(yōu)的配置。

沒錯(cuò)，本質(zhì)上“每GPU每秒處理的Token數(shù)”是你進(jìn)行大規(guī)模訓(xùn)練時(shí)關(guān)注的核心指標(biāo)。通過開啟FP8訓(xùn)練，性能可以從10K提升到13K左右。這意味著模型中每個(gè)參數(shù)占用的內(nèi)存更少，通信開銷降低，從而實(shí)現(xiàn)更快的訓(xùn)練速度。所有這些系統(tǒng)層面的優(yōu)化，支撐了數(shù)據(jù)和算法上更快速的實(shí)驗(yàn)迭代。

這就是一個(gè)不斷循環(huán)的過程。當(dāng)你觀察它們的架構(gòu)時(shí)，很難描述清楚，因?yàn)樗鼈兛雌饋韼缀跻粯樱?xùn)練這些模型的代碼庫卻截然不同。比如訓(xùn)練GPT-OSS 20B的實(shí)際用時(shí)比當(dāng)年訓(xùn)練GPT-2要快得多。在混合專家模型（MoE）中，他們采用了FP4優(yōu)化，從而獲得了更高的吞吐量。但這并沒有賦予模型新的“能力”，這僅僅關(guān)乎我們能在多大程度上使計(jì)算變得更粗粒度，而不導(dǎo)致模型性能下降。

目前Transformer架構(gòu)的替代方案正在涌現(xiàn)，比如文本擴(kuò)散模型（Text Diffusion Models）或Mamba這種狀態(tài)空間模型（SSM）。但它們都存在權(quán)衡，事實(shí)是目前還沒有任何東西能取代自回歸Transformer作為SOTA（最先進(jìn)）模型的地位。所以對于追求最先進(jìn)性能而言，你仍然會(huì)選擇它。

6、AI Scaling Laws：它們已經(jīng)失效還是依然成立？

Lex Fridman：我想這里的大問題是，規(guī)模定律（Scaling Laws）在預(yù)訓(xùn)練、后訓(xùn)練、推理、上下文長度、數(shù)據(jù)以及合成數(shù)據(jù)方面是否依然穩(wěn)固？

Nathan Lambert：我想先從規(guī)模定律的技術(shù)定義開始。它本質(zhì)上是一種冪律關(guān)系，你可以將X軸視為算力和數(shù)據(jù)的結(jié)合，而Y軸是對下一個(gè)Token的留出預(yù)測準(zhǔn)確率。人們發(fā)現(xiàn)這是一種非常可預(yù)測的關(guān)系，我認(rèn)為這一技術(shù)趨勢仍在繼續(xù)。

現(xiàn)在的維度更加豐富了。OpenAI的o1引入了推理時(shí)擴(kuò)展（Inference Time Scaling）。此外，你還可以通過擴(kuò)展強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練來獲得性能提升。所以目前存在三個(gè)維度：

傳統(tǒng)規(guī)模定律：即模型規(guī)模和數(shù)據(jù)集規(guī)模。

強(qiáng)化學(xué)習(xí)規(guī)模：即你可以進(jìn)行多長時(shí)間的試錯(cuò)學(xué)習(xí)。

推理側(cè)算力：即讓模型針對特定問題生成更多的思維鏈Token。

我對這三者都持看好態(tài)度。過去一年在強(qiáng)化學(xué)習(xí)方面（特別是可驗(yàn)證獎(jiǎng)勵(lì)學(xué)習(xí)，即RLVR）以及推理側(cè)擴(kuò)展方面已經(jīng)達(dá)成了很多容易實(shí)現(xiàn)的目標(biāo)。這就是為什么現(xiàn)在的模型使用起來感覺如此不同：以前你會(huì)立即得到第一個(gè)Token，而現(xiàn)在它們在給出回答前會(huì)思考幾秒鐘甚至幾小時(shí)，生成隱藏的思維鏈。這在模型能力變化方面簡直是一種美妙的階躍函數(shù)。

這種能力幾乎完全源自于通過可驗(yàn)證獎(jiǎng)勵(lì)進(jìn)行的強(qiáng)化學(xué)習(xí)訓(xùn)練。當(dāng)你觀察模型生成大量Token時(shí)的推理過程，你會(huì)發(fā)現(xiàn)它經(jīng)常在嘗試：調(diào)用一個(gè)工具，查看結(jié)果；再嘗試另一個(gè)API，查看結(jié)果。模型很快就能學(xué)會(huì)執(zhí)行這些操作，這為模型在代碼庫中使用CLI命令、處理Git、整理文件等提供了通用基礎(chǔ)。

Lex Fridman：你提到你基本上看好每一種形式的Scaling。那么關(guān)于預(yù)訓(xùn)練，我們是否在暗示預(yù)訓(xùn)練規(guī)模化中那些“唾手可得的果實(shí)”已經(jīng)被采摘殆盡了？預(yù)訓(xùn)練是否遇到了瓶頸，還是你依然看好它？

Nathan Lambert：預(yù)訓(xùn)練已經(jīng)變得極其昂貴。要擴(kuò)大預(yù)訓(xùn)練規(guī)模，意味著你要提供一個(gè)非常龐大的模型。目前業(yè)內(nèi)共識(shí)是，像GPT-4這一代模型的大小大約在萬億參數(shù)量級(jí)。其實(shí)隨著訓(xùn)練效率的提高，你會(huì)希望把模型做小，因?yàn)檫@樣提供服務(wù)的成本會(huì)成比例下降。

相對于向數(shù)億用戶提供服務(wù)的成本來說，訓(xùn)練成本其實(shí)是非常低的。DeepSeek有一個(gè)著名的數(shù)據(jù)，按云市場價(jià)格計(jì)算，預(yù)訓(xùn)練費(fèi)用約為500萬美元。在我們剛剛發(fā)布的OLMo 3論文中詳細(xì)說明了，包括工程調(diào)試、實(shí)驗(yàn)和集群閑置在內(nèi)，訓(xùn)練一個(gè)模型大約花費(fèi)了200萬美元。很多人都能籌到幾百萬美元來訓(xùn)練模型，但為數(shù)百萬用戶提供服務(wù)的持續(xù)成本需要耗費(fèi)價(jià)值數(shù)十億美元的算力。

問題在于，如果擴(kuò)展規(guī)模確實(shí)能帶來更好的模型，它在財(cái)務(wù)上是否值得？我認(rèn)為隨著AI解決更多引人注目的任務(wù)，市場會(huì)推動(dòng)這一點(diǎn)。比如Claude 3.5 Opus與之前的模型相比，徹底解決了我在七月份構(gòu)建項(xiàng)目時(shí)遇到的問題。所以進(jìn)步仍在繼續(xù)。

Lex Fridman：所以你的直覺是，如果不考慮財(cái)務(wù)可行性，僅僅從定律的角度來看，如果擴(kuò)展計(jì)算規(guī)模，模型會(huì)變得更聰明嗎？

Nathan Lambert：是的。雖然這聽起來像是對AI公司領(lǐng)導(dǎo)層的盲目信任，但這一規(guī)律已經(jīng)支撐了13個(gè)數(shù)量級(jí)的算力增長，不太可能突然停止。只是最終我們可能無法測試更大的規(guī)模，因?yàn)橐?guī)模越大帶來的算力問題越多。

現(xiàn)在大家都在討論2026年，屆時(shí)超大規(guī)模云服務(wù)商將投入運(yùn)營吉瓦（Gigawatt）級(jí)規(guī)模的Blackwell算力集群。這些電力和數(shù)據(jù)中心合同都是在ChatGPT發(fā)布前后簽署的，建設(shè)周期需要兩三年。實(shí)驗(yàn)室將擁有更多的算力用于訓(xùn)練，這是一個(gè)既定事實(shí)。我預(yù)計(jì)我們會(huì)看到訂閱服務(wù)價(jià)格上漲，比如出現(xiàn)2000美元的訂閱服務(wù)，這都源于更大一點(diǎn)的模型所提供的技術(shù)優(yōu)勢。

Lex Fridman：據(jù)報(bào)道xAI將在2026年初達(dá)到1吉瓦規(guī)模，并在年底達(dá)到2吉瓦。你認(rèn)為他們會(huì)在規(guī)模定律的背景下如何利用這些資源？很大一部分是推理嗎？還是訓(xùn)練？

Nathan Lambert：結(jié)果證明是“以上所有”。你在訓(xùn)練模型時(shí)做出的所有決策最終都會(huì)回到預(yù)訓(xùn)練。即使你打算擴(kuò)展RL，你也需要決定能夠?qū)崿F(xiàn)這一點(diǎn)的架構(gòu)。比如我們討論的混合專家模型（MoE），其稀疏特性使得生成效率大大提高，這已成為后訓(xùn)練的重要組成部分。

但我認(rèn)為大多數(shù)算力仍然正投入到預(yù)訓(xùn)練階段，因?yàn)槟闳匀幌Ｍ麚碛斜M可能最好的基礎(chǔ)模型。幾年后這可能會(huì)達(dá)到飽和，屆時(shí)RL算力投入的比例將會(huì)變大。

Lex Fridman：是否有人不同意你的觀點(diǎn)，認(rèn)為預(yù)訓(xùn)練基本上已經(jīng)過時(shí)了？認(rèn)為現(xiàn)在的重點(diǎn)全在于推理擴(kuò)展、后訓(xùn)練擴(kuò)展、上下文擴(kuò)展以及合成數(shù)據(jù)？

Nathan Lambert：人們普遍有這種感覺，但我認(rèn)為實(shí)際情況并非如此。那種“預(yù)訓(xùn)練已死”的論調(diào)只是因?yàn)榕d奮點(diǎn)轉(zhuǎn)移到了別處。

以我們在11月發(fā)布的模型為例，如果不算預(yù)訓(xùn)練，僅僅做后訓(xùn)練就花了五天時(shí)間，這對于一個(gè)300億參數(shù)的模型來說是很長的。到了12月，我們又讓強(qiáng)化學(xué)習(xí)運(yùn)行了三周半，模型變得顯著更好。把這么長的時(shí)間分配給后訓(xùn)練是前所未有的。

但這并不意味著預(yù)訓(xùn)練被遺棄了。這是一種循環(huán)：你重新進(jìn)行預(yù)訓(xùn)練，然后進(jìn)行一個(gè)月的后訓(xùn)練，接著進(jìn)行安全性測試發(fā)布給用戶。總有可以改進(jìn)的地方。當(dāng)你使用10萬塊GPU進(jìn)行大規(guī)模預(yù)訓(xùn)練時(shí)，你會(huì)遇到截然不同的故障，幾乎肯定隨時(shí)至少有一塊GPU是宕機(jī)的。你需要讓訓(xùn)練代碼能夠處理這種冗余，這完全是另一回事。

當(dāng)我們轉(zhuǎn)向強(qiáng)化學(xué)習(xí)時(shí)，它非常適合異構(gòu)計(jì)算。簡要介紹一下語言模型的強(qiáng)化學(xué)習(xí)：你需要準(zhǔn)備兩組GPU。一組是Actor（執(zhí)行者），負(fù)責(zé)生成內(nèi)容；另一組是Learner（學(xué)習(xí)者），負(fù)責(zé)實(shí)際的策略梯度更新（如PPO或GRPO算法）。你可以讓分布在世界各地的許多不同Actor處理問題，將結(jié)果發(fā)回給Learner進(jìn)行評分和學(xué)習(xí)。

至于推理側(cè)擴(kuò)展，問題變成了：你如何向1億用戶提供一個(gè)需要思考一小時(shí)的模型服務(wù)？這背后存在巨大的系統(tǒng)性挑戰(zhàn)。

Lex Fridman：但我聽下來，你對所有這些維度的擴(kuò)展都持樂觀態(tài)度。無論是推理、邏輯推理，還是預(yù)訓(xùn)練？

Sebastian Raschka：是的。在一個(gè)假設(shè)擁有無限計(jì)算資源的世界里，你會(huì)想要全面發(fā)力：預(yù)訓(xùn)練、中訓(xùn)、后訓(xùn)練、推理擴(kuò)展全部拉滿。更大的模型會(huì)賦予模型更多的知識(shí)。

但是正如Nathan所說，預(yù)訓(xùn)練變得太昂貴了。我們沒有無限的算力，所以必須進(jìn)行權(quán)衡。如果你把錢花在預(yù)訓(xùn)練上，這是一項(xiàng)固定成本，模型訓(xùn)練好后就永久擁有了這種能力。而對于推理側(cè)擴(kuò)展，你是為單次查詢付費(fèi)。

這就變成了一筆賬：如果我的模型半年后就會(huì)被替換，也許花1億美元去訓(xùn)練更大的模型并不值得，不如花200萬美元做推理側(cè)擴(kuò)展來獲得同等的性能提升。這就是ChatGPT現(xiàn)在的策略，他們擁有海量用戶，所以選擇了一條更具性價(jià)比的路線，可能使用了一個(gè)稍微小一點(diǎn)的GPT-5模型配合推理擴(kuò)展。

但在某些特定任務(wù)（如奧數(shù)）中，你可能需要巔峰性能。總而言之，我認(rèn)為預(yù)訓(xùn)練、中訓(xùn)、后訓(xùn)練以及推理側(cè)擴(kuò)展都是必須做的，關(guān)鍵在于找到合適的比例以獲得最高的性價(jià)比。

7、AI是如何訓(xùn)練的：Pre-training、Mid-training 和 Post-training

Lex Fridman：我認(rèn)為這里可能是定義預(yù)訓(xùn)練、中訓(xùn)和后訓(xùn)練的好地方。

Sebastian Raschka：預(yù)訓(xùn)練（Pre-training）是經(jīng)典的訓(xùn)練方式，即在海量的互聯(lián)網(wǎng)數(shù)據(jù)、書籍、論文等語料庫上，針對交叉熵?fù)p失進(jìn)行“預(yù)測下一個(gè)Token”的訓(xùn)練。現(xiàn)在的變化在于，不再僅僅是原始數(shù)據(jù)，還包括合成數(shù)據(jù)。合成數(shù)據(jù)并不一定意味著純粹由AI虛構(gòu)，它也包括從文章中提取內(nèi)容并改寫為高質(zhì)量的問答或總結(jié)。這就像人類學(xué)習(xí)：讀一本結(jié)構(gòu)清晰的書比看亂七八糟的Reddit帖子學(xué)得更快。高質(zhì)量數(shù)據(jù)能讓LLM訓(xùn)練得更快、更準(zhǔn)確。

中訓(xùn)（Mid-training）以前其實(shí)也被統(tǒng)稱為預(yù)訓(xùn)練。被稱為中訓(xùn)是因?yàn)樗橛陬A(yù)訓(xùn)練和后訓(xùn)練之間。它本質(zhì)上還是預(yù)訓(xùn)練，但更加專業(yè)化。例如，你在預(yù)訓(xùn)練階段沒有那么多的長上下文文檔，所以你會(huì)設(shè)立一個(gè)特定的階段來專門訓(xùn)練長上下文能力。

這就涉及到LLM的一個(gè)問題：它是神經(jīng)網(wǎng)絡(luò)，存在“災(zāi)難性遺忘”。你教它新東西，它就會(huì)忘記舊東西。這就像天下沒有免費(fèi)的午餐。

Lex Fridman：Nathan剛才實(shí)際上是在說他攝取了太多的內(nèi)容，以至于出現(xiàn)了一種災(zāi)難性的遺忘問題。

Sebastian Raschka：是的。我試著學(xué)習(xí)關(guān)于AI的一切，感覺就像我正在學(xué)習(xí)預(yù)訓(xùn)練并行性時(shí)，腦子里丟掉了一些東西，但我甚至不知道丟掉的是什么。

雖然我不想將LLM（大語言模型）擬人化，但在某種意義上，這和人類學(xué)習(xí)的方式是一樣的。數(shù)量并不總是越大越好，這就涉及篩選機(jī)制。Mid-training（中期訓(xùn)練）階段就是針對高質(zhì)量內(nèi)容進(jìn)行最終篩選，確保模型最后接觸到的是最優(yōu)質(zhì)的素材。隨后的Post-training（后訓(xùn)練）包含了所有的微調(diào)、監(jiān)督微調(diào)以及帶有可驗(yàn)證獎(jiǎng)勵(lì)的DPO強(qiáng)化學(xué)習(xí)。

通過人類反饋等方式進(jìn)行的微調(diào)階段非常有趣，這也涉及到成本問題。我們在預(yù)訓(xùn)練上投入了巨資，相比之下強(qiáng)化學(xué)習(xí)（RL）的作用稍小一些。我認(rèn)為RL并不真正教給模型知識(shí)，它更像是解鎖知識(shí)，是一種技能學(xué)習(xí)，教模型如何利用預(yù)訓(xùn)練中獲得的知識(shí)來解決問題。雖然去年有幾篇關(guān)于將RL用于預(yù)訓(xùn)練的論文，但這目前還停留在玩具級(jí)示例階段，沒有人在生產(chǎn)環(huán)境中使用。泛化RL后訓(xùn)練更像是技能解鎖，而預(yù)訓(xùn)練本質(zhì)上是吸收知識(shí)。

Nathan Lambert：關(guān)于合成數(shù)據(jù)，很多人誤以為它對模型訓(xùn)練不利。實(shí)際上，像DeepSeek和AI2等實(shí)驗(yàn)室都在做這方面的工作。比如OCR（光學(xué)字符識(shí)別）技術(shù)，因?yàn)榫W(wǎng)絡(luò)上存在大量PDF和數(shù)字文檔，其格式難以進(jìn)行文本編碼。DeepSeek通過OCR提取了數(shù)萬億用于預(yù)訓(xùn)練的候選數(shù)據(jù)Token。預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模通常以萬億級(jí)Token衡量，研究人員的小模型大約在5到10萬億，Qwen達(dá)到了50萬億，有傳言稱閉源實(shí)驗(yàn)室甚至達(dá)到100萬億。我們通過巨大的漏斗篩選出極小部分的數(shù)據(jù)用于實(shí)際訓(xùn)練。此外，利用像ChatGPT生成的高質(zhì)量回答進(jìn)行訓(xùn)練，也屬于合成數(shù)據(jù)的一種，這與早期模型產(chǎn)生幻覺的數(shù)據(jù)截然不同。

以O(shè)LMo-3為例，盡管其訓(xùn)練數(shù)據(jù)量少于一些開放權(quán)重模型，甚至可能少于OLMo-2，但性能卻更優(yōu)，這主要?dú)w功于數(shù)據(jù)質(zhì)量。當(dāng)然，如果我們有更多算力，肯定會(huì)訓(xùn)練更長時(shí)間。對于大模型而言，增加參數(shù)量和吸收更多數(shù)據(jù)是必然趨勢。目前的對數(shù)圖表顯示，小模型會(huì)更早進(jìn)入瓶頸期，而大模型能從海量數(shù)據(jù)中獲益更多。但在目前的模型規(guī)模下，獲取最高質(zhì)量數(shù)據(jù)是我們的自然起點(diǎn)。

Lex Fridman：關(guān)于數(shù)據(jù)質(zhì)量，是否還有一些唾手可得的機(jī)會(huì)可以進(jìn)一步提升它？

Nathan Lambert：這需要按部就班地推進(jìn)。開源界一直有公認(rèn)的最佳預(yù)訓(xùn)練數(shù)據(jù)集，但隨著新數(shù)據(jù)集發(fā)布，這個(gè)地位會(huì)不斷更迭。比如AI2的Dolmo、Hugging Face的FineWeb以及DCLM項(xiàng)目。以前語言模型主要測試知識(shí)和對話能力，現(xiàn)在則要求處理數(shù)學(xué)和代碼。因此，訓(xùn)練推理模型需要重新混合整個(gè)數(shù)據(jù)集。這涉及精妙的科學(xué)方法：從GitHub、Stack Exchange、Reddit、維基百科等來源提取小樣本，針對不同配比訓(xùn)練小模型并評估，最后通過線性回歸得出最優(yōu)數(shù)據(jù)集配比。OLMo-3正是引入了新數(shù)據(jù)源來提升推理能力。隨著編程環(huán)境或網(wǎng)頁導(dǎo)航等新熱門領(lǐng)域的出現(xiàn)，你需要不斷引入新數(shù)據(jù)并更改預(yù)訓(xùn)練過程。

Lex Fridman：有什么出乎意料的高質(zhì)量數(shù)據(jù)源嗎？你提到過Reddit。

Nathan Lambert：Reddit確實(shí)非常有用。此外PDF也是重要來源，特別是arXiv。AI2運(yùn)營Semantic Scholar很久了，它是Google Scholar的強(qiáng)力競品。我們抓取了大量公開訪問的論文PDF，這些是真正的開放科學(xué)資源。前沿實(shí)驗(yàn)室在數(shù)據(jù)清洗和處理上早就投入了大量工作。現(xiàn)在的趨勢是，如果你想在AI領(lǐng)域產(chǎn)生影響力，與其研究花哨的算法（如O1或擴(kuò)展RL），不如致力于挖掘新數(shù)據(jù)或優(yōu)化基礎(chǔ)設(shè)施。

與此同時(shí)，出于法律原因，訓(xùn)練數(shù)據(jù)的具體構(gòu)成是目前守得最嚴(yán)的秘密之一，各方都在試圖隱藏?cái)?shù)據(jù)來源以防止泄露。有些人嘗試僅使用授權(quán)數(shù)據(jù)訓(xùn)練，以符合歐盟的合規(guī)性要求。而像Common Crawl這種對整個(gè)互聯(lián)網(wǎng)的抓取，很大程度上是未經(jīng)明確授權(quán)的。

Sebastian Raschka：這里存在許可方面的區(qū)別。正如你所說，有些公司購買了Amazon Kindle或Manning出版社的電子書用于訓(xùn)練，但這處于灰色地帶，因?yàn)榧幢愀顿M(fèi)購買，用于訓(xùn)練可能仍受限制。OpenAI等巨頭也開始接觸私營企業(yè)獲取專有數(shù)據(jù)，而企業(yè)為了建立護(hù)城河也更加注重保護(hù)數(shù)據(jù)。未來，制藥、法律、金融等行業(yè)可能會(huì)利用專有數(shù)據(jù)構(gòu)建內(nèi)部模型，實(shí)現(xiàn)目前無法達(dá)到的預(yù)訓(xùn)練突破。目前的通用LLM還沒觸及針對特定任務(wù)訓(xùn)練后所能發(fā)揮潛力的皮毛。

Nathan Lambert：提到數(shù)據(jù)版權(quán)，Anthropic在2025年輸?shù)袅艘粓龉偎荆妨俗髡?5億美元。他們雖然購買了數(shù)千本書進(jìn)行掃描（這是合法的），但也通過種子下載了書籍，正是這種下載行為導(dǎo)致法院判決巨額賠償。

Lex Fridman：這些法庭案件將定義人類文明的未來。你們兩位都是作家，當(dāng)傾注心血的作品被不加署名地用于訓(xùn)練時(shí)，感覺就像是偷竊。

Sebastian Raschka：正如Nathan所說，這包含兩個(gè)層面。一種是購買書籍后訓(xùn)練的公平性爭議，另一種是三家大公司直接使用盜版書籍且不給補(bǔ)償，后者正是讓人憤怒的癥結(jié)所在。我們需要建立某種類似Spotify流媒體模式的補(bǔ)償機(jī)制。

Lex Fridman：還有一件事，隨著LLM應(yīng)用越來越廣泛，GitHub上越來越多的代碼是由LLM生成的。這種情況有多嚴(yán)重？

Nathan Lambert：這是不可避免的。這基本上是由人類進(jìn)行篩選的LLM生成數(shù)據(jù)。

Sebastian Raschka：我有一個(gè)名為mlxtend的倉庫，是學(xué)生時(shí)代開發(fā)的，主要用于頻繁項(xiàng)集數(shù)據(jù)挖掘。最近有人在極短時(shí)間內(nèi)提交了大量PR（拉取請求），我確信這是LLM生成的。作為維護(hù)者，我感到有些應(yīng)接不暇，因?yàn)闆]時(shí)間仔細(xì)審核。但同時(shí)我也表示贊賞，因?yàn)檫@畢竟經(jīng)過了人類的驗(yàn)證，類似于RLHF中的數(shù)據(jù)標(biāo)注過程。

Lex Fridman：感覺原始的LLM生成數(shù)據(jù)與有人類參與（human in the loop）驗(yàn)證的數(shù)據(jù)之間存在本質(zhì)區(qū)別。

Sebastian Raschka：是的，即便只有一小部分經(jīng)過驗(yàn)證，也是有價(jià)值的。這就像專家使用LLM編寫代碼并剔除糟糕部分，這種經(jīng)過“預(yù)消化”的信息能節(jié)省大家的時(shí)間。與其我自己花幾個(gè)小時(shí)去閱讀并可能產(chǎn)生誤解，不如獲取一份經(jīng)過專家篩選的執(zhí)行摘要。

Lex Fridman：這就很有意思了。我觀察到基于LLM的摘要往往會(huì)磨平原始內(nèi)容的棱角，這是否意味著信號(hào)的丟失？

Nathan Lambert：這就是我常說的“聲音（Voice）”。我在寫作時(shí)嘗試將研究者認(rèn)知的感性直覺轉(zhuǎn)化為文字，這種粗放但高信息量的風(fēng)格正是研究的本質(zhì)。然而，經(jīng)過RLHF訓(xùn)練的模型旨在收集大量人類反饋并取平均值，這種過濾器導(dǎo)致模型難以表現(xiàn)得犀利，無法提取核心洞察。這已成為RLHF研究中的基礎(chǔ)性難題：它雖然提升了性能，但也扼殺了深層表達(dá)。

這也是非常可怕的，因?yàn)橛袛?shù)百萬人正在使用這些產(chǎn)品。去年GPT-4o發(fā)布時(shí)，用戶甚至因?yàn)椴煊X到模型微小的變化而發(fā)郵件投訴，就像電影《Her》一樣，人們對模型產(chǎn)生了情感依賴。

Lex Fridman：但這同時(shí)也帶來了風(fēng)險(xiǎn)。如果人們因抑郁或有自殺傾向而向LLM傾訴，記者可能會(huì)報(bào)道將自殺事件與LLM聯(lián)系起來。這會(huì)導(dǎo)致公司出于法律考量進(jìn)一步削弱模型的鋒芒，使其變得盡可能平庸。

Nathan Lambert：確實(shí)如此。你既不希望LLM對人類造成傷害，又希望它能進(jìn)行豐富、有挑戰(zhàn)性的對話，這對于RLHF研究人員來說是極難平衡的。Anthropic和OpenAI的研究人員在文化上都希望通過技術(shù)造福世界。但這確實(shí)是一種心理煎熬：一方面，這項(xiàng)技術(shù)可能成為推向極端、導(dǎo)致某人崩潰的誘因；另一方面，它也可能挽救其他人的生命。這需要極強(qiáng)的信念感，將其視為一個(gè)必須解決的艱巨難題來對待。

Lex Fridman：我們作為一個(gè)社會(huì)，作為技術(shù)用戶，必須確保關(guān)于AI的對話深入且復(fù)雜，而不是僅僅散布恐懼。比如指責(zé)科技巨頭正在傷害人類或竊取數(shù)據(jù)，情況其實(shí)要比這復(fù)雜得多。這些公司內(nèi)部有很多好人，其中很多你也認(rèn)識(shí)，他們真誠地想幫助他人。他們不僅考慮硅谷，也在考慮全世界不同背景人們的需求。要設(shè)計(jì)一個(gè)能服務(wù)所有年齡層、文化背景和心理狀態(tài)的人的單一系統(tǒng)，確實(shí)非常困難。

Nathan Lambert：我希望AI出現(xiàn)的時(shí)機(jī)能有所不同，避開目前科技巨頭與普通人之間的這種緊張關(guān)系。現(xiàn)在看來，AI不可避免地成了大公司的游戲，因?yàn)橥度雽?shí)在太昂貴了。人們常說美國正將經(jīng)濟(jì)押注在AI上，這使得溝通環(huán)境變得異常艱難。但我很喜歡你提到的“自主性”。與其因?yàn)橛憛捒萍季揞^而拒絕AI，甚至被動(dòng)消費(fèi)互聯(lián)網(wǎng)上泛濫的AI垃圾內(nèi)容，不如通過使用AI進(jìn)行構(gòu)建來獲得主動(dòng)權(quán)。建立直覺，理解它的運(yùn)作機(jī)制和弱點(diǎn)，這是一種賦能。這樣你就能更有底氣地評價(jià)：“這是對技術(shù)的錯(cuò)誤使用”或“這是良好的應(yīng)用”。作為深度融入系統(tǒng)的一員，你能比普通消費(fèi)者更好地引導(dǎo)它。

Sebastian Raschka：我覺得你提到的“自主性”這一點(diǎn)很好。與其忽視它，不如思考如何利用它提升自我。不過我也擔(dān)心，如果你完全用AI做你熱愛的事情，那份熱愛會(huì)不會(huì)消失？這可能會(huì)導(dǎo)致職業(yè)倦怠。舉個(gè)例子，如果我用LLM幫我完成所有的編碼工作，編碼過程本身就不存在了。我只是在管理一個(gè)幫我寫代碼的東西。假設(shè)兩年后，我每天八小時(shí)都只是在指揮AI編碼，我還會(huì)感到充實(shí)嗎？這是否會(huì)削弱我對工作的熱情，以及親手構(gòu)建事物的自豪感？

Lex Fridman：關(guān)于享受工作這點(diǎn)很有趣。最近有一項(xiàng)針對791名專業(yè)開發(fā)者的調(diào)查，“專業(yè)”指的是擁有10年以上經(jīng)驗(yàn)的人。結(jié)果顯示，無論是初級(jí)還是高級(jí)開發(fā)者，都在交付的代碼中使用了AI生成的內(nèi)容。更有趣的是，在那些超過50%代碼由AI生成的案例中，高級(jí)開發(fā)者占比更高。至于這是否會(huì)奪走熱愛，大約80%的人表示，將AI作為工作的一部分讓他們感到更有趣，甚至樂趣顯著增加。

Sebastian Raschka：我認(rèn)為這取決于具體任務(wù)。比如調(diào)整網(wǎng)站細(xì)節(jié)這種瑣事我并不喜歡，如果AI能代勞，我完全支持。但在解決復(fù)雜問題、追蹤并修復(fù)Bug時(shí)，那種成就感是無與倫比的。如果直接問LLM，你就失去了這種樂趣。或許折中方案是先自己嘗試，卡住后再用LLM。正如你提到的例子，處理那種需要修復(fù)幾百個(gè)鏈接的枯燥工作，AI能消除挫敗感，表現(xiàn)非常出色。

Lex Fridman：對我來說，編程的樂趣很大一部分在于代碼本身。你說調(diào)試是一種樂趣，我會(huì)說調(diào)試就像在沙漠跋涉數(shù)日后終于喝到一口水。你是跳過了在沙漠受苦的部分。如果有結(jié)對編程的伙伴，即便他不能直接找到Bug，但他提供的直覺能陪你一起走出沙漠。這也反映了編程過程中的孤獨(dú)感，而AI能扮演這個(gè)伙伴的角色。

Sebastian Raschka：這可能也與延遲滿足有關(guān)。就像小時(shí)候期待圣誕禮物往往比真正收到時(shí)更快樂，或者餓的時(shí)候吃飯更香。調(diào)試雖然令人沮喪，但解決后的感覺很棒。這里存在一個(gè)“金發(fā)姑娘原則”般的適度區(qū)間：太難是浪費(fèi)時(shí)間，太容易則學(xué)不到東西。資深開發(fā)者使用AI生成的代碼更多，可能是因?yàn)樗麄冎廊绾胃咝褂貌彶榇a。未來的問題是，如果從未親手從頭做起，初學(xué)者如何成為專家？如果不經(jīng)歷掙扎，就難以建立深刻的思維框架。也許我們需要每天專門抽出時(shí)間進(jìn)行不依賴AI的深度學(xué)習(xí)，而不是把所有事情都交給LLM。

8、Post-training 詳解：LLMs領(lǐng)域令人興奮的新研究方向

Lex Fridman：這確實(shí)是我們需要尋找的平衡點(diǎn)。現(xiàn)在讓我們回到編程語境。剛才我們聊了預(yù)訓(xùn)練和中期訓(xùn)練，現(xiàn)在談?wù)労笥?xùn)練（post-training）。在這個(gè)階段有哪些有趣的思路？

Nathan Lambert：2025年最大的突破是學(xué)習(xí)帶有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）。通過大量擴(kuò)展“生成-評分”的迭代循環(huán)，模型能學(xué)習(xí)工具調(diào)用和復(fù)雜的軟件行為。這種訓(xùn)練方式完美結(jié)合了推理時(shí)擴(kuò)展（inference time scaling），徹底改變了人們處理后訓(xùn)練的方式。

Lex Fridman：你能解釋一下由DeepSeek R1推廣的RLVR的工作原理嗎？

Nathan Lambert：有趣的是，RLVR這個(gè)術(shù)語源自我們在DeepSeek之前的Tulu 3研究。學(xué)術(shù)界往往擁有定義術(shù)語的話語權(quán)，因?yàn)榉忾]實(shí)驗(yàn)室透露的信息有限。DeepSeek實(shí)現(xiàn)了訓(xùn)練突破，擴(kuò)展了強(qiáng)化學(xué)習(xí)的應(yīng)用：讓模型生成答案，根據(jù)正確率評分，這個(gè)準(zhǔn)確率就是獎(jiǎng)勵(lì)。傳統(tǒng)RL是在環(huán)境中最大化獎(jiǎng)勵(lì)，而在語言模型中，獎(jiǎng)勵(lì)通常是數(shù)學(xué)或編程任務(wù)的準(zhǔn)確率。現(xiàn)在這種可驗(yàn)證的邊界正擴(kuò)展到事實(shí)核查或特定格式約束。其核心是找到更多可驗(yàn)證的問題讓模型嘗試。基礎(chǔ)設(shè)施已從基于人類偏好的RLHF演變?yōu)獒槍陀^結(jié)果的優(yōu)化，這開啟了模型能力的重大變革。

Lex Fridman：RLVR適用于哪些領(lǐng)域？

Nathan Lambert：最著名的是數(shù)學(xué)和代碼。此外還有基于“評分細(xì)則”（rubrics）的方法，即“LLM作為裁判”：用另一個(gè)模型根據(jù)準(zhǔn)則給生成的回答打分。雖然不如數(shù)學(xué)那樣絕對可驗(yàn)證，但這種思路正被推向更開放的科學(xué)問題領(lǐng)域。

Sebastian Raschka：回到RLVR，我覺得美妙之處在于，當(dāng)你給LLM一個(gè)已知答案的數(shù)學(xué)題并讓它求解時(shí)，即便不加太多約束，它也會(huì)像學(xué)生或數(shù)學(xué)家一樣展示推導(dǎo)步驟。這些步驟不僅提高了準(zhǔn)確性，還體現(xiàn)了“推理擴(kuò)展”，即通過消耗更多Token（思考更久）來換取更好的結(jié)果。R1論文中提到了“頓悟時(shí)刻”，即模型意識(shí)到錯(cuò)誤并自我修正，表現(xiàn)得就像人類一樣，這非常有意思，也能建立用戶對模型的信任。

今年關(guān)于“頓悟時(shí)刻”有很多爭論。我認(rèn)為這在某種程度上是虛假的，因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)包含了整個(gè)互聯(lián)網(wǎng)，模型見過人類自我修正的文本。RLVR實(shí)際上是在放大這種有助于“思考”的行為。舉個(gè)實(shí)際例子，我在Math 500數(shù)據(jù)集上訓(xùn)練Qwen 3基座模型，僅用了50個(gè)步數(shù)，幾分鐘內(nèi)準(zhǔn)確率就從15%飆升到50%。這說明模型并不是在幾分鐘內(nèi)學(xué)會(huì)了數(shù)學(xué)，而是RL解鎖了預(yù)訓(xùn)練中已有的知識(shí)。

Nathan Lambert：關(guān)于Qwen存在數(shù)據(jù)污染的爭議很大。比如把題目中的數(shù)字改掉但保留文字描述，在不使用工具的情況下，它依然能給出極高精度的答案，這暗示它在訓(xùn)練時(shí)見過測試題。因此，RLVR帶來的迅速提升可能部分歸因于格式化或記憶，而非真正的智力提升。除非我們在模型部署截止日期后建立全新的基準(zhǔn)測試，否則很難公平評估。

Lex Fridman：我們能否總結(jié)一下后訓(xùn)練（post-training）的“配方”？除了RLVR，RLHF還有什么作用？

Nathan Lambert：這可以看作是一個(gè)序列。首先是中期訓(xùn)練（mid-training），這是O1等推理模型的核心，需要極高質(zhì)量的“推理鏈”數(shù)據(jù)（將問題分解為中間步驟），讓模型學(xué)會(huì)如何思考。

接下來是針對可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RL with Verifiable Rewards）。隨著模型變強(qiáng)，簡單問題已無法提供足夠的訓(xùn)練信號(hào)（比如GRPO算法在所有答案一致時(shí)就沒有信號(hào)），所以前沿模型正向科學(xué)或復(fù)雜軟件等更難的領(lǐng)域進(jìn)軍，通過大量試錯(cuò)來提升技能。

最后是人類反饋強(qiáng)化學(xué)習(xí)（RLHF）。這依然是必不可少的“點(diǎn)睛之筆”，用于調(diào)整模型的語氣、風(fēng)格和格式（比如生成易讀的Markdown列表），使其更實(shí)用、更符合人類交互習(xí)慣。雖然RLHF也能提升數(shù)學(xué)表現(xiàn)，但在可驗(yàn)證領(lǐng)域，RLVR是更直接的路徑。簡而言之：中期訓(xùn)練賦予技能，RLVR通過試錯(cuò)深化能力，RLHF負(fù)責(zé)最后的潤色與交互體驗(yàn)。

關(guān)于RLVR（基于驗(yàn)證的強(qiáng)化學(xué)習(xí)）所需的算力消耗，其熱度確實(shí)在持續(xù)攀升。OpenAI的Greg Brockman曾有一句名言，提到他們在預(yù)訓(xùn)練（Pre-training）和后訓(xùn)練（Post-training）階段使用了數(shù)量相近的算力。但回到關(guān)于擴(kuò)展（Scaling）的討論，這兩個(gè)階段涉及非常不同的硬件擴(kuò)展方式。預(yù)訓(xùn)練是受限于計(jì)算能力的（Compute-bound），也就是我們常說的FLOPS（每秒浮點(diǎn)運(yùn)算次數(shù)），即單位時(shí)間內(nèi)能完成多少次矩陣乘法運(yùn)算。

而在強(qiáng)化學(xué)習(xí)（RL）階段，你是在生成答案并在真實(shí)世界環(huán)境中嘗試模型，它最終會(huì)變得更加受限于內(nèi)存（Memory-bound）。因?yàn)槟阍谏砷L序列，而注意力機(jī)制的特性導(dǎo)致內(nèi)存占用會(huì)隨著序列變長呈二次方增長。因此，計(jì)算方式變得非常不同。如果在后訓(xùn)練階段使用FLOPS這個(gè)指標(biāo)，情況會(huì)變得很奇怪，現(xiàn)實(shí)情況更應(yīng)該看你分配了多少GPU小時(shí)。

我認(rèn)為RL的運(yùn)行天數(shù)正在接近預(yù)訓(xùn)練的天數(shù)，但可能沒有同時(shí)使用那么多GPU。預(yù)訓(xùn)練的計(jì)算密度極高，所有GPU都在高效通信；而RL包含各種動(dòng)態(tài)環(huán)節(jié)，生成一個(gè)10萬Token的序列可能需要很長時(shí)間。比如考慮到GPT-5級(jí)別模型的推理可能需要運(yùn)行一個(gè)小時(shí)，如果你有一個(gè)小時(shí)長的訓(xùn)練樣本，必須設(shè)法高效處理它。所以從GPU小時(shí)數(shù)或?qū)嶋H時(shí)長來看，RL的規(guī)模正在趕上，但人們不想像GPT-4那樣把所有雞蛋放在同一個(gè)籃子里進(jìn)行一次性的超大規(guī)模訓(xùn)練，現(xiàn)在的開發(fā)更傾向于漸進(jìn)式。

Sebastian Raschka：RLVR在訓(xùn)練時(shí)長或收益獲取方面更具無限潛力，而RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)）本質(zhì)上是一種偏好微調(diào)，達(dá)到某個(gè)點(diǎn)后，再投入更多資源意義不大。對于同一個(gè)問題，不同人有不同的偏好（比如有人買電腦看重電池，有人看重算力），RLHF試圖找到一種“平均”的風(fēng)格。一旦模型學(xué)會(huì)了這種風(fēng)格，繼續(xù)訓(xùn)練就沒有意義了。而RLVR是讓模型解決越來越復(fù)雜的問題，因此長期來看，將更多預(yù)算分配給RL更為合理。

Nathan Lambert：目前我們正處于RL 1.0階段，即只關(guān)注“問題”和“答案”，沒有處理中間過程。未來的重點(diǎn)將是過程獎(jiǎng)勵(lì)模型（Process Reward Models），即對推理過程中的每一個(gè)中間步驟進(jìn)行評分，這可以稱為RLVR 2.0。Google的相關(guān)論文和DeepSeek Math V2都展示了能夠自我評分的模型，這將是推理擴(kuò)展（Inference Scaling）的重要方向。過去在推理模型出現(xiàn)之前，人們嘗試過過程獎(jiǎng)勵(lì)模型但并未完全證實(shí)其有效性，現(xiàn)在隨著o1等推理模型的出現(xiàn)，人們對價(jià)值函數(shù)（Value Functions）再次感到樂觀。

9、給初學(xué)者進(jìn)入AI開發(fā)與研究領(lǐng)域的建議

Lex Fridman：現(xiàn)在我想稍微偏離一下主題，談?wù)劷逃Ｈ绻牨娛锹斆鞯摹幊毯虯I感興趣的人，想從零開始構(gòu)建一些東西，你建議該怎么做？

Sebastian Raschka：我建議先從頭開始實(shí)現(xiàn)一個(gè)可以在單機(jī)上運(yùn)行的簡單模型。這么做的目的不是為了用它取代ChatGPT或開源權(quán)重模型作為日常助手，而是為了確切了解LLM的輸入輸出以及預(yù)訓(xùn)練的運(yùn)作機(jī)制。在自己的電腦上從零構(gòu)建，能讓你深入理解預(yù)訓(xùn)練、監(jiān)督微調(diào)（SFT）和注意力機(jī)制。

隨著模型規(guī)模擴(kuò)大，復(fù)雜性會(huì)呈指數(shù)級(jí)增長，比如需要考慮參數(shù)分片到多GPU、KV緩存（KV-cache）的各種實(shí)現(xiàn)方式。為了理解原理，你不需要一開始就寫最優(yōu)化的代碼（比如預(yù)分配Tensor），雖然這會(huì)增加代碼量。這本書（指Sebastian的書）的訣竅在于讓你理解LLM是如何工作的，一旦掌握了這些，你就能理解生產(chǎn)級(jí)的LLM。我構(gòu)建的大多數(shù)模型，包括混合專家模型（MoE），目標(biāo)都是能在單張GPU上運(yùn)行。

這幾乎就像RLVR一樣，你可以進(jìn)行自我驗(yàn)證。當(dāng)你從零編寫代碼時(shí)，可以參考Hugging Face的Transformers庫，但我認(rèn)為那里不是學(xué)習(xí)LLM原理的最佳起點(diǎn)。Transformers庫為了兼容成百上千種模型和生產(chǎn)環(huán)境，代碼極其復(fù)雜且交織在一起，閱讀體驗(yàn)不是線性的。我的建議是“逆向工程”：去查看模型倉庫中的配置文件（Config），了解它用了多少層、是分組查詢注意力（GQA）還是多頭注意力。然后嘗試從你的基礎(chǔ)模型（比如GPT-2）開始，把這些組件加進(jìn)去，加載預(yù)訓(xùn)練權(quán)重，看看能否得到相同的輸出。這能作為一種可驗(yàn)證的獎(jiǎng)勵(lì)，確保你的架構(gòu)正確。比如我曾花了一天時(shí)間處理Llama 3，挑戰(zhàn)在于位置嵌入的RoPE和YaRN擴(kuò)展，在這個(gè)掙扎的過程中你會(huì)逐漸真正理解它。

Nathan Lambert：我非常贊同。每一位對當(dāng)今AI領(lǐng)域感興趣的人都應(yīng)該這樣做。我是從強(qiáng)化學(xué)習(xí)和機(jī)器人領(lǐng)域轉(zhuǎn)到語言模型的，我必須花時(shí)間補(bǔ)習(xí)Transformer架構(gòu)這些極其基礎(chǔ)的東西。掌握基礎(chǔ)后，很多人會(huì)感到迷茫，不知道如何產(chǎn)生影響力或找到職業(yè)路徑。因?yàn)锳I語言模型讓基礎(chǔ)知識(shí)變得易于獲取，問題變成了“我該如何獲得參與研究的機(jī)會(huì)？”

對此我相當(dāng)樂觀。這個(gè)領(lǐng)域發(fā)展太快，很多頂尖人才會(huì)轉(zhuǎn)向解決更大、更唾手可得的難題，從而留下許多細(xì)分領(lǐng)域。我的建議是，在掌握基礎(chǔ)后，深入研究一個(gè)細(xì)分領(lǐng)域。比如我最近對“性格訓(xùn)練”產(chǎn)生了濃厚興趣，如何通過調(diào)整數(shù)據(jù)讓模型變得幽默、諷刺或嚴(yán)肅。曾有一位牛津大學(xué)的博士生聯(lián)系我，我對他說這很有趣，現(xiàn)在他已經(jīng)發(fā)布了相關(guān)論文。在這個(gè)充滿噪音的領(lǐng)域，如果你能深耕某個(gè)看似冷門或無人解答的細(xì)分問題（比如閱讀三篇論文并深入理解），你會(huì)發(fā)現(xiàn)很多有趣的東西值得學(xué)習(xí)。

Sebastian Raschka：是的，試圖面面俱到會(huì)讓人精疲力竭。說回你的書（指Nathan正在編寫的RLHF相關(guān)書籍），我認(rèn)為它性價(jià)比極高。如果想學(xué)RLHF，直接讀論文可能會(huì)浪費(fèi)兩年時(shí)間，因?yàn)楹芏嘤^點(diǎn)相互矛盾。

Nathan Lambert：沒錯(cuò)，我剛編輯完那本書。書中的章節(jié)涵蓋了后訓(xùn)練的大局觀：從偏好數(shù)據(jù)、獎(jiǎng)勵(lì)建模、正則化、指令微調(diào)、拒絕采樣到強(qiáng)化學(xué)習(xí)、憲法AI（Constitutional AI）、合成數(shù)據(jù)等。RLHF的核心難點(diǎn)在于“偏好”是多么的雜亂。我們在書中有一章專門討論了為什么RLHF永遠(yuǎn)無法被完全解決，因?yàn)閺母旧现v，它試圖將多維度的偏好（如準(zhǔn)確性與風(fēng)格）壓縮為單一數(shù)值，這涉及經(jīng)濟(jì)學(xué)中的馮·諾依曼-摩根斯坦效用定理和社會(huì)選擇理論。

我認(rèn)為對數(shù)學(xué)感興趣的人會(huì)在這里發(fā)現(xiàn)很多樂趣。比如在第14章，我列出了所有我喜歡的推理模型技術(shù)報(bào)告。現(xiàn)在的語言模型非常擅長數(shù)學(xué)，比如DPO（直接偏好優(yōu)化）這篇著名論文，它的推導(dǎo)過程省略了一些數(shù)學(xué)步驟。我為了寫書嘗試重新推導(dǎo)時(shí)非常痛苦，心想“這個(gè)對數(shù)技巧（log trick）到底是什么鬼？”雖然現(xiàn)在的模型可以直接告訴你答案，但我認(rèn)為經(jīng)歷這種推導(dǎo)的掙扎對學(xué)習(xí)是有好處的。

Lex Fridman：你們都提到了“掙扎”這一點(diǎn)。這非常有價(jià)值，如果學(xué)習(xí)過程中沒有感到掙扎，說明你沒有遵循正確的學(xué)習(xí)流程。

Nathan Lambert：現(xiàn)在一些提供商開始研發(fā)教育專用模型，設(shè)計(jì)初衷就是不直接給出所有信息，而是讓人們?yōu)榇烁冻雠Α＿@就像玩解謎游戲（如塞爾達(dá)傳說）卡關(guān)時(shí)，你只想要一個(gè)提示而不是劇透。你可以對模型說：“我算到這一步卡住了，不要直接給我答案，告訴我下一步該嘗試什么思路。”這需要自律，但也正是培養(yǎng)研究品味和長期眼光的方式。我們需要知道在哪些事情上磨煉，在哪些事情上不必糾結(jié)，這很難判斷，但必須培養(yǎng)這種品味。

我之前可能在和未婚妻或朋友聊這事，感覺就像存在一個(gè)短暫的10年窗口期，期間所有的作業(yè)和考試都實(shí)現(xiàn)了數(shù)字化。但在那之前，每個(gè)人都必須在答題本上完成所有考試，因?yàn)楫?dāng)時(shí)別無他法。而現(xiàn)在有了AI，每個(gè)人似乎又要回歸紙筆考試和口試了，因?yàn)樽鞅鬃兊锰菀住８杏X這短暫的一代人經(jīng)歷了一個(gè)完全不同的教育系統(tǒng)，一切雖已數(shù)字化卻依然能防止作弊，但現(xiàn)在一切又要倒退回去了，這真的很有趣。

Lex Fridman：你剛才提到了角色訓(xùn)練，讓我們放大到更宏觀的話題。就這個(gè)領(lǐng)域而言，需要多少算力支持？總的來說，作為一名研究人員，是否有一些不需要太多算力，且個(gè)人也能真正做出貢獻(xiàn)的領(lǐng)域？

Nathan Lambert：僅就字符訓(xùn)練而言，這項(xiàng)研究通常是基于微調(diào)（fine-tuning）的。比如在7B參數(shù)模型上使用LoRA技術(shù)，本質(zhì)上你只微調(diào)了模型權(quán)重的一個(gè)很小的子集。雖然我不確定具體需要消耗多少GPU小時(shí)，但這種做法是完全可行的。

但這并非對所有學(xué)者都可行。有些學(xué)者的處境非常艱難，唯一能做的就是進(jìn)行推理工作，無論是使用閉源模型還是開放權(quán)重模型。你可以獲取它們的補(bǔ)全結(jié)果，通過觀察這些結(jié)果來進(jìn)行研究和理解模型。這非常適合評估工作。如果你渴望成為那個(gè)最擅長設(shè)計(jì)題目、能展示模型在何處失敗或具備何種能力的人，我認(rèn)為你可以通過這種方式取得突破。

對于從事評估工作的研究人員來說，最高目標(biāo)可能就是去Frontier Labs（前沿實(shí)驗(yàn)室）。你不需要讓每個(gè)項(xiàng)目都達(dá)到那個(gè)高度，但如果你來自一所沒有算力的小型大學(xué)，卻發(fā)現(xiàn)了一些Claude難以處理的問題，而下一代Claude模型在博客文章中專門提到了這點(diǎn)，那就是你職業(yè)生涯的“火箭時(shí)刻”。這很難，但如果你想用最小的算力實(shí)現(xiàn)最大可能的影響力，就需要變得非常專注，并了解模型的發(fā)展方向。比如，構(gòu)建一個(gè)工具來測試Claude 4.5不會(huì)失敗的地方。如果要啟動(dòng)一個(gè)研究項(xiàng)目，我需要思考八個(gè)月后的模型會(huì)在哪些方面遇到困難。

Lex Fridman：但是開發(fā)完全新穎的想法呢？

Nathan Lambert：這是一個(gè)權(quán)衡。如果你在讀博士，你也可以認(rèn)為研究語言模型的風(fēng)險(xiǎn)太大了，從而決定關(guān)注更長遠(yuǎn)的東西，思考什么將在10年后定義語言模型的發(fā)展。

我認(rèn)為我最終成為了一個(gè)相當(dāng)務(wù)實(shí)的人。當(dāng)年我去讀博士時(shí)心想：“我考進(jìn)了Berkeley，最壞的情況也就是拿個(gè)碩士學(xué)位，然后去科技行業(yè)工作。”如今回看，在這些AI公司工作給人們帶來的生活變化是巨大的。比如OpenAI員工的平均薪酬僅股票部分每年就超過100萬美元。在美國，任何普通人只要能進(jìn)入這類AI實(shí)驗(yàn)室，人生都會(huì)發(fā)生翻天覆地的變化。

所以我非常務(wù)實(shí)地認(rèn)為，如果你足夠?qū)Ｗⅲ谡Z言模型領(lǐng)域工作仍然有很大的上升空間，看看這些職位的產(chǎn)出就知道了。但從研究角度來看，如果你的目標(biāo)是獲得學(xué)術(shù)獎(jiǎng)項(xiàng)，想成為下一個(gè)Yann LeCun，那就不應(yīng)該太在意語言模型當(dāng)前的具體發(fā)展，因?yàn)檫@在經(jīng)濟(jì)上是一個(gè)巨大的犧牲。

我有機(jī)會(huì)和一些非常優(yōu)秀的學(xué)生一起工作，他們會(huì)問：“我應(yīng)該去AI實(shí)驗(yàn)室工作嗎？”我會(huì)說：“你正在頂尖學(xué)府攻讀博士學(xué)位，你打算離開去實(shí)驗(yàn)室嗎？”我的反應(yīng)通常是“我不知道”。如果你是去頂尖實(shí)驗(yàn)室工作，我不怪你；別去那些可能歸零的隨機(jī)創(chuàng)業(yè)公司。但如果你是去OpenAI，我覺得那確實(shí)值得為了它放棄博士學(xué)位。

Lex Fridman：讓我們更嚴(yán)謹(jǐn)?shù)厮伎家幌拢銜?huì)建議人們在哪里做出研究貢獻(xiàn)？選項(xiàng)包括：留在學(xué)術(shù)界花五年時(shí)間讀博士發(fā)論文；去那些計(jì)算資源受限但專注于開放權(quán)重模型的研究實(shí)驗(yàn)室；或者是去閉源的前沿實(shí)驗(yàn)室，比如OpenAI、Anthropic、xAI等等。

Nathan Lambert：這兩個(gè)方向的梯度是：環(huán)境越封閉，你往往能拿到的錢越多，但獲得的個(gè)人認(rèn)可越少。作為一名學(xué)者，建立個(gè)人作品集是非常清晰的，你完成了什么一目了然。而去企業(yè)就像達(dá)成了一項(xiàng)合理的交易，你在這個(gè)進(jìn)階過程中成為大機(jī)器中的一顆螺絲釘，但這也可以非常有趣。這是非常不同的職業(yè)路徑。

成為一名研究員的機(jī)會(huì)成本非常高，因?yàn)椴┦可男剿⒑跗湮ⅰＮ艺J(rèn)為這最終會(huì)獎(jiǎng)勵(lì)那些擁有穩(wěn)定安全網(wǎng)的人，他們意識(shí)到自己可以在長期內(nèi)運(yùn)作，想要從事有趣的工作。處于這種位置是相當(dāng)優(yōu)越的，可以說“我要讀完P(guān)hD再去解決之后的事情”。與此同時(shí)，學(xué)術(shù)生態(tài)系統(tǒng)正遭受資金方面的沉重打擊，撥款被削減。這里存在太多的權(quán)衡取舍，我能理解很多人因?yàn)闊o法應(yīng)對資金搜尋的壓力或未來的不確定性，而傾向于選擇那份薪水豐厚且具有重大影響力的工作。在OpenAI并不是拿薪水閑坐，你正在構(gòu)建最前沿的東西，這些東西正在改變數(shù)以百萬計(jì)的人與技術(shù)的關(guān)系。

Lex Fridman：但在論文發(fā)表方面，這些公司變得越來越保守，趨勢日益明顯。所以你發(fā)表的東西越來越少，雖然在大范圍內(nèi)產(chǎn)生積極影響，但你只是機(jī)器上的一個(gè)齒輪。

Sebastian Raschka：老實(shí)說，我覺得情況并沒有改變那么多。我曾在學(xué)術(shù)界工作，當(dāng)時(shí)我與合作者將機(jī)器學(xué)習(xí)方法應(yīng)用于計(jì)算生物學(xué)領(lǐng)域，很多人也是直接從學(xué)術(shù)界去了Google。那時(shí)教授們會(huì)對學(xué)生進(jìn)入工業(yè)界感到難過，因?yàn)閷W(xué)生無法繼承他們的衣缽。現(xiàn)在唯一的區(qū)別在于規(guī)模。以前這是一個(gè)封閉的行業(yè)，你無法談?wù)撍，F(xiàn)在的區(qū)別在于你的偏好：你是喜歡談?wù)撃愕墓ぷ鳌l(fā)表成果，還是更傾向于待在一個(gè)封閉的實(shí)驗(yàn)室里？當(dāng)然還有薪酬的差別。

目前唯一不同的是有了第三種選擇：創(chuàng)辦初創(chuàng)公司。這是非常冒險(xiǎn)的舉動(dòng)，屬于高風(fēng)險(xiǎn)高回報(bào)。而加入工業(yè)界實(shí)驗(yàn)室則相當(dāng)穩(wěn)妥，且有晉升空間，一旦有過這種經(jīng)歷，未來找工作也會(huì)更容易。這取決于你有多享受團(tuán)隊(duì)合作以及開發(fā)專有技術(shù)，相比之下你有多喜歡發(fā)表論文。發(fā)表論文壓力很大，會(huì)議錄用率具有隨機(jī)性，可能讓人沮喪，但如果發(fā)表了，那種署名的成就感是很高的。

Nathan Lambert：我覺得我那些當(dāng)教授的朋友平均來看似乎比在公司工作的朋友更快樂。前沿實(shí)驗(yàn)室絕對在實(shí)行“996”工作制，這基本上就是“一直工作”的代名詞。

10、AI行業(yè)的職場文化

Lex Fridman：你能描述一下996這種文化嗎？

Sebastian Raschka：就是早上9點(diǎn)工作到晚上9點(diǎn)，每周六天，總共72小時(shí)。這種拼命工作的心態(tài)在硅谷AI公司里越來越普遍。

也許不完全是那樣，但確實(shí)有這種趨勢。這很有趣，我覺得情況幾乎反轉(zhuǎn)了。當(dāng)我在學(xué)術(shù)界時(shí)，作為教授必須寫撥款申請、教課、做研究，這簡直是三份工作合而為一，想成功就絕不僅是一份全職工作。相比之下，教授們現(xiàn)在的壓力或工作量甚至可能比前沿實(shí)驗(yàn)室還要小。

我覺得教授們工作非常努力，只是感到非常充實(shí)。通過與學(xué)生一起工作，擁有持續(xù)的導(dǎo)師制路徑和以人為本的使命，在一個(gè)發(fā)展極快且混亂的時(shí)代，這種成就感很重要。而在初創(chuàng)公司，壓力在于必須成功。大家投入時(shí)間確實(shí)非常重要，雖然辛苦，但必須不斷交付成果。我待過初創(chuàng)公司，雖然愉快，但那種節(jié)奏我不確定是否還能再經(jīng)歷一次。正如我們一開始討論的，模型正在互相超越，競爭非常殘酷。

Nathan Lambert：這種互相超越的特性以及多方參與，實(shí)際上是語言建模進(jìn)程中一個(gè)被低估的驅(qū)動(dòng)因素。競爭深深植根于人心，這些公司有意創(chuàng)造了強(qiáng)勢的企業(yè)文化。比如Anthropic以其高度專注和嚴(yán)密組織的文化聞名，大家非常齊心協(xié)力。置身于這種凝聚力極強(qiáng)的競爭態(tài)勢中，絕對會(huì)讓你努力工作并創(chuàng)造出更好的東西。但這以人力資本為代價(jià)，人們肯定會(huì)感到職業(yè)倦怠。我自己也曾深陷其中，尤其是嘗試在擔(dān)任管理者的同時(shí)還要全身心投入模型訓(xùn)練。

Sebastian Raschka：我作為學(xué)者或獨(dú)立工作者時(shí)也會(huì)過度工作，這很不健康，我曾因此有過背部和頸部問題，但這并不是因?yàn)橛腥藦?qiáng)迫我，而是因?yàn)槭虑樘钊伺d奮了。OpenAI和Anthropic的氛圍也是這樣，他們渴望做這些工作。

11、硅谷泡沫

Lex Fridman：是的，但同時(shí)也有一種正在積聚的狂熱感，特別是在硅谷。這種狂熱與“規(guī)模定律”（Scaling Laws）的理念相契合，認(rèn)為世界將在幾周內(nèi)發(fā)生翻天覆地的變化，大家都希望處于變革的中心。我有幸能觀察到各處存在的泡沫和信息繭房。硅谷某種程度上就是一個(gè)回音壁和孤島。這種泡沫實(shí)際上非常有用且有效，因?yàn)樗軒順O高的效率，類似于史蒂夫·喬布斯的“現(xiàn)實(shí)扭曲場”，通過互相說服突破近在咫尺，從而讓突破真的發(fā)生。

Burn Hobart寫過一本對泡沫分類的書，提到一種是金融泡沫（投機(jī)），另一種則是建設(shè)性泡沫。AI正處于建設(shè)性階段，但我擔(dān)心它會(huì)轉(zhuǎn)變?yōu)榻鹑谂菽６胰绻阍谄x現(xiàn)實(shí)的同時(shí)進(jìn)行996工作，可能會(huì)錯(cuò)過人類體驗(yàn)中最基本的方面。這是硅谷的一個(gè)普遍問題，作為一個(gè)特定地理區(qū)域，可能無法理解中西部地區(qū)乃至全世界其他人類的完整體驗(yàn)。這種與現(xiàn)實(shí)脫節(jié)可能會(huì)讓你陷入麻煩。

Lex Fridman：我甚至不太理解，但舊金山的AI圈已經(jīng)演變出了“永久底層階級(jí)”這種梗。其中一個(gè)觀點(diǎn)是，2025年的最后六個(gè)月是建立具有持久價(jià)值的AI初創(chuàng)公司或模型的唯一時(shí)機(jī)，否則所有價(jià)值都將被現(xiàn)有公司攫取，你將因此陷入貧困。

Nathan Lambert：這就是舊金山那種走極端的例子。我仍然認(rèn)為，對于能接觸到資源的年輕人，如果你熱衷于在AI領(lǐng)域產(chǎn)生影響力，舊金山是最可能實(shí)現(xiàn)目標(biāo)的地方，但也有權(quán)衡。

Lex Fridman：舊金山是一個(gè)不可思議的地方，但確實(shí)存在泡沫。進(jìn)入泡沫固然有價(jià)值，但也請記得走出來。去讀讀歷史書、文學(xué)作品，去世界其他地方看看。Twitter和Substack并不是整個(gè)世界。

Nathan Lambert：我的一位同事準(zhǔn)備搬到舊金山，我得送他一本《Season of the Witch》，這是一本講述舊金山1960年到1985年歷史的書。書中詳細(xì)描述了嬉皮士革命、同性戀群體如何接管城市及文化的興起，還有后來的HIV/AIDS危機(jī)。舊金山經(jīng)歷了如此多的動(dòng)蕩和傷痛，同時(shí)也充滿了愛。這感覺就像發(fā)生在不久前，那是一本很棒的書。

12、文本擴(kuò)散模型（Text diffusion models）及其他新研究方向

Lex Fridman：好的，我們談了很多過去一年的事。但在今年，你們提到的一個(gè)令人興奮點(diǎn)是文本擴(kuò)散模型（Text Diffusion Models）的規(guī)模化，以及對文本擴(kuò)散的不同探索。能談?wù)勀鞘鞘裁矗约八N(yùn)含著怎樣的可能性嗎？是與目前的語言模型（LM）不同的方法嗎？

Sebastian Raschka：是的。我們討論了很多關(guān)于Transformer架構(gòu)和自回歸Transformer的內(nèi)容（如GPT）。這并不意味著沒人在研究其他東西，不把雞蛋放在同一個(gè)籃子里總是個(gè)好主意。目前Transformer架構(gòu)是主流且效果最好，但人們正在開發(fā)自回歸Transformer的替代方案，其中之一就是文本擴(kuò)散模型。

聽眾可能通過Stable Diffusion了解了圖像生成中的擴(kuò)散模型。在生成圖像領(lǐng)域，人們曾使用GAN（生成對抗網(wǎng)絡(luò)），后來出現(xiàn)了擴(kuò)散過程，通過隨時(shí)間迭代地對圖像進(jìn)行去噪，產(chǎn)生了高質(zhì)量圖像。現(xiàn)在人們想：“能不能把這種方法用于文本？”

這在直覺上不太好理解，因?yàn)槲谋臼请x散的，不像像素那樣是可微分的連續(xù)事物。這有點(diǎn)類似于Google的BERT模型。在原始Transformer中，有編碼器（Encoder）和解碼器（Decoder）。GPT使用的是解碼器，采用自回歸方式一次生成一個(gè)Token來完成句子。而在BERT（編碼器）中，你有一段帶有缺口（Mask）的文本，通過一次迭代來填補(bǔ)這些缺口。

文本擴(kuò)散與之類似，你從一段隨機(jī)文本開始，通過多次迭代不斷填補(bǔ)和完善缺失部分。最酷的一點(diǎn)是，它可以同時(shí)處理多個(gè)Token，實(shí)現(xiàn)了并行化，從而帶來更高效率的承諾。當(dāng)然權(quán)衡在于質(zhì)量。現(xiàn)在有了“去噪過程”這個(gè)維度，執(zhí)行步驟越多，文本質(zhì)量越好。

目前有一些論文表明，如果想獲得與自回歸模型相同的質(zhì)量，必須增加去噪步數(shù)，最終消耗的算力可能是一樣的。另一個(gè)缺點(diǎn)是，有些任務(wù)如推理或工具調(diào)用并不是并行的，這對于擴(kuò)散模型來說有點(diǎn)棘手。Google提到正在推出Gemini Diffusion并整合到Nano2環(huán)境中，聲稱在大多數(shù)基準(zhǔn)測試中，以相同質(zhì)量可以更快地生成內(nèi)容。我不認(rèn)為文本擴(kuò)散模型會(huì)取代自回歸大語言模型，但它可能用于快速、廉價(jià)且大規(guī)模的任務(wù)。

Nathan Lambert：我覺得有幾個(gè)例子表明它已經(jīng)開始被投入使用了。舉個(gè)例子，GPT-5可能需要30分鐘才能做出響應(yīng)，因?yàn)樗且淮紊梢粋€(gè)Token。而擴(kuò)散思路本質(zhì)上是在一個(gè)批次中生成所有補(bǔ)全內(nèi)容，所以快得多。

我聽說的初創(chuàng)公司，比如做代碼的，有人在進(jìn)行所謂的“氛圍編程”（vibe coding），他們對模型說“做這個(gè)修改”。代碼差異（code diff）本質(zhì)上不需要模型給出包含大量外部上下文的詳盡回復(fù)。通過使用擴(kuò)散模型，可以非常快速地獲取結(jié)果。對于面向用戶的產(chǎn)品，如果使用自回歸模型生成非常長的代碼差異可能需要幾分鐘，這會(huì)導(dǎo)致用戶流失。

所以它會(huì)不斷成長并產(chǎn)生應(yīng)用。但我原以為不同類型的模型會(huì)比現(xiàn)在更早被用于不同場景。目前的阻礙在于“工具調(diào)用”（tool use）。例如ChatGPT在使用Cloud Code時(shí)，自回歸鏈會(huì)被外部工具中斷，我不知道在擴(kuò)散模型設(shè)置下該如何實(shí)現(xiàn)這一點(diǎn)。

13、工具調(diào)用

Lex Fridman：今年以及未來幾年，工具調(diào)用（tool use）的前景如何？你認(rèn)為這方面會(huì)有怎樣的發(fā)展，以及它是如何集成到整個(gè)技術(shù)棧中的？

Sebastian Raschka：我認(rèn)為這方面會(huì)有巨大的發(fā)展。目前主要集中在閉源的專有LLM上，但我認(rèn)為我們會(huì)看到更多開源工具的涌現(xiàn)。這是一個(gè)巨大的突破，因?yàn)檫@意味著你可以將某些單純依靠記憶的任務(wù)外包給工具。這就像如果你要算23加5，不需要讓LLM去死記硬背，直接調(diào)用計(jì)算器即可。

Lex Fridman：你認(rèn)為這能幫助減少幻覺問題嗎？

Sebastian Raschka：不是徹底解決，但能減少。LLM仍然需要判斷何時(shí)調(diào)用工具。但這并不意味著互聯(lián)網(wǎng)上的信息總是正確的。比如我問誰贏得了1998年世界杯，模型仍然需要找到正確的網(wǎng)站并獲取正確的信息。如果訪問了錯(cuò)誤的網(wǎng)站，依然會(huì)給出錯(cuò)誤信息。所以它不會(huì)完全解決那個(gè)問題，但確實(shí)有所改進(jìn)。

今年早些時(shí)候，或者說是去年年底，有一篇關(guān)于遞歸語言模型（recursive language model）的論文提出了很有趣的觀點(diǎn)。正如Nathan剛才提到的，學(xué)術(shù)界受限于算力預(yù)算，做前沿研究很難。那篇論文的作者甚至沒有使用本地模型，而是全部用GPT-5（注：此處可能指代當(dāng)時(shí)的SOTA模型如GPT-4等）完成的。其核心理念是：對于非長上下文任務(wù)，與其讓LLM試圖一站式解決所有問題，不如將其分解為子任務(wù)。由LLM決定什么是合適的子任務(wù)，然后遞歸地調(diào)用自身來解決。這種方式配合工具調(diào)用，比如在一個(gè)龐大的問答任務(wù)中，針對每個(gè)子問題去網(wǎng)上搜集信息，最后再匯總縫合。這種在不改變LLM本身的情況下改進(jìn)其使用方式和資源調(diào)用能力的模式，會(huì)帶來很多突破。

目前工具調(diào)用的一個(gè)缺點(diǎn)是必須賦予LLM權(quán)限，這需要極大的信任。如果要解鎖讓LLM回復(fù)郵件，或者僅僅是分類篩選郵件的功能，這都伴隨著巨大的風(fēng)險(xiǎn)。我不知道今天我是否敢給LLM訪問我郵件的權(quán)限。

Nathan Lambert：關(guān)于工具調(diào)用還有一點(diǎn)很有趣，那就是開源模型與閉源模型在使用工具的方式上截然不同。對于開源模型，用戶從Hugging Face下載模型后，會(huì)根據(jù)自己的偏好選擇工具，比如有人喜歡Xa作為搜索提供商，有人喜歡另一家初創(chuàng)公司。這就要求發(fā)布模型時(shí)，必須將其打造為通用的推理引擎，使其能適應(yīng)多種工具和用例，這正是GPT-OSS擅長的地方。

相比之下，閉源模型是將特定的工具深度集成到體驗(yàn)中。我很難用閉源模型復(fù)制一些我喜歡的操作，比如嘗試通過提示詞讓模型像使用Codex那樣直接更新我的GitHub倉庫。那種安全的云環(huán)境非常適合將任務(wù)發(fā)送出去執(zhí)行并返回結(jié)果。最初因?yàn)榇蠹壹庇趯?shí)現(xiàn)工具調(diào)用功能，導(dǎo)致開源模型處于劣勢，這在某種程度上是不可避免的。前沿實(shí)驗(yàn)室擁有海量資源，但當(dāng)開源模型解決這個(gè)問題時(shí)，情況會(huì)變得很有趣，因?yàn)檫@將需要一種更靈活的模型來配合這種遞歸模式工作，充當(dāng)編排器和工具調(diào)用者的角色。

14、持續(xù)學(xué)習(xí)

Lex Fridman：持續(xù)學(xué)習(xí)（continual learning）是一個(gè)長期存在的課題，隨著模型訓(xùn)練成本的上升，其重要性也在增加。你能解釋一下什么是持續(xù)學(xué)習(xí)，以及在未來幾年中，它對于技術(shù)進(jìn)步有多重要嗎？

Nathan Lambert：這很大程度上與舊金山關(guān)于AGI（通用人工智能）和ASI（人工超智能）的時(shí)代精神有關(guān)。現(xiàn)在的語言模型雖然能解決很多任務(wù)，但在AI社區(qū)看來，關(guān)鍵的里程碑是AI能夠像遠(yuǎn)程員工一樣，接收信息、執(zhí)行數(shù)字化任務(wù)。目前的局限性在于，語言模型無法像員工那樣從反饋中學(xué)習(xí)。如果你雇傭一名編輯，他犯錯(cuò)后你會(huì)指正，優(yōu)秀的編輯不會(huì)再犯同樣的錯(cuò)誤。但語言模型不具備這種自我修正和快速學(xué)習(xí)的能力。如果我們想實(shí)現(xiàn)真正的、通用的、適應(yīng)性強(qiáng)的智能，它必須能夠從反饋和在職學(xué)習(xí)中快速提升。

我個(gè)人更看好通過提供極佳的Context（上下文）來解決問題。你可以向模型提供海量文檔，告訴它這是你所有的博客文章、寫作風(fēng)格和語調(diào)。雖然以前的模型不支持這么大的上下文，但現(xiàn)在智能體模型（agentic models）才剛剛起步。這就帶來了一個(gè)權(quán)衡：我們是否真的需要通過持續(xù)學(xué)習(xí)來更新模型的權(quán)重？還是只需要提供更多的上下文信息，讓它們憑借高智能和豐富的信息表現(xiàn)出類似快速學(xué)習(xí)的效果？

Sebastian Raschka：我們需要厘清這里的術(shù)語。持續(xù)學(xué)習(xí)（continual learning）是指持續(xù)、快速且頻繁地改變權(quán)重，以便模型能夠根據(jù)新傳入的信息進(jìn)行適配。而另一面通常被稱為上下文學(xué)習(xí)（in-context learning），即利用巨大的上下文窗口，每次提示系統(tǒng)時(shí)不斷加載額外信息。這兩者都可以被視為學(xué)習(xí)，只是發(fā)生的場所不同。

老實(shí)說，我認(rèn)為不同形式的持續(xù)學(xué)習(xí)（即權(quán)重更新）已經(jīng)存在了。如果是指全球范圍內(nèi)的模型更新，比如從GPT-5演進(jìn)到5.1、5.2，這本質(zhì)上就是一種包含反饋（針對失敗任務(wù)或社區(qū)反饋）的精選更新。更細(xì)粒度的例子像RLVR，運(yùn)行后會(huì)更新。

真正的問題在于個(gè)性化定制。為每個(gè)人更新權(quán)重的成本太高了，即使以O(shè)penAI的規(guī)模也無法負(fù)擔(dān)這種數(shù)據(jù)中心級(jí)別的開銷。我認(rèn)為只有當(dāng)這種運(yùn)算在設(shè)備端運(yùn)行且成本由消費(fèi)者承擔(dān)時(shí)才可行，就像Apple嘗試將基礎(chǔ)模型放在手機(jī)上并從經(jīng)驗(yàn)中學(xué)習(xí)那樣。

Lex Fridman：這引出了另一個(gè)相關(guān)話題——“記憶”，這可能是一個(gè)擬人化的術(shù)語。隨著系統(tǒng)閱歷的增加，關(guān)于如何為這些系統(tǒng)增加記憶機(jī)制，尤其是個(gè)性化記憶，有哪些不同的想法？

Sebastian Raschka：目前主流的做法還是“上下文填充”，即把東西塞進(jìn)上下文里然后通過檢索召回。但這非常昂貴，因?yàn)樾枰腡oken，且能力有限。這更多像是一種風(fēng)格偏好，比如告訴模型“按照我上次喜歡的去做”，但并不能解鎖新能力。

另一種方法是使用LoRA適配器。這種方式不更新整個(gè)權(quán)重矩陣，而是并行或疊加兩個(gè)較小的權(quán)重矩陣。但這歸根結(jié)底是經(jīng)濟(jì)學(xué)問題。有論文指出，LoRA學(xué)到的東西較少，但遺忘的也較少。天下沒有免費(fèi)的午餐，如果你想學(xué)得更多，就需要?jiǎng)佑酶鄼?quán)重，成本也會(huì)隨之升高。而且學(xué)得越多，遺忘的也越多，必須找到那個(gè)適中的平衡點(diǎn)。

15、長上下文

Lex Fridman：雖然我們沒明說，但討論中隱含了上下文長度（context length）這一因素。這方面是否還有很多創(chuàng)新的空間？

Nathan Lambert：目前的共識(shí)是這主要取決于算力和數(shù)據(jù)。架構(gòu)上的一些微調(diào)，比如混合注意力模型（hybrid attention models），本質(zhì)上是在Transformer中加入類似狀態(tài)空間模型（SSM）的結(jié)構(gòu)，在建模時(shí)消耗的算力更少。但這也需要大量算力和正確的數(shù)據(jù)支持。世界上并沒有那么多高質(zhì)量的10萬Token序列數(shù)據(jù)。

我認(rèn)為擴(kuò)展規(guī)模最終會(huì)變得非常昂貴。雖然我們已經(jīng)很快達(dá)到了100萬Token的水平，預(yù)計(jì)今年可能會(huì)達(dá)到200萬或500萬，但我不認(rèn)為會(huì)很快達(dá)到1億級(jí)別，那將是真正的突破。遞歸語言模型那篇論文就是試圖解決長上下文問題的嘗試之一。與其將所有內(nèi)容塞進(jìn)長上下文，不如將其分解為多個(gè)更小的任務(wù)，這樣不僅節(jié)省內(nèi)存，甚至能獲得比一次性處理更高的準(zhǔn)確率。

關(guān)于預(yù)訓(xùn)練有一些經(jīng)驗(yàn)法則。以O(shè)LMo為例，我們在大約8K的上下文長度下預(yù)訓(xùn)練，然后擴(kuò)展到32K。通常當(dāng)你將訓(xùn)練上下文長度翻倍時(shí)，會(huì)消耗大約2倍的算力。這在很大程度上受限于預(yù)訓(xùn)練階段的算力瓶頸。

但在后訓(xùn)練（post-training）方面，隨著智能體（agents）的發(fā)展，情況會(huì)更有趣。智能體將自行管理上下文。現(xiàn)在很多用Claude寫代碼的人擔(dān)心“壓縮”（compaction）問題，即模型將10萬Token的內(nèi)容壓縮成要點(diǎn)列表會(huì)丟失細(xì)節(jié)。但我確信下一代模型將能夠控制何時(shí)以及如何進(jìn)行壓縮。你可以訓(xùn)練RL算法，將壓縮視為一種動(dòng)作，目標(biāo)是在將歷史記錄壓縮到最短的同時(shí)，保持最高的任務(wù)評估分?jǐn)?shù)。這意味著模型學(xué)會(huì)了以一種不同于以往只會(huì)“一路向前”的方式來利用上下文。

Sebastian Raschka：最近DeepSeek V3（或類似版本）采用的稀疏注意力機(jī)制（sparse attention mechanism）也是一個(gè)有趣的例子。它擁有高效輕量的索引器，不再關(guān)注所有Token，而是只選擇需要的Token。這幾乎回到了Attention最初的理念——具有選擇性，甚至直接掩蓋掉不需要處理的部分。OLMo的滑動(dòng)窗口注意力也是這類思路。

如果使用全部信息，確實(shí)最安全且性價(jià)比最高，因?yàn)椴粫?huì)遺漏信息。但今年將是探索如何變得更“聰明”的一年。大家先通過暴力計(jì)算堆出SOTA（最先進(jìn)水平），一旦達(dá)到那個(gè)準(zhǔn)確度，就開始研究如何通過技巧以更低的成本實(shí)現(xiàn)它。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.