網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“推理模型還處于RNN的階段”——李建忠對(duì)話GPT-5與Transformer發(fā)明者Lukasz Kaiser實(shí)錄

2025-10-10 18:26:01　來源: AI科技大本營(yíng)

北京舉報(bào)

分享至

對(duì)話嘉賓 | 李建忠、Lukasz Kaiser

出品 | CSDN（ID：CSDNnews）

今年開年之際，DeepSeek R1 配合前年年末 OpenAI o1 轟炸了整個(gè) AI 圈子，隨后強(qiáng)化學(xué)習(xí)之父 Rich Sutton 榮獲圖靈獎(jiǎng)，又是用一篇論文向大家宣告了強(qiáng)化學(xué)習(xí)、經(jīng)驗(yàn)時(shí)代這些詞匯將成為 2025 的主題，我們可能都難免這么覺得：推理模型的時(shí)代已經(jīng)來了！

但接下來的一個(gè)觀點(diǎn)卻刷新了我的認(rèn)知：Transformer 核心發(fā)明者之一、OpenAI 科學(xué)家 Lukasz Kaiser 就直言，目前的推理模型還處在當(dāng)年 GPT 都沒出來的機(jī)器學(xué)習(xí)階段，未來還需要一個(gè) Transformer 創(chuàng)新級(jí)別的推理模型。

而近期，這位定義了大模型核心架構(gòu)的關(guān)鍵人物，就與奇點(diǎn)智能研究院院長(zhǎng)、CSDN 高級(jí)副總裁李建忠一道，在 CSDN 的《AI 進(jìn)化論》欄目中展開了一場(chǎng)關(guān)于 “大模型的第一性思考” 的深度對(duì)話。

Lukasz Kaiser 是 AI 領(lǐng)域最具影響力的科學(xué)家之一，2017 年他與其他七位谷歌同事（后稱“Transformer 八子”）共同撰寫了那篇開創(chuàng)性的論文《Attention Is All You Need》，歷史性地提出了 Transformer 架構(gòu)，奠定了今天大語言模型的核心基石。后來他加盟 OpenAI ，深度主導(dǎo)了 GPT-5、GPT-4、以及代號(hào)為 “o1”和“o3”的推理模型方面的研究工作。作為改變世界的 AI 研究者，他的工作直接定義了我們今天所熟知的大語言模型技術(shù)。正因如此，他對(duì)于大模型的技術(shù)架構(gòu)、Scaling Law 的邊界，以及通往 AGI 的新范式——推理模型，有著旁人無法企及的深刻理解。

面對(duì)這樣一位技術(shù)前沿的引領(lǐng)者，李建忠?guī)е鴮?duì)模型架構(gòu)、Agent、Scaling Law 及未來范式的深度洞察與思考，提出了尖銳而富有洞見的問題。兩人的交流既是技術(shù)細(xì)節(jié)的剖析，也是對(duì)未來發(fā)展方向的大膽推演。

以下是這場(chǎng)對(duì)談的十個(gè)最重要的話題：

對(duì)話一：語言對(duì)于智能到底意味著什么？
對(duì)話二：多模態(tài)與世界模型的挑戰(zhàn)
對(duì)話三：AI 編程：自然語言是終極目標(biāo)，還是新的“巴別塔”？
對(duì)話四：Agent 的泛化困境：是方法問題，還是根本限制？
對(duì)話五：算力與算法：Scaling Law 是信仰還是路徑依賴？
對(duì)話六：具身智能的挑戰(zhàn)：是數(shù)據(jù)問題？還是比特和原子的根本性差異？
對(duì)話七：強(qiáng)化學(xué)習(xí)：是超級(jí)優(yōu)化器，還是科學(xué)發(fā)現(xiàn)的引擎？
對(duì)話八：AI 的組織躍遷：如何實(shí)現(xiàn)大規(guī)模 Agent 協(xié)作？
對(duì)話九：AI 記憶的瓶頸：模型離真正的“原生記憶”還有多遠(yuǎn)？
對(duì)話十：大模型如何擺脫瞬時(shí)學(xué)習(xí)，而像人類一樣持續(xù)學(xué)習(xí)？

在 AI 發(fā)展的這個(gè)關(guān)鍵時(shí)刻，相信這場(chǎng)對(duì)話中對(duì)前沿問題的深度思辨，將為我們理解 AI 的下一個(gè)發(fā)展階段提供重要的參考和啟示。

對(duì)話一 | 語言對(duì)于智能到底意味著什么？

李建忠：我想首先談?wù)務(wù)Z言和視覺在 AI 中扮演的角色。業(yè)界有一些觀點(diǎn)，以楊立昆（Yann LeCun）等人為代表，認(rèn)為靠語言模型通往 AGI 是一條死路。其理由是，語言是對(duì)物理世界的一種低帶寬、有損的描述。AI 必須從視覺等高帶寬的數(shù)據(jù)中學(xué)習(xí)。但是如果我們回顧 AI 的發(fā)展歷史，在大語言模型出現(xiàn)之前，神經(jīng)網(wǎng)絡(luò)在視覺領(lǐng)域已經(jīng)有了大量應(yīng)用，但那時(shí) AI 的智能水平相當(dāng)?shù)汀Ｖ钡?ChatGPT 這樣的大語言模型橫空出世，AI 的智能才真正開始騰飛。你如何看語言和視覺在構(gòu)建智能過程中的作用？

Lukasz Kaiser：我認(rèn)為，從時(shí)間的維度去理解語言是非常有用的。有一個(gè)著名的說法，雖然我從未核實(shí)過其真實(shí)性：有一種在大海里游弋的動(dòng)物（海鞘），它擁有大腦。但當(dāng)它在某塊巖石上定居后，就再也不會(huì)移動(dòng)了。此時(shí)，它做的第一件事就是吃掉自己的大腦，因?yàn)榇竽X對(duì)一個(gè)不再行動(dòng)的生物來說已經(jīng)失去了作用。這個(gè)故事說明，如果你不采取行動(dòng)，智能其實(shí)沒什么用。

我們過去所說的視覺模型大多是靜態(tài)的，例如回答“這張圖片里有貓嗎？”這類問題。那時(shí)根本沒有真正的視頻模型。因此我相信，在時(shí)間維度中的存在——這可能意味著采取行動(dòng)，即便只是解釋隨時(shí)間發(fā)生的變化——對(duì)智能來說都至關(guān)重要。語言顯然具備時(shí)間維度，它總是在生成下一個(gè)詞，再下一個(gè)詞，不斷延續(xù)。

我們現(xiàn)在稱之為的語言模型，在開發(fā) Transformer 時(shí)，被稱為序列模型（sequence models）。處理什么序列并不重要，即使現(xiàn)在，它也可以處理“蛋白質(zhì)序列”或“音頻序列”。因此，時(shí)間序列是表達(dá)智能的一個(gè)重要組成部分。

李建忠：我個(gè)人傾向于認(rèn)為，語言經(jīng)過了人類的編碼和壓縮，它在智能的表征上要比視覺更高效一些，而即便有時(shí)間序列的視頻，對(duì)智能的表征也往往要低于語言。尤瓦爾·赫拉利在他的著作《人類簡(jiǎn)史》中提出，人類和動(dòng)物最大的區(qū)別在于我們能用語言描述這個(gè)世界上不存在的事物。著名哲學(xué)家維特根斯坦也有一句名言：“語言的邊界，就是世界的邊界。”我之前曾表達(dá)過一個(gè)觀點(diǎn)，回看過去十年，AI 領(lǐng)域的里程碑發(fā)展得益于我們終于認(rèn)識(shí)到語言在智能中的核心作用，ChatGPT 的成功源于此，Transformer 的成功也源于此。

Lukasz Kaiser：我也相信語言是賦予智能一種特殊力量的關(guān)鍵。雖然許多沒有語言的動(dòng)物也擁有一定程度的智能，智能也可以在沒有語言的情況下發(fā)展。另外從技術(shù)上講，訓(xùn)練語言實(shí)在非常方便。我們?cè)诨ヂ?lián)網(wǎng)上有海量的語言數(shù)據(jù)，用語言進(jìn)行訓(xùn)練遠(yuǎn)比用視頻便宜。這些優(yōu)勢(shì)有一些是實(shí)踐層面。未來，要獲得更卓越的智能模型，我們還要繼續(xù)基于視頻和音頻進(jìn)行訓(xùn)練。這在技術(shù)上會(huì)與純語言模型有所不同，但另一方面，序列處理和注意力機(jī)制在處理這類數(shù)據(jù)時(shí)同樣適用。

李建忠：一些人認(rèn)為當(dāng)前的大語言模型只是“鸚鵡學(xué)舌”，他們認(rèn)為模型并沒有真正理解它們所學(xué)習(xí)和生成的文本。但如果我們仔細(xì)觀察大模型的學(xué)習(xí)機(jī)制，它們與人類的學(xué)習(xí)過程非常相似。例如，Anthropic 在三月份的一篇論文中展示了，當(dāng)模型在語言上進(jìn)行訓(xùn)練時(shí)，它會(huì)在內(nèi)部形成“抽象概念”。論文談到一個(gè)模型如何學(xué)習(xí)多種不同語言中的詞時(shí)，例如“蘋果”，它在神經(jīng)網(wǎng)絡(luò)內(nèi)部創(chuàng)建了一個(gè)獨(dú)立的、不與任何一種語言綁定的“蘋果的抽象概念”。而在訓(xùn)練過程中，模型從未被明確地灌輸過一個(gè)“蘋果的抽象概念”。這似乎與人類在學(xué)習(xí)語言時(shí)，在大腦中構(gòu)建一個(gè)復(fù)雜的抽象概念體系的過程非常相似。

Lukasz Kaiser：我們現(xiàn)在可以從實(shí)踐上證明，語言模型確實(shí)會(huì)形成概念，尤其是現(xiàn)在模型都在并行地用多種語言進(jìn)行訓(xùn)練，這一點(diǎn)很容易觀察到。你可以給模型一個(gè)數(shù)學(xué)問題，然后用五種不同的語言重新表述它。盡管模型是逐個(gè) token 生成答案的，不同語言的 token 會(huì)截然不同，沒有任何共同之處，但答案基本上是相同的。如果模型在英語中犯了一個(gè)錯(cuò)誤，它在中文里也會(huì)犯同樣的錯(cuò)誤。如果模型采用某種解題方式，那么另一個(gè)語言的答案基本上就是前一個(gè)答案的翻譯。

這清晰地表明，在網(wǎng)絡(luò)的激活狀態(tài)中的某個(gè)地方，模型正在一個(gè)非常抽象的空間里解決問題、思考概念，然后在上層網(wǎng)絡(luò)中用某種語言把它表達(dá)出來。從這個(gè)意義上說，模型中顯然存在獨(dú)立于語言的抽象概念，并且已經(jīng)有人對(duì)此進(jìn)行了研究。你甚至可以看到對(duì)應(yīng)特定主題或行為的概念。

但我們也要記住，至少對(duì)于那些沒有經(jīng)過大量多模態(tài)數(shù)據(jù)訓(xùn)練的模型來說，它們可能沒有與我們?nèi)祟惛拍钕嗨频摹?duì)應(yīng)某些物理實(shí)體的概念。比如我們所相信的“痛苦”（pain）或“愛”（love）等概念。模型知道這些詞，它可以給你講述優(yōu)美的故事，但這與我們植根于物理世界真實(shí)感受的概念有所不同。

所以，模型確實(shí)有概念，但我們也應(yīng)該理解，至少其中一些概念可能和我們?nèi)祟惖母拍畈煌ｋm然從模型使用的詞語來看，它們是相似的，因?yàn)檫@些詞來自我們的語言和互聯(lián)網(wǎng)，但這并不意味著它們的內(nèi)涵完全相同。在很多領(lǐng)域，比如數(shù)學(xué)，這種差異可能無關(guān)緊要。因?yàn)閿?shù)學(xué)對(duì)我們來說也是非常抽象的，我們主要通過符號(hào)和圖片來學(xué)習(xí)，模型也一樣。但在那些與身體和物理世界緊密相關(guān)的事情上，情況有些不同。我們可能會(huì)被模型的言辭所迷惑，因?yàn)樗褂昧撕臀覀円粯拥脑~語，但其內(nèi)涵并不完全一樣。

對(duì)話二 | 多模態(tài)與世界模型的挑戰(zhàn)

李建忠：現(xiàn)在多模態(tài)發(fā)展得非常快，業(yè)界有一種趨勢(shì)是追求一個(gè)“統(tǒng)一模型、統(tǒng)一模態(tài)”——使用一個(gè)通用的架構(gòu)，來處理所有模態(tài)和任務(wù)。但不同的模態(tài)似乎適配不同的模型，例如，語言適用自回歸模型，而視覺則適用擴(kuò)散模型。我注意到你們“Transformer 八子“在 2017 年 6 月發(fā)表《Attention Is All You Need》的同月，你們其中七位作者也發(fā)表過一篇論文《One Model to Learn Them All》。八年后的今天，你如何看待“統(tǒng)一模態(tài)”和“統(tǒng)一模型”之間的關(guān)系？這里最大的挑戰(zhàn)是什么？

Lukasz Kaiser：從實(shí)踐層面來看，像 GPT-4 這樣的現(xiàn)代大語言模型已經(jīng)是多模態(tài)模型了。它們能接收?qǐng)D像和音頻輸入，也能生成圖像和音頻。從某種意義上說，我本可以說我們已經(jīng)解決了這個(gè)問題。但我也承認(rèn)，模態(tài)之間的遷移水平還不盡如人意。

當(dāng)模型足夠大，數(shù)據(jù)足夠多時(shí)，它們能設(shè)法完成多模態(tài)任務(wù)。你可以在 ChatGPT 中啟用語音模式，它會(huì)和你對(duì)話，在需要的時(shí)候，也會(huì)把語音轉(zhuǎn)錄成文字，進(jìn)行思考并回答，甚至還能唱歌。所以從實(shí)踐角度看，這個(gè)問題已經(jīng)取得了巨大的進(jìn)展。

但我承認(rèn)，當(dāng)你仔細(xì)觀察視頻時(shí)，會(huì)發(fā)現(xiàn)一些不完全令人滿意的地方。當(dāng)前語言模型處理多模態(tài)的方式通常是通過 VQ-VAE。圖像或音頻的每個(gè)部分，都會(huì)通過一個(gè)編碼器得到一個(gè)特殊的代碼。這個(gè)編碼器通常是預(yù)訓(xùn)練好并且固定的，有時(shí)也可能和大語言模型一起訓(xùn)練，但其訓(xùn)練量通常不大，并且有一個(gè)固定的頻率。對(duì)于音頻，可能是每幾秒對(duì)應(yīng)一個(gè)符號(hào)；對(duì)于圖像，則是每多少像素對(duì)應(yīng)一個(gè)符號(hào)。這個(gè)方法算是有效，我們成功地讓它運(yùn)作起來了。但它給人的感覺不那么令人滿意，因?yàn)槲覀兊难劬Σ幌袷且粋€(gè)具有固定分辨率的傳感器。當(dāng)然，從某種意義上說它有，但我可以四處移動(dòng)眼睛來動(dòng)態(tài)獲取信息。

所以，我認(rèn)為我們可以將多模態(tài)更深入地融合到模型中。這需要我們目前使用的 VQ-VAE 代碼變得更具可訓(xùn)練性，并且能與語言進(jìn)行更多的交互。這方面有很棒的研究正在進(jìn)行中，隨著人們?cè)絹碓搅?xí)慣于模型處理多模態(tài)任務(wù)，將會(huì)推動(dòng)將這些研究深入整合到大語言模型中。

李建忠：我不清楚為什么很多視覺派的研究者經(jīng)常否定語言的重要性。確實(shí)如你所說，與語言進(jìn)行交互對(duì)于多模態(tài)非常重要。離開語言，視覺似乎只是一些像素信號(hào)。要對(duì)視覺中的每一個(gè)對(duì)象賦予語義含義，語言功不可沒。我個(gè)人認(rèn)為有些視覺派如果繼續(xù)否定語言在智能中的價(jià)值，可能會(huì)再次跌入 2022 年 ChatGPT 發(fā)布之前的錯(cuò)誤路線。那時(shí)候也是視覺派大行其道的時(shí)候，但是識(shí)別能力在智能中是一個(gè)非常低階的能力，真要的認(rèn)知和理解，似乎離不開語言。

下面讓我們來談?wù)勈澜缒Ｐ汀０盍⒗ィ╕ann LeCun）、李飛飛在內(nèi)的一部分學(xué)者認(rèn)為，靠大語言模型無法實(shí)現(xiàn)通用人工智能（AGI），因?yàn)樗麄兿嘈攀澜缒Ｐ筒攀?AGI 的核心，他們認(rèn)為 AI 必須首先通過觀察世界來學(xué)習(xí)物理世界的規(guī)則，然后才能真正進(jìn)行推理。但是，我非常懷疑 AI 僅通過觀察世界就能理解物理世界的所有法則嗎？

Lukasz Kaiser：我相信現(xiàn)代大語言模型在某種程度上就是世界模型。問題在于，它們是足夠好的世界模型嗎？要回答這個(gè)問題，我們需要問自己，它們應(yīng)該描述世界的哪些方面？

我認(rèn)為，如果談到文本和數(shù)學(xué)等方面，它們是令人驚嘆的模型。如果你問“下一個(gè)詞是什么？”，它們幾乎是無與倫比的絕佳的語言模型，可以準(zhǔn)確地告訴你，在互聯(lián)網(wǎng)上人們通常在這句話之后會(huì)說什么。但它們作為物理模型的表現(xiàn)，就不如它們作為語言模型那么出色了。這背后有幾個(gè)原因。

首先，正如我們所說，它們沒有在足夠多的視頻數(shù)據(jù)上進(jìn)行訓(xùn)練。其次，我們電腦中常用的視頻數(shù)據(jù)格式，與我們體驗(yàn)世界的方式非常不同，因?yàn)槲覀冞€會(huì)采取行動(dòng)、移動(dòng)我們的眼睛。我們的體驗(yàn)絕不像純粹的圖像在眼前播放，或許在嬰兒早期是這樣，但很快就消失了。所以，無論是數(shù)據(jù)的數(shù)量還是質(zhì)量都還不夠好。而且，就像我之前說的，我認(rèn)為目前的架構(gòu)也還不足以勝任這一點(diǎn)，盡管大語言模型的多模態(tài)能力一直在穩(wěn)步提升，而且我認(rèn)為會(huì)持續(xù)提升。

所以我認(rèn)為，通過架構(gòu)和損失函數(shù)的改進(jìn)，加上更好、更多的數(shù)據(jù)，將有助于彌合人們所認(rèn)為的“世界模型”與“語言模型”之間的差距。另外，像 Sora、Genie 和 Veo 這樣的模型表明，如果你從視頻中學(xué)習(xí)，即使使用當(dāng)前的方法，也可以非常接近一個(gè)世界模型。或許還沒有完全達(dá)到，而且在數(shù)據(jù)效率上，學(xué)習(xí)過程肯定還不如人類，但我們正在彌合差距方面取得重大進(jìn)展。

李建忠：我個(gè)人的感覺是，真正的世界模型需要融合語言模型和其他模態(tài)，以及基于語言的推理。單純靠觀察世界無法形成智能，就像在 16-17 世紀(jì)科學(xué)革命之前，人們通過觀察世界可能得到的是“地球是宇宙的中心”這樣錯(cuò)誤的概念。而現(xiàn)在每一個(gè)受到過教育的孩子都知道，在銀河系太陽(yáng)是中心。這顯然不是通過簡(jiǎn)單觀察世界就能得出來的，而是通過源于文字的訓(xùn)練得到的。

對(duì)話三 | AI 編程：自然語言是終極目標(biāo)，還是新的“巴別塔”？

李建忠：讓我們來聊聊編程。AI 編程似乎已經(jīng)成為大語言模型的一個(gè)殺手級(jí)應(yīng)用。當(dāng)你們創(chuàng)造 Transformer 架構(gòu)時(shí)，有沒有想過它不僅能處理人類語言，還能如此出色地處理編程語言？

Lukasz Kaiser：當(dāng)然，Transformer 的共同發(fā)明人 Ilia Polosukhin，甚至在《Attention Is All You Need》論文發(fā)表前就離開了谷歌，創(chuàng)辦了一家致力于自動(dòng)化編程的公司。我差點(diǎn)成了那家公司的聯(lián)合創(chuàng)始人，但我當(dāng)時(shí)認(rèn)為時(shí)機(jī)還有點(diǎn)太早。后來，這家公司成功地轉(zhuǎn)型到了加密貨幣領(lǐng)域，但它未來可能會(huì)再重回自動(dòng)化編程領(lǐng)域。所以，這確實(shí)是在我們?cè)O(shè)想之內(nèi)的。相比于預(yù)見到這么快就出現(xiàn)像 ChatGPT 這樣的產(chǎn)品，我們當(dāng)時(shí)可能更相信自動(dòng)化編程的可行性，因?yàn)楦杏X它比處理任意的對(duì)話要更容易。但事實(shí)證明，它們本質(zhì)上是同一件事。

李建忠：關(guān)于 AI 編程的未來，當(dāng)前主要有兩種觀點(diǎn)。第一種是“AI 原生”（AI Native）模式，認(rèn)為未來高級(jí)編程語言會(huì)變得像匯編語言一樣——仍然存在，但隱藏在幕后。所有的軟件開發(fā)都將通過自然語言完成，通過像氛圍編程（Vibe Coding）這樣的方式。第二種觀點(diǎn)是“AI 副駕駛”（AI Copilot）模式，認(rèn)為自然語言的模糊性與馮·諾依曼機(jī)器所要求的精確性之間存在根本沖突。因此，程序員仍然需要使用高級(jí)語言來表達(dá)他們的核心思想，自然語言只是作為一種補(bǔ)充。你如何看待這兩種觀點(diǎn)？

Lukasz Kaiser：如果你展望幾年后的未來，我認(rèn)為語言模型將能夠覆蓋大量的編程工作。我肯定更愿意直接和我的 Codex Agent 或類似的東西對(duì)話，然后說：“你運(yùn)行這個(gè)了嗎？它看起來怎么樣？”

但另一方面，在某個(gè)時(shí)刻，這個(gè) Agent 需要向你解釋為什么某個(gè)東西運(yùn)行緩慢，因?yàn)樗枰f明計(jì)算機(jī)網(wǎng)絡(luò)是如何工作的。為了解釋這類事物和概念，數(shù)學(xué)家用數(shù)學(xué)來解釋，程序員用更高級(jí)的語言。我們可能會(huì)使用一些混合的方式，比如數(shù)學(xué)和算法，而物理學(xué)家可能會(huì)畫圖或用其他方式來解釋。我認(rèn)為學(xué)習(xí)數(shù)學(xué)和編程都是非常有用的。如果你試圖用純自然語言來解釋數(shù)學(xué)，不帶任何符號(hào)，那實(shí)際上會(huì)困難得多。符號(hào)有助于人們解釋和理解正在發(fā)生的事情。我認(rèn)為這在某種程度上也適用于編程語言，它們是比純自然語言更好的溝通工具。

當(dāng)然，如果你不懂這些，我相信模型會(huì)很好地用自然語言為你解釋。但如果你想成為一名專業(yè)的程序員，即使在未來，你最好還是了解這些概念并熟練掌握它們，因?yàn)檫@會(huì)讓你與模型的溝通更快、更高效。

李建忠：非常同意。我個(gè)人的觀點(diǎn)是未來可能一部分復(fù)雜的、系統(tǒng)級(jí)的軟件仍然需要專業(yè)程序員使用Copilot模式來編寫。但更多的應(yīng)用軟件、偏終端用戶交互型的，大眾用戶使用自然語言編程即可完成。

談?wù)動(dòng)?jì)算機(jī)編程語言，有一種觀點(diǎn)認(rèn)為今天的編程語言是為人類編寫而創(chuàng)造的。在未來，我們是否會(huì)看到新一代的高級(jí)編程語言，專門為 AI 生成代碼而設(shè)計(jì)？

Lukasz Kaiser：我不太確定，未來很難預(yù)測(cè)。我認(rèn)為我們已經(jīng)有了從非常高級(jí)到非常貼近機(jī)器的編程語言。編程的重點(diǎn)不一定在于特定的語言，而更多地在于溝通你希望機(jī)器做什么，以及這個(gè)過程中機(jī)器或機(jī)器網(wǎng)絡(luò)如何被編排。所以，要做好編程，關(guān)鍵在于良好的溝通和抽象。我不認(rèn)為我們一定需要新的編程語言，我們可以使用現(xiàn)有的編程語言，只是要用得非常好。而這正是 AI 有望幫助我們的地方，因?yàn)楹芏喱F(xiàn)有的系統(tǒng)顯然可以做得更好。

李建忠：新的編程語言的需求來自于新的計(jì)算機(jī)架構(gòu)，而并不來自于 AI 編程的需求。如果有新的計(jì)算硬件架構(gòu)，當(dāng)前編程語言不能滿足，那么就會(huì)有新的編程語言被創(chuàng)造出來。

對(duì)話四 | Agent 的泛化困境：是方法問題，還是根本限制？

李建忠：現(xiàn)在許多主流模型都內(nèi)置了“智能體”的訓(xùn)練，以提升在特定任務(wù)上的表現(xiàn)，成為所謂“智能體模型 Agentic Model”。但這種 Agent 的訓(xùn)練似乎很難泛化到新的、未見過的任務(wù)上。這就引出了一個(gè)關(guān)鍵問題：這種泛化問題之所以出現(xiàn)，是因?yàn)槲覀冞€沒找到正確的訓(xùn)練方法，就像那種讓語言模型變得如此泛化的方法一樣？還是說這是一種更根本的局限？Agent 領(lǐng)域會(huì)走向一個(gè)為不同任務(wù)專門打造的“垂直模型”時(shí)代嗎？或者，大多數(shù) Agent 任務(wù)會(huì)繼續(xù)由模型之外的框架來處理？

Lukasz Kaiser：我總是很難理解什么是“智能體模型”（Agentic Model）。這個(gè)詞被頻繁使用，但據(jù)我理解，這個(gè)詞背后并沒有一個(gè)堅(jiān)實(shí)的技術(shù)實(shí)體。對(duì)我來說，人們所說的智能體模型，是指那些在其推理過程中能夠調(diào)用各種外部工具的推理模型，例如：代碼解釋器、網(wǎng)絡(luò)搜索工具，或者文檔檢索工具等。它們都是用強(qiáng)化學(xué)習(xí)來訓(xùn)練的，和我們現(xiàn)在訓(xùn)練模型的方式一樣，而且這套方法效果很好。

我認(rèn)為問題出在，當(dāng)人們希望這些模型去使用它們未經(jīng)訓(xùn)練的其他工具、其他模型、或事物時(shí)，有時(shí)它們能泛化一點(diǎn)，但有時(shí)效果并不好。在任何情況下，如果你讓這些模型互相調(diào)用，你可以要求它們這樣做，而且現(xiàn)在的模型足夠聰明，總能得出點(diǎn)什么結(jié)果。

但這個(gè)過程中沒有學(xué)習(xí)信號(hào)。比如，網(wǎng)絡(luò)搜索的學(xué)習(xí)信號(hào)來自強(qiáng)化學(xué)習(xí)訓(xùn)練，在訓(xùn)練中你給模型設(shè)定任務(wù)，比如“你需要在網(wǎng)上找到 Lukasz Kaiser 在某年到某年間寫了哪些論文”，并且你有一種方法來檢查答案是否正確。模型會(huì)反復(fù)嘗試，最終學(xué)會(huì)如何正確完成任務(wù)。而人們現(xiàn)在所說的“Agent 系統(tǒng)”，通常只是被定義出來，但沒有學(xué)習(xí)過程，所以效果并不好。

我相信強(qiáng)化學(xué)習(xí)可以被泛化到更大的系統(tǒng)，但這在當(dāng)前有些困難。因?yàn)橹辽僖晕覀兡壳暗姆绞剑M(jìn)行強(qiáng)化學(xué)習(xí)，你需要在訓(xùn)練期間讓模型接觸到所有這些東西，這意味著你需要有一個(gè)可以訓(xùn)練和更新的網(wǎng)絡(luò)索引，還需要一個(gè) Python 解釋器。所以，如果你想支持多智能體系統(tǒng)，你可能需要整個(gè)世界的模擬環(huán)境來訓(xùn)練它，而這通常是你沒有的。

需要做更多的工作來讓這些系統(tǒng)變得可訓(xùn)練。另一方面，即使沒有太多訓(xùn)練，它們也可能非常有用，因?yàn)槟Ｐ捅旧矸浅Ｂ斆鳎梢粤銟颖荆▃ero-shot）完成很多事情。但除非你能將整個(gè)系統(tǒng)一起訓(xùn)練，否則它不會(huì)變得真正出色，而這在目前確實(shí)還不太好實(shí)現(xiàn)。

對(duì)話五 | 算力與算法：Scaling Law 是信仰還是路徑依賴？

李建忠：下一個(gè)問題是關(guān)于擴(kuò)展法則（Scaling Law）的。業(yè)界有一種強(qiáng)烈的信念，認(rèn)為 Scaling Law 是通往更強(qiáng) AI 的答案，這包括在預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)，測(cè)試時(shí)三個(gè)階段的擴(kuò)展。這導(dǎo)致整個(gè)業(yè)界對(duì)算力的“蒙眼狂奔”。強(qiáng)化學(xué)習(xí)之父Rich Sutton在《苦澀的教訓(xùn)》中談到，過去 70 年 AI 領(lǐng)域最大教訓(xùn)是，通用可擴(kuò)展的算力是 AI 發(fā)展的關(guān)鍵驅(qū)動(dòng)力。但這是否會(huì)讓我們陷入一種“算力崇拜”，一種路徑依賴，使我們忽略算法和架構(gòu)上可能取得的突破？我知道你正在研究小規(guī)模數(shù)據(jù)上的推理。我們是否有機(jī)會(huì)在 Transformer 之外發(fā)明一種新的架構(gòu)，開創(chuàng)一個(gè)全新的范式，而不是依賴更多的 GPU ？

Lukasz Kaiser：我其實(shí)認(rèn)為，來自預(yù)訓(xùn)練的 Scaling Law 和來自強(qiáng)化學(xué)習(xí)的 Scaling Law 不完全是一回事。因?yàn)樗鼈兊那€看起來一樣，所以人們傾向于把它們放在一起，但我認(rèn)為它們實(shí)際上相當(dāng)不同，我更愿意將它們分開來看。

預(yù)訓(xùn)練的 Scaling Law 當(dāng)然已經(jīng)帶我們走了很遠(yuǎn)，我認(rèn)為它還會(huì)帶我們走得更遠(yuǎn)。但是，你愿意擴(kuò)展到什么程度，存在一個(gè)經(jīng)濟(jì)上的限制。我們可以建造更大的模型，人們希望進(jìn)行推理，但也不想為每個(gè) token 支付一千美元。所以，這在實(shí)踐和經(jīng)濟(jì)上有一個(gè)極限，我們離這個(gè)極限并不遠(yuǎn)。現(xiàn)在，我們還學(xué)到了一點(diǎn)，就是可以將一些大模型蒸餾成更小的模型。所以我確實(shí)相信預(yù)訓(xùn)練的 Scaling Law 會(huì)一直持續(xù)下去，但它在實(shí)踐層面可能已經(jīng)達(dá)到了經(jīng)濟(jì)上的極限。

在推理模型出現(xiàn)之前，那時(shí)我剛加入 OpenAI ，我們?cè)幸黄P(guān)于解決 GSM-8K（一個(gè)六年級(jí)水平的數(shù)學(xué)數(shù)據(jù)集）的論文。當(dāng)時(shí)我們必須用上最大的模型，才能在那個(gè)數(shù)據(jù)集上達(dá)到 60% 左右的準(zhǔn)確率。我們?yōu)槟莻€(gè)數(shù)學(xué)數(shù)據(jù)建立了一個(gè) Scaling Law，結(jié)果顯示我們可能需要超過 1000 萬億個(gè)參數(shù)才能解決這個(gè)數(shù)據(jù)集，這基本上是一個(gè)不可能達(dá)到的數(shù)字。所以，預(yù)訓(xùn)練的 Scaling Law 雖然有效，但它帶給我們的速度在實(shí)踐中并不可行。后來事實(shí)證明，如果你使用強(qiáng)化學(xué)習(xí)推理，現(xiàn)在可以用非常小的模型解決整個(gè)數(shù)據(jù)集和更難的問題。所以，預(yù)訓(xùn)練的 Scaling Law 很棒，但它也無法帶我們到達(dá)我們想去的地方。

現(xiàn)在來看推理模型，它們并不增加參數(shù)數(shù)量，我們有的是一個(gè)固定的模型。而在預(yù)訓(xùn)練的擴(kuò)展中，我們需要更多的參數(shù)，這意味著也需要更多的數(shù)據(jù)，數(shù)據(jù)的質(zhì)量、來源等都要考慮。而現(xiàn)在有了強(qiáng)化學(xué)習(xí)、有了推理模型，它們就像循環(huán)模型，只需要讓它們運(yùn)行更長(zhǎng)時(shí)間，它們就會(huì)變得更好。這是一個(gè)非常神奇的法則。如果我們能永遠(yuǎn)這樣做下去，那可能會(huì)很棒。但它有另一種限制，因?yàn)樗袞|西都在上下文中，需要注意力機(jī)制，這是一個(gè)模型架構(gòu)問題。Transformer 最初是為翻譯設(shè)計(jì)的，那時(shí)上下文里可能只有 100 個(gè)詞，現(xiàn)在我們有時(shí)能有一百萬個(gè)，但它從未被設(shè)計(jì)成無限運(yùn)行。所以需要一些新的想法來解決這類問題。

另一個(gè)問題是強(qiáng)化學(xué)習(xí)。至少以目前的方式，你在最后只有一個(gè)信號(hào)。你花了大量時(shí)間思考、思考、再思考，但然后得到一個(gè)反饋：“答對(duì)了”或“答錯(cuò)了”，或者可能得到一個(gè)浮點(diǎn)數(shù)。你花費(fèi)所有這些時(shí)間就得到一個(gè)獎(jiǎng)勵(lì)。如果這個(gè)思考時(shí)間是幾小時(shí)，你也許會(huì)投資。但如果是幾周、幾個(gè)月或幾年，你實(shí)際上無法訓(xùn)練這樣的模型，因?yàn)槟悴荒艿纫恢懿抛屇Ｐ偷玫揭粋€(gè)獎(jiǎng)勵(lì)。即使你并行做很多次，也還是不足以訓(xùn)練。

所以，推理的 Scaling Law 與預(yù)訓(xùn)練的 Scaling Law 有著非常不同的限制。因此，這也呼喚著新的研究和不同的架構(gòu)。甚至很難說是架構(gòu)，因?yàn)樗灰欢ㄊ莻鹘y(tǒng)意義上的模型架構(gòu)。我認(rèn)為在那種情況下，Transformer 可能仍然可以工作得很好。在強(qiáng)化學(xué)習(xí)中，我們?cè)?jīng)有過價(jià)值函數(shù)。我們目前用于語言模型的強(qiáng)化學(xué)習(xí)，實(shí)際上是 RL 中最簡(jiǎn)單的算法之一。也許我們需要一種更好的信用分配方式，也許需要重新審視整個(gè)強(qiáng)化學(xué)習(xí)的文獻(xiàn)，看看哪些適用于長(zhǎng)序列推理 Rollout。這是一個(gè)不同的限制。如果我們改變了強(qiáng)化學(xué)習(xí)或架構(gòu)中的某些部分，可能很難說清楚它還是老的推理模型，還是一個(gè)新范式。推理模型某種意義上可以說仍然是 Transformer，所以可能下一個(gè)范式仍然是強(qiáng)化學(xué)習(xí)，只是方式不同而已。要弄清楚到底該怎么做才能讓一切奏效，仍然非常困難。

對(duì)話六 | 具身智能的挑戰(zhàn)：是數(shù)據(jù)問題？還是比特和原子的根本性差異？

李建忠：我們來聊聊具身智能。大模型在比特世界的成功，讓人們對(duì)物理世界寄予了厚望。但具身智能的進(jìn)展，比如人形機(jī)器人，一直緩慢且充滿爭(zhēng)議，尤其是在泛化方面。對(duì)此主要有兩種觀點(diǎn)。第一種觀點(diǎn)認(rèn)為，核心問題在于數(shù)據(jù)匱乏。我們只是還沒找到一種方法，能像收集互聯(lián)網(wǎng)數(shù)據(jù)那樣，大規(guī)模地收集物理世界的數(shù)據(jù)。第二種觀點(diǎn)認(rèn)為，問題在于比特和原子之間的根本差異。例如，比特可以被大量復(fù)制和生成，而原子不能。因此，具身智能的 Scaling Law 將與我們熟知的、基于 Transformer 的 Scaling Law 有著根本的不同，它可能需要一個(gè)全新的、與 Transformer 非常不同的架構(gòu)。你如何看待這兩種不同的觀點(diǎn)？

Lukasz Kaiser：我相信我們會(huì)發(fā)現(xiàn)，具身智能將比我們想象的更接近于當(dāng)前的 LLM。物理世界的數(shù)據(jù)確實(shí)比互聯(lián)網(wǎng)上的少得多，但我們?cè)谔岣吣Ｐ偷臄?shù)據(jù)效率方面取得了長(zhǎng)足的進(jìn)步。實(shí)際上，推理模型就是一個(gè)很好的例子，我們現(xiàn)在用比預(yù)訓(xùn)練時(shí)少得多的樣本來教它們數(shù)學(xué)。大概幾十萬個(gè)任務(wù)就足以讓它在許多非常困難的任務(wù)上從基本 0% 的準(zhǔn)確率提升到 100%。這在物理學(xué)和許多其他領(lǐng)域也是類似的。

但這些模型確實(shí)依賴于一個(gè)預(yù)先訓(xùn)練好的模型。所以對(duì)于物理任務(wù)，我們可能需要一些在多模態(tài)方面表現(xiàn)更好的模型，尤其是在視頻方面。我相信像 Sora 或 Veo 這樣能生成或理解視頻的模型，是未來能在物理世界中行動(dòng)的模型的絕佳前驅(qū)，它們就像是預(yù)訓(xùn)練部分。

但要真正教會(huì)機(jī)器人操作，我們需要像 RL（強(qiáng)化學(xué)習(xí)）那樣的推理部分，它需要從一個(gè)在大量視頻上訓(xùn)練過的、非常好的多模態(tài)模型開始。我們現(xiàn)在還沒有這樣的模型，雖然這個(gè)領(lǐng)域正在變得越來越好，但還沒有達(dá)到足以在復(fù)雜環(huán)境中操控真實(shí)機(jī)器人的門檻。所以，我們需要好的基礎(chǔ)模型。在此之上，可能只需要少量數(shù)據(jù)，我們需要以一種非常好的方式加入 RL 訓(xùn)練，比如允許模型在采取行動(dòng)前進(jìn)行一些推理。當(dāng)然，這也有現(xiàn)實(shí)的障礙。例如，我們目前的推理模型，如果你想讓它在機(jī)器人的每一個(gè)動(dòng)作前都進(jìn)行推理，那速度就太慢了，無法在現(xiàn)實(shí)世界中有效行動(dòng)。

所以，它可能需要某種層級(jí)式架構(gòu)來至少能夠輸出動(dòng)作。架構(gòu)需要一些調(diào)整，就像多模態(tài)一樣。但我確實(shí)認(rèn)為，在某個(gè)地方會(huì)有一個(gè)核心的 Transformer 在運(yùn)行。我相信沿著這樣的路徑，我們將能得到相當(dāng)不錯(cuò)的機(jī)器人模型和具身智能。

當(dāng)然，我不認(rèn)為這是實(shí)現(xiàn)具身智能最高效的方式。如果你觀察人類，我們的行動(dòng)方式似乎并非如此，我們以及動(dòng)物在這方面非常擅長(zhǎng)。所以我確實(shí)相信，之后會(huì)有一代新模型，在數(shù)據(jù)和計(jì)算上都將高效得多，它會(huì)在架構(gòu)和學(xué)習(xí)過程中帶來更多的改變。但通常來說，只要你有了一個(gè)至少能跑起來的架構(gòu)，開發(fā)下一個(gè)版本就會(huì)容易得多。所以我認(rèn)為，第一個(gè)版本可能實(shí)際上是建立在我們現(xiàn)有成果之上的，但會(huì)做一些調(diào)整以適應(yīng)實(shí)際應(yīng)用。

對(duì)話七 | 強(qiáng)化學(xué)習(xí)：是超級(jí)優(yōu)化器，還是科學(xué)發(fā)現(xiàn)的引擎？

李建忠：我們來談?wù)剰?qiáng)化學(xué)習(xí)。在去年 OpenAI 的 O1和開源的 DeepSeek R1 等模型出現(xiàn)后，我們正看到一個(gè)向新范式的巨大轉(zhuǎn)變：由強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的推理范式。人們對(duì)此寄予厚望，認(rèn)為 RL 可以擴(kuò)展人類知識(shí)的邊界。但在多大程度上，這種探索是真正的“開放式創(chuàng)新”？又在多大程度上，它只是在人類定義的環(huán)境和獎(jiǎng)勵(lì)函數(shù)內(nèi)的“閉環(huán)優(yōu)化”？你認(rèn)為這種由 RL 驅(qū)動(dòng)的推理方法，能夠帶來真正全新的科學(xué)發(fā)現(xiàn)嗎？目前最大的挑戰(zhàn)是什么？

Lukasz Kaiser：我?guī)缀醢淹评砟Ｐ涂醋饕环N新的架構(gòu)，即使它們底層是 Transformer。它們有這種“思維鏈”，也就是推理過程，你可以把它看作一個(gè)潛變量。模型在說話前會(huì)先思考。如果你把整個(gè)系統(tǒng)看作一個(gè)模型，那么你就無法很好地帶著梯度來訓(xùn)練離散的潛變量。你可以試試，而且之前也有人這么試過，但結(jié)果證明這條路走不太通。你可以用強(qiáng)化學(xué)習(xí)的方式來做，這經(jīng)過大量嘗試，在某種程度上證明至少是可行的。

這里有兩個(gè)問題。一個(gè)是，這種 RL 訓(xùn)練的效果如何，它有什么局限性？例如，你必須從一個(gè)已經(jīng)用梯度下降預(yù)訓(xùn)練過的模型開始，而不能從隨機(jī)權(quán)重開始，至少我們還不知道是否可以這樣做。所以與梯度下降相比，它肯定有一些局限性。但它有一個(gè)巨大的優(yōu)勢(shì)，就是數(shù)據(jù)效率高得多。它可以從有限的、少得多的一組數(shù)據(jù)中學(xué)習(xí)，比如僅僅 1000 道數(shù)學(xué)練習(xí)題。

我相信因?yàn)?RL 非常抽象，你只得到一個(gè)獎(jiǎng)勵(lì)，你對(duì)這個(gè)獎(jiǎng)勵(lì)沒有任何約束。如果你能很好地優(yōu)化它，那么你就應(yīng)該能夠?qū)W習(xí)。你可以拿一篇關(guān)于數(shù)學(xué)或物理學(xué)特定主題的研究論文，把它變成 RL 的學(xué)習(xí)任務(wù)——如果它確實(shí)是數(shù)據(jù)高效的，我們看到它確實(shí)是——那么模型就可以從中學(xué)習(xí)，并突然之間在這個(gè)特定的研究課題上變得知識(shí)淵博。模型可以開始提出一些想法，甚至連從事這項(xiàng)研究的專業(yè)人員都會(huì)覺得有趣和新穎。我相信我們會(huì)看到這一點(diǎn)。

但是，這種用于語言模型的強(qiáng)化學(xué)習(xí)范式，OpenAI o1 的預(yù)覽版是一年前才發(fā)布的，DeepSeek R1 更晚。即使你看那些可能幾年前開始的研究，也就是大約三年的時(shí)間。而在更廣泛的社區(qū)中，它基本上是從一年前才開始的。我們還處于這個(gè)范式的非常早期階段，我相信還有很多東西需要嘗試、發(fā)現(xiàn)和改進(jìn)，才能讓它更高效，走得更遠(yuǎn)。另一方面，我當(dāng)然相信這些模型已經(jīng)展現(xiàn)出很棒的東西。無論是公司、學(xué)術(shù)界、還是很多研究人員，我希望能一起將該范式推向一個(gè)更高的境地。

對(duì)話八 | AI 的組織躍遷：如何實(shí)現(xiàn)大規(guī)模 Agent 協(xié)作？

李建忠：去年，OpenAI 提出了一個(gè)五級(jí)的 AGI 等級(jí)劃分，其中更高的等級(jí)是由“創(chuàng)新”和“組織”來定義的。我們剛剛談到了創(chuàng)新。當(dāng)談到“組織”時(shí)，普遍的理解是一個(gè)由相互協(xié)作的 Agent 組成的網(wǎng)絡(luò)。但目前 Agent 協(xié)作的方法似乎只能覆蓋非常有限的場(chǎng)景。要實(shí)現(xiàn)真正的、大規(guī)模的組織——比如成千上萬的人在一個(gè)公司里協(xié)作——似乎還非常遙遠(yuǎn)。你認(rèn)為實(shí)現(xiàn)這一目標(biāo)最大的挑戰(zhàn)是什么？

Lukasz Kaiser：我認(rèn)為最大的挑戰(zhàn)在于開發(fā)下一代的推理模型。做一個(gè)類比，我覺得推理模型正處于我剛開始從事機(jī)器學(xué)習(xí)時(shí) RNN 所處的階段，而我們可能需要一個(gè) Transformer 創(chuàng)新級(jí)別的推理模型。目前，推理過程是這樣的：模型逐個(gè) token 進(jìn)行推理，以一種非常順序的方式生成結(jié)果，然后得到一個(gè)獎(jiǎng)勵(lì)，就結(jié)束了。

談及“組織”，人們很多時(shí)候討論的是多智能體系統(tǒng)，很明顯期望它應(yīng)該是并行的。我們確實(shí)需要更多的并行性。我們不能等一個(gè)模型思考一個(gè)星期，然后得到一個(gè)獎(jiǎng)勵(lì)。那根本不現(xiàn)實(shí)，應(yīng)該有很多事情并行發(fā)生。強(qiáng)化學(xué)習(xí)的價(jià)值函數(shù)已經(jīng)使用了很長(zhǎng)時(shí)間了，但大語言模型中的 RL 在當(dāng)前大多數(shù)情況下，并沒有使用價(jià)值函數(shù)。也許它們需要回歸，也許需要一些不同的東西——如果是 Yann LeCun，他大概會(huì)說是能量模型（Energy Model）。

我認(rèn)為我們需要為并行過程提供更多的信號(hào)。如果 1000 個(gè)并行 Agent 只有一個(gè)獎(jiǎng)勵(lì)，你怎么知道哪個(gè)做得好，哪個(gè)做得不好？我的判斷是在訓(xùn)練中我們需要更多的信號(hào)，并結(jié)合一種架構(gòu)來融入這種并行的過程。用抽象的方式談?wù)撌虑楹苋菀祝覀冋嬲枰氖轻槍?duì)其中每個(gè)部分進(jìn)行非常具體的研究，這樣才能在下一代推理模型中，在這方面給我們帶來更多能力。

對(duì)話九 | AI 記憶的瓶頸：模型離真正的“原生記憶”還有多遠(yuǎn)？

李建忠：我們來談?wù)動(dòng)洃洝．?dāng)今大模型的“記憶”受限于上下文窗口，這感覺更像是“工作記憶”而不是“長(zhǎng)期的原生記憶”。許多公司已經(jīng)推出了自己的長(zhǎng)期記憶解決方案，但大多數(shù)都是在 Transformer 架構(gòu)之外的外掛擴(kuò)展。許多人認(rèn)為，記憶是模型能力的一個(gè)關(guān)鍵瓶頸。你如何看待 Transformer 架構(gòu)在記憶方面的限制？我們是否需要一個(gè)全新的原生記憶機(jī)制，比如像人類的海馬體那樣，來實(shí)現(xiàn)真正的、內(nèi)生的長(zhǎng)期記憶？

Lukasz Kaiser：正如我前面所說，我?guī)缀醢淹评砟Ｐ涂醋饕环N新的架構(gòu)。它們絕對(duì)可以做的一件事，就是在這種思維鏈過程中使用工具，而其中一個(gè)工具就可以是“訪問我的記憶”。如果模型是用 RL 訓(xùn)練的，并且這個(gè)過程是用一個(gè)允許它這樣做的工具來訓(xùn)練，它就會(huì)學(xué)得很好。

目前，模型被訓(xùn)練成可以訪問互聯(lián)網(wǎng)，我認(rèn)為這有所不同。它應(yīng)該能夠區(qū)分互聯(lián)網(wǎng)記憶和自己的記憶。但是，如果你比較模型回答問題的能力，比如“動(dòng)物園幾點(diǎn)開門？”或者“這個(gè)庫(kù)最新版本的代碼是什么？”以前，模型只會(huì)胡編亂造一些東西，因?yàn)樗鼈冇涀×四硞€(gè)舊版本的信息。現(xiàn)在它們很清楚地知道需要去網(wǎng)上搜索，獲取真實(shí)答案，然后把它帶入模型。我相信通過這種工具的方式來解決記憶問題，對(duì)于大多數(shù)的情況已經(jīng)足夠好了。

但未來的某個(gè)架構(gòu)可能會(huì)做得更好，也許不需要把它當(dāng)作一個(gè)工具來解決。我們拭目以待。但就目前而言，我認(rèn)為我們有一個(gè)可行的解決方案，而且它運(yùn)行得相當(dāng)不錯(cuò)。

李建忠：如果類比人類來講，我們既有外部的記憶、比如圖書館；也有根植于我們大腦中的原生記憶。而且有些原生記憶會(huì)逐步內(nèi)化成我們知識(shí)、或者說大腦神經(jīng)網(wǎng)絡(luò)權(quán)重的一部分。從人類大腦來看，內(nèi)生記憶是我們智能不可或缺的一部分。如果像金魚一樣只有 7 秒的記憶，人類的智能可能不會(huì)像今天一樣發(fā)達(dá)，甚至人類的愛恨情仇都與此有關(guān)。真正強(qiáng)大的智能體，內(nèi)生記憶可能是非常重要的一環(huán)。

對(duì)話十 | 大模型如何擺脫瞬時(shí)學(xué)習(xí)，而像人類一樣持續(xù)學(xué)習(xí)？

李建忠：我們來談?wù)勊矔r(shí)學(xué)習(xí)（transient learning）和持續(xù)學(xué)習(xí)（continuous learning）。強(qiáng)化學(xué)習(xí)之父理 Rich Sutton 曾談到，當(dāng)前的大模型過于關(guān)注所謂的“瞬時(shí)學(xué)習(xí)”，而忽略了持續(xù)學(xué)習(xí)，而人類總是在持續(xù)學(xué)習(xí)。甚至我們現(xiàn)在正在進(jìn)行的這場(chǎng)對(duì)話，同時(shí)也在改變我們大腦中的神經(jīng)網(wǎng)絡(luò)權(quán)重。但對(duì)于今天的大模型來說，一旦它們訓(xùn)練完成，它們的權(quán)重就固定了。用戶的交互不會(huì)更新神經(jīng)網(wǎng)絡(luò)權(quán)重本身。你認(rèn)為未來大模型有可能支持持續(xù)學(xué)習(xí)嗎？

Lukasz Kaiser：我認(rèn)為這方面其實(shí)已經(jīng)發(fā)生了一些小步的進(jìn)展，那就是利用上下文（in-context）作為持續(xù)學(xué)習(xí)的記憶。模型會(huì)越來越多地嘗試，將從與我們的對(duì)話記憶中收集到的信息，盡可能多地放入上下文中，Transformer 在上下文學(xué)習(xí)方面做得很好。所以這是可行的，但效率不高，因?yàn)樯舷挛膶W(xué)習(xí)看上去不是最高效的學(xué)習(xí)方式。

當(dāng)前記憶工具正在出現(xiàn)，現(xiàn)在的 ChatGPT 也有一個(gè)記憶工具，模型可以在推理中訪問記憶。我覺得，這些都是很好的解決方案，會(huì)逐漸普及。但對(duì)我來說，作為一名研究者，將所有的記憶都視為 token 感覺有點(diǎn)不盡如人意，感覺上它們應(yīng)該成為連續(xù)的向量，或者是模型權(quán)重在某個(gè)地方的變化。我認(rèn)為類似這樣的東西會(huì)出現(xiàn)。

它們可能不會(huì)馬上出現(xiàn)，而且不得不面對(duì)“使用 token”這種方案作為基線的挑戰(zhàn)，而這個(gè)基線比我們幾年前想象的要強(qiáng)大得多。但即便如此，我確實(shí)認(rèn)為，隨著時(shí)間的推移，那些能夠修改權(quán)重的方法會(huì)變得更重要。例如，像 LoRA 模塊，我們有非常經(jīng)濟(jì)的方式來修改語言模型的權(quán)重。我們很難讓每個(gè)用戶都擁有一個(gè)模型，原因是今天的模型太龐大了，而且需要為它們提供服務(wù)，這根本不現(xiàn)實(shí)。但現(xiàn)在我們知道可以做一些很小的適配器（adapters），這實(shí)際上是可行的。每個(gè)人都可以微調(diào)自己的模型，它們效果很好。

因此，實(shí)質(zhì)性修改權(quán)重已經(jīng)變得更加可行。我只是認(rèn)為我們還沒有很好的算法知道如何做好這件事。這是一個(gè)研究問題，也可能涉及到如何將它與存儲(chǔ)在 token 中的記憶相結(jié)合。此外，從用戶的角度來看，能夠看到記憶里有什么（你看不見向量里有什么），這種可解釋性有多重要？我不知道，也許不重要，也許你唯一需要的就是能夠刪除它。這其中會(huì)有很多實(shí)踐和研究上的考量，但可以肯定的是，上下文學(xué)習(xí)已經(jīng)為持續(xù)學(xué)習(xí)做了很多貢獻(xiàn)。但我確實(shí)感覺，或者至少作為一名研究者，我希望我們未來能有一種更優(yōu)雅的方式來實(shí)現(xiàn)持續(xù)學(xué)習(xí)。

李建忠：最后一個(gè)問題。你將在我們 10 月 16-17 日舉行的全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)（ML-Summit）上發(fā)表題為“下一代推理模型的挑戰(zhàn)與研究”的主題演講。我們都對(duì)此非常期待。你能否給我們稍微劇透一下你將分享的內(nèi)容？

Lukasz Kaiser：就像我們剛才談到的，我確實(shí)相信推理模型是一個(gè)新的范式，一種新的架構(gòu)，它數(shù)據(jù)效率更高，能夠從科學(xué)領(lǐng)域非常少的樣本中學(xué)習(xí)。它可以產(chǎn)生非常令人興奮的想法和見解。我確實(shí)認(rèn)為，要真正實(shí)現(xiàn)這一成果，我們需要下一代的推理架構(gòu)，一些更并行的東西。當(dāng)然，研究中仍然存在很多挑戰(zhàn)。

我不會(huì)假裝我們都做完了。我們面對(duì)的是一個(gè)非常引人注目的未來，那就是模型從事真正的科學(xué)研究，在各種領(lǐng)域幫助科學(xué)家，包括：醫(yī)學(xué)、生物學(xué)、化學(xué)、數(shù)學(xué)、物理學(xué)等。它們可以幫助發(fā)現(xiàn)新方法，或者驗(yàn)證現(xiàn)有方法，或者指出需要改進(jìn)的地方。我認(rèn)為這個(gè)未來，即將到來，并不像幾年前那么遙遠(yuǎn)。能夠致力于此并推動(dòng)其發(fā)展，無疑是令人興奮的。現(xiàn)在是機(jī)器學(xué)習(xí)一個(gè)極其激動(dòng)人心的時(shí)刻，仍然需要新的想法，但我們可以在一個(gè)不那么遙遠(yuǎn)的未來，看到它對(duì)科學(xué)產(chǎn)生的真正影響，這將是非常積極的。

李建忠：我們都非常期待你精彩的主題演講。Lukasz，非常感謝你今天的時(shí)間。我們進(jìn)行了一次非常棒的對(duì)話，非常感謝你與我們分享了這么多關(guān)于 AI 的深刻見解和想法。期待全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)上您的精彩演講。

2025 全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)將于 10 月 16–17 日在北京威斯汀酒店舉行。今年的大會(huì)，除了迎來 OpenAI 資深研究科學(xué)家 Lukasz Kaiser 的重磅回歸，還將匯聚來自學(xué)術(shù)界與產(chǎn)業(yè)界的 50 多位嘉賓：既有頂會(huì)論文作者和資深科研學(xué)者，也有在一線推動(dòng)落地的技術(shù)實(shí)踐者。他們將圍繞智能體工程與實(shí)踐、AI 編程、多模態(tài)大模型、具身智能、開源框架等熱點(diǎn)話題，帶來真切的思考與第一手經(jīng)驗(yàn)。

官網(wǎng)：https://ml-summit.org/

我們希望，這不僅是一場(chǎng)知識(shí)與技術(shù)的交流，更是一段同行者之間的深度對(duì)話。無論你是科研探索者，還是產(chǎn)業(yè)實(shí)踐者，都能在這里捕捉到前沿趨勢(shì)、獲取啟發(fā)，甚至找到屬于自己的“下一步”。

大會(huì)全日程速覽：

「領(lǐng)取今年 4 月全球機(jī)器學(xué)習(xí)技術(shù)大會(huì) PPT 資料

預(yù)約 10 月全球機(jī)器學(xué)習(xí)技術(shù)大會(huì) PPT 資料」

官方網(wǎng)站：www.ml-summit.org

購(gòu)票熱線：400-821-5876

購(gòu)票咨詢：service@boolan.com

企業(yè)合作：partner@boolan.com

演講申請(qǐng)：hemiao@csdn.net

媒體聯(lián)系：media@boolan.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.