<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      “推理模型還處于RNN的階段”——李建忠對(duì)話GPT-5與Transformer發(fā)明者Lukasz Kaiser實(shí)錄

      0
      分享至

      對(duì)話嘉賓 | 李建忠、Lukasz Kaiser

      出品 | CSDN(ID:CSDNnews)

      今年開年之際,DeepSeek R1 配合前年年末 OpenAI o1 轟炸了整個(gè) AI 圈子,隨后強(qiáng)化學(xué)習(xí)之父 Rich Sutton 榮獲圖靈獎(jiǎng),又是用一篇論文向大家宣告了強(qiáng)化學(xué)習(xí)、經(jīng)驗(yàn)時(shí)代這些詞匯將成為 2025 的主題,我們可能都難免這么覺得:推理模型的時(shí)代已經(jīng)來了!

      但接下來的一個(gè)觀點(diǎn)卻刷新了我的認(rèn)知:Transformer 核心發(fā)明者之一、OpenAI 科學(xué)家 Lukasz Kaiser 就直言,目前的推理模型還處在當(dāng)年 GPT 都沒出來的機(jī)器學(xué)習(xí)階段,未來還需要一個(gè) Transformer 創(chuàng)新級(jí)別的推理模型。

      而近期,這位定義了大模型核心架構(gòu)的關(guān)鍵人物,就與奇點(diǎn)智能研究院院長(zhǎng)、CSDN 高級(jí)副總裁李建忠一道,在 CSDN 的《AI 進(jìn)化論》欄目中展開了一場(chǎng)關(guān)于 “大模型的第一性思考” 的深度對(duì)話。

      Lukasz Kaiser 是 AI 領(lǐng)域最具影響力的科學(xué)家之一,2017 年他與其他七位谷歌同事(后稱“Transformer 八子”)共同撰寫了那篇開創(chuàng)性的論文《Attention Is All You Need》,歷史性地提出了 Transformer 架構(gòu),奠定了今天大語言模型的核心基石。后來他加盟 OpenAI ,深度主導(dǎo)了 GPT-5、GPT-4、以及代號(hào)為 “o1”和“o3”的推理模型方面的研究工作。作為改變世界的 AI 研究者,他的工作直接定義了我們今天所熟知的大語言模型技術(shù)。正因如此,他對(duì)于大模型的技術(shù)架構(gòu)、Scaling Law 的邊界,以及通往 AGI 的新范式——推理模型,有著旁人無法企及的深刻理解。

      面對(duì)這樣一位技術(shù)前沿的引領(lǐng)者,李建忠?guī)е鴮?duì)模型架構(gòu)、Agent、Scaling Law 及未來范式的深度洞察與思考,提出了尖銳而富有洞見的問題。兩人的交流既是技術(shù)細(xì)節(jié)的剖析,也是對(duì)未來發(fā)展方向的大膽推演。


      以下是這場(chǎng)對(duì)談的十個(gè)最重要的話題:

      • 對(duì)話一:語言對(duì)于智能到底意味著什么?

      • 對(duì)話二:多模態(tài)與世界模型的挑戰(zhàn)

      • 對(duì)話三:AI 編程:自然語言是終極目標(biāo),還是新的“巴別塔”?

      • 對(duì)話四:Agent 的泛化困境:是方法問題,還是根本限制?

      • 對(duì)話五:算力與算法:Scaling Law 是信仰還是路徑依賴?

      • 對(duì)話六:具身智能的挑戰(zhàn):是數(shù)據(jù)問題?還是比特和原子的根本性差異?

      • 對(duì)話七:強(qiáng)化學(xué)習(xí):是超級(jí)優(yōu)化器,還是科學(xué)發(fā)現(xiàn)的引擎?

      • 對(duì)話八:AI 的組織躍遷:如何實(shí)現(xiàn)大規(guī)模 Agent 協(xié)作?

      • 對(duì)話九:AI 記憶的瓶頸:模型離真正的“原生記憶”還有多遠(yuǎn)?

      • 對(duì)話十:大模型如何擺脫瞬時(shí)學(xué)習(xí),而像人類一樣持續(xù)學(xué)習(xí)?

      在 AI 發(fā)展的這個(gè)關(guān)鍵時(shí)刻,相信這場(chǎng)對(duì)話中對(duì)前沿問題的深度思辨,將為我們理解 AI 的下一個(gè)發(fā)展階段提供重要的參考和啟示。


      對(duì)話一 | 語言對(duì)于智能到底意味著什么?

      李建忠:我想首先談?wù)務(wù)Z言和視覺在 AI 中扮演的角色。業(yè)界有一些觀點(diǎn),以楊立昆(Yann LeCun)等人為代表,認(rèn)為靠語言模型通往 AGI 是一條死路。其理由是,語言是對(duì)物理世界的一種低帶寬、有損的描述。AI 必須從視覺等高帶寬的數(shù)據(jù)中學(xué)習(xí)。但是如果我們回顧 AI 的發(fā)展歷史,在大語言模型出現(xiàn)之前,神經(jīng)網(wǎng)絡(luò)在視覺領(lǐng)域已經(jīng)有了大量應(yīng)用,但那時(shí) AI 的智能水平相當(dāng)?shù)汀V钡?ChatGPT 這樣的大語言模型橫空出世,AI 的智能才真正開始騰飛。你如何看語言和視覺在構(gòu)建智能過程中的作用?

      Lukasz Kaiser:我認(rèn)為,從時(shí)間的維度去理解語言是非常有用的。有一個(gè)著名的說法,雖然我從未核實(shí)過其真實(shí)性:有一種在大海里游弋的動(dòng)物(海鞘),它擁有大腦。但當(dāng)它在某塊巖石上定居后,就再也不會(huì)移動(dòng)了。此時(shí),它做的第一件事就是吃掉自己的大腦,因?yàn)榇竽X對(duì)一個(gè)不再行動(dòng)的生物來說已經(jīng)失去了作用。這個(gè)故事說明,如果你不采取行動(dòng),智能其實(shí)沒什么用。

      我們過去所說的視覺模型大多是靜態(tài)的,例如回答“這張圖片里有貓嗎?”這類問題。那時(shí)根本沒有真正的視頻模型。因此我相信,在時(shí)間維度中的存在——這可能意味著采取行動(dòng),即便只是解釋隨時(shí)間發(fā)生的變化——對(duì)智能來說都至關(guān)重要。語言顯然具備時(shí)間維度,它總是在生成下一個(gè)詞,再下一個(gè)詞,不斷延續(xù)。

      我們現(xiàn)在稱之為的語言模型,在開發(fā) Transformer 時(shí),被稱為序列模型(sequence models)。處理什么序列并不重要,即使現(xiàn)在,它也可以處理“蛋白質(zhì)序列”或“音頻序列”。因此,時(shí)間序列是表達(dá)智能的一個(gè)重要組成部分。

      李建忠:我個(gè)人傾向于認(rèn)為,語言經(jīng)過了人類的編碼和壓縮,它在智能的表征上要比視覺更高效一些,而即便有時(shí)間序列的視頻,對(duì)智能的表征也往往要低于語言。尤瓦爾·赫拉利在他的著作《人類簡(jiǎn)史》中提出,人類和動(dòng)物最大的區(qū)別在于我們能用語言描述這個(gè)世界上不存在的事物。著名哲學(xué)家維特根斯坦也有一句名言:“語言的邊界,就是世界的邊界。”我之前曾表達(dá)過一個(gè)觀點(diǎn),回看過去十年,AI 領(lǐng)域的里程碑發(fā)展得益于我們終于認(rèn)識(shí)到語言在智能中的核心作用,ChatGPT 的成功源于此,Transformer 的成功也源于此。

      Lukasz Kaiser:我也相信語言是賦予智能一種特殊力量的關(guān)鍵。雖然許多沒有語言的動(dòng)物也擁有一定程度的智能,智能也可以在沒有語言的情況下發(fā)展。另外從技術(shù)上講,訓(xùn)練語言實(shí)在非常方便。我們?cè)诨ヂ?lián)網(wǎng)上有海量的語言數(shù)據(jù),用語言進(jìn)行訓(xùn)練遠(yuǎn)比用視頻便宜。這些優(yōu)勢(shì)有一些是實(shí)踐層面。未來,要獲得更卓越的智能模型,我們還要繼續(xù)基于視頻和音頻進(jìn)行訓(xùn)練。這在技術(shù)上會(huì)與純語言模型有所不同,但另一方面,序列處理和注意力機(jī)制在處理這類數(shù)據(jù)時(shí)同樣適用。

      李建忠:一些人認(rèn)為當(dāng)前的大語言模型只是“鸚鵡學(xué)舌”,他們認(rèn)為模型并沒有真正理解它們所學(xué)習(xí)和生成的文本。但如果我們仔細(xì)觀察大模型的學(xué)習(xí)機(jī)制,它們與人類的學(xué)習(xí)過程非常相似。例如,Anthropic 在三月份的一篇論文中展示了,當(dāng)模型在語言上進(jìn)行訓(xùn)練時(shí),它會(huì)在內(nèi)部形成“抽象概念”。論文談到一個(gè)模型如何學(xué)習(xí)多種不同語言中的詞時(shí),例如“蘋果”,它在神經(jīng)網(wǎng)絡(luò)內(nèi)部創(chuàng)建了一個(gè)獨(dú)立的、不與任何一種語言綁定的“蘋果的抽象概念”。而在訓(xùn)練過程中,模型從未被明確地灌輸過一個(gè)“蘋果的抽象概念”。這似乎與人類在學(xué)習(xí)語言時(shí),在大腦中構(gòu)建一個(gè)復(fù)雜的抽象概念體系的過程非常相似。

      Lukasz Kaiser:我們現(xiàn)在可以從實(shí)踐上證明,語言模型確實(shí)會(huì)形成概念,尤其是現(xiàn)在模型都在并行地用多種語言進(jìn)行訓(xùn)練,這一點(diǎn)很容易觀察到。你可以給模型一個(gè)數(shù)學(xué)問題,然后用五種不同的語言重新表述它。盡管模型是逐個(gè) token 生成答案的,不同語言的 token 會(huì)截然不同,沒有任何共同之處,但答案基本上是相同的。如果模型在英語中犯了一個(gè)錯(cuò)誤,它在中文里也會(huì)犯同樣的錯(cuò)誤。如果模型采用某種解題方式,那么另一個(gè)語言的答案基本上就是前一個(gè)答案的翻譯。

      這清晰地表明,在網(wǎng)絡(luò)的激活狀態(tài)中的某個(gè)地方,模型正在一個(gè)非常抽象的空間里解決問題、思考概念,然后在上層網(wǎng)絡(luò)中用某種語言把它表達(dá)出來。從這個(gè)意義上說,模型中顯然存在獨(dú)立于語言的抽象概念,并且已經(jīng)有人對(duì)此進(jìn)行了研究。你甚至可以看到對(duì)應(yīng)特定主題或行為的概念。

      但我們也要記住,至少對(duì)于那些沒有經(jīng)過大量多模態(tài)數(shù)據(jù)訓(xùn)練的模型來說,它們可能沒有與我們?nèi)祟惛拍钕嗨频摹?duì)應(yīng)某些物理實(shí)體的概念。比如我們所相信的“痛苦”(pain)或“愛”(love)等概念。模型知道這些詞,它可以給你講述優(yōu)美的故事,但這與我們植根于物理世界真實(shí)感受的概念有所不同。

      所以,模型確實(shí)有概念,但我們也應(yīng)該理解,至少其中一些概念可能和我們?nèi)祟惖母拍畈煌km然從模型使用的詞語來看,它們是相似的,因?yàn)檫@些詞來自我們的語言和互聯(lián)網(wǎng),但這并不意味著它們的內(nèi)涵完全相同。在很多領(lǐng)域,比如數(shù)學(xué),這種差異可能無關(guān)緊要。因?yàn)閿?shù)學(xué)對(duì)我們來說也是非常抽象的,我們主要通過符號(hào)和圖片來學(xué)習(xí),模型也一樣。但在那些與身體和物理世界緊密相關(guān)的事情上,情況有些不同。我們可能會(huì)被模型的言辭所迷惑,因?yàn)樗褂昧撕臀覀円粯拥脑~語,但其內(nèi)涵并不完全一樣。


      對(duì)話二 | 多模態(tài)與世界模型的挑戰(zhàn)

      李建忠:現(xiàn)在多模態(tài)發(fā)展得非常快,業(yè)界有一種趨勢(shì)是追求一個(gè)“統(tǒng)一模型、統(tǒng)一模態(tài)”——使用一個(gè)通用的架構(gòu),來處理所有模態(tài)和任務(wù)。但不同的模態(tài)似乎適配不同的模型,例如,語言適用自回歸模型,而視覺則適用擴(kuò)散模型。我注意到你們“Transformer 八子“在 2017 年 6 月發(fā)表《Attention Is All You Need》的同月,你們其中七位作者也發(fā)表過一篇論文《One Model to Learn Them All》。八年后的今天,你如何看待“統(tǒng)一模態(tài)”和“統(tǒng)一模型”之間的關(guān)系?這里最大的挑戰(zhàn)是什么?

      Lukasz Kaiser:從實(shí)踐層面來看,像 GPT-4 這樣的現(xiàn)代大語言模型已經(jīng)是多模態(tài)模型了。它們能接收?qǐng)D像和音頻輸入,也能生成圖像和音頻。從某種意義上說,我本可以說我們已經(jīng)解決了這個(gè)問題。但我也承認(rèn),模態(tài)之間的遷移水平還不盡如人意。

      當(dāng)模型足夠大,數(shù)據(jù)足夠多時(shí),它們能設(shè)法完成多模態(tài)任務(wù)。你可以在 ChatGPT 中啟用語音模式,它會(huì)和你對(duì)話,在需要的時(shí)候,也會(huì)把語音轉(zhuǎn)錄成文字,進(jìn)行思考并回答,甚至還能唱歌。所以從實(shí)踐角度看,這個(gè)問題已經(jīng)取得了巨大的進(jìn)展。

      但我承認(rèn),當(dāng)你仔細(xì)觀察視頻時(shí),會(huì)發(fā)現(xiàn)一些不完全令人滿意的地方。當(dāng)前語言模型處理多模態(tài)的方式通常是通過 VQ-VAE。圖像或音頻的每個(gè)部分,都會(huì)通過一個(gè)編碼器得到一個(gè)特殊的代碼。這個(gè)編碼器通常是預(yù)訓(xùn)練好并且固定的,有時(shí)也可能和大語言模型一起訓(xùn)練,但其訓(xùn)練量通常不大,并且有一個(gè)固定的頻率。對(duì)于音頻,可能是每幾秒對(duì)應(yīng)一個(gè)符號(hào);對(duì)于圖像,則是每多少像素對(duì)應(yīng)一個(gè)符號(hào)。這個(gè)方法算是有效,我們成功地讓它運(yùn)作起來了。但它給人的感覺不那么令人滿意,因?yàn)槲覀兊难劬Σ幌袷且粋€(gè)具有固定分辨率的傳感器。當(dāng)然,從某種意義上說它有,但我可以四處移動(dòng)眼睛來動(dòng)態(tài)獲取信息。

      所以,我認(rèn)為我們可以將多模態(tài)更深入地融合到模型中。這需要我們目前使用的 VQ-VAE 代碼變得更具可訓(xùn)練性,并且能與語言進(jìn)行更多的交互。這方面有很棒的研究正在進(jìn)行中,隨著人們?cè)絹碓搅?xí)慣于模型處理多模態(tài)任務(wù),將會(huì)推動(dòng)將這些研究深入整合到大語言模型中。

      李建忠:我不清楚為什么很多視覺派的研究者經(jīng)常否定語言的重要性。確實(shí)如你所說,與語言進(jìn)行交互對(duì)于多模態(tài)非常重要。離開語言,視覺似乎只是一些像素信號(hào)。要對(duì)視覺中的每一個(gè)對(duì)象賦予語義含義,語言功不可沒。我個(gè)人認(rèn)為有些視覺派如果繼續(xù)否定語言在智能中的價(jià)值,可能會(huì)再次跌入 2022 年 ChatGPT 發(fā)布之前的錯(cuò)誤路線。那時(shí)候也是視覺派大行其道的時(shí)候,但是識(shí)別能力在智能中是一個(gè)非常低階的能力,真要的認(rèn)知和理解,似乎離不開語言。

      下面讓我們來談?wù)勈澜缒P汀0盍⒗ィ╕ann LeCun)、李飛飛在內(nèi)的一部分學(xué)者認(rèn)為,靠大語言模型無法實(shí)現(xiàn)通用人工智能(AGI),因?yàn)樗麄兿嘈攀澜缒P筒攀?AGI 的核心,他們認(rèn)為 AI 必須首先通過觀察世界來學(xué)習(xí)物理世界的規(guī)則,然后才能真正進(jìn)行推理。但是,我非常懷疑 AI 僅通過觀察世界就能理解物理世界的所有法則嗎?

      Lukasz Kaiser:我相信現(xiàn)代大語言模型在某種程度上就是世界模型。問題在于,它們是足夠好的世界模型嗎?要回答這個(gè)問題,我們需要問自己,它們應(yīng)該描述世界的哪些方面?

      我認(rèn)為,如果談到文本和數(shù)學(xué)等方面,它們是令人驚嘆的模型。如果你問“下一個(gè)詞是什么?”,它們幾乎是無與倫比的絕佳的語言模型,可以準(zhǔn)確地告訴你,在互聯(lián)網(wǎng)上人們通常在這句話之后會(huì)說什么。但它們作為物理模型的表現(xiàn),就不如它們作為語言模型那么出色了。這背后有幾個(gè)原因。

      首先,正如我們所說,它們沒有在足夠多的視頻數(shù)據(jù)上進(jìn)行訓(xùn)練。其次,我們電腦中常用的視頻數(shù)據(jù)格式,與我們體驗(yàn)世界的方式非常不同,因?yàn)槲覀冞€會(huì)采取行動(dòng)、移動(dòng)我們的眼睛。我們的體驗(yàn)絕不像純粹的圖像在眼前播放,或許在嬰兒早期是這樣,但很快就消失了。所以,無論是數(shù)據(jù)的數(shù)量還是質(zhì)量都還不夠好。而且,就像我之前說的,我認(rèn)為目前的架構(gòu)也還不足以勝任這一點(diǎn),盡管大語言模型的多模態(tài)能力一直在穩(wěn)步提升,而且我認(rèn)為會(huì)持續(xù)提升。

      所以我認(rèn)為,通過架構(gòu)和損失函數(shù)的改進(jìn),加上更好、更多的數(shù)據(jù),將有助于彌合人們所認(rèn)為的“世界模型”與“語言模型”之間的差距。另外,像 Sora、Genie 和 Veo 這樣的模型表明,如果你從視頻中學(xué)習(xí),即使使用當(dāng)前的方法,也可以非常接近一個(gè)世界模型。或許還沒有完全達(dá)到,而且在數(shù)據(jù)效率上,學(xué)習(xí)過程肯定還不如人類,但我們正在彌合差距方面取得重大進(jìn)展。

      李建忠:我個(gè)人的感覺是,真正的世界模型需要融合語言模型和其他模態(tài),以及基于語言的推理。單純靠觀察世界無法形成智能,就像在 16-17 世紀(jì)科學(xué)革命之前,人們通過觀察世界可能得到的是“地球是宇宙的中心”這樣錯(cuò)誤的概念。而現(xiàn)在每一個(gè)受到過教育的孩子都知道,在銀河系太陽(yáng)是中心。這顯然不是通過簡(jiǎn)單觀察世界就能得出來的,而是通過源于文字的訓(xùn)練得到的。


      對(duì)話三 | AI 編程:自然語言是終極目標(biāo),還是新的“巴別塔”?

      李建忠:讓我們來聊聊編程。AI 編程似乎已經(jīng)成為大語言模型的一個(gè)殺手級(jí)應(yīng)用。當(dāng)你們創(chuàng)造 Transformer 架構(gòu)時(shí),有沒有想過它不僅能處理人類語言,還能如此出色地處理編程語言?

      Lukasz Kaiser:當(dāng)然,Transformer 的共同發(fā)明人 Ilia Polosukhin,甚至在《Attention Is All You Need》論文發(fā)表前就離開了谷歌,創(chuàng)辦了一家致力于自動(dòng)化編程的公司。我差點(diǎn)成了那家公司的聯(lián)合創(chuàng)始人,但我當(dāng)時(shí)認(rèn)為時(shí)機(jī)還有點(diǎn)太早。后來,這家公司成功地轉(zhuǎn)型到了加密貨幣領(lǐng)域,但它未來可能會(huì)再重回自動(dòng)化編程領(lǐng)域。所以,這確實(shí)是在我們?cè)O(shè)想之內(nèi)的。相比于預(yù)見到這么快就出現(xiàn)像 ChatGPT 這樣的產(chǎn)品,我們當(dāng)時(shí)可能更相信自動(dòng)化編程的可行性,因?yàn)楦杏X它比處理任意的對(duì)話要更容易。但事實(shí)證明,它們本質(zhì)上是同一件事。

      李建忠:關(guān)于 AI 編程的未來,當(dāng)前主要有兩種觀點(diǎn)。第一種是“AI 原生”(AI Native)模式,認(rèn)為未來高級(jí)編程語言會(huì)變得像匯編語言一樣——仍然存在,但隱藏在幕后。所有的軟件開發(fā)都將通過自然語言完成,通過像氛圍編程(Vibe Coding)這樣的方式。第二種觀點(diǎn)是“AI 副駕駛”(AI Copilot)模式,認(rèn)為自然語言的模糊性與馮·諾依曼機(jī)器所要求的精確性之間存在根本沖突。因此,程序員仍然需要使用高級(jí)語言來表達(dá)他們的核心思想,自然語言只是作為一種補(bǔ)充。你如何看待這兩種觀點(diǎn)?

      Lukasz Kaiser:如果你展望幾年后的未來,我認(rèn)為語言模型將能夠覆蓋大量的編程工作。我肯定更愿意直接和我的 Codex Agent 或類似的東西對(duì)話,然后說:“你運(yùn)行這個(gè)了嗎?它看起來怎么樣?”

      但另一方面,在某個(gè)時(shí)刻,這個(gè) Agent 需要向你解釋為什么某個(gè)東西運(yùn)行緩慢,因?yàn)樗枰f明計(jì)算機(jī)網(wǎng)絡(luò)是如何工作的。為了解釋這類事物和概念,數(shù)學(xué)家用數(shù)學(xué)來解釋,程序員用更高級(jí)的語言。我們可能會(huì)使用一些混合的方式,比如數(shù)學(xué)和算法,而物理學(xué)家可能會(huì)畫圖或用其他方式來解釋。我認(rèn)為學(xué)習(xí)數(shù)學(xué)和編程都是非常有用的。如果你試圖用純自然語言來解釋數(shù)學(xué),不帶任何符號(hào),那實(shí)際上會(huì)困難得多。符號(hào)有助于人們解釋和理解正在發(fā)生的事情。我認(rèn)為這在某種程度上也適用于編程語言,它們是比純自然語言更好的溝通工具。

      當(dāng)然,如果你不懂這些,我相信模型會(huì)很好地用自然語言為你解釋。但如果你想成為一名專業(yè)的程序員,即使在未來,你最好還是了解這些概念并熟練掌握它們,因?yàn)檫@會(huì)讓你與模型的溝通更快、更高效。

      李建忠:非常同意。 我個(gè)人的觀點(diǎn)是未來可能一部分復(fù)雜的、系統(tǒng)級(jí)的軟件仍然需要專業(yè)程序員使用Copilot模式來編寫。但更多的應(yīng)用軟件、偏終端用戶交互型的,大眾用戶使用自然語言編程即可完成。

      談?wù)動(dòng)?jì)算機(jī)編程語言,有一種觀點(diǎn)認(rèn)為今天的編程語言是為人類編寫而創(chuàng)造的。在未來,我們是否會(huì)看到新一代的高級(jí)編程語言,專門為 AI 生成代碼而設(shè)計(jì)?

      Lukasz Kaiser:我不太確定,未來很難預(yù)測(cè)。我認(rèn)為我們已經(jīng)有了從非常高級(jí)到非常貼近機(jī)器的編程語言。編程的重點(diǎn)不一定在于特定的語言,而更多地在于溝通你希望機(jī)器做什么,以及這個(gè)過程中機(jī)器或機(jī)器網(wǎng)絡(luò)如何被編排。所以,要做好編程,關(guān)鍵在于良好的溝通和抽象。我不認(rèn)為我們一定需要新的編程語言,我們可以使用現(xiàn)有的編程語言,只是要用得非常好。而這正是 AI 有望幫助我們的地方,因?yàn)楹芏喱F(xiàn)有的系統(tǒng)顯然可以做得更好。

      李建忠:新的編程語言的需求來自于新的計(jì)算機(jī)架構(gòu),而并不來自于 AI 編程的需求。如果有新的計(jì)算硬件架構(gòu),當(dāng)前編程語言不能滿足,那么就會(huì)有新的編程語言被創(chuàng)造出來。


      對(duì)話四 | Agent 的泛化困境:是方法問題,還是根本限制?

      李建忠:現(xiàn)在許多主流模型都內(nèi)置了“智能體”的訓(xùn)練,以提升在特定任務(wù)上的表現(xiàn),成為所謂“智能體模型 Agentic Model”。但這種 Agent 的訓(xùn)練似乎很難泛化到新的、未見過的任務(wù)上。這就引出了一個(gè)關(guān)鍵問題:這種泛化問題之所以出現(xiàn),是因?yàn)槲覀冞€沒找到正確的訓(xùn)練方法,就像那種讓語言模型變得如此泛化的方法一樣?還是說這是一種更根本的局限?Agent 領(lǐng)域會(huì)走向一個(gè)為不同任務(wù)專門打造的“垂直模型”時(shí)代嗎?或者,大多數(shù) Agent 任務(wù)會(huì)繼續(xù)由模型之外的框架來處理?

      Lukasz Kaiser:我總是很難理解什么是“智能體模型”(Agentic Model)。這個(gè)詞被頻繁使用,但據(jù)我理解,這個(gè)詞背后并沒有一個(gè)堅(jiān)實(shí)的技術(shù)實(shí)體。對(duì)我來說,人們所說的智能體模型,是指那些在其推理過程中能夠調(diào)用各種外部工具的推理模型,例如:代碼解釋器、網(wǎng)絡(luò)搜索工具,或者文檔檢索工具等。它們都是用強(qiáng)化學(xué)習(xí)來訓(xùn)練的,和我們現(xiàn)在訓(xùn)練模型的方式一樣,而且這套方法效果很好。

      我認(rèn)為問題出在,當(dāng)人們希望這些模型去使用它們未經(jīng)訓(xùn)練的其他工具、其他模型、或事物時(shí),有時(shí)它們能泛化一點(diǎn),但有時(shí)效果并不好。在任何情況下,如果你讓這些模型互相調(diào)用,你可以要求它們這樣做,而且現(xiàn)在的模型足夠聰明,總能得出點(diǎn)什么結(jié)果。

      但這個(gè)過程中沒有學(xué)習(xí)信號(hào)。比如,網(wǎng)絡(luò)搜索的學(xué)習(xí)信號(hào)來自強(qiáng)化學(xué)習(xí)訓(xùn)練,在訓(xùn)練中你給模型設(shè)定任務(wù),比如“你需要在網(wǎng)上找到 Lukasz Kaiser 在某年到某年間寫了哪些論文”,并且你有一種方法來檢查答案是否正確。模型會(huì)反復(fù)嘗試,最終學(xué)會(huì)如何正確完成任務(wù)。而人們現(xiàn)在所說的“Agent 系統(tǒng)”,通常只是被定義出來,但沒有學(xué)習(xí)過程,所以效果并不好。

      我相信強(qiáng)化學(xué)習(xí)可以被泛化到更大的系統(tǒng),但這在當(dāng)前有些困難。因?yàn)橹辽僖晕覀兡壳暗姆绞剑M(jìn)行強(qiáng)化學(xué)習(xí),你需要在訓(xùn)練期間讓模型接觸到所有這些東西,這意味著你需要有一個(gè)可以訓(xùn)練和更新的網(wǎng)絡(luò)索引,還需要一個(gè) Python 解釋器。所以,如果你想支持多智能體系統(tǒng),你可能需要整個(gè)世界的模擬環(huán)境來訓(xùn)練它,而這通常是你沒有的。

      需要做更多的工作來讓這些系統(tǒng)變得可訓(xùn)練。另一方面,即使沒有太多訓(xùn)練,它們也可能非常有用,因?yàn)槟P捅旧矸浅B斆鳎梢粤銟颖荆▃ero-shot)完成很多事情。但除非你能將整個(gè)系統(tǒng)一起訓(xùn)練,否則它不會(huì)變得真正出色,而這在目前確實(shí)還不太好實(shí)現(xiàn)。


      對(duì)話五 | 算力與算法:Scaling Law 是信仰還是路徑依賴?

      李建忠:下一個(gè)問題是關(guān)于擴(kuò)展法則(Scaling Law)的。業(yè)界有一種強(qiáng)烈的信念,認(rèn)為 Scaling Law 是通往更強(qiáng) AI 的答案,這包括在預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí),測(cè)試時(shí)三個(gè)階段的擴(kuò)展。這導(dǎo)致整個(gè)業(yè)界對(duì)算力的“蒙眼狂奔”。強(qiáng)化學(xué)習(xí)之父Rich Sutton在《苦澀的教訓(xùn)》中談到,過去 70 年 AI 領(lǐng)域最大教訓(xùn)是,通用可擴(kuò)展的算力是 AI 發(fā)展的關(guān)鍵驅(qū)動(dòng)力。但這是否會(huì)讓我們陷入一種“算力崇拜”,一種路徑依賴,使我們忽略算法和架構(gòu)上可能取得的突破?我知道你正在研究小規(guī)模數(shù)據(jù)上的推理。我們是否有機(jī)會(huì)在 Transformer 之外發(fā)明一種新的架構(gòu),開創(chuàng)一個(gè)全新的范式,而不是依賴更多的 GPU ?

      Lukasz Kaiser:我其實(shí)認(rèn)為,來自預(yù)訓(xùn)練的 Scaling Law 和來自強(qiáng)化學(xué)習(xí)的 Scaling Law 不完全是一回事。因?yàn)樗鼈兊那€看起來一樣,所以人們傾向于把它們放在一起,但我認(rèn)為它們實(shí)際上相當(dāng)不同,我更愿意將它們分開來看。

      預(yù)訓(xùn)練的 Scaling Law 當(dāng)然已經(jīng)帶我們走了很遠(yuǎn),我認(rèn)為它還會(huì)帶我們走得更遠(yuǎn)。但是,你愿意擴(kuò)展到什么程度,存在一個(gè)經(jīng)濟(jì)上的限制。我們可以建造更大的模型,人們希望進(jìn)行推理,但也不想為每個(gè) token 支付一千美元。所以,這在實(shí)踐和經(jīng)濟(jì)上有一個(gè)極限,我們離這個(gè)極限并不遠(yuǎn)。現(xiàn)在,我們還學(xué)到了一點(diǎn),就是可以將一些大模型蒸餾成更小的模型。所以我確實(shí)相信預(yù)訓(xùn)練的 Scaling Law 會(huì)一直持續(xù)下去,但它在實(shí)踐層面可能已經(jīng)達(dá)到了經(jīng)濟(jì)上的極限。

      在推理模型出現(xiàn)之前,那時(shí)我剛加入 OpenAI ,我們?cè)幸黄P(guān)于解決 GSM-8K(一個(gè)六年級(jí)水平的數(shù)學(xué)數(shù)據(jù)集)的論文。當(dāng)時(shí)我們必須用上最大的模型,才能在那個(gè)數(shù)據(jù)集上達(dá)到 60% 左右的準(zhǔn)確率。我們?yōu)槟莻€(gè)數(shù)學(xué)數(shù)據(jù)建立了一個(gè) Scaling Law,結(jié)果顯示我們可能需要超過 1000 萬億個(gè)參數(shù)才能解決這個(gè)數(shù)據(jù)集,這基本上是一個(gè)不可能達(dá)到的數(shù)字。所以,預(yù)訓(xùn)練的 Scaling Law 雖然有效,但它帶給我們的速度在實(shí)踐中并不可行。后來事實(shí)證明,如果你使用強(qiáng)化學(xué)習(xí)推理,現(xiàn)在可以用非常小的模型解決整個(gè)數(shù)據(jù)集和更難的問題。所以,預(yù)訓(xùn)練的 Scaling Law 很棒,但它也無法帶我們到達(dá)我們想去的地方。

      現(xiàn)在來看推理模型,它們并不增加參數(shù)數(shù)量,我們有的是一個(gè)固定的模型。而在預(yù)訓(xùn)練的擴(kuò)展中,我們需要更多的參數(shù),這意味著也需要更多的數(shù)據(jù),數(shù)據(jù)的質(zhì)量、來源等都要考慮。而現(xiàn)在有了強(qiáng)化學(xué)習(xí)、有了推理模型,它們就像循環(huán)模型,只需要讓它們運(yùn)行更長(zhǎng)時(shí)間,它們就會(huì)變得更好。這是一個(gè)非常神奇的法則。如果我們能永遠(yuǎn)這樣做下去,那可能會(huì)很棒。但它有另一種限制,因?yàn)樗袞|西都在上下文中,需要注意力機(jī)制,這是一個(gè)模型架構(gòu)問題。Transformer 最初是為翻譯設(shè)計(jì)的,那時(shí)上下文里可能只有 100 個(gè)詞,現(xiàn)在我們有時(shí)能有一百萬個(gè),但它從未被設(shè)計(jì)成無限運(yùn)行。所以需要一些新的想法來解決這類問題。

      另一個(gè)問題是強(qiáng)化學(xué)習(xí)。至少以目前的方式,你在最后只有一個(gè)信號(hào)。你花了大量時(shí)間思考、思考、再思考,但然后得到一個(gè)反饋:“答對(duì)了”或“答錯(cuò)了”,或者可能得到一個(gè)浮點(diǎn)數(shù)。你花費(fèi)所有這些時(shí)間就得到一個(gè)獎(jiǎng)勵(lì)。如果這個(gè)思考時(shí)間是幾小時(shí),你也許會(huì)投資。但如果是幾周、幾個(gè)月或幾年,你實(shí)際上無法訓(xùn)練這樣的模型,因?yàn)槟悴荒艿纫恢懿抛屇P偷玫揭粋€(gè)獎(jiǎng)勵(lì)。即使你并行做很多次,也還是不足以訓(xùn)練。

      所以,推理的 Scaling Law 與預(yù)訓(xùn)練的 Scaling Law 有著非常不同的限制。因此,這也呼喚著新的研究和不同的架構(gòu)。甚至很難說是架構(gòu),因?yàn)樗灰欢ㄊ莻鹘y(tǒng)意義上的模型架構(gòu)。我認(rèn)為在那種情況下,Transformer 可能仍然可以工作得很好。在強(qiáng)化學(xué)習(xí)中,我們?cè)?jīng)有過價(jià)值函數(shù)。我們目前用于語言模型的強(qiáng)化學(xué)習(xí),實(shí)際上是 RL 中最簡(jiǎn)單的算法之一。也許我們需要一種更好的信用分配方式,也許需要重新審視整個(gè)強(qiáng)化學(xué)習(xí)的文獻(xiàn),看看哪些適用于長(zhǎng)序列推理 Rollout。這是一個(gè)不同的限制。如果我們改變了強(qiáng)化學(xué)習(xí)或架構(gòu)中的某些部分,可能很難說清楚它還是老的推理模型,還是一個(gè)新范式。推理模型某種意義上可以說仍然是 Transformer,所以可能下一個(gè)范式仍然是強(qiáng)化學(xué)習(xí),只是方式不同而已。 要弄清楚到底該怎么做才能讓一切奏效,仍然非常困難。


      對(duì)話六 | 具身智能的挑戰(zhàn):是數(shù)據(jù)問題? 還是比特和原子的根本性差異?

      李建忠:我們來聊聊具身智能。大模型在比特世界的成功,讓人們對(duì)物理世界寄予了厚望。但具身智能的進(jìn)展,比如人形機(jī)器人,一直緩慢且充滿爭(zhēng)議,尤其是在泛化方面。對(duì)此主要有兩種觀點(diǎn)。第一種觀點(diǎn)認(rèn)為,核心問題在于數(shù)據(jù)匱乏。我們只是還沒找到一種方法,能像收集互聯(lián)網(wǎng)數(shù)據(jù)那樣,大規(guī)模地收集物理世界的數(shù)據(jù)。第二種觀點(diǎn)認(rèn)為,問題在于比特和原子之間的根本差異。例如,比特可以被大量復(fù)制和生成,而原子不能。因此,具身智能的 Scaling Law 將與我們熟知的、基于 Transformer 的 Scaling Law 有著根本的不同,它可能需要一個(gè)全新的、與 Transformer 非常不同的架構(gòu)。你如何看待這兩種不同的觀點(diǎn)?

      Lukasz Kaiser:我相信我們會(huì)發(fā)現(xiàn),具身智能將比我們想象的更接近于當(dāng)前的 LLM。物理世界的數(shù)據(jù)確實(shí)比互聯(lián)網(wǎng)上的少得多,但我們?cè)谔岣吣P偷臄?shù)據(jù)效率方面取得了長(zhǎng)足的進(jìn)步。實(shí)際上,推理模型就是一個(gè)很好的例子,我們現(xiàn)在用比預(yù)訓(xùn)練時(shí)少得多的樣本來教它們數(shù)學(xué)。大概幾十萬個(gè)任務(wù)就足以讓它在許多非常困難的任務(wù)上從基本 0% 的準(zhǔn)確率提升到 100%。這在物理學(xué)和許多其他領(lǐng)域也是類似的。

      但這些模型確實(shí)依賴于一個(gè)預(yù)先訓(xùn)練好的模型。所以對(duì)于物理任務(wù),我們可能需要一些在多模態(tài)方面表現(xiàn)更好的模型,尤其是在視頻方面。我相信像 Sora 或 Veo 這樣能生成或理解視頻的模型,是未來能在物理世界中行動(dòng)的模型的絕佳前驅(qū),它們就像是預(yù)訓(xùn)練部分。

      要真正教會(huì)機(jī)器人操作,我們需要像 RL(強(qiáng)化學(xué)習(xí)) 那樣的推理部分,它需要從一個(gè)在大量視頻上訓(xùn)練過的、非常好的多模態(tài)模型開始。我們現(xiàn)在還沒有這樣的模型,雖然這個(gè)領(lǐng)域正在變得越來越好,但還沒有達(dá)到足以在復(fù)雜環(huán)境中操控真實(shí)機(jī)器人的門檻。所以,我們需要好的基礎(chǔ)模型。在此之上,可能只需要少量數(shù)據(jù),我們需要以一種非常好的方式加入 RL 訓(xùn)練,比如允許模型在采取行動(dòng)前進(jìn)行一些推理。當(dāng)然,這也有現(xiàn)實(shí)的障礙。例如,我們目前的推理模型,如果你想讓它在機(jī)器人的每一個(gè)動(dòng)作前都進(jìn)行推理,那速度就太慢了,無法在現(xiàn)實(shí)世界中有效行動(dòng)。

      所以,它可能需要某種層級(jí)式架構(gòu)來至少能夠輸出動(dòng)作。架構(gòu)需要一些調(diào)整,就像多模態(tài)一樣。但我確實(shí)認(rèn)為,在某個(gè)地方會(huì)有一個(gè)核心的 Transformer 在運(yùn)行。我相信沿著這樣的路徑,我們將能得到相當(dāng)不錯(cuò)的機(jī)器人模型和具身智能。

      當(dāng)然,我不認(rèn)為這是實(shí)現(xiàn)具身智能最高效的方式。如果你觀察人類,我們的行動(dòng)方式似乎并非如此,我們以及動(dòng)物在這方面非常擅長(zhǎng)。所以我確實(shí)相信,之后會(huì)有一代新模型,在數(shù)據(jù)和計(jì)算上都將高效得多,它會(huì)在架構(gòu)和學(xué)習(xí)過程中帶來更多的改變。但通常來說,只要你有了一個(gè)至少能跑起來的架構(gòu),開發(fā)下一個(gè)版本就會(huì)容易得多。所以我認(rèn)為,第一個(gè)版本可能實(shí)際上是建立在我們現(xiàn)有成果之上的,但會(huì)做一些調(diào)整以適應(yīng)實(shí)際應(yīng)用。


      對(duì)話七 | 強(qiáng)化學(xué)習(xí):是超級(jí)優(yōu)化器,還是科學(xué)發(fā)現(xiàn)的引擎?

      李建忠:我們來談?wù)剰?qiáng)化學(xué)習(xí)。在去年 OpenAI 的 O1和開源的 DeepSeek R1 等模型出現(xiàn)后,我們正看到一個(gè)向新范式的巨大轉(zhuǎn)變:由強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的推理范式。人們對(duì)此寄予厚望,認(rèn)為 RL 可以擴(kuò)展人類知識(shí)的邊界。但在多大程度上,這種探索是真正的“開放式創(chuàng)新”?又在多大程度上,它只是在人類定義的環(huán)境和獎(jiǎng)勵(lì)函數(shù)內(nèi)的“閉環(huán)優(yōu)化”?你認(rèn)為這種由 RL 驅(qū)動(dòng)的推理方法,能夠帶來真正全新的科學(xué)發(fā)現(xiàn)嗎?目前最大的挑戰(zhàn)是什么?

      Lukasz Kaiser:我?guī)缀醢淹评砟P涂醋饕环N新的架構(gòu),即使它們底層是 Transformer。它們有這種“思維鏈”,也就是推理過程,你可以把它看作一個(gè)潛變量。模型在說話前會(huì)先思考。如果你把整個(gè)系統(tǒng)看作一個(gè)模型,那么你就無法很好地帶著梯度來訓(xùn)練離散的潛變量。你可以試試,而且之前也有人這么試過,但結(jié)果證明這條路走不太通。你可以用強(qiáng)化學(xué)習(xí)的方式來做,這經(jīng)過大量嘗試,在某種程度上證明至少是可行的。

      這里有兩個(gè)問題。一個(gè)是,這種 RL 訓(xùn)練的效果如何,它有什么局限性?例如,你必須從一個(gè)已經(jīng)用梯度下降預(yù)訓(xùn)練過的模型開始,而不能從隨機(jī)權(quán)重開始,至少我們還不知道是否可以這樣做。所以與梯度下降相比,它肯定有一些局限性。但它有一個(gè)巨大的優(yōu)勢(shì),就是數(shù)據(jù)效率高得多。它可以從有限的、少得多的一組數(shù)據(jù)中學(xué)習(xí),比如僅僅 1000 道數(shù)學(xué)練習(xí)題。

      我相信因?yàn)?RL 非常抽象,你只得到一個(gè)獎(jiǎng)勵(lì),你對(duì)這個(gè)獎(jiǎng)勵(lì)沒有任何約束。如果你能很好地優(yōu)化它,那么你就應(yīng)該能夠?qū)W習(xí)。你可以拿一篇關(guān)于數(shù)學(xué)或物理學(xué)特定主題的研究論文,把它變成 RL 的學(xué)習(xí)任務(wù)——如果它確實(shí)是數(shù)據(jù)高效的,我們看到它確實(shí)是——那么模型就可以從中學(xué)習(xí),并突然之間在這個(gè)特定的研究課題上變得知識(shí)淵博。模型可以開始提出一些想法,甚至連從事這項(xiàng)研究的專業(yè)人員都會(huì)覺得有趣和新穎。我相信我們會(huì)看到這一點(diǎn)。

      但是,這種用于語言模型的強(qiáng)化學(xué)習(xí)范式,OpenAI o1 的預(yù)覽版是一年前才發(fā)布的,DeepSeek R1 更晚。即使你看那些可能幾年前開始的研究,也就是大約三年的時(shí)間。而在更廣泛的社區(qū)中,它基本上是從一年前才開始的。我們還處于這個(gè)范式的非常早期階段,我相信還有很多東西需要嘗試、發(fā)現(xiàn)和改進(jìn),才能讓它更高效,走得更遠(yuǎn)。另一方面,我當(dāng)然相信這些模型已經(jīng)展現(xiàn)出很棒的東西。無論是公司、學(xué)術(shù)界、還是很多研究人員,我希望能一起將該范式推向一個(gè)更高的境地。


      對(duì)話八 | AI 的組織躍遷:如何實(shí)現(xiàn)大規(guī)模 Agent 協(xié)作?

      李建忠:去年,OpenAI 提出了一個(gè)五級(jí)的 AGI 等級(jí)劃分,其中更高的等級(jí)是由“創(chuàng)新”和“組織”來定義的。我們剛剛談到了創(chuàng)新。當(dāng)談到“組織”時(shí),普遍的理解是一個(gè)由相互協(xié)作的 Agent 組成的網(wǎng)絡(luò)。但目前 Agent 協(xié)作的方法似乎只能覆蓋非常有限的場(chǎng)景。要實(shí)現(xiàn)真正的、大規(guī)模的組織——比如成千上萬的人在一個(gè)公司里協(xié)作——似乎還非常遙遠(yuǎn)。你認(rèn)為實(shí)現(xiàn)這一目標(biāo)最大的挑戰(zhàn)是什么?

      Lukasz Kaiser:我認(rèn)為最大的挑戰(zhàn)在于開發(fā)下一代的推理模型。做一個(gè)類比,我覺得推理模型正處于我剛開始從事機(jī)器學(xué)習(xí)時(shí) RNN 所處的階段,而我們可能需要一個(gè) Transformer 創(chuàng)新級(jí)別的推理模型。目前,推理過程是這樣的:模型逐個(gè) token 進(jìn)行推理,以一種非常順序的方式生成結(jié)果,然后得到一個(gè)獎(jiǎng)勵(lì),就結(jié)束了。

      談及“組織”,人們很多時(shí)候討論的是多智能體系統(tǒng),很明顯期望它應(yīng)該是并行的。我們確實(shí)需要更多的并行性。我們不能等一個(gè)模型思考一個(gè)星期,然后得到一個(gè)獎(jiǎng)勵(lì)。那根本不現(xiàn)實(shí),應(yīng)該有很多事情并行發(fā)生。強(qiáng)化學(xué)習(xí)的價(jià)值函數(shù)已經(jīng)使用了很長(zhǎng)時(shí)間了,但大語言模型中的 RL 在當(dāng)前大多數(shù)情況下,并沒有使用價(jià)值函數(shù)。也許它們需要回歸,也許需要一些不同的東西——如果是 Yann LeCun,他大概會(huì)說是能量模型(Energy Model)。

      我認(rèn)為我們需要為并行過程提供更多的信號(hào)。如果 1000 個(gè)并行 Agent 只有一個(gè)獎(jiǎng)勵(lì),你怎么知道哪個(gè)做得好,哪個(gè)做得不好?我的判斷是在訓(xùn)練中我們需要更多的信號(hào),并結(jié)合一種架構(gòu)來融入這種并行的過程。用抽象的方式談?wù)撌虑楹苋菀祝覀冋嬲枰氖轻槍?duì)其中每個(gè)部分進(jìn)行非常具體的研究,這樣才能在下一代推理模型中,在這方面給我們帶來更多能力。


      對(duì)話九 | AI 記憶的瓶頸:模型離真正的“原生記憶”還有多遠(yuǎn)?

      李建忠:我們來談?wù)動(dòng)洃洝.?dāng)今大模型的“記憶”受限于上下文窗口,這感覺更像是“工作記憶”而不是“長(zhǎng)期的原生記憶”。許多公司已經(jīng)推出了自己的長(zhǎng)期記憶解決方案,但大多數(shù)都是在 Transformer 架構(gòu)之外的外掛擴(kuò)展。許多人認(rèn)為,記憶是模型能力的一個(gè)關(guān)鍵瓶頸。你如何看待 Transformer 架構(gòu)在記憶方面的限制?我們是否需要一個(gè)全新的原生記憶機(jī)制,比如像人類的海馬體那樣,來實(shí)現(xiàn)真正的、內(nèi)生的長(zhǎng)期記憶?

      Lukasz Kaiser:正如我前面所說,我?guī)缀醢淹评砟P涂醋饕环N新的架構(gòu)。它們絕對(duì)可以做的一件事,就是在這種思維鏈過程中使用工具,而其中一個(gè)工具就可以是“訪問我的記憶”。如果模型是用 RL 訓(xùn)練的,并且這個(gè)過程是用一個(gè)允許它這樣做的工具來訓(xùn)練,它就會(huì)學(xué)得很好。

      目前,模型被訓(xùn)練成可以訪問互聯(lián)網(wǎng),我認(rèn)為這有所不同。它應(yīng)該能夠區(qū)分互聯(lián)網(wǎng)記憶和自己的記憶。但是,如果你比較模型回答問題的能力,比如“動(dòng)物園幾點(diǎn)開門?”或者“這個(gè)庫(kù)最新版本的代碼是什么?”以前,模型只會(huì)胡編亂造一些東西,因?yàn)樗鼈冇涀×四硞€(gè)舊版本的信息。現(xiàn)在它們很清楚地知道需要去網(wǎng)上搜索,獲取真實(shí)答案,然后把它帶入模型。我相信通過這種工具的方式來解決記憶問題,對(duì)于大多數(shù)的情況已經(jīng)足夠好了。

      但未來的某個(gè)架構(gòu)可能會(huì)做得更好,也許不需要把它當(dāng)作一個(gè)工具來解決。我們拭目以待。但就目前而言,我認(rèn)為我們有一個(gè)可行的解決方案,而且它運(yùn)行得相當(dāng)不錯(cuò)。

      李建忠:如果類比人類來講,我們既有外部的記憶、比如圖書館;也有根植于我們大腦中的原生記憶。而且有些原生記憶會(huì)逐步內(nèi)化成我們知識(shí)、或者說大腦神經(jīng)網(wǎng)絡(luò)權(quán)重的一部分。從人類大腦來看,內(nèi)生記憶是我們智能不可或缺的一部分。如果像金魚一樣只有 7 秒的記憶,人類的智能可能不會(huì)像今天一樣發(fā)達(dá),甚至人類的愛恨情仇都與此有關(guān)。真正強(qiáng)大的智能體,內(nèi)生記憶可能是非常重要的一環(huán)。


      對(duì)話十 | 大模型如何擺脫瞬時(shí)學(xué)習(xí),而像人類一樣持續(xù)學(xué)習(xí)?

      李建忠:我們來談?wù)勊矔r(shí)學(xué)習(xí)(transient learning)和持續(xù)學(xué)習(xí)(continuous learning)。強(qiáng)化學(xué)習(xí)之父理 Rich Sutton 曾談到,當(dāng)前的大模型過于關(guān)注所謂的“瞬時(shí)學(xué)習(xí)”,而忽略了持續(xù)學(xué)習(xí),而人類總是在持續(xù)學(xué)習(xí)。甚至我們現(xiàn)在正在進(jìn)行的這場(chǎng)對(duì)話,同時(shí)也在改變我們大腦中的神經(jīng)網(wǎng)絡(luò)權(quán)重。但對(duì)于今天的大模型來說,一旦它們訓(xùn)練完成,它們的權(quán)重就固定了。用戶的交互不會(huì)更新神經(jīng)網(wǎng)絡(luò)權(quán)重本身。你認(rèn)為未來大模型有可能支持持續(xù)學(xué)習(xí)嗎?

      Lukasz Kaiser:我認(rèn)為這方面其實(shí)已經(jīng)發(fā)生了一些小步的進(jìn)展,那就是利用上下文(in-context)作為持續(xù)學(xué)習(xí)的記憶。模型會(huì)越來越多地嘗試,將從與我們的對(duì)話記憶中收集到的信息,盡可能多地放入上下文中,Transformer 在上下文學(xué)習(xí)方面做得很好。所以這是可行的,但效率不高,因?yàn)樯舷挛膶W(xué)習(xí)看上去不是最高效的學(xué)習(xí)方式。

      當(dāng)前記憶工具正在出現(xiàn),現(xiàn)在的 ChatGPT 也有一個(gè)記憶工具,模型可以在推理中訪問記憶。我覺得,這些都是很好的解決方案,會(huì)逐漸普及。但對(duì)我來說,作為一名研究者,將所有的記憶都視為 token 感覺有點(diǎn)不盡如人意,感覺上它們應(yīng)該成為連續(xù)的向量,或者是模型權(quán)重在某個(gè)地方的變化。我認(rèn)為類似這樣的東西會(huì)出現(xiàn)。

      它們可能不會(huì)馬上出現(xiàn),而且不得不面對(duì)“使用 token”這種方案作為基線的挑戰(zhàn),而這個(gè)基線比我們幾年前想象的要強(qiáng)大得多。但即便如此,我確實(shí)認(rèn)為,隨著時(shí)間的推移,那些能夠修改權(quán)重的方法會(huì)變得更重要。例如,像 LoRA 模塊,我們有非常經(jīng)濟(jì)的方式來修改語言模型的權(quán)重。我們很難讓每個(gè)用戶都擁有一個(gè)模型,原因是今天的模型太龐大了,而且需要為它們提供服務(wù),這根本不現(xiàn)實(shí)。但現(xiàn)在我們知道可以做一些很小的適配器(adapters),這實(shí)際上是可行的。每個(gè)人都可以微調(diào)自己的模型,它們效果很好。

      因此,實(shí)質(zhì)性修改權(quán)重已經(jīng)變得更加可行。我只是認(rèn)為我們還沒有很好的算法知道如何做好這件事。這是一個(gè)研究問題,也可能涉及到如何將它與存儲(chǔ)在 token 中的記憶相結(jié)合。此外,從用戶的角度來看,能夠看到記憶里有什么(你看不見向量里有什么),這種可解釋性有多重要?我不知道,也許不重要,也許你唯一需要的就是能夠刪除它。這其中會(huì)有很多實(shí)踐和研究上的考量,但可以肯定的是,上下文學(xué)習(xí)已經(jīng)為持續(xù)學(xué)習(xí)做了很多貢獻(xiàn)。但我確實(shí)感覺,或者至少作為一名研究者,我希望我們未來能有一種更優(yōu)雅的方式來實(shí)現(xiàn)持續(xù)學(xué)習(xí)。

      李建忠:最后一個(gè)問題。你將在我們 10 月 16-17 日舉行的全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)(ML-Summit)上發(fā)表題為“下一代推理模型的挑戰(zhàn)與研究”的主題演講。我們都對(duì)此非常期待。你能否給我們稍微劇透一下你將分享的內(nèi)容?

      Lukasz Kaiser:就像我們剛才談到的,我確實(shí)相信推理模型是一個(gè)新的范式,一種新的架構(gòu),它數(shù)據(jù)效率更高,能夠從科學(xué)領(lǐng)域非常少的樣本中學(xué)習(xí)。它可以產(chǎn)生非常令人興奮的想法和見解。我確實(shí)認(rèn)為,要真正實(shí)現(xiàn)這一成果,我們需要下一代的推理架構(gòu),一些更并行的東西。當(dāng)然,研究中仍然存在很多挑戰(zhàn)。

      我不會(huì)假裝我們都做完了。我們面對(duì)的是一個(gè)非常引人注目的未來,那就是模型從事真正的科學(xué)研究,在各種領(lǐng)域幫助科學(xué)家,包括:醫(yī)學(xué)、生物學(xué)、化學(xué)、數(shù)學(xué)、物理學(xué)等。它們可以幫助發(fā)現(xiàn)新方法,或者驗(yàn)證現(xiàn)有方法,或者指出需要改進(jìn)的地方。我認(rèn)為這個(gè)未來,即將到來,并不像幾年前那么遙遠(yuǎn)。能夠致力于此并推動(dòng)其發(fā)展,無疑是令人興奮的。現(xiàn)在是機(jī)器學(xué)習(xí)一個(gè)極其激動(dòng)人心的時(shí)刻,仍然需要新的想法,但我們可以在一個(gè)不那么遙遠(yuǎn)的未來,看到它對(duì)科學(xué)產(chǎn)生的真正影響,這將是非常積極的。

      李建忠:我們都非常期待你精彩的主題演講。Lukasz,非常感謝你今天的時(shí)間。我們進(jìn)行了一次非常棒的對(duì)話,非常感謝你與我們分享了這么多關(guān)于 AI 的深刻見解和想法。期待全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)上您的精彩演講。

      2025 全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)將于 10 月 16–17 日在北京威斯汀酒店舉行。今年的大會(huì),除了迎來 OpenAI 資深研究科學(xué)家 Lukasz Kaiser 的重磅回歸,還將匯聚來自學(xué)術(shù)界與產(chǎn)業(yè)界的 50 多位嘉賓:既有頂會(huì)論文作者和資深科研學(xué)者,也有在一線推動(dòng)落地的技術(shù)實(shí)踐者。他們將圍繞智能體工程與實(shí)踐、AI 編程、多模態(tài)大模型、具身智能、開源框架等熱點(diǎn)話題,帶來真切的思考與第一手經(jīng)驗(yàn)。

      官網(wǎng):https://ml-summit.org/

      我們希望,這不僅是一場(chǎng)知識(shí)與技術(shù)的交流,更是一段同行者之間的深度對(duì)話。無論你是科研探索者,還是產(chǎn)業(yè)實(shí)踐者,都能在這里捕捉到前沿趨勢(shì)、獲取啟發(fā),甚至找到屬于自己的“下一步”。

      大會(huì)全日程速覽:






      領(lǐng)取今年 4 月全球機(jī)器學(xué)習(xí)技術(shù)大會(huì) PPT 資料

      預(yù)約 10 月全球機(jī)器學(xué)習(xí)技術(shù)大會(huì) PPT 資料

      官方網(wǎng)站:www.ml-summit.org

      購(gòu)票熱線:400-821-5876

      購(gòu)票咨詢:service@boolan.com

      企業(yè)合作:partner@boolan.com

      演講申請(qǐng):hemiao@csdn.net

      媒體聯(lián)系:media@boolan.com

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      炸裂!巴薩18歲新星重傷歸來5場(chǎng)狂轟4球,拉瑪西亞再出中場(chǎng)真核!

      炸裂!巴薩18歲新星重傷歸來5場(chǎng)狂轟4球,拉瑪西亞再出中場(chǎng)真核!

      田先生籃球
      2026-03-06 11:05:50
      黃蜂瘋了!首發(fā)五人組勝率90%,還順手碎了項(xiàng)67年的NBA紀(jì)錄

      黃蜂瘋了!首發(fā)五人組勝率90%,還順手碎了項(xiàng)67年的NBA紀(jì)錄

      仰臥撐FTUer
      2026-03-06 13:59:05
      伊朗外長(zhǎng)最新表態(tài)

      伊朗外長(zhǎng)最新表態(tài)

      環(huán)球時(shí)報(bào)國(guó)際
      2026-03-07 00:15:51
      中國(guó)女籃72-66雙殺巴西!數(shù)據(jù)一清二楚:不是張子宇, 最大功臣是她

      中國(guó)女籃72-66雙殺巴西!數(shù)據(jù)一清二楚:不是張子宇, 最大功臣是她

      林子說事
      2026-03-07 06:26:56
      父母若是有以下7種疾病,子女基本都會(huì)遺傳,不少人并不清楚!

      父母若是有以下7種疾病,子女基本都會(huì)遺傳,不少人并不清楚!

      健康之光
      2026-03-03 17:35:03
      愛因斯坦去世后大腦被偷走研究數(shù)十年,到底發(fā)現(xiàn)了什么?

      愛因斯坦去世后大腦被偷走研究數(shù)十年,到底發(fā)現(xiàn)了什么?

      宇宙時(shí)空
      2026-03-06 07:00:09
      1998年數(shù)萬華人遭屠殺,中國(guó)為何沒出兵?26年后答案讓人沉默

      1998年數(shù)萬華人遭屠殺,中國(guó)為何沒出兵?26年后答案讓人沉默

      比利
      2026-02-16 01:34:21
      湖南衛(wèi)視元宵晚會(huì)直播發(fā)生意外,一名表演嘉賓在完成舞臺(tái)動(dòng)作時(shí)意外失誤撞向何炅,何炅:這是要給我拜個(gè)晚年嗎

      湖南衛(wèi)視元宵晚會(huì)直播發(fā)生意外,一名表演嘉賓在完成舞臺(tái)動(dòng)作時(shí)意外失誤撞向何炅,何炅:這是要給我拜個(gè)晚年嗎

      極目新聞
      2026-03-04 09:59:45
      訂單大漲118%!光通信四大龍頭比拼,誰才是真增長(zhǎng)王?

      訂單大漲118%!光通信四大龍頭比拼,誰才是真增長(zhǎng)王?

      小陸搞笑日常
      2026-03-06 13:11:37
      當(dāng)年舉報(bào)畢福劍的那位告密者竟然變成這樣了!誰能想到啊?

      當(dāng)年舉報(bào)畢福劍的那位告密者竟然變成這樣了!誰能想到啊?

      霹靂炮
      2026-02-06 13:48:54
      文班亞馬:去年前往少林寺是完美時(shí)機(jī),我學(xué)了一系列新動(dòng)作

      文班亞馬:去年前往少林寺是完美時(shí)機(jī),我學(xué)了一系列新動(dòng)作

      懂球帝
      2026-03-06 22:30:08
      海報(bào)被指抄襲路虎,長(zhǎng)城汽車魏建軍道歉:愿承擔(dān)全部法律和經(jīng)濟(jì)責(zé)任

      海報(bào)被指抄襲路虎,長(zhǎng)城汽車魏建軍道歉:愿承擔(dān)全部法律和經(jīng)濟(jì)責(zé)任

      澎湃新聞
      2026-03-06 21:22:29
      2017年,84歲的南大教授找到失聯(lián)23年的學(xué)霸兒子,兒子卻拒絕相見

      2017年,84歲的南大教授找到失聯(lián)23年的學(xué)霸兒子,兒子卻拒絕相見

      北有南梔
      2026-03-05 17:55:03
      豬油再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

      豬油再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血壓患者常吃豬油,或出現(xiàn)幾種變化

      蜉蝣說
      2026-02-23 21:23:05
      男子稱在上海一銀行門口被三名彪形大漢挾持上車,搶走20萬!民警調(diào)查揪出“黑吃黑”真相

      男子稱在上海一銀行門口被三名彪形大漢挾持上車,搶走20萬!民警調(diào)查揪出“黑吃黑”真相

      大象新聞
      2026-03-06 14:43:03
      1.2億農(nóng)村老人,每月只領(lǐng)200元養(yǎng)老金,買兩袋米就沒了。

      1.2億農(nóng)村老人,每月只領(lǐng)200元養(yǎng)老金,買兩袋米就沒了。

      流蘇晚晴
      2026-02-26 18:18:15
      “中美罕見協(xié)調(diào)一致,敦促加納”

      “中美罕見協(xié)調(diào)一致,敦促加納”

      觀察者網(wǎng)
      2026-03-06 18:25:06
      隊(duì)報(bào):盡管格子不想在賽季中期離開馬競(jìng),但奧蘭多城仍未放棄

      隊(duì)報(bào):盡管格子不想在賽季中期離開馬競(jìng),但奧蘭多城仍未放棄

      懂球帝
      2026-03-07 08:14:42
      人類去世之后靈魂仍舊存在?科學(xué)家們?cè)鲞^相關(guān)實(shí)驗(yàn)!

      人類去世之后靈魂仍舊存在?科學(xué)家們?cè)鲞^相關(guān)實(shí)驗(yàn)!

      宇宙時(shí)空
      2026-03-05 21:40:03
      18-21,12-21!梁王組合連丟兩局遺憾出局,無緣全英公開賽四強(qiáng)

      18-21,12-21!梁王組合連丟兩局遺憾出局,無緣全英公開賽四強(qiáng)

      全景體育V
      2026-03-07 06:20:32
      2026-03-07 08:36:49
      AI科技大本營(yíng) incentive-icons
      AI科技大本營(yíng)
      連接AI技術(shù)的創(chuàng)造者和使用者
      2639文章數(shù) 7659關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

      頭條要聞

      伊朗大規(guī)模發(fā)射新一代導(dǎo)彈 摧毀美軍大量設(shè)施、裝備

      頭條要聞

      伊朗大規(guī)模發(fā)射新一代導(dǎo)彈 摧毀美軍大量設(shè)施、裝備

      體育要聞

      跑了24年,他終于成為英超“最長(zhǎng)的河”

      娛樂要聞

      周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

      財(cái)經(jīng)要聞

      關(guān)于經(jīng)濟(jì)、股市等,五部門都說了啥?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩(wěn)

      態(tài)度原創(chuàng)

      健康
      游戲
      手機(jī)
      親子
      公開課

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      曝下代Xbox靠純算力制霸!性能“爆殺”PS6

      手機(jī)要聞

      OPPO回應(yīng)realme真我暫停新機(jī)研發(fā),稱相關(guān)工作均正常進(jìn)行中

      親子要聞

      兒童鼻出血的常見問題,兒科醫(yī)生解答

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版