
![]()
近日,OpenAI首席研究員、Transformer論文八位作者之一?ukasz Kaiser接受海外播客
Jon Hernandez AI的深度訪談。作為GPT-4長上下文研發負責人和o1推理模型研究領導者,Kaiser在這次對話中深入探討了智能的本質定義、Transformer 的發明細節、推理模型的底層邏輯、AGI 的現實距離、算力瓶頸與 Scaling Law 的延續,以及 AI 對科學研究、社會就業和人類未來的深遠影響。
Kaiser指出,AI不會進入寒冬,反而將在未來一兩年迎來“令人恐懼的劇烈突破”。他認為舊的Transformer擴展范式雖已接近經濟瓶頸,但推理模型范式才剛剛開啟,正處于能力爆發的陡峭上升期。
關于推理模型的革命性意義,Kaiser透露,OpenAI在ChatGPT發布前、甚至GPT-4之前就已開始研究推理模型,領先公開發布約兩年半。他將推理模型與Transformer相提并論,稱其為“繼Transformer之后最大的技術突破",并強調推理模型所需數據量比傳統LLM少一個數量級。
在技術路徑上,Kaiser明確指出GPU和能源是當前AI發展的終極瓶頸,而非創意或算法。他透露即使算力增加十倍,OpenAI仍有廣闊的應用空間。關于模型訓練,他說明GPT-4演進到GPT-4o就是完整重訓,主版本更新通常需要半年到一年周期。
對于AGI的定義,Kaiser表示,他不喜歡AGI這個詞,認為AI與人類截然不同,在數學、編程等領域遠超人類,但在物理世界中仍然笨拙。他預測推理模型將在未來一兩年內自動化大部分辦公任務,編程領域的進展"神速",但物理世界的替代在技術和經濟上還不劃算。
在爭議話題上,Kaiser認為Transformer既是發現也是發明——核心自注意力機制是發現,但讓它運作的各種優化是發明。他回應了Richard Sutton對LLM的質疑,指出推理模型與舊式LLM本質不同,學習方式更高效、更接近人類,所需數據量下降了一個數量級。
關于幻覺問題,Kaiser揭示了根本原因:模型訓練目標是回答問題,而互聯網語料中極少包含"我不知道"的表述。解決方案是調整訓練數據并強化推理能力,讓模型在搜索無果時自然承認不知道。
在商業模式上,Kaiser強調OpenAI引以為傲的是采用訂閱模式而非廣告模式,核心原則是不把用戶參與度作為優化指標。他明確表示內部有強烈共識"不想走那條路",并認為語言模型的技術特性天然難以被商業利益扭曲。
關于AI未來的發展,他不認為AI會瞬間創造天堂,真正的挑戰不在技術本身,而在于如何使用它。他呼吁全社會共同承擔責任,警惕技術誤用。
01 智能的本質與AI使命
對你來說,什么是智能?你作為Transformer的作者并在此刻的OpenAI工作,認為AI是一項造福社會的技術嗎?你的愿景是什么?
?ukasz Kaiser: 這是一個深奧的話題。盡管研究了很久,學術界常用的定義是在復雜環境中達成目標的能力,但這建立在目標明確的前提下。觀察孩子你會發現,他們的目標未必清晰。智能也許包含目標之外的維度,比如單純的好奇心。研究AI的迷人之處在于,你會不斷發現智能中那些意想不到的側面。隨著我們賦予計算機更多能力,新的維度又會浮現,讓我們意識到有些以前未曾重視的特質也是智能的重要組成部分。
關于AI愿景,投身AI領域的人都抱著造福人類的愿景。歷史證明技術通常會帶來積極影響,雖然過程并非一帆風順。AI誕生在社交媒體和互聯網普及之后,這讓我們能吸取教訓,投入大量精力確保它不會傷害人類。AI有潛力推動科學進步、解決社會問題并處理繁重工作,但強大的機器也伴隨風險。相關機構需要介入觀察,確保技術發展不偏離軌道。
關于技術風險:這種力量既能帶來福祉,也可能引發各種并發癥。意識到人類的未知領域也很重要。沒人能預知未來,就像第一輛汽車問世時,人們無法預見到后來的高速公路和交通擁堵。隨著技術發展,我們需要不斷調整規則來降低傷害,但如果沒有汽車和飛機,我們也無法擁有現代生活。
AI的進化速度遠超汽車,汽車用了100年時間來完善基礎設施和法律,而AI的問題在于它太快了。但AI是數字化的,我們修筑數字橋梁的速度同樣很快。雖然發展迅速,但我目前并不覺得快到了失控的地步。ChatGPT推出至今,大家并沒有被這種速度壓垮,而是正在學會如何使用它。
關于OpenAI使命:OpenAI的使命始終是構建有益的AGI。隨著能力提升,我們希望確保它能惠及每個人。我們的目標是提升AI的能力,讓它替人類完成繁重工作并助力科學進步,同時確保其安全性。
02 AGI的重新定義
你擁有獨特的內部視角,AGI真的像傳言中那樣近嗎?這是我們近期就需要考慮的問題嗎?
?ukasz Kaiser: 我其實不太喜歡AGI這個詞。我16歲時的第一份兼職就是給Ben Goertzel寫代碼,他正是這個詞的創造者。最初這個詞是指相對于人類這種特定智能而言的通用智能,是一種比人類意識更廣闊的存在。而現在人們將AGI定義為能做人類能做的任何事。但AI與人類截然不同,它在數學、編程等領域遠超人類,但在物理世界中,機器人依然非常笨拙。我認為AI會持續進化,但在物理領域取代人類工作,目前在技術或經濟上還不劃算。
關于推理模型變革:當前更值得關注的是推理模型帶來的變革。從去年開始,推理模型已能勝任很多專業辦公任務。它不再是幾秒鐘吐出答案的工具,而是能持續思考數小時并產出高質量成果,這能顯著提升整體效率。這確實意味著部分工作流程將被自動化,從事這些工作的人可能需要轉型。目前它更多是自動化特定任務,讓你有精力處理其他環節。無論是否稱之為AGI,這種變革正在發生,正如無人駕駛終將普及一樣,AI的編程能力會越來越強,逐漸接管更多的開發任務。面對這些變革,整個社會都需要深思如何引導出一個好的結局。
03 推理模型已具備完成大部分辦公任務的潛力
在AI能夠處理我們大部分日常任務之前,我們還有多少時間?
?ukasz Kaiser: 如果是指電腦上的辦公任務,比如點擊、寫作、編程,這些變化會來得非常快。當前的推理模型已具備完成大部分此類工作的潛力。雖然現在還有些小毛病或數據不完善,但各實驗室都在通過競爭尋找最有價值的應用場景。隨著Scaling Law的持續生效和研究深入,模型能力會持續提升。以編程為例,在AI開發者自身的迫切需求驅動下,進展堪稱神速。Anthropic的Claude和OpenAI的Codex已能根據指令編寫復雜程序,處理大型代碼庫并進行安全漏洞審查,而在一年前這幾乎是不可想象的。
關于Codex進化:哪怕就在三個月前,Codex還只是輔助工具。但現在即使面對復雜的內部代碼庫,它也能提供實打實的幫助。我團隊里一半的人現在都是先讓AI試著寫一遍代碼,再進行人工微調。而這僅僅是推理范式的開端,還有大量容易改進的技術細節等待優化,它們肯定會變得更強大。
04 算力是終極瓶頸
AI的演進速度驚人,但有什么因素在阻礙它變得更快嗎?是因為算力受限嗎?你們在提供服務時,是否感到受到了算力資源的制約?
?ukasz Kaiser: 這是肯定的。對于所有大型公司而言,受限于GPU資源的總量,我們能提供的服務是有限的。支付更高訂閱費的用戶可以使用更先進的模型,但從核心使命來看,OpenAI以及Anthropic等機構都希望向所有人展示AI的潛力。讓大眾理解AI趨勢的唯一途徑就是讓他們親身體驗,因此我們致力于讓免費版模型盡可能接近頂尖水平。這實現起來非常困難,因為這意味著必須在有限的算力資源下進行極高效率的分配。
GPT-5確實帶來了顯著提升,但目前的推理功能僅覆蓋了部分對話。AI會自動切換模型,有時會分配給用戶體量較小的模型。為了讓現有的GPU資源支撐龐大的用戶群,這些性能上的折中是必不可少的。
關于算力需求:我們并不知道算力的上限在哪里。目前唯一可以確定的是,我們需要的算力遠超現有的規模,Sam正在竭盡全力爭取更多資源。有人擔心這么多GPU是否能被充分利用,我對此并不擔心。在這個量級上,算力即便增加十倍,也依然有廣闊的應用空間。我們可以訓練更龐大的原始模型,然后再進行精簡。有了資源,研究方法會變得非常多樣。當然,這些投資規模空前,市場最終會對投入產出比形成約束,這從長遠來看也是好事。
05 舊Transformer范式接近瓶頸,新推理范式正處陡峭上升期
現在AI發展極快,但也有觀點認為我們正進入另一個AI寒冬。你認為我們在減速還是在加速?
?ukasz Kaiser: 過去幾年我們處于Transformer范式下,通過擴展模型規模和數據量做出了ChatGPT。這種單純預測下一個詞的范式已經接近瓶頸,因為互聯網上的通用數據基本已被挖掘殆盡。但新的推理范式才剛剛開啟,它正處于能力爆發的陡峭上升期。我們已經證明了這條路行得通,但尚未進行大規模開發。隨著研究方法的改進,這條路徑還有巨大的提升空間。
關于Scaling Law:雖然舊范式受制于經濟性,但新的GPU投入依然會帶來性能提升。硬件基礎設施的建設確實面臨電力供應等現實挑戰,但我的基本觀點是,隨著數據中心的建成,更大規模的模型會表現得更好。Scaling law在之前的范式中始終有效,模型規模越大,能力越強。當我們將大模型與推理結合,應用于復雜的工作任務時,這種進步會更加顯著。如果AI只是在幾秒內給出簡單回答,你可能察覺不到進步,但如果你讓它處理需要連續運行數小時的任務,它錯誤率更低、邏輯更嚴密且能扎實完成任務的表現,會真正體現出其價值。
我們將同時看到來自舊有Scaling范式和新推理范式的進步。兩者結合,意味著AI進展不會進入寒冬,相反,未來一兩年內可能會迎來非常劇烈的突破。這確實令人敬畏,甚至讓人感到一絲恐懼。
關于突破時機:推理模型的出現時機非常精準,正好填補了傳統大模型Scaling收益放緩的空白。半導體領域有個類比,摩爾定律之所以能維持40年,是因為每隔幾年就有一次關鍵的技術突破。當這種突破多次發生時,就不能再歸結為偶然。我們四年前就開始研究推理模型,因為當時就能預見到純粹靠規模堆出來的模型在經濟上是不可持續的,必須尋找新范式。我們曾發表過關于數學驗證器的論文,分析顯示如果沿用舊范式,模型參數需要達到數千萬億級才能解決簡單的數學題。這在數據量和經濟性上都是行不通的。Scaling law依然有效,只是在大規模擴展時變得不再務實。通過RLHF以及現在的強化學習,我們真正破解了下一步該往哪里擴展的難題。
06 Transformer誕生記
2017年那篇極具影響力的論文發布時,你是核心作者之一。作為那八位作者之一是什么感覺?當時你們在Google的協作狀態是怎樣的?當時你們意識到這項研究的重大意義了嗎?
?ukasz Kaiser: 當時我們大部分作者都在Google,Ilya也是在那段時間前后離職的,大家都在同一個技術生態中。在當時看來,這更像是日常的研究工作。回想起來,當時循環神經網絡是主流,展示了神經網絡具備處理翻譯任務的潛力,這在當時對傳統翻譯界是個巨大沖擊。到了2017年,我們已經意識到循環神經網絡在處理長文本時的序列化瓶頸。當時注意力機制已經出現并證明能幫助模型處理更長的句子。同時,卷積神經網絡也在并行化處理上展現了優勢。在那個背景下,嘗試用注意力機制完全取代卷積,只是當時眾多科研方案中的一個,但它的效果遠超所有人的預期。
想法本身可能并不昂貴,讓它真正跑通才是最難的。Transformer的成功在于一系列細節的完美融合,包括前饋層的參數分布、多頭機制的設計,以及訓練時必不可少的一系列學習率優化手段。如果你獨自研究,漏掉任何一個細節可能都會導致失敗。正是因為有一個跨團隊的頂尖群體,每個人都對自己負責的細節精益求精,不斷跑實驗迭代,才最終磨合出了這個劃時代的架構。這不僅是一個小改進,它確實是一個遠超前代技術的飛躍。
關于發現還是發明:這很難界定,我會說兩者兼而有之。其中確實有發現的成分,我覺得核心的自注意力機制絕對是一項發現,它看起來像是一種非常本質的規律。但話又說回來,它本身無法獨立運作,為了讓它真正大放異彩,必須加入各種調整和優化,從某種意義上說,那部分更像是發明。
關于數據效率:論文里還有一個語法解析的例子。我把它放進去主要是覺得很有趣。那是我之前研究過的一個數據集,以前必須大幅擴充數據規模才能讓循環神經網絡跑通。如果只用其中一小部分數據訓練,循環神經網絡完全不起作用。但如果換成Transformer,即便只用那一丁點數據,它也能表現得非常好。我一直覺得這一點很有意思,雖然它可能沒被引起太多關注,因為現在的趨勢是在海量數據集上訓練大語言模型,模型規模越大,所需的數據就越多。但事實上,Transformer在小規模數據上的訓練表現也優于循環神經網絡,它們其實具有更高的數據效率,這一點在某種程度上被大家忽視了,所以我當時堅持要把這個例子寫進論文。
關于后續發展:在那之后不久,如果當時我們中有人堅定地認為這就是未來,一切都將歸于語言模型,那一定是Noam。他總是說我們要把它規模化,所以他很快就開始研究語言模型了。甚至在論文發表期間,他的下一個訓練目標就不再局限于翻譯,而是轉向了語言建模。他當時就有了應該直接堆規模的想法,這個苗頭一直都在。只是對于當時的學術會議來說,翻譯是一個非常成熟的基準測試,更有利于論文發表,但應該在語言數據上進行訓練的想法確實早已存在。
07 從Transformer到推理模型
Transformer到ChatGPT之間有哪些重要突破?你們什么時候開始研究推理模型的?
?ukasz Kaiser: 在Transformer論文和ChatGPT出現之間,其實有很多不容忽視的突破。在Transformer之后,模型開始在全網數據上進行大規模訓練,出現了BERT和GPT-2等模型。Scaling Law的出現則揭示了如何科學地提升模型規模。此外還有大量關于模型增長方式、注意力層、激活函數從ReLU演進到GELU,以及專家混合模型的研究。正是這一系列的科研積累,才讓我們從基礎的Transformer跨越到GPT-4。這凝聚了無數人的心血,并非一蹴而就。人們常說因為GPU算力夠了,深度學習革命就爆發了,我并不認同。Transformer也是如此,并不是說論文一發,生成式AI就誕生了,那是許多天才經過極其艱苦的努力才實現的。
關于推理模型時間線:GPT-2大約出現在2019年。推理模型直到2024年才對公眾發布,比如o1應該是第一個。我們可能在發布前兩年半就開始了,是在GPT-4之前,甚至是在ChatGPT發布之前,我們就已經在研究推理模型了。我的團隊確實在研究一些非常超前的技術。當然,其中一些可能永遠都不會成功。研究中有很多嘗試是永遠不會見光的,但它們同樣重要。我經常開玩笑說,在《Attention is all you need》發表前,我有一篇論文甚至被NeurIPS接收了,那篇論文的主旨基本是在說你不需要注意力機制,結果那篇論文完全被大家遺忘了。
08 推理模型的本質
所謂的舊式大語言模型和推理模型之間到底有什么區別?
?ukasz Kaiser: 舊式大語言模型的核心是預測下一個單詞。它在表征層處理信息,然后告訴你下一個Token出現的概率是多少,你從中采樣一個Token,然后不斷重復這個過程。而推理模型會為自己生成一些不展示給用戶的內部Token,這些Token的數量是可變的,它實際上是在進行思考。關鍵在于,它在思考過程中甚至可以調用工具。比如它可以進行網頁搜索,查詢Google或Bing,讀取返回的結果,生成更多內部Token。直到完成這一系列過程后,它才會輸出你最終看到的那些Token。
關于工具調用:雖然最初的生產模型里可能沒有,但在研究階段早就有相關的嘗試了。很久以前有一篇叫Toolformer的論文就在討論這類訓練,所以利用工具的想法早已有之。將其產品化的難點在于,除了語言模型,你還得為每個用戶提供運行這些工具的執行環境,這在工程上非常復雜。但現在的推理模型絕對可以進行搜索、運行Python代碼。其實Python運行能力在ChatGPT推出推理模型之前就有了,也就是當時的數據分析功能,那是用普通模型實現的。你讓它寫代碼,它就運行。現在的推理模型則能支持更多工具,比如通過MCP服務器,也就是Anthropic推出的一種模型上下文協議。你甚至可以告訴Chat,這是我的工具地址和功能說明。它在思考過程中就會根據需要調用你的工具,這個工具可以訪問你的私有數據,或者幫你記筆記。這種協議允許在統一界面下處理各種工具,我相信未來還會有更多工具。
關于思維鏈訓練:思維鏈的概念早在推理模型問世前兩年就出現了。當時大家發現,即使是舊式模型,只要告訴它請一步步思考,它就會進行一些推理,這在預料之中。但真正的突破在于,我們可以通過訓練讓它思考得更好。這種訓練不能只靠梯度下降,而必須引入強化學習。這是一種更敏感的訓練方法。梯度下降只要優化器夠好,即便從隨機權重開始也能跑通,但強化學習不行,你不能從一個連英語都不會說的隨機狀態開始,你必須給它一個已經具備一定思考基礎的先驗。你還得非常小心地處理策略內和策略外的訓練細節。打磨這套流程花了很長時間,特別是在不確定它是否可行的情況下,這種打磨非常磨人。我認為這是深度學習研究中的一大難題,在還沒看到成效之前,你必須投入海量精力去鉆研一個可能根本無法成功的東西。
但這就是深度學習的魅力,一旦它開始起作用,表現就會極其驚艷。以前你讓模型一步步思考,它雖然在思考,但如果中間出錯了,它很難意識到并退回去重來。而通過強化學習訓練后,它突然學會了這種行為。它會嘗試某種路徑,發現行不通,然后會意識到錯誤并換個思路。它思考的時間變長了,因為它在權衡不同的選項,嘗試不同的路徑并驗證結果。它在思考過程中展現出了許多這類美妙的特質,甚至學會了調用工具。比如它在搜索時發現兩個來源的信息不一致,它就會去第三個地方驗證。它學會這些技能,僅僅是因為我們給了它一個必須得到正確答案的信號,而對于復雜的學習過程來說,這其實是一個非常微弱的反饋信號。
回應Richard Sutton:我認為推理模型確實做到了這一點。Richard Sutton當時的論點可能更多是針對舊式大語言模型,那些模型確實只是被訓練來模仿出現的單詞。但推理模型截然不同,它們知道最終目標是什么,然后通過內部思考來達成。從這個意義上說,推理模型是一個全新的類別。如果你把整個思考過程看作一種正在學習的潛在建模行為,那么它們與舊式大語言模型就有著本質的區別。雖然底層可能還是Transformer,甚至共用預訓練權重,但推理模型的學習方式是顛覆性的。
如果你認同Richard Sutton的觀點,你會發現推理模型的學習方式其實更高效、更接近人類。就像Transformer在語法解析任務上表現出的那樣,推理模型所需的數據量又下降了一個數量級。它們訓練用的數學題目與整個互聯網數據相比微不足道,但邏輯能力卻提升巨大。這種極低的數據需求意味著它們開始具備更強的泛化能力,能處理從未見過的問題。這是一個巨大的范式轉變,雖然表面上看起來還是大語言模型,但內在早已不同。我認為這解決了很多人的質疑,盡管總會有人持保留意見。我不認為這是最后的范式,但它絕對是一個里程碑,將帶我們走向極具價值的實踐應用。
09 推理模型的未來應用
推理模型已經幫我們贏得了數學和編程奧林匹克競賽,代碼生成能力更是驚人。你認為它們最終能帶我們走到哪里?
?ukasz Kaiser: 這很難預測。就像你在2021年問GPT-3.5能帶我們走多遠一樣,當時它主要被用來寫文案。雖然底層模型已經足夠強大,但由于還沒做強化學習優化,它還沒變成后來那種能聊天的ChatGPT。當時我們也覺得這是驚人的技術,但并不知道它具體會如何改變世界。我記得ChatGPT發布那天,OpenAI內部還做了打賭,我當時賭它不會火,顯然我輸得很慘。所以,我可能最不適合預測產品路徑的人。
我認為CEO Sam Altman有一個非常可貴的特質,那就是他敢于不斷嘗試。雖然他選擇的許多路徑未必能立即獲得認可,但其中總有成功的可能。對于推理模型,我認為爆發的臨界點尚未到來。目前,這些模型主要在辦公、編程、文檔編輯等領域發揮作用。對我而言,AI能夠調用的搜索工具極具價值。例如ChatGPT中的連接器功能,它可以關聯Slack或Google Docs。這在辦公場景下表現出色,因為它能整合搜索我的所有信息。無論是Slack記錄、郵件還是文檔內容,我只需詢問AI是否記得最近關于某事的討論,它就能跨平臺調取資料。我還可以繼續追問如何編寫相關代碼。這已經成為我日常工作中不可或缺的一部分。雖然我不確定這是否會成為主流普及的關鍵,與未來可能出現的重大突破相比,這或許只是一個小切口。但在科研層面,這確實是一個真正的突破,是范式級別的變革,而非簡單的微調。至于它最終如何呈現給世界,也許界面會維持Chat形式并不斷迭代,也許界面會發生徹底改變。目前沒人能給出定論,但實現這一目標的底層能力已經具備。
10 AI與科學發現
推理模型是否能賦予AI真正的創造力,去發現人類在現有數據集中尚未察覺的規律?AI是否能憑相同的信息找到人類無法察覺的東西,甚至更進一步,創造出人類無法想象的新事物?
?ukasz Kaiser: 我不確定這種界限是否真的如此清晰。人類的研究都是站在巨人的肩膀上,很多想法在特定的歷史背景和語境下,其嘗試的方向是顯而易見的。以Transformer為例,在那個時期,提升序列到序列模型并行性的想法已經出現,注意力機制也在其他領域有所應用。因此,嘗試將其結合幾乎是水到渠成的事。我認為當時的推理模型完全有能力提出這種嘗試,但難題在于有了總體思路后,如何通過完美的實現和細節打磨使其落地。如果你翻閱當時的論文,會發現很多思路其實已經在那了。人們常說或許可以嘗試某個方向,但執行過程異常艱難,測試這些主意需要耗費巨大精力。如果AI能自主完成大部分執行工作,科學進程將會極速飆升。科學發展的瓶頸固然包含創意,但更多是卡在執行和測試上。相比之下,計算機科學的執行過程相對瑣碎,而在物理學領域需要建造加速器,在生物學領域則需要長年的生長周期。
但在所有這些領域,機器都能承擔大量的重復性工作。以機器學習論文為例,我們正接近一個臨界點。Claude或Codex已經能重現部分論文的代碼并進行實測。雖然如果復現失敗,修改邏輯使其運行依然很有挑戰,但最終一定能實現。屆時,我不再擔心創意枯竭,因為產生靈感是研究者最快樂的事,永遠不缺有想法的人。隨著實驗的大規模執行,有些路徑行不通,而有些效果拔群,我們只需順應實驗結果的客觀反饋就能輕松判斷下一步方向。研究者最大的痛苦在于資源有限,只能做極少數實驗,不得不憑直覺在黑暗中摸索。如果能將大部分執行工作交給AI,前進的方向就會清晰得多。因此,我認為推理模型如果能接入實驗室等工具,無論是自動化實驗室還是與人類協作,都將極大加速科學進程。這種提升可能不像機器人搬運物體那樣具有視覺沖擊力,而更多表現為研究員通過與模型對話做出更明智的科研決策。這種隱形的影響力依然非常巨大。
11 AI自我迭代現狀
AI學習新知識并自我強化,不斷變得更強,從而實現所謂的智能爆炸。你目前在工作中多大程度上使用AI?AI在你的日常生活中扮演什么角色,它是你工作中不可或缺的一部分嗎?
?ukasz Kaiser: 正如我提到的,幾個月前我和團隊開始大規模使用Codex,因為它已經進化到了不再是負擔、而是能提供實際幫助的程度。現在,大部分代碼的第一版都由它完成。雖然在復雜的代碼庫中仍需人工介入修復Bug或調整邏輯,但它確實是得力的編程助手。我相信它會越來越強,承擔更多的編程任務,而編程正是我們工作的核心部分。另一項重要工作是在大型分布式集群上跑實驗。實驗過程經常出錯,AI在運行實驗、加速流程以及輔助理解問題方面大有可為。它還為模型生成數據,合成數據通常由推理模型生成,其輸出結果比以前更適合訓練。這與推理模型的進展緊密相關,我們正利用它們來訓練預訓練模型。
這些進展雖然正面,但我認為它們本身不一定會直接導致爆炸式的突變。目前的現狀更像是效率的穩步提升,比如快了兩倍,但這種提速還沒到爆炸的程度。
關于蒸餾技術:這涉及到蒸餾技術,即通過大模型指導小模型思考使其更高效。這些方法很棒,但都有極限。你可以把大模型蒸餾成小模型,但不能無限減少層數,否則模型的質量就會崩潰。優秀的模型必須具備一定的復雜度。而且,即便AI能幫我們編程、排實驗,實驗本身還是要在GPU上運行。算力資源是有限的。當你自動化了某個環節,瓶頸就會轉移。目前的終極瓶頸依然是GPU和能源。
這是最終的瓶頸。即使是現在,我們的很多研究也受制于此。我們本可以并行運行更多實驗,但由于沒有足夠的GPU,所有實驗室都面臨這種困境。雖然AI模型可以優化實驗流程,比如在更小的模型上測試方案,從而降低算力需求,但任何優化都有上限。大規模實驗終究需要海量算力支持,而我們正在全力建設基礎設施。我認為進步將呈現階梯式,效率先提升兩倍,通過模型小型化再提升三倍。從外界看這像是一場大爆炸,但身處其中的人知道,這背后是無數艱苦的工程實踐,包含優化代碼、清洗數據、精進蒸餾技術、在小模型上驗證。在通往下一個大想法之前,往往會經歷一段平臺期。遠觀如爆炸,近看則是攻克一個又一個具體挑戰的過程。每當你接近極限時,新的思路總會應運而生。
你提到需要突破來實現更好的未來,但你似乎并不擔心這些突破是否會出現。這是因為歷史規律,還是因為你們在實戰中總能化解難題?
?ukasz Kaiser: 其實是因為目前的系統還遠不完善。我先后在Google和OpenAI工作過,我們的軟件系統雖然號稱頂尖,但其實還有巨大的優化空間。我們把大量時間花在調試上,而在理想狀態下,這些Bug本不該存在。我們跑程序時機器會宕機,雖然有恢復系統,但仍有很多故障類型無法捕捉。機器學習的日常充滿了技術的苦活累活,這才是工作的常態,而非每天都有驚世駭俗的科研點子。它是極高強度的工程實踐。通過構建更好的框架和工具,我們能不斷提升效率。這就是為什么我們確信AI能幫我們做得更好,這不是假設,而是正在發生的事。AI開始表現得像頂尖程序員,幫我們構建工具。它會犯錯,我們就糾錯。
合成數據也是如此,我們知道目前的數據還很糟糕,所以有巨大的提升空間。外界可能覺得這些模型已經神乎其神了,但在內部開發者眼中,大家經常會吐槽代碼太爛或到處是Bug。很多訓練跑了一半就出故障,導致部分數據訓練效果偏差,但因為成本太高,我們只能繼續運行。每次模型跑完,我們都能總結出許多改進點。目前的瓶頸絕不是沒東西可優化,而是問題太多。
關于進步空間:有些修補帶來的提升微乎其微,但有些則是質變。目前推理模型還處于非常早期,未來的改進將是革命性的。現在的推理是逐個Token生成的,非常線性,這讓我想起了早期的RNN。它必須進化得更加并行。雖然我們還不確定哪種方案最優,但這種范式遷移必然會發生,就像當年社區意識到RNN必須向并行化演進一樣。
關于并行化:Pro只是一個起步,它的確可以調用多個實例。它并行運行多個思維鏈,并行運行,然后互相討論得出最優解。實現路徑有很多,目前還不確定哪種是最終的最優解,或者是否會是多種方案的結合。我們需要將并行機制整合進訓練流程,GPT-5 Pro正在進行此類嘗試,但由于目前的訓練范式仍偏傳統,這還不是主流操作。不過,部分方法已經初見成效。現在還無法斷言這只是帶來些許提速,還是會演變為重大的范式革命,但我們正在全力研究。推理模型目前最大的課題是如何從任意數據中學習。
目前的訓練高度依賴正確與錯誤的標注,但現實世界中的數據大多并非考卷形式,這反而是件好事。人們閱讀書籍時,重點在于理解,而非判斷每一段話的絕對正確性。你會在閱讀過程中投入大量思考。許多實驗室都有一個共識,即模型應當具備從非驗證性數據中學習的能力,而不應僅僅局限于那些正確性可驗證的內容。
關于Pulse功能:ChatGPT只是一個界面,但對于新一代模型來說,它未必是最佳的交互形式。如果你問更多GPU能否換來更好的答案,事實證明是可以的。如果算力充足,你本可以實時拿到那個深度回復。但目前的思考過程仍具有序列性,所以需要等待。如果你當下不愿等,系統會先給出初版答案,隨后再推送優化版。現在的難點在于如何設計這種模式的界面。Pulse只是初步嘗試,未來它可能會變成一個在即時通訊軟件上告訴你,需要10分鐘來深入思考的朋友。我們需要探索如何將這種模式轉化為真正的價值。
12 多模態訓練現狀
多模態會如何改變訓練范式?視頻包含的信息密度顯然更高。如果我們用視頻、音頻等原生多模態數據訓練AI,是否會徹底改變訓練數據的范式?
?ukasz Kaiser: 我們已經在進行多模態訓練了。GPT-4以及之后的GPT-5和推理模型,都是基于文本、圖像和音頻訓練的。至于視頻,目前更多被視為一種圖像序列,但原生化是必然趨勢。是原生的。通過神經網絡將音頻編碼為某種離散形式,比如音頻Token和圖像Token,并非將整個圖像視為一個Token,而是切分成碎片。然后讓模型預測下一個Token。通過這種方式,模型可以直接生成音頻和圖像。這種方法的效果好得令人驚訝。此前研究人員在編碼器上投入了巨大精力,解決諸如如何防止圖像中的微小文字丟失等難題。結果證明這條路完全走得通。
曾幾何時,生成的圖像里人手有六根手指,也無法生成文字,但隨著訓練數據的增加和編碼器的微調,底層的大型Transformer架構保持不變,效果卻突飛猛進。現在的生成圖令人嘆為觀止,甚至能完整呈現報紙上的文字,音頻也能表現出各種語言的口音、低語甚至歌唱。雖然還不是完美無缺,但其成熟度非常驚人。我相信視頻領域很快也會看到類似的突破。
關于機器人與推理:Google最新的機器人模型也開始融入推理能力。這非常關鍵,因為在物理世界中,你需要極快的反應速度,容不得深度推理,就像我們的本能動作。但在決策層面,又需要推理介入。如何結合本能與理性,需要一套層級結構。目前這種Token編碼加大型模型的層級結構還不夠完善,我們多是靠工程手段在維護,缺乏底層原則,未來需要更好的損失函數和更系統的方法。
關于視頻信息量:對信息量需要保持謹慎。視頻數據雖多,但很大一部分是可以高度壓縮的。即使壓縮后,很多信息如桌子的紋理或顏色,雖然客觀存在,但對物理規律或邏輯推理以外的學習并無大用。如果目標是學習視頻,難點在于如何過濾掉冗余信息,專注于相關事物。文本的優勢在于每個詞幾乎都承載語義。而在視頻中,絕大部分內容與數學推理無關。當然,如果要訓練機器人,視頻信息就至關重要了。所以我認為視頻訓練更多是補齊短板。我不指望視頻訓練能讓模型的數學能力產生飛躍,盡管空間想象力對數學有一定遷移作用,但這種期待目前還比較遙遠。
關于世界模型:世界其實有很多種。對于讓機器人在房間行走,視頻確實是完美的模型。但如果你想理解文學世界,讀原著比看視頻更管用。如果你想鉆研組合數學,文字才是核心。語言模型已經掌握了人類大部分抽象世界,目前最大的短板在于對物理世界的理解。填補這一空缺將極大提升機器人的表現。但在辦公軟件等領域,其重要性可能不如推理并行化。
關于相對論推導:一個頂尖的推理模型或許能實現這一目標。相對論的推導更多依賴邏輯而非物理直覺,因此未必需要視頻數據。雖然目前的Transformer存在上下文限制,但未來我們會通過更新權重等方式實現跨越。如果將AGI定義為具備普通人的行動能力,那么視頻訓練就不可或缺。模型需要消除對物理世界理解的代差。目前的模型如果想推理物理現象,可能得寫一段Python模擬運行一下,這跟人類的直覺完全不同。這種直覺應當存在于神經網絡的權重中。我們在2017年開發Transformer時,受限于算力,大多實驗只能在64個GPU上運行,根本無法處理視頻。現在隨著算力的爆發,我們已經看到了能隨動作生成的交互式視頻模型。隨著模型迭代,這種理解會越來越深,這將徹底解決機器人的大腦問題。
關于機器人普及:大腦會很快就位,但從實驗室到真實世界的跨越仍具挑戰。畢竟戶外環境比工廠車間復雜得多。硬件總是很難,就像自動駕駛,我們曾以為它會很快普及,結果多花了十幾年。雖然它終究還是實現了。在機器人真正普及前,我想視頻生成技術會先帶給我們很多驚喜。
13 幻覺問題突破
模型產生幻覺的最核心機制是什么?你們在GPT-5中似乎取得了重大突破。
?ukasz Kaiser: 模型產生幻覺的最核心機制在于,其訓練目標是回答問題。過去,模型很少被訓練去表達"我不知道"。雖然現在情況有所改善,但互聯網上的海量語料庫中極少包含"我不知道"這類表述。人類傾向于給出確定的答案,模型也自然習得了這種行為模式。例如,當你詢問舊金山動物園的開放時間,模型在訓練中讀到過相關信息,便會傾向于直接回答上午10點。然而,這些信息可能源自五年前的舊網頁,或者屬于另一家動物園。
在預測下一個詞的概率時,模型或許考慮過回答"我不知道",但由于這個選項在海量動物園信息中非常罕見,當模型對互聯網數據建模時,它會判定給出具體時間比承認不知道的概率更高。此外,模型本身也無法理解你查詢的是當前這一刻的信息,而非幾年前的舊聞。對于單純模擬互聯網語言的大語言模型而言,給出一個具體的數字要自然得多。
現在業界已經意識到了這個問題。包括我們在內的許多實驗室,都在訓練數據的特定部分中增加了"我不知道"的占比,以補償互聯網語料中缺失的真實社交常識。另一方面,推理模型變得更加敏銳。當你詢問動物園開放時間時,推理模型會主動通過網絡搜索動物園官網并提取最新信息。如果無法獲取,它會明確告知未找到網站。在給出最終答案之前,模型會進行這一系列推理,使得"我不知道"的產出變得更加符合邏輯。當搜索無果或發現記憶信息不匹配時,承認不知道成了最自然的選擇。通過調整訓練數據和強化推理能力,AI已經能更準確地識別知識邊界,但人類有時也會隨口編造自認為正確的信息。
關于技術手段:這主要源于有意識地調整數據,并確保推理過程能如實反映模型的置信度。這很大程度上取決于訓練方式的改良。我們現在更側重于推理強化學習。在重視正確答案的框架下,我們可以構建專門的數據集,將"我不知道"設為唯一正確答案。為了通過測試,模型必須學會識別不確定性,這種信號遠比之前的微弱反饋更強。
14 思維鏈真實性
模型在思維鏈中展示的內容與其真實思考過程是否一致?我們看到的思維鏈和你們研究人員看到的是同一個東西嗎?
?ukasz Kaiser: 這些屬于針對特殊場景設計的極端案例。這種"心口不一"的行為雖然存在潛在危險,但目前僅出現在高度人工干預的工程案例中。在處理常規查詢時,模型并不會產生這類隱瞞行為。
原始的思維鏈通常非常冗長且雜亂。用戶看到的內容是由另一個模型進行總結后的版本,更具可讀性和結構感。目前在訓練推理模型時,除了要求最終結果正確外,我們盡量不對其思考方式施加約束。我們不會強制要求思維鏈寫得漂亮,因為那會限制模型的性能。因此,原始思維鏈并不總是賞心悅目的,有時會出現語言混合的情況。在DeepSeek的產品中可以看到一些原始記錄,但在面向普通用戶的產品中展示那一團亂麻確實不符合審美。
起初人們擔心展示原始思維鏈可能會被黑客利用,存在安全隱患。但現在,這種擔憂更多讓位給了用戶體驗層面,畢竟雜亂且超長的文本并不易讀。確實,所以我們決定展示摘要而非未經審查的完整思維鏈。
關于對齊問題:目前的情況是,這些錯位在思維鏈中依然有跡可循,只是在最終答案里被隱藏了。模型也可能學會在思維鏈中隱瞞真實意圖,畢竟那也是模型的一種輸出。在目前的訓練中,我們并沒有給思維鏈施加任何壓力或獎勵。由于答案的質量直接決定了強化學習的獎勵權重,模型為了獲得更高獎勵,可能會在答案中采取某種策略,但對于思維鏈,它目前沒有任何動機去掩飾。OpenAI的論文也呼吁各實驗室保持這種"無壓力狀態",以確保思維鏈的真實可讀性。不過也有觀點認為,即使沒有明確獎勵,模型也可能自發地省略某些內容。這將是一個長期的學術爭論。思維鏈無疑是監控AI運行的重要工具,但并非終極手段。
幸運的是,目前這還是一個非常小眾的問題。對于日常查詢,AI并沒有動機去撒謊。相比這種深層的對齊問題,現在的重點依然應該是提高模型的實際正確率并減少幻覺。
15
頂尖實驗室的研發生態
你在 Google 和 OpenAI 都待過,在這些背負巨大壓力的頂尖 AI 公司工作,內部氛圍是怎樣的?目前你們正處于極度激烈的全球競爭中,巨額資金涌入,新的實驗室層出不窮。這種競爭環境是什么樣的?你如何看待其他實驗室,比如 Anthropic?
?ukasz Kaiser: 與其說是公司變了,不如說是時代變了。2013 年我剛進 Google 時,AI 領域的壓力還沒那么大,大家只是純粹地潛心鉆研。我加入 Google Brain 時團隊只有幾十人,加入 OpenAI 時也才百人規模。而現在,這些組織都已成長為數千人的龐大機構。以前的小團隊可以坐在一起吃午飯,現在的規模必然帶來了更復雜的架構。但我們成功避免了將外界壓力直接轉嫁給研究人員。在很多方面,我們依然能像在實驗室里那樣鉆研。做前沿研究必須學會暫時忘記壓力,否則無法產出。
關于競爭環境:我并不覺得競爭壓力是壞事。大家的研究方向其實非常相似,雖然路徑各異,但目標都是為了構建更強大、更可靠的模型。灣區的信息流動非常頻繁,雖然我們不會向對手透露核心機密,但人才的流動意味著先進技術不會永遠是秘密。某個公司領先幾個月只是常態,并非生死之戰。Sam Altman 曾提議讓研究人員親眼去看看數據中心,這樣當他們按下運行按鈕時,才能真正理解背后的物理規模。那些占地如小城市般的設施、驚人的能耗和昂貴的成本,對研究人員來說往往只是抽象的數字。貝爾實驗室早期在研發晶體管時,每天都會消耗極其昂貴的物料,研究人員做完實驗后,這些東西就變成了廢料。這就是進步的代價。前沿研究離不開昂貴機器的支撐。雖然大部分實驗都會失敗,但這正是研究的本質。作為研究者,你永遠希望能做出更準確的預判,雖然這很難。未來 AI 也許會幫助我們做出更好的決策,通過更智能的計算來減少資源的浪費。
關于其他實驗室:從第一性原理來看,我認為各大實驗室其實非常相似。雖然每家實驗室都有獨特的文化和人才,但我曾在 Google 工作多年,對那里更熟悉。我認為這些實驗室的精神內核是一致的,都在努力開展大量研究并開發頂級模型。有時他們會在不同的技術方向上下注,偶爾也會取得成效。你甚至能從模型中察覺到它們略有不同的性格。但總的來說,那里的研究人員和工程師都在傾盡全力去打造下一個最優秀的模型。
16
AI倫理與風險
目前 “AI 垃圾內容” 這個概念正變得流行,作為一名致力于讓世界變得更美好的研究人員,看到大量資金涌入這些在我看來非常有毒的領域,你有什么感受?這就是我們利用 AI 能做到的極致了嗎?
?ukasz Kaiser: 這就是現實。任何研究成果都可能被以各種方式利用,你無法完全控制它的用途。AI 是一項極其強大的技術,我們必須接受它會被用于一些我們不愿看到的地方。作為研究人員,我們無法阻止這一切,唯一能干預的實體是政府。相比于 “AI 垃圾內容”,我其實更擔心 AI 武器。人類社會已經挺過了那么多平庸垃圾信息的沖刷,AI 生成的內容不至于造成毀滅性后果。直到現在人們才意識到社交媒體對孩子的影響,我們本該更早建立防護機制。
關于社會防護:我認為現在的防護重心有所偏移。比如美國一些學校開始禁止學生使用手機,這種簡單的物理限制反而很有效。問題的核心不在于是用 TikTok 還是 AI,而在于使用習慣。我始終認為 AI 武器化比媒體領域的問題更嚴峻。雖然大語言模型在這方面影響有限,但物理模型確實具備這種風險。我希望社會能對此建立約束。
17
商業模式的取舍
近期有趨勢顯示 OpenAI 正在招聘廣告主管,這是否意味著未來會在免費賬戶中加入廣告?如果 AI 推薦的產品是基于合作伙伴關系的,比如和 Etsy 的合作。如果我搜索木制架子,由于分成關系,它只顯示 Etsy 的選項,那公平性如何保證?
?ukasz Kaiser: 在數字領域我確實看到了一些希望。轉向 AI 時代,我們或許能把事情做得更好。在 OpenAI,無論是員工還是領導層,我們非常自豪的一點是采用了訂閱模式。當初這完全可能走向另一條路。這既源于早期的決策,也帶有一點運氣。最初 ChatGPT 只是一個研究預覽。但除了運氣,我們確實考慮過不想把用戶參與度作為核心指標。雖然那種模式能賺到錢,但那不是我們的方向。當時外界認為靠訂閱模式無法盈利,但事實證明用戶愿意為沒有廣告、不刻意誘導停留的高質量服務買單。正因如此,我們可以專注研究,而不需要強迫用戶留存。
關于內部共識:我認為大家現在對此有很強的警覺意識。在 OpenAI 內部,至少在員工和部分領導層中,有一種強烈的共識,即我們不想走那條路。當然,公司仍需盈利。我在 Google 工作過七年,那時 Larry Page 曾嘗試推行訂閱模式以減少廣告,但在當時的環境下徹底失敗了,因為用戶已經習慣了免費模式。訂閱模式的前提是必須有人愿意付費。ChatGPT 的訂閱模式目前運作得很好,雖然未來走向仍待觀察。最近我們推出了商店結算模式,用戶可以直接在 AI 界面購物并即時下單。我們不需要向你展示廣告,而合作伙伴也愿意讓我們抽取分成。這種模式讓我們在不強迫用戶停留的情況下也能盈利。
關于推薦公正性:不會的。協議中明確規定這不會影響公正性。這其實也是技術特性帶來的好處,很難通過干擾語言模型來定向展示特定內容。在以廣告排名為核心的系統中,通過增加權重信號來提升排名非常簡單。但在語言模型中,如果你為了特定商業目的進行后訓練,可能會導致模型表現變得非常詭異。此外,在與合作伙伴的協議中我們也清晰標注了不會影響公正性。但我也必須說,為了讓公司生存,這種模式必須行得通。否則,如果其他競爭對手靠廣告賺了大錢,而 OpenAI 持續虧損,壓力遲早會來。
市場確實是現實,但它也在很大程度上取決于人們的信念。我不認為用戶真的想要那么多廣告。目前我們的免費賬戶沒有任何廣告。雖然算力成本高昂,但我們會盡力保持這種純粹性。我不覺得指責廣告是解決問題的捷徑,并非所有廣告都是壞的。核心問題在于為參與度做優化,強迫人們把生命耗費在數字設備上是錯誤的。無論是視頻流還是其他形式都一樣。視頻本身不壞,廣告有時也能滿足需求,但錯在優化方向。我們有很強的承諾不去走那條路。
18
AI 是解決現實難題的杠桿
你如何看待未來?會有《星際迷航》那種豐饒的世界嗎?作為一個樂觀主義者,當你面對 Gary Marcus 這樣質疑一切的人時,你有什么感受?
?ukasz Kaiser: 我還沒看那么遠。這個世界還有很多更現實的問題。我不認為必須工作是人類最大的問題,真正的挑戰是即便在工作,很多人依然負擔不起基本生活。我們還有環境、醫療等諸多難題。科學家們有很多解決方案,只是缺乏執行力。我希望 AI 能加速這些已有方案的落地。此外,在信息處理方面,AI 或許能幫我們更高效地利用技術。
關于日常生活:我更期待 AI 能解決日常瑣事。最初的變化可能并不宏大,但我希望通過 AI 讓生活質量得到實質提升,比如獲得更科學的建議、生活得更健康。AI 很擅長給建議,但建議是否及時、是否適用、是否會產生副作用,這些都需要深耕。此外,在信息不對稱的領域如教育,它既可以是頂尖的導師,也可能成為完美的作弊工具。我曾與一些貧困國家的非政府組織合作,我們想,如果每個孩子都有手機,AI 就能充當導師。但隨后有人提出這可以用來削減教師崗位,這完全背離了初衷。這種風險確實存在,如何引導技術走向,需要全社會共同面對。
(關于懷疑論者)我們太忙了,并不會被這些言論影響。人們當然可以保持懷疑。但作為研究人員,我認為對技術的這種懷疑是找錯了對象,技術本身的進步是實實在在的。我們真正應該警惕的是如何使用它。要用好 AI 需要全社會去適應。雖然 AI 是第一個能引導用戶使用它的技術,但這需要社會共同承擔責任。確實存在很多誤用的可能,這才是挑戰所在。正如互聯網誕生后的幾十年里都沒有直接體現在生產力統計中一樣,AI 也不會瞬間創造天堂。
AI 作為一項技術,會承擔越來越多的工作任務。自動駕駛汽車會普及,技術將持續迭代。但這能否轉化為每個人的福祉,不是科技公司能獨立完成的。這很難,因為連研究人員甚至行業領袖都不確定技術的最終走向。我們需要面對現實,在技術持續改進的同時,善用現有的成果。如果有人對技術能否在短期內帶來收益持懷疑態度,我認為這種可能性必須被嚴肅對待。有些門一旦開啟就無法再關上。就算沒有 ChatGPT,還有其他開源模型。我們需要尋找更聰明的方式來化解陣痛。縱觀歷史,人類最終總能找到出路。
| 文章來源:數字開物
【AI技術與應用交流群|僅限受邀加入】
AI算力領域TOP級從業者專屬圈層
√ 與頭部算力企業深度對話
√ 與AI上下游企業深度對話
√ 獲取一手全球AI與算力產業信息
√ 獲取AI熱點及前沿產業獨家信息
√ 隨時了解全球AI領域高管最新觀點及實錄全文
√ 有機會參與AI主題產業交流活動
掃碼驗證身份(需備注姓名/公司/職務
不止有 DeepSeek,更有 AI產業的未來!
? END ?
【專欄】精品再讀
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.