
編譯 | Tina
這不是離職八卦,而是在一個把技術做成劇情、把研究變成圍觀的行業里,扛了七年高壓后的選擇。
2026 年的第一個月,Jerry Tworek 離開 OpenAI 的消息傳出來時,幾位 OpenAI 的員工在 X 上幾乎失控地發聲:“我真的崩潰了”“這太難受了”。大家的反應像是:這事來得太突然,也太重。
Jerry 是現代 AI 浪潮背后最有影響力、卻也最少公開露面的關鍵人物之一。 2019 年加入 OpenAI 時,當時該公司還只有約 30 名員工。他參與了許多最重要的項目,包括后來被稱為 Q-Star 和 Strawberry 的推理方法,最終發展成為 o1 推理模型。
這次離職后,他在接受 Core Memory 的播客采訪時解釋了原因:他想從事有風險的基礎研究,這種研究在像 OpenAI 這樣的公司已經不可能進行了,因為像用戶增長這樣的指標才是優先考慮的。他對 ChatGPT 廣告的看法體現了研究與商業化之間的脫節:“這是一種商業策略,而我負責訓練模型。” 這番言論印證了有關 OpenAI 人工智能研究與產品開發之間日益加劇的分歧的傳言。
Tworek 指出,創新不足的原因有很多。最佳模型的競爭異常激烈,公司需要不斷展現實力才能留住用戶并證明 GPU 成本的合理性。僵化的組織結構更是雪上加霜,組織架構圖決定了哪些研究是可能的:團隊各自為政,職責分明,跨團隊研究難以開展,Tworek 解釋道。
這場采訪,也是一次“離職解讀”,Jerry 還批評了整個人工智能行業,指出所有主要的人工智能公司都在開發幾乎相同的技術,產品也幾乎沒有區別,這迫使研究人員追求短期利益,而不是實驗性突破。更重要的是,他開始認真思考:如果研究真的需要冒險、需要不同路徑,那他是否還應該繼續待在這場高度同質化的競賽中。
在 Tworek 看來,谷歌之所以能夠在 AI 競賽中成功追趕 OpenAI,本質上是 OpenAI 自身的失誤。他表示,這家 AI 實驗室犯了一些錯誤,行動過于緩慢,沒能充分利用自己原本擁有的巨大領先優勢;而與此同時,谷歌則做出了許多正確的決策。
當被問及 OpenAI 的具體問題時,Tworek 并未展開細說,只是暗示:員工流失有時是更深層問題的表象。他強調說,人走人來本來很正常,但如果一波人是因為“方向不對、決策錯了”才走,那就說明公司里確實有點事——也難怪有些關鍵推進會慢得不該那么慢。
與這種“慢得不該那么慢”的狀態形成對照的,是 Tworek 對 Anthropic 的評價。在播客中,他高度評價了這家 OpenAI 最強的初創公司對手,認為它在過去一年里展現出了一種罕見的“清晰感”:算力更少、團隊更小,卻異常專注,執行力極強。他特別提到 Anthropic 在代碼模型與代碼 Agent 方向上的進展——那不是靠簡單堆規模取得的成果,而是一種“非常清楚自己在做什么”的工程與研究結合狀態。
隨著談話繼續,話題很快從技術轉向了另一件更微妙的事。
Jerry 說,這幾年最讓他感到“不對勁”的,并不只是研究路線,而是整個大模型行業正在發生的變化。他形容現在的狀態有點像這樣:你做出一個新東西,大家還沒真正弄清楚它是什么,它已經被卷進了一整套劇情里。誰離職、誰跳槽、誰被挖、誰“內部有分歧”,每天都像連續劇更新;灣區像一個巨大的轉會市場,研究者在幾家前沿實驗室之間流動,圍觀者負責情緒,媒體負責剪輯——研究現場,被包裹進了一層娛樂業式的敘事。
“技術、概念、人類情緒、現實生活,是分不開的。”Jerry 說。
當一個行業被持續圍觀,每一次進展都會被強行賦予意義,每一次內部變化都會被解讀成信號,整個系統就會被不斷加壓。你不是在安靜地做研究,而是在聚光燈下跑一場沒有終點的馬拉松。
他用一個很個人的比喻形容這七年:“像做俯臥撐。”每一次高壓過去,你會更能扛一點。你學會屏蔽噪音,學會在混亂中保持穩定。但代價是,你也會慢慢習慣這種狀態——把異常當成常態,把圍觀當成空氣,把壓力當成日常。
我們翻譯并整理了這期播客的完整對話,以饗讀者。
1 當整個大模型行業只剩下一套“配方”,有些人寧愿離場
主持人:今天我們請來重量級嘉賓——OpenAI 的 Jerry Tworek。他在 AI 圈算是“活傳奇”那種人,而且剛剛離開 OpenAI,所以這期信息非常新、也非常重磅。我刷到不少 OpenAI 的同事在 X 上直接說“我崩潰了”“太難受了”。這就能看出來他在內部的分量。
他主導或參與了 OpenAI 很多最重要的項目。這一波“推理模型”的時代,在很大程度上也和 Jerry 有關。今天他會聊他的經歷、他做過的事情,然后我們也看看他會不會講得更“辣”一點——希望如此。
Jerry,你好。你身上有一種……“剛失業的光芒”。
Jerry:我已經失業八天了,確實是一種變化。我已經很久沒有失業過了,但這件事也有很多好處。比如我現在曬太陽的時間多了很多。
主持人:那這期節目就算你的“離職訪談”了。我們剛才已經簡單介紹了你的背景,我再稍微補充一點。你大概是 2019 年加入 OpenAI 的。你來自波蘭,在來 AI 領域之前,和很多 AI 從業者一樣,曾經在高頻交易相關的領域工作過。在 OpenAI,你參與或領導了很多大家非常熟悉的重要項目。最近,很多人聽說過 Strawberry、o1,以及這波“推理模型”的興起,而這是你追了相當長一段時間的方向。然后,如大家所知,你最近剛離開 OpenAI。這件事在 X(推特)上引起了不少討論。
![]()
大家好,我做了一個艱難的決定:離開 OpenAI。
我在這里將近七年,經歷了很多美好與瘋狂的時刻——但美好遠遠多于瘋狂。
我非常享受和這支團隊共事的時光。我有機會在“機器人上的強化學習規模化”還沒流行之前就參與其中;訓練了世界上最早的一批代碼模型,推動了 LLM 編程革命;在“Chinchilla(縮放規律)”還沒被叫作 Chinchilla 之前就發現了它;參與了 GPT-4 和 ChatGPT 的工作;最近則是組建了一支團隊,建立了一種訓練與推理算力規模化的新范式——我們通常把它稱為“推理模型”。
我在這里結識了許多朋友,有些夜晚也在辦公室度過;我參與并見證了相當多的技術突破;也和許多我視為至親的人一起歡笑、一起擔憂。我有幸招募并壯大了——在我看來——世界上最強的機器學習團隊。
這段旅程非常精彩。雖然我將離開,去探索一些在 OpenAI 很難開展的研究方向,但這依然是一家特別的公司、一個特別的地方,它已經在全人類的歷史中占據了永恒的一席之地。
![]()
![]()
Jerry:某種意義上,這事挺棘手的:我如果不自己說,媒體遲早也會替我說——要么寫成“獨家”,要么當成“泄露”。所以我寧愿自己把話講清楚,省得消息一傳十、十傳百,越傳越走樣。
主持人:對,我們最怕“越傳越離譜”。你其實可以先跟我們說。
Jerry:(笑)我可以隨時給你們打電話,告訴你們我生活里發生的任何事——比如我中午吃了什么。
主持人:但說真的,你那條離職帖寫得很好,而且挺真情實感的。你在那里待了七年,經歷了巨大的變化。從你的視角看,這七年是什么感覺?
Jerry:老實說,我在 OpenAI 的每一年,都像是在一家完全不同的公司里。無論是公司本身的高速增長,還是整個 AI 世界的變化速度,都非常罕見。我不覺得歷史上有很多類似的例子。我很高興自己親身經歷了這一切。幾乎每一個階段,情況都完全不同。
主持人:你 2019 年加入的時候,公司大概只有 30 人左右?
Jerry:對,大概就是那個規模。
主持人:那現在呢?幾千人?
Jerry:已經沒法數清楚了。現在是一家規模非常大的公司,有很多辦公室,全球各地都有團隊。現在幾乎很難找到沒聽說過 OpenAI 的人。我加入的時候,還是幾個小團隊各自在做自己的小研究項目。那時唯一始終不變的,是野心——從一開始就瞄準 AGI,想要改變世界、產生正向影響。我覺得公司在這方面做得非常成功。ChatGPT 把一種“可用的智能”分發給了非常多的人,這本身就是一件非常了不起的事情。
主持人:你發了那條離職推文之后,是不是幾乎所有基礎模型實驗室都立刻聯系你了?
Jerry:確實有很多。我現在正在慢慢梳理下一步要做什么。在這個行業待了這么多年,我本來就認識很多人,也有很多聯系。從積極的角度看,我并不急著立刻做決定。過去很多年我工作得非常拼,幾乎沒有時間去見人、聊天。現在終于有機會停下來,認真想一想接下來的七年要怎么度過。
主持人:你在推文里提到,你想做一些在 OpenAI 覺得無法進行的研究。能具體解釋一下嗎?
Jerry:是這樣:在一家必須參與當下這種極其殘酷、極其高壓的競賽、必須爭奪“世界上最強 AI 模型”的公司里,有些事情就是很難做。這背后有幾個方面的原因。
其中一個因素是風險偏好。公司愿意承擔多大風險,會受到很多現實約束:比如不能落后于用戶增長指標,比如 GPU 成本極其高昂。因此,向外界展示實力、持續擁有最強模型,對所有主要 AI 公司來說都非常重要。但這確實會影響你愿意承擔風險的“胃口”。
另一個很難的取舍是組織架構。公司有 org chart,而 org chart 往往決定了你能做什么研究。每個團隊都需要一個身份、一個研究范圍、一組他們要解決的問題。跨組織的研究就會變得非常困難。
我也不確定這是不是一個已經被完全解決的問題:當研究規模變得很大時,究竟該如何把研究組織好?研究本身喜歡動態,甚至可以說喜歡混沌;但一大群人需要秩序、結構和組織架構。
所以,“把組織架構交付出去(shipping your org chart)”成了一種非常普遍的現象,研究也不例外。你最終會做那些組織結構最容易支持的項目。而與此同時,我確實想做一些研究,但公司的組織結構并不容易支持我去做這些事情。
主持人:這是否意味著我們將看到一項新突破?
Jerry:我想,其實 AI 世界里的每一位研究者,都想參與下一次真正的突破——我當然也包括在內。
主持人:我之前在播客里跟 Mark(Mark Chen,OpenAI 的 首席研究官) 聊過這個話題:幾乎所有人都會帶著自己的想法去找他、找 Yakob(Jakub Pachocki,OpenAI 的核心研究負責人之一)。OpenAI 一直以來確實有一段“押注冒險想法、去做其他實驗室沒做的事”的歷史,而且這種策略也確實為他們帶來了回報。但我也很清楚——你們那里一定聚集了大量非常聰明的人,所有人都會不斷提出各種想法。
而在某個時刻,公司終究是一家資源有限的組織——哪怕這些資源已經非常多了——也必須做出取舍。所以,這必然是一個非常艱難的決策過程。也正因為如此,我在思考的那些方向,大概確實屬于那種“相當新、相當不尋常”的路徑:公司需要判斷,我們到底要不要往這個方向走?現在有沒有能力、有沒有余力去承擔這種不確定性?我們是否能在當下負擔得起?
Jerry:關于“研究時代”的判斷,我不確定事情是否真的像他說的那樣是非黑即白的。但我非常確定的一點是:在 AI 和機器學習的世界里,還有大量東西尚未被真正探索。
大約六年前,我們基本確定了以 Transformer 為核心的架構路線。此后相當長一段時間里,整個行業都在持續擴大 Transformer 的規模,而且進展確實不錯。路徑也非常清晰:每個季度用稍多一點算力、稍多一點數據,訓練出一個更強的模型。到目前為止,這條路看起來并沒有明顯的“天花板”,進步仍在持續。
但問題是:這就是終點了嗎?這是最后一條路了嗎?我幾乎可以確定不是。
我們還有很多改進模型的方式,目前根本還沒真正開始做。正如你剛才提到的,我自己主要做的是“推理”,以及擴大強化學習的規模。在那之前,整個領域幾乎所有的“大賭注”都押在 Transformer 的預訓練規模上。
擴大預訓練規模,確實是一種有效的擴展方式,而且效果很好。每一次更大規模的預訓練,模型能力都會整體提升,各方面都會變強。所以你當然可以說:那我們就繼續擴展預訓練規模,模型自然會越來越好。
但后來,有那么一小撮“做夢的人”、研究者開始相信:事情不止這一種做法。我們不只是擴展預訓練,還可以在語言模型之上,大規模擴展強化學習,而且投入的計算量可以和預訓練處在同一個量級。這樣做,能夠教會模型一些僅靠預訓練永遠學不會的東西。
正因為如此,我們今天才有了這些令人驚嘆的 Agent:它們可以自動化工作、解決復雜問題。而如果只靠預訓練模型去完成這些任務,可能需要極其夸張的算力和數據量。
也就是說,當你發明了一種新的“擴展方式”,你就會得到一整套全新的能力;而如果你只是沿著原有的預訓練擴展路線走,那可能要花非常、非常久,才能逼近這些能力。這一次,其實是一次相當大的躍遷。
在我看來,自從 GPT-4 引入以來,“推理模型”幾乎是這幾年里最重要的一次能力躍升。而我相信,類似這樣的躍遷還會出現不止一次。
所以我一直覺得,研究者不應該只盯著“漸進式改進”,而是要去思考:有沒有辦法把整個棋盤掀翻?
主持人:去年在 NeurIPS 上,Ilya 曾說過一句話,大意是:“我們正在耗盡數據,這條路遲早會走到盡頭。”關于“預訓練是否正在進入一個越來越艱難的階段”,我一直在想:那下一個真正的突破會是什么?這正是你現在想問的問題,對吧?
Jerry:是的。但我并不認為這等于在說“預訓練已經結束了”。預訓練仍然在持續改進,而且還有很多方式可以繼續優化它。但它已經不再是唯一的改進路徑,而且其他路徑,可能在很多維度上能更快地帶來提升。
擴大預訓練規模,在很多能力上提升得其實非常慢——它確實會讓模型更好,但提升是漸進的。而與此同時,可能還存在其他方式,能帶來更大的躍遷。
主持人:硅谷有一個很有意思的現象:很多時候,科技公司會提出一些非常原創、甚至看起來“怪異”的想法,外界一開始完全不理解。但正是這樣,才催生了全新的商業模式、新的科學、新的研究方向。而科學研究本身,也是如此:你需要去追逐別人還沒走的方向。
可一旦某個方向“爆了”,事情就會反過來——會形成一種巨大的共識。突然之間,所有人都開始說:“我們就該這么做。”然后大家不再討論“該不該走這條路”,而是開始比拼“誰在這條路上跑得更快”。
這其實就是你剛才描述的那種狀態。那么問題來了:當我們已經進入這種“模型競賽”,而且已經持續了兩三年之后,會不會出問題?是不是所有主要實驗室都變得越來越保守?這會不會成為一個普遍性的結構問題?
Jerry:讓我感到非常“難過”的事,就是現在幾乎所有 AI 實驗室都在試圖做和 OpenAI 一模一樣的事情。
OpenAI 顯然是一家非常成功的公司,它在很多關鍵問題上做對了選擇,把整個世界帶進了“規模化 Transformer”的范式之中,也證明了:通過擴展機器學習模型的規模,確實可以為世界帶來大量非常有價值、非常有用的能力。
但問題是:這個世界究竟需要多少家“做完全同一件事”的公司?我不知道。競爭當然是好事,所以肯定不止一家更好。但現在我們大概已經有五家相當嚴肅、體量巨大的 AI 公司,基本上在用完全同一套“配方”,試圖在同一套技術之上,做出一點點差異化的產品。
也許這確實是對的選擇,但我還是希望能看到更多多樣性——更多模型層面的差異。
如果你去看現在世界上最好的那些模型,實際上很少有人真的能注意到它們之間的區別。我覺得應該做更多“盲測”:讓人們分別和不同模型對話,看他們是否真的能分辨出哪個是哪個。我敢說,99.9% 的用戶根本察覺不出來這些模型有什么不同;在他們的感受里,這些模型幾乎一模一樣。
即便背后是不同團隊,在做一些細微不同的事情,但所有實驗室都覺得“我們在這個點上做得稍微好一點”“對方在另一個技巧上可能更強”,最終的結果卻是:大家全都擠在一個非常接近的位置上。
那真正的探索在哪里?真正的創新空間在哪里?真正能讓你和別人拉開距離的差異化又在哪里?
主持人:我主要用這些模型做文字工作,偶爾會在 Gemini、ChatGPT、Claude 之間切換——差別確實有,但很細,更多是語氣和“性格”。比如我最近更常用 Claude,因為它更直接、不啰嗦;而 ChatGPT 的語氣我一直很難調到那種感覺。不過總體我也同意,大多數人其實分不清這些模型的區別。
話說回來,我想問一個可能有點尖銳的問題:你在 OpenAI 待了這么久,在公司內部算是傳奇人物之一,而且你的履歷也證明,你參與的項目往往能做成。那從外界看,如果連你這樣的人都覺得——自己真正想做的研究在公司里推進起來足夠困難,以至于最后選擇離開——這是不是一個不太好的信號?尤其對一家最初以研究實驗室起家的公司來說,這意味著什么?
Jerry:我覺得有時候,人和組織都會成長到一個階段:必須意識到,彼此的道路需要分開。
對一家單一公司來說,非常重要的一點是:公司內部的人,必須在某種程度上對目標、對前進路徑保持一致。而在某個時刻,我對“未來研究路徑”的判斷,和 OpenAI 選擇的方向,至少在一些足夠重要的點上,出現了分歧——包括接下來一年研究該是什么樣子。
在這種情況下,我認為分開,反而比強行在分歧中繼續合作要好得多。否則,那些分歧可能會不斷積累、發酵。
所以我反而認為:不同公司去做同樣的事情,在某種意義上是合理的。因為專注對于一家公司來說非常重要,而 OpenAI 很可能正在做所有“正確的事”。
也許只是我自己有一些不太現實的夢想;也許我對“還能做些什么其他事情”過于樂觀——這完全有可能。
很多公司必須專注于自己的核心路徑,才能活下來,才能進入下一個階段。所以在一個理想的世界里,應該有很多不同的公司,在做很多不同的事情。而研究者——尤其是那些很難去做自己并不真正相信之事的研究者——應該能找到一個地方,在那里,他們能投入到自己最相信的研究方向中。最終,歷史會證明哪一條路是對的。
正因為如此,我才會對“大家都在做同一件事”感到有點難過。因為在當下,如果你想做一些偏離主流機器學習路線的事情,真的非常難找到一個合適的地方。這大概是我目前最感到遺憾的一點。
主持人:那你現在還在思考下一步要做什么,對吧?如果所有實驗室都在做同一件事,那你應該不會想簡單跳去另一家大實驗室?
Jerry:我當然還在認真思考下一階段。但如果有更多“稍微偏離主流、但依然具備規模”的選擇,那我會更開心,也會更容易做決定。
主持人:那你覺得,要讓整個行業偏離當前主流路徑,需要什么條件?我可以想象,這些公司投入了巨額資金、消耗了大量資源,又處在聚光燈下,自然會害怕承擔風險。但也許這些風險是必要的。那到底要改變什么?或者這種改變真的會發生嗎?
Jerry:這正是一個非常有意思的問題。
我其實非常喜歡冒風險,也經常被人這樣評價。我認為,冒風險本身是一件好事。但當你面對的是“巨額資金在押”的局面時,真正有能力、也愿意承擔風險的人,其實非常非常少。
每個人的風險偏好都是極其個人化、極其獨特的。我和很多人共事過,我真心覺得:人們應該愿意多承擔一些風險,多去嘗試一些事情。
但另一方面,現在 AI 世界里的研究者薪酬已經高得離譜了。這在某種程度上,也會讓人變得非常害怕失去工作、害怕一次不好的績效周期。結果就是:人們更傾向于追求短期、確定性的收益路徑。而這些人本身往往都是非常聰明、動機也非常正直的研究者。只是整個系統在某些地方,確實更容易鼓勵“短視”。
我認為,研究者應該被更明確地鼓勵去冒風險、去下大膽的賭注,因為真正的進步,正是這樣發生的。
2 Yann LeCun 的世界模型,“方向無疑是正確的”
主持人:那我們已經看到了一些“獨行俠”式的人物。比如 John Carmack。Carmack 跑去了達拉斯,像是進了自己的洞穴里。一開始似乎是單干,現在好像有幾個人在跟他一起做。他幾年前說的,其實和你剛才講的很像:也許我不知道能不能走出一條完全不同的路,但至少應該有人在一條完全不同的路徑上持續折騰。
我和 Ilya 聊過,但并不知道他現在具體在做什么。我不知道那是他之前工作的延續,還是某種非常激進的新路線。不過我想,如果不是完全不同的方向,他大概也不會去募那么多錢、重新開始。
然后還有 Yann LeCun,他顯然有一套不同的哲學。有時候我會覺得這個領域挺奇怪的:AI 從某種意義上說很“老”,已經發展了幾十年;但當前這一波 AI 又非常新。和研究者聊天時,他們會說:現在把主要論文讀完,其實很快就能跟上前沿。所以我一直在想,會不會有某個人,突然從完全意想不到的方向出現,帶來一個極端激進的新想法,把整個領域往前推一大步?但與此同時,又好像越來越難——因為現在你幾乎需要一個“國家級規模”的數據中心,才能真正參與到這個層級的競爭中。
Jerry:這正是事情變得非常困難的地方,同時也是一個非常值得解決的問題。
世界上其實有大量學術研究在發生,也有很多學生在做各種各樣的事情,但其中大多數都嚴重缺乏資源。這使得很多研究最終走不遠,因為你真正想做的研究,往往必須在“大規模”下才能完成。
但這也是讓我感到非常樂觀的一點:現在確實有相當多的資金,正在流向那些“想做新東西”的人。像 John Carmack、像 Ilya——他們做的事情,正是當下這個時代應該存在、也應該被資助的。當然,不是所有嘗試都會成功,但其中一定會有一些成功,而創新正是這樣發生的。對于任何一個強化學習研究者來說,“探索(exploration)與利用(exploitation)”之間的權衡,都是一個非常基礎、非常重要的概念。
即便是在優化 agent 時,你也必須不斷權衡:是走已經被證明有效的路徑,還是去嘗試全新的方法,用完全不同的方式解決老問題?這是一個非常困難的取舍,但它本身就是一個被研究、也值得研究的問題。而正如我們在設計 agent 時會思考這個問題一樣,我們也應該反過來問自己:我們自己在做研究時,是如何在探索與利用之間取舍的?
主持人:在這個非常非常頂尖的小圈子里,大家都知道 Carmack 在做什么嗎?你們彼此是互相了解的嗎?
Jerry:老實說,我并不完全清楚。但如果我沒記錯的話,我隱約知道一些。他可能是在押注一種非常端到端的強化學習方式——通過鼠標和鍵盤,在電腦游戲中訓練 agent。
如果真是這樣,那其實非常有意思。因為我長期以來一直在想:電子游戲,可能是訓練智能體的最有趣環境之一。游戲本身就是為了“對人類大腦有吸引力”而設計的。它們包含故事、權力幻想,但更重要的是:大量的問題求解。游戲必須有趣、必須有挑戰、不能重復。
在某種意義上,電子游戲非常貼合人類智能,它們天然地在教你資源分配、解謎、如何在不同規則下取勝——這正是我們希望 agent 能學會的事情。當然,我們現在還沒有真正能在高頻、多模態環境中穩定運行的超強模型,可能存在一些架構層面的限制。但我認為,用電子游戲來訓練 AI,是一件非常值得做的事情。
主持人:Richard Richard Sutton 過去在撲克、游戲等領域做過大量工作;我也曾在他的實驗室待過。早期的那些游戲環境,比后來 OpenAI 的 Dota 要原始得多。但你可以看到,這個想法一直貫穿其中。
Demis Hassabis 也長期在追逐類似的方向。所以你提到這一點很有意思——這其實是一個“老想法”。一段時間里,各大實驗室都在比誰能打通更復雜的游戲、誰能更好地“秀”成果;后來在 ChatGPT 時代,這條路線似乎被邊緣化了。但也許,它仍然有潛力。
Jerry:在科學史上,有一個非常常見的現象:好的想法,往往會反復出現。真正困難的,并不是提前預測“哪個想法是重要的”,而是判斷“什么時候是對的時機”。即便在 OpenAI 早期,我們也常說:不能斷言某種方法“行不通”,也許只是“現在還行不通”。
我七年前剛加入 OpenAI 時,強化學習在游戲上是一個非常火的方向。我們解決了很多游戲問題:StarCraft、Dota,而 AlphaGo 更是一個標志性時刻。但這些模型有一個非常明顯的缺陷:它們幾乎沒有世界知識。它們并不理解我們的世界,只是從零開始,專門為某一個游戲訓練。
這顯然不是正確的路徑。我們必須先教模型理解世界,理解更高層次的概念,而不僅僅是對像素做出反應。從零開始的強化學習,更像是“猴腦”或“蜥蜴腦”。而我們想要的,是具備更高層次抽象能力的模型。
在多年大規模預訓練之后,我們現在已經能夠學到一套非常強的“世界表征”。而接下來,我們應該利用它。這正是“推理模型”的核心魔法:在一個對世界有深刻理解的基礎之上,疊加一層強化學習。未來就應該沿著這個方向前進。
主持人:那這不就和“世界模型”的方向一致了嗎?Google 在做這個,Yann LeCun 似乎也在推動類似的想法。這在直覺上是合理的——這也是人類學習世界的方式。我們不是在一個黑箱里長大的,而是通過不斷試探、感知世界來學習的。所以你對這個方向是非常看好的。
Jerry:這個方向毫無疑問是正確的。真正有挑戰性的,是:如何把從世界建模中學到的表征,與強化學習真正結合起來。
強化學習教會模型“技能”——讓它學會如何在世界中實現自己的目標。但在此之前,模型必須先理解世界,否則它連“如何設定目標”“如何達成目標”都無從談起。
正因為如此,這兩件事情必須結合起來。
如果有人能在一個高質量世界模型之上,真正把強化學習跑通,那將會是一個非常令人振奮的時刻。
主持人:就你現在這些正在吸引你的研究方向來說——你能不能稍微給我們一點提示?還是說,這樣就直接暴露你下一家創業公司的方向了?
Jerry:我現在最興奮的研究方向大概有兩個。主要原因也很簡單:我不覺得重復去做各大實驗室正在做的那套事情有什么意義。現有體系里當然還有很多可以微調、可以改進的地方,但我認為有兩個方向長期被低估了投入——或者至少沒有得到足夠的資源與重視。
第一,是某種意義上的“架構創新”。我覺得我們對 Transformer 架構有點過于“路徑依賴”了。Transformer 確實很偉大,也被非常深入地研究過。人們一直試圖在本地做一些小改動,讓 Transformer 更強,但這件事并不容易。雖然也有一些相當成功的改進——比如稀疏化非常成功;還有各種讓注意力計算更便宜的方法,也取得了不錯的效果。
但 Transformer 會是機器學習的最終架構嗎?顯然不會。盡管 Transformer 的發明者做出了驚人的貢獻,并且幾乎定義了接下來十年的機器學習格局,但我相信一定還有更多可能。
一定存在一些訓練大模型的方法——它們也許有點像 Transformer,也許完全不像。我覺得這是一個值得去解決的問題。甚至如果沒有別人去做,我也愿意卷起袖子自己上,試著把它做出來。
第二個方向相對更“熱門”,但我覺得幾乎沒有人把它做得真正好,那就是持續學習(continual learning):如何把測試時(test time)與訓練時(train time)真正打通、真正融合起來。
人類顯然就是這樣運作的:我們沒有一個“專門學習模式”和一個“專門回答問題模式”。學習與反應是連續發生的、時時刻刻都在進行。我覺得我們的模型也應該更接近這種狀態。
這可能是我們在把模型真正稱為 AGI 之前,最后幾個關鍵能力要素之一。如果模型不能從它看到的數據中持續學習,它就仍然顯得有點受限——甚至有點“笨”。
3 新技術炒作帶來的恐懼感
主持人:說到 AGI,我們上次錄播客時我提過:我已經不像一兩年前那樣經常聽到“時間線”討論了。那時候大家非常熱衷談什么時候會實現 AGI,甚至連“AGI”這個詞最近都沒那么火了。你自稱對 AI 是“謹慎的樂觀主義者”。那你覺得我們現在處在 AGI 時間線的哪個位置?
Jerry:我個人的看法是:我對時間線做了一點更新。
我一直認為,把強化學習規模化(scaling reinforcement learning)是通向 AGI 的必要部分。一年、或一年半之前,我非常堅定地認為:只要把 RL 規模化到我們的模型之上,那就是 AGI 了。但我確實不得不稍微修正這個判斷。因為有些東西,只有當你真的到了“下一階段”之后才看得見。
我們也必須承認:今天的模型在很多方面已經非常非常強了。就拿編碼來說——“vibe coding”是我最喜歡的愛好之一,你現在可以非常快地寫出很多東西。對一些十年前的人來說,如果你把今天這些能力展示給他們,他們可能已經會把它叫做 AGI 了。
所以我不覺得談 AGI 還是一種多么離譜、多么瘋狂的事。但至少按我的定義,現在的模型仍然不是 AGI——原因之一是:持續學習完全還沒有以真正的方式被整合進模型體系里。
除此之外,還有很多問題。比如多模態感知:如果模型文本理解很強、編程也很強,但它看不見真實世界、不能看視頻并且很好地理解視頻,那我們能稱它為 AGI 嗎?
所以我認為,要真正達到那個“文明級里程碑”——構建 AGI——還有很多必要步驟要完成。
有一段時間我曾想:如果我們真的拼命推進,并且把所有關鍵問題都做得足夠好,也許 2026 年至少能實現非常強的持續學習,以及真正通用的強化學習。
我覺得我的時間線仍在漂移。但與此同時,AI 領域移動得太快了:投資在年復一年累積增長,越來越多人進入 AI 領域,人才池變大,我們探索的想法數量也變多。
所以我不覺得“這個想法完全荒唐”。也許會早一點,也許會晚一點:可能是 2026,也可能 2027、2028、2029。我不覺得會比這更久太多。但確實還有很多工作要做。不過人們正在非常努力地做 AGI。
主持人:你剛才提到的內容——讓我想起你之前做的那些事。除非我記錯:在 Strawberry 還沒成為一個“明確項目”之前,外界不是有過所謂的 Q-Star 傳聞嗎?而且在那次“內部風波”期間,這件事被反復提起:什么“他們知道 AGI 已經到了”,把所有人都嚇到了。但聽你現在這么說又挺有意思的。因為確實,這些東西做出來以后非常驚人,我們會一度情緒很亢奮;然后時間過去,大家就習慣了。現在回頭看,Strawberry 確實很不可思議,也確實改變了整個領域。
但我第一次用它的時候,并沒有到那種“把我嚇死”的程度。你懂我意思吧?
Jerry:我懂你意思。
這其實涉及人類心理,以及我們如何與技術互動的方式。對我來說,把強化學習規模化帶來的效果仍然非常顯著,而且我覺得隨著時間推移,我們會看到更多影響。
尤其是應用在編程上,這會以很多很多方式改變我們的生活。你今天做一個大規模編程項目,和一年前相比,完全是另一種游戲。我們會在很多領域看到這種變化帶來的連鎖影響。
但我也想說:兩年前,當我和團隊、以及 OpenAI 的很多人第一次看到 Q-Star 的一些早期跡象真的開始工作時——你坐在一個房間里,看到一種“有意義的新技術”正在出現。
如果你在那一刻不感到一點害怕、不感到一點擔憂、不暫停一下想一想“這對世界意味著什么后果”,那我會覺得你沒有在負責任地對待自己的工作。我認為每一個 AI 研究者都應該想這些問題:如果我正在做的東西是全新的、它展現出了以前從未出現過的新能力,那世界會發生什么?
很多研究者確實會這么想。當然,有時候也會把擔憂推得太遠。一方面,到目前為止,AI 還沒有給世界帶來什么“實質性的重大傷害”;但另一方面,一些事情(比如“某些很花哨的東西”)是不是算有問題——也許還可以爭論。(笑)
但總體來說,我認為:當你向世界釋放新技術時,感到擔憂與謹慎,是一種非常好、也非常健康的反應。
我們正在經歷一個變化的時代:大量新事物正在擴散到世界里,它們會產生影響——影響人們如何生活,如何看待自己、看待他人;影響人際關系、國際關系;影響 GDP、影響生產力。
有時候,一個人寫下的一行代碼,就可能引發連鎖反應。經歷了這一切,肩膀上的單子就相當重。
為什么大模型行業敘事變成了肥皂劇、真人秀
主持人:我一直在想,尤其“政變”那段時間:你做出來的東西被媒體炒得很熱,還被卷進各種戲劇化敘事。我不知道“滑稽”這個詞對不對,很多人其實還沒弄清它到底是什么,就已經圍觀成現象了。你當時是什么感覺?
Jerry:技術、概念、人類情緒、人類生活、人和人之間的協議與分歧——在現實里很難被切開來看。
我們確實活在一個世界里:AI 領域的重要參與者之間,有一個非常復雜的關系網絡,很多層次疊在一起。要把它完全理清楚,可能得歷史學家花很多年、甚至幾十年,才能真正弄明白到底發生了什么、哪些因素起了關鍵作用。
老實說,到現在為止,我對那段時間發生的一切也只剩下非常零散的記憶。我們也在不斷“補課”——每當有新的證詞出現、每當新的文件被披露,就會冒出一些新事實。未來某個時刻,肯定會有人把所有內容都挖出來、完整還原。
但現實世界就是這么復雜。我也確實覺得,也許應該有一種更健康的方式來討論技術:找到一個更合適的討論場域,讓分歧能夠被更充分、更有建設性地展開。但我們生活在這樣一個世界里:沒有完美解,也不存在一種絕對正確的討論機制。
主持人:所以你覺得 X(推特)也不是理想媒介?
Jerry:我個人其實很喜歡在 X 上發內容,分享想法,和社區交流。但它也不是一個完全嚴肅的地方——很多時候都是半開玩笑、半認真。更核心的問題是:有人擔心某件事太危險不該繼續;有人覺得繼續做是對的,因為它會增強能力;還有人認為方向本身就不對,我們應該做別的研究。
在技術進步與研究的世界里,這些事情很多都是未知的。沒人知道未來。我們只有想法、信念和夢想。
我們必須和這種不確定性共處,也必須學會在很多問題上“求同存異”——很多時候只能接受:大家各自下注、各自承擔后果。
主持人:說到當時媒體對 Q-Star 的關注——那陣子簡直是炒作過度,幾乎天天都在加碼,每個月都愈演愈烈。我看著會覺得:這是不是太“嗨”了、太多 hype 了?而且我們倆也都在推特上,多少也參與了這股熱度。你怎么看:這種 hype 該不該降一降?我個人確實覺得,強度可以往回擰一點。
Jerry:我了解。反過來想,如果七年前有人告訴你:OpenAI 會成為萬億美元級別的公司;會建造規模堪比史上最大基礎設施項目的數據中心;會擁有世界上最大的 Web 產品之一;全世界會無時無刻都在談 AI——你一定會覺得那個人瘋了,會說“這就是炒作”。
可我真心覺得:這波 hype 在很多層面其實是有事實支撐的。人工智能在很多方面存在過度反應和反應不足的情況(有時候被高估,有時候也會低估),但 AI 的重要性毋庸置疑——它值得被討論。我不覺得現在還有誰會認為 AI 是個“不重要、不值得討論”的話題。幾年前確實還有人這么想,但現在已經很清楚:AI 很可能是當今世界最重要的議題之一,值得持續討論與思考。至于進展會有多快、路徑到底對不對、安全還是危險——這些當然都可以爭論。但 AI 會長期存在,而且只會越來越強。
主持人:完全同意。但如果先把技術放一邊——我甚至報道過“挖人狂潮”。我越來越覺得,這個行業的敘事變得像肥皂劇、像真人秀,很多時候討論的不是硬核科學,而是劇情、陣營和情緒。你會不會也覺得我們有點“跑偏”了?
Jerry:但到底是誰在制造這場肥皂劇?這才是問題。
主持人:嗯,說真的,這一輪比我經歷過的任何技術周期都更“肥皂劇”。可能是賭注太高、錢太多,再加上挖人和各種戲劇化敘事,整個舊金山像活在一套自己的現實里。
我有時都替你們累——七八年一直在這種高壓競速里,你現在想停下來喘口氣,我完全能理解。
Jerry:的確很消耗。
但我可以跟你分享一句對我很有幫助的話:有一次,一個比我更有經驗、更擅長應對壓力的人跟我說——Jerry,這就像做俯臥撐。每經歷一次艱難、緊張的時刻,你就更擅長應對壓力一點。
老實說,這七年讓我練出了很強的心理和情緒韌性。我真的學會了在大量噪音、很多胡扯面前,把自己抽離出來,盡量保持穩定、保持定力。
不管外部發生什么——公司看起來要塌了也好,研究者流動也好,項目被重新分配也好——總會有事情在推進,總會有新的變化。
我聽過有人把“挖人”這件事類比成體育隊伍的轉會。體育之所以還能運轉,是因為有角色、有規則。我差點想說:可惜在加州的法律框架下,這類規則基本不可能出現。但我確實覺得,如果能有一些規則,可能會更健康。
因為確實存在這樣一種現象:有些人換工作的頻率,比他們真正產出成果的頻率還高。
主持人:AI 薪資帽?(笑)
Jerry:(笑)確實有人這樣。但也仍然有很多人在認真做事,推動前沿繼續往前走。不過,AI 是一門大生意——這點無論如何都沒法否認。
主持人:我還跟同事說,我們真該做一張表,把那些在每一家前沿實驗室都待過的人列出來,標注他們在每家待了多久。(笑)肯定至少有一小撮人,把整個灣區的“前沿實驗室巡回賽”跑完了。說真的,這太瘋狂了。
主持人:2018 年前后,OpenAI 還只有三十來個人。有一件事當時讓我印象特別深:最早那批成員里,波蘭人的比例異常高,而且很多都是非常典型的“數學腦”。
有些人彼此從小就認識,有些并不認識。我一直很好奇:這到底反映的是一種教育背景的集中效應——比如偏重數學訓練的體系,確實更容易培養出這類人?還是說,其實只是早期有幾個人先來了,后來通過學術和個人網絡,慢慢把更多同類的人吸引到了 OpenAI?
Jerry:先澄清一點:我在加入 OpenAI 之前,完全不認識任何 OpenAI 的人。我是非常隨機、機緣巧合地進來的。
但你說得沒錯,在 OpenAI 非常早期,波蘭人的占比確實偏高。不過我并不覺得這種情況“經得起時間檢驗”。現在公司里,波蘭人的比例仍然略高于平均水平,但考慮到 OpenAI 的規模已經增長了大概一百倍,這種早期的“高濃度”并沒有按比例延續。
我覺得這里面確實有一些值得討論的因素,但我并沒有足夠多對其他教育體系的親身體驗,所以不敢輕易下結論,說波蘭的教育體系“天然更強”。我能確定的是:我們確實有很多非常聰明、數學直覺很強的人。
但如果說有一件我特別認可、也特別喜歡的事情,那就是波蘭人對“努力工作”這件事的重視從我個人經歷來看,這種特質在很多地方正在變得越來越少見——尤其是在一些生活條件已經非常優渥的社會里,人們對工作的強調確實在下降。
4 Google 的“回歸”還是 OpenAI 的“失誤”?
主持人:你怎么看 Google 最近這一輪的“回歸”?你是覺得意外、驚訝,還是說其實早就料到了?看起來他們這段時間做對了不少事情。你們之前是不是一直都覺得:Google 遲早會把局面理順?
Jerry:我個人其實不太愿意把這件事稱為“Google 的回歸”。它應該被視為OpenAI 的失誤。
OpenAI 確實在很多關鍵點上做對了事情,但也不可否認,在某些階段出現過判斷或執行上的失誤,導致整體推進速度比它本可以達到的狀態要慢。
在一種理想的執行情境里,如果你是一家已經取得領先優勢的公司,而且擁有 OpenAI 那樣的技術、人才和資源條件,那么你理論上是可以持續保持領先的。但如果在這個過程中,你做出了一些錯誤決策,而你的競爭對手做出了更多正確決策——而 Google 在最近一段時間里,確實做對了不少事情——那對方追上來,其實并不奇怪。
你也必須承認:Google 在硬件、算力和人才儲備上,本身就有非常巨大的優勢。事實上,在 OpenAI 剛起步的那些年里,Google 在幾乎所有機器學習方向上,都是明顯的行業第一。
OpenAI 能真正跑出來,靠的主要不是資源優勢,而是研究方向上的強烈信念:對某一條具體技術路線、某一個具體長期賭注的堅定投入。
但讓整個行業、讓外部世界真正意識到“這是一個正確的賭注”,花的時間比很多人想象的要長得多。哪怕 GPT-2 訓練完成了,GPT-3 訓練完成了,后來 GPT-3.5 也出來了——在那個階段,其實并沒有太多人真正重視這件事。
你去 NeurIPS 這樣的會議和研究者聊天,大家會覺得 OpenAI 很酷,但很多其他實驗室的態度是:“嗯,我們遲早也能復現。”語言模型確實挺有意思,但在他們看來,也就止步于“有意思”。
真正的轉折點,是 OpenAI 開始通過 ChatGPT 賺到錢。那一刻,其他公司才突然意識到:“好,這不只是研究展示,而是一個已經被驗證的商業方向,我們必須認真投入了。”
這里其實存在一個很關鍵、但常常被忽略的時間窗口:從你開始構建一項技術,到它真正被商業化,中間往往隔著一段很長的時間。
這段時間,足夠讓其他公司觀察、猶豫、評估風險,然后再決定是否下場。而在這個階段,Google 顯然開始非常認真地對待大語言模型這條路線。再疊加 OpenAI 在執行層面的一些失誤,最終導致今天的結果:在模型能力和訓練成果上,雙方已經變得非常接近。
所以,從 Google 的角度來看,這確實是一件值得祝賀的事情。能夠把團隊重新拉回狀態、把執行節奏提起來,背后一定做了大量艱難而高質量的工作。
主持人:那你說的這些“失誤”,具體指的是什么?我在努力回憶。我記得當年你們推出 Search 的時候,外界一度在說“Google 完了”,但我當時就覺得未必如此。所以你提到的失誤,更多是指哪些方面?
Jerry:我不太想展開討論具體的內部決策細節,哪些判斷是對的,哪些是錯的。
但我想強調的核心其實很簡單:如果一家領先公司執行得足夠好,那么在大多數情況下,它是可以把領先優勢持續下去的。
而在現實中,很明顯有一些事情的推進速度,比它本可以達到的節奏要慢。
主持人:你的意思是技術層面的失誤嗎?因為從外界看,也確實發生了不少公司層面的戲劇性的狗血劇情,這些在某些階段顯然拖慢了整體節奏。
我跟 OpenAI 的一些人聊過,關于公司要如何繼續向前,確實出現過一些階段性的混亂,比如關鍵人物離開等等。所以我原本以為你指的是純技術問題,但聽起來你的意思更復雜一些。
Jerry:這些事情有時候確實是相互關聯的。
從技術角度來說,我并不認為“有人離開”這件事本身就一定構成問題。在任何一家公司,人來人往其實都很正常,也應該是一種常態。
但如果離開變成了某種更深層問題的癥狀——比如有人覺得:“公司在一些關鍵事情上做錯了決定,我不再相信這家公司了,所以選擇離開”——那這往往意味著,背后確實存在一些需要被正視的問題。
所以回到我最初的判斷:確實有一些事情,推進得比它本可以做到的速度要慢。這并不否認 OpenAI 的成功,但也不能忽視這些失誤帶來的影響。
主持人:如果像你說的那樣,各大實驗室基本都在走同一條路,那 Meta 顯然也是其中之一。他們在 AI 上投入巨大,也在從各家實驗室挖人。我并不完全清楚 Meta 內部的具體策略,但從外部看,他們似乎并沒有選擇一條完全不同的路線,而更像是在追趕同一條主流路線。
這聽起來像一個根本性的問題:如果你既起步更晚,又在做和別人幾乎一樣的事情,這真的可能有好結果嗎?還是說,你覺得 Meta 實際上走的是一條不一樣的路?
Jerry:我并不完全了解他們的內部策略,所以只能談一些外部觀察。
我的感覺是,他們已經意識到一件非常關鍵的事情:“規模化”在當前的 AI 世界里是不可回避的。如果你放眼現在的 AI 行業,基本可以抽象出兩種不同的戰略選擇。
第一種是:我要做一種和其他人都不一樣的模型——它在某些方面會明顯更強,我希望把這種差異化模型帶給世界。第二種是:我也希望擁有和別人一樣強、同一量級的模型,但我的重點不在模型本身,而在于我如何使用這些模型、以及我基于它們構建什么樣的產品。
從我對 Meta 一貫路線的理解來看,這家公司長期以來關注的核心,一直是連接人與人、構建關系、打造大規模的用戶體驗型產品。無論是社交網絡、沉浸式體驗,還是他們設想中的元宇宙,本質上都是圍繞“體驗”和“連接”展開的。
所以我這里是基于外部推測,但我認為 Meta 的思路,很可能是:使用我們已經熟悉、已經理解得比較透徹的 AI 技術(比如 Transformer),來構建全新的產品體驗,而不是在模型層面追求完全不同的路線。
從一家極其成功、極其賺錢、而且已經擁有全球最大社交網絡的公司視角來看,這其實完全可能是一種非常合理、甚至非常聰明的策略。
主持人:我們剛才聊了 Google,也聊了 Meta。但我想換一個角度問:在你們內部討論、或者評估其他實驗室的時候,有沒有哪一家,讓你們真的覺得“被震撼到了”?哪一家是你個人印象最深的?
Jerry:我得說,這是一個相對比較新的變化。
在過去一年里,我對 Anthropic 的印象提升得非常明顯。我本人其實從來不是那種特別在意模型“性格”的人。雖然我也聽說過 Claude 的“性格”很好,可能確實如此,但這并不是我關注的重點。
真正讓我感到震撼的是幾件事:他們在代碼模型、編碼 Agent上的成果;以及他們圍繞“開發者”建立起來的整體產品和品牌——還有最關鍵的一點:他們擁有一大群真正滿意、甚至很開心的開發者用戶。這是一項非常、非常了不起的成就。
更重要的是:他們起步比 OpenAI 更晚;算力條件更受限制;團隊規模也更小。在這樣的前提下,他們依然做到了高度聚焦,并且執行得非常好。
他們在獲取高質量算力方面遇到過不少現實困難,但即便如此,仍然做出了非常出色的產品。
這些產品正在明顯改變人們開發軟件的方式;而據我了解,也已經在實質性地提升企業生產力。
所以我真心覺得:他們做得非常好,值得祝賀。
主持人:他們確實看起來正處在一個“高光時刻”。我身邊幾乎所有人都在聊 Claude Code。我最近還采訪了一個人——他在用 Claude“養活一盆植物”。(笑)可能是第一種被 AI 模型持續“照料”的生命體。我真的不知道他們是怎么做出一個幾乎“人人都喜歡”的工具的。從 ChatGPT 到 Claude Code,這種程度的“普遍好評”,其實非常少見。
而且之前還有一件事:當大家被“切斷使用”時,開發者的反應極其強烈——某種程度上,那種崩潰感甚至超過了 OpenAI 出事時的反應。連 Elon 都公開承認了這一點,說:“是的,我們用得太多了,這是個警醒,我們得把自己的東西做得更好。”所以我在想:這也許不是一個完全普遍的現象,但看起來,很多實驗室其實已經在不同程度上依賴這套工具了。也希望這次“切斷”能倒逼出更多、更好的同類產品。來一百萬個 Claude Code。(笑)
Jerry:在 OpenAI,我們其實也開發 Codex 有一段時間了——它算是我們自己的“Claude Code 版本”。
我個人覺得 Codex 也挺不錯的。有點好笑的是:我自己其實并沒有怎么用過 Claude Code。畢竟當時我還在 OpenAI 工作,也沒太多機會去親自用。
我也是想說得客氣一點。所以我確實沒法給出太多一手對比體驗。但至少從推特上的反饋來看,Claude 確實被全球開發者非常、非常喜歡。
做點跟 OpenAI 不同的事情
主持人:結合我們前面的討論,我對你的理解是:你一直是從一種很純粹的智識和科學興趣出發的人。你在 reasoning 上的很多工作,本質上都指向一個長期目標——你想創造“AI 科學家”。
所以當我看到你說要離開 OpenAI 時,我忍不住在想:你是不是已經不太想繼續待在這場“基礎模型競賽”里了?聽你說話的感覺,更像是想換一條路走。我甚至會想象,你會不會干脆跑去做生物科技之類的方向,用完全不同的方式繼續追這件事。
Jerry:如果我能克隆自己、同時做很多件不同的事情,我真的會非常愿意。但長話短說:有一天我突然意識到——我對自己過去的人生很滿意,也為自己做過的事情感到驕傲;但我現在真正想做的,是押一兩個、甚至兩三個非常非常大的研究賭注,然后看看能不能把它們做成。
我一直覺得,人應該更愿意冒風險。至少從我的觀察來看,我可能算是那種風險承受能力比較高的人——愿意去追一些看起來很野、很不確定、甚至有點離譜的想法。所以我覺得,我應該把這種特質用在更有意義的事情上。
主持人:那你腦子里的這些想法,如果真要落地,大概需要多久?是一年左右的項目,還是說你說的“風險”,意味著你愿意花四五年時間去追一件事,而它最后甚至可能還不如現有方案?
Jerry:我肯定愿意投入很多時間。但與此同時,我也非常堅定地認為:研究應該盡可能快地推進。
做得慢,本身并不值得驕傲。從“把研究執行好”這個角度看,我希望它能更快。
不過,真正關鍵的,其實是我之前反復提到的兩個詞:聚焦(focus)和信念(conviction)。
如果你同時做很多事情,幾乎注定每件事都只能做一小部分。你的注意力會被攤薄,資源也會被攤薄。研究實驗室經常會說:算力不夠,算力限制拖慢了研究。這當然是真的,而且是重要因素之一。但很多時候,更核心的問題其實是:不夠聚焦。一天之內,一個人的注意力只能真正放在有限的幾件事情上。
我很喜歡對和我共事過的研究者說一句話:少跑一點實驗,把每一個實驗想得更深。因為有時候,你花幾個小時什么實驗都不跑,只是盯著結果、反復分析數據——反而更容易帶來真正的突破,而不是不停地“多跑”。
所以像 OpenAI 這樣的公司,算力其實非常多。但如果算力被分散到太多項目上,效果反而會被稀釋。如果把算力集中到更少、更聚焦的項目上,算力往往是夠用的。
但這又回到了風險和信念的問題。如果你同時做三個項目,只要有一個成功,其實就已經算不錯了;另外兩個被砍掉,也完全可以接受。如果三個都成功,那當然更好。但如果你只做一個項目,它往往會推進得更快——因為你足夠聚焦、也足夠堅定。當然,代價是:如果它失敗了,你會非常慘;但如果它成功了,你可能會擁有世界上最好的模型。
而對 OpenAI 這樣規模的公司來說,現在確實很難做到一件事:把整個公司押注在一個全新的、完全不同的方向上,同時不在乎下個季度 Gemini 會不會更強。這真的非常難。它需要一種非常特殊類型的人,才愿意這么做。
我覺得,這就是問題的核心。
主持人:我明白,也知道你不能聊什么“秘方”。但我還是忍不住好奇:從外部看,我會直覺覺得,OpenAI 接下來押注的方向,應該是那些能賺大錢的方向。比如“Chat 里要加廣告”的消息,幾乎把整個互聯網點燃了。哪怕很籠統地說,你覺得我們能判斷他們接下來大概會把資源投向哪里嗎?
Jerry:這個問題上,我確實不應該、也不能談 OpenAI 的任何具體計劃。
主持人:合理。(笑)那我換個問法:你覺得這些做模型的公司里,有沒有誰會選擇——也許“勇氣”這個詞不太準確——不把廣告塞進模型里?還是說,從商業角度看,這其實是不可避免的?
Jerry:這屬于商業策略。我做的是訓練模型。(笑)
主持人:好,抱歉,我不是想逼你。(笑)只是聊完整個對話之后,我自己還在試圖想明白一件事。一方面,你說你想走一些新的方向,去追一些和主流不同的路徑;但另一方面,我們也反復提到:你想做的這些事,確實需要非常強的“馬力”。所以我有點難想象:這是 Jerry 一個人、在外面慢慢測試新想法?還是說,就你真正想做的那些研究,你必須身處一個擁有足夠資源的地方,事情才有可能發生?
Jerry:這正是我現在最想搞清楚的第一個問題。任何 AI 研究,最終都離不開 GPU、離不開算力(FLOPs)。我現在需要認真想清楚的是:到底什么樣的方式,才是做這些研究的最佳路徑。
我確實正在努力理清楚:我很清楚自己想做哪些研究,但我還在尋找答案——到底怎樣去做,才算是一個“好的方式”。
OpenAI 的壓力甚至超過創業?
主持人:我剛才問的那些,基本就是我最想問的了。我覺得我能跟你聊上好幾個小時。
我不想繼續追問“你接下來做什么”,因為你看起來太開心了,整個人容光煥發。
Jerry:是的,我聽好幾個人都跟我說:你現在比以前快樂多了。
主持人:我不想把你拖回那種壓力里,比如問你接下來要做什么?
Jerry:我不知道。 而且我也聽一位正在經營自己公司的人說過一句讓我很震撼的話:在 OpenAI 工作,比自己創業還更有壓力。從很多方面看,OpenAI 的確是一個壓力極大的地方。
主持人:還有一個小問題,除了“大家都在追同一套東西”之外,你覺得這個領域里還有沒有什么“巨大的錯誤”?
Jerry:我不覺得存在那種特別“巨大的錯誤”。這個行業里的人,其實都很難犯那種一眼就能看出來的致命錯誤。
真正的問題更像是:你愿意花多少精力去探索“其他可能性”?又有多少精力,繼續沿著你已經走得很順的那條路往前推。
主持人:那我換個問法,可能更準確一點。有沒有一些你覺得被明顯低估、被忽視的研究方向?它們本該得到更多關注,但現在沒有。
Jerry:老實說,這樣的想法非常多。但這些想法最缺的,往往不是“它們不存在”,而是:缺關注、缺算力、缺資源。
這里還有一個比較有意思的現象。很多研究者——包括學術界——很擅長、也很喜歡做“從 0 到 1”的事情:提出一個新想法,證明它“有點能跑”,然后就發表出來。而我覺得,我自己、以及我在 OpenAI 共事過的團隊,真正特別擅長的一件事,是“從 1 到 100”:拿一些已經有初步證據的新想法——它們很不同,也不成熟——然后想辦法把它們在大規模上做得可靠、穩定、可落地。
要訓練前沿模型,把一種技術真正嵌進系統里,會涉及大量非常具體、非常瑣碎、但又極其關鍵的工程和研究工作。如果執行不好,可能要花上好幾年;但如果你有一套好的方法和節奏,可能幾個月就能完成。這也是我未來很想繼續多做的一類事情。
AI 研究是“明星驅動”的嗎?
主持人:我們之前聊到 OpenAI 的人員流動時,你說公司是能扛住這些變化的。但從外部看,這個領域又很像是“明星驅動”的:比如 Alec Radford 那樣的突破級貢獻——你知道我指的是什么。
從行業行為上看,很多實驗室似乎也在按“明星邏輯”行事。當然,這背后有大量集體協作,但確實也有一些時刻,看起來重大突破被“綁定”在少數幾個人身上。但你剛才的反應,似乎并不完全認同這是一個“明星驅動”的行業。
Jerry:我覺得這是個很復雜的話題,但有兩個看法可以同時成立。
一方面,確實存在這樣的情況:在某些階段,尤其是在 OpenAI,一小撮人能產生遠超常人的影響力,推動真正突破性的成果,然后這些成果擴散到整個行業。我親眼看到這種事情反復發生。
但另一方面,當我看到人們在不同公司之間頻繁流動時,我很少看到這種流動本身,對公司產生“決定性影響”。
我更相信的是:公司的結構、文化和運作方式,才是真正的研究引擎,而不完全取決于某一個研究者是否在這里。
而且我也觀察到一個現象:那些頻繁跳槽的研究者,反而往往沒那么高產——即便他們過去做過很好的工作。他們需要重新磨合,會被各種事情分散注意力,短期內也未必有新的突破性想法。
經驗當然重要,但更重要的是:營造一種環境——強調個人責任、鼓勵探索、并且真正為“做出偉大事情”提供條件。
在一個好的結構、好的文化、好的協作方式下,你完全可以建立很多團隊,持續做出偉大的成果。
這件事并不依賴某一個“唯一的人”。歸根結底,我認為:研究結構、研究文化和協作方式,遠比“某個特定的人是否在團隊里”更重要。
主持人:很有道理,很有道理。
主持人:最后一個問題:你冥想嗎?
Jerry:最近在試,但我覺得我冥想得不太行。
主持人:那祝你下一段旅程,能找到屬于自己的“黑暗靜修”。Jerry,謝謝你。
Jerry:謝謝,很高興和你們聊天。
https://www.youtube.com/watch?v=VaCq4u5c78U
聲明:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經許可禁止轉載。
InfoQ 老友!請留步!極客邦 1 號客服上線工作啦!
后續我將通過微信視頻號,以視頻的形式持續更新技術話題、未來發展趨勢、創業經驗、商業踩坑教訓等精彩內容,和大家一同成長,開啟知識交流之旅歡迎
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.