<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      “Gemini 3不錯,但我們也快發了”:Mark Chen評價谷歌大模型,講清OpenAI如何給300個項目排GPU優先級

      0
      分享至


      編譯 | 傅宇琪

      12 月,OpenAI 首席執行官薩姆·奧特曼宣布拉響「紅色警報」,將調配更多內部資源以加速改進 ChatGPT。在當前白熱化的 AI 模型競賽中,作為行業內屈指可數的 “明星企業”,OpenAI 不僅要應對持續升溫的人才爭奪戰、內部組織結構的頻繁震蕩,還需承接外界對其技術突破的高期待。面對 “開創下一個 AI 技術范式” 的巨大壓力,OpenAI 將采取怎樣的策略破局?

      最近,OpenAI 首席研究官 Mark Chen 在播客節目中,與主持人 Ashlee 細致分享了 OpenAI 在推理模型的突破性進展、預訓練研究的重新聚焦、GPT-5 Pro 已在取得的科學發現。基于該播客視頻,InfoQ 進行了部分刪改。

      核心觀點如下:

      • 一個組織要成功,需要兩個條件:宏大的愿景和與之匹配的天才。

      • 成為一個好的領導者,就意味著必須明確地告訴大家:這是優先級,這是我們認為真正推動研究方向的成果,其余的只能排在第二位。

      • 未來的科研是“AI + 人類直覺”的組合,會產生新的突破。

      • 完全凍結研究部門的新增人頭,如果團隊想招人,就必須自己決定誰不再適合繼續留下。

      目標是找到“下一個范式”

      Ashlee:“人才爭奪戰”最近引發了大量關注,外界普遍認為 Meta 的動作非常激進。你能具體談談這種你來我往的競爭現狀嗎?

      Mark:整個行業的人才池其實很有限,大家都知道最關鍵的資源之一就是頂尖人才。Meta 的積極挖人并不令人意外,但我們也沒有袖手旁觀。媒體往往強調“人才單向流向 Meta”,但我看到的情況并非如此。比如在他們從我們團隊挖到第一名員工之前,先后接觸過我近一半的直接下屬,但這些人全部拒絕了他們。當然,如果 Meta 每年能投入約百億美元用于人才,他們總能挖到一些人。但總體來看,我們很好地保護了核心人才。

      競爭過程中也發生過不少頗具戲劇性的事:扎克伯格曾親自給我們團隊成員送去他親手熬的湯,以此示好。當時我非常震驚,但后來也理解這類方式確實可能有效。之后我也給從 Meta 挖來的對象送過湯,甚至還想過下次團隊外出活動就帶大家去上烹飪課。順便說一句,我自己并不親自熬湯,米其林餐廳的湯當然比我做得好。

      但真正讓我有信心的是:即使面對 Meta 的高薪挖角,在 OpenAI,無論是來自 Meta 的員工,還是我們原本的研究人員,都沒有人認為“AGI 會首先在 Meta 誕生”。他們對 OpenAI 的研究路線都有高度信心。我也一直非常明確告訴團隊,我們不會與 Meta 進行“薪資逐美元匹配”的競爭。在遠低于 Meta 的薪酬下,關鍵成員仍然選擇留下,這讓我更加確信:他們真正相信 OpenAI 的未來。

      Ashlee:在這種競爭中,有沒有類似“博弈策略”的考慮?

      Mark:關鍵在于:目標不是留住組織內的每一個人,而是認清必須保留的核心力量,并確保他們留下來,我們在這點上做得很好。

      Ashlee:在我看來,Sam 是真正沉浸于研究的那個人,是最頂層的決策者。而你和 Jakub 負責共同制定 OpenAI 的研究方向,同時你還要決定算力如何分配到具體項目上,既要決定公司往哪里走,又要管理執行路徑。聽起來像是一份非常艱難的工作,因為我想象得到大家會竭盡所能從你那里爭取 GPU。

      Mark:確實如此。人們為了獲得 GPU,會想盡各種“幕后交易”。但這確實是我職責的重要部分:確定研究優先級,并對最終執行負責。

      Jakub 和我每隔一兩個月會做一次“項目盤點”,梳理一份包含約 300 個項目的大型表格,盡可能深入了解每個項目,并對它們進行排序。對一家約 500 人規模的組織來說,明確“核心優先級”,并通過口頭溝通及算力分配來傳達,是非常重要的。

      Ashlee:這 300 個項目里既有大型前沿模型,也有各種實驗性方向。你們如何管理、追蹤并判斷哪些項目值得投入 GPU?

      Mark:關鍵在于始終聚焦核心路線圖。與其他大實驗室不同,OpenAI 始終把“探索性研究”放在最中心的位置。我們并不追求復現別人的成果,也不以追趕他人在基準測試上的成績為目標。我們的目標是找到“下一個范式”,并愿意投入大量資源。很多人可能會驚訝:我們的算力大頭,其實花在“探索”上,而不是訓練最終的成品模型。

      Ashlee:所有團隊都會說自己的項目最重要、最值得,怎么判斷優先級?

      Mark:最困難的決策通常是:我們無法在當下為某個項目提供支持。但成為一個好的領導者,就意味著必須明確地告訴大家:這是優先級,這是我們認為真正推動研究方向的成果,其余的只能排在第二位。

      Ashlee:你們也強調不要“對競爭者做出反應”。如今 AI 領域的競爭比以往都激烈,你們如何保持獨立判斷?

      Mark:現在的 AI 研究競爭確實空前激烈,但不能陷入這種競爭節奏。你隨時可以發布一個小更新,在幾周或幾個月內領先別人,但這種方式無法長期維持。真正重要的是“破解下一個范式”。

      例如 RO(reasoning optimization)項目,我們早在兩年多前就押注語言模型的“思考能力”可以被突破。當時這個方向并不受歡迎,因為大家都覺得預訓練和后訓練機制運轉良好,沒必要做別的。但現在,“思考能力”已經變成不可或缺的基礎能力。

      我們的使命就是大膽押注,并構建足夠強的算法,使它們能擴展到未來數個量級的算力。

      研究員 vs 工程師

      Ashlee:隨著 OpenAI 成為一家有明確產品線的公司,你們如何不被“商業優先”壓過“研究優先”?

      Mark:OpenAI 最特別的地方在于:我們仍然是一家“純粹的 AI 研究公司”,這點在業界非常罕見。我們以非營利形式創立,我加入時公司仍是非營利組織,那時的精神是“全力推進 AGI 研究,并保證安全”。我認為這依然是創造價值的最佳方式:只要研究領先,價值創造自然而然會發生。我 2018 年加入時的那種“核心文化”,至今依然存在。

      Ashlee:馬斯克曾說:“這幫人不是研究員,只是在做工程。”你怎么看?

      Mark:在構建大模型時,優化每一個百分點、加速每一個 kernel、確保數值穩定,都是極深的工程實踐。如果把研究凌駕于工程之上,其實已經輸了。一旦缺少工程能力,就無法在當今這種規模的 GPU 上運行模型。

      Ashlee:但外界確實把“研究員”和“工程師”賦予了不同的神秘感。

      Mark:研究人員形態各異,有的人每天都有無數想法,其中很多并不好,但總能在某個時刻提出改變方向的優秀點子,而有的人特別擅長沿著清晰路徑執行。研究從來不是一種單一類型的人能完成的工作,因此也無法簡單劃分為某種刻板印象。

      Ashlee:當競爭對手發布新模型,你和你們團隊會做什么?大家會第一時間去試嗎?有沒有你們常用來測試新模型的“那一道題”?

      Mark:會。以 Gemini 3 為例,它是個不錯的模型。

      但我們內部其實有能力相當的模型,而且快要發布了。

      Benchmark 只能說明一部分,大家還是會用自己獨特的方式去試模型。我個人喜歡用一一個數學題去測,目前還沒看到模型完全解出來,就算是“thinking model”也不行。

      Ashlee:是秘密題目嗎?

      Mark:不算,不過如果我現在說出來可能就會被拿去訓練。這是我去年很喜歡的謎題,叫“42 problem”。你要構建一個 mod 42 的隨機數生成器,你有的原子操作是一些模 42 以下素數的 RNG,你要讓期望調用次數最小。挺可愛的題目,但還沒人類語言模型做到最優。

      Ashlee:我原本以為你會在對手發布模型當天半夜就沖上去丟題測試。

      Mark:沒有那么夸張。我更相信“長周期”。我們過去半年都在強化預訓練能力,把整個團隊的肌肉練起來,做出現在能跟 Gemini 3 一較高下的模型。

      Ashlee:所以你現在更關注長線構建,而不是每次新品發布就沖去試題。

      Mark:對的。

      Ashlee:我知道你和 Jakub 都有競賽背景。我當初第一次見 Jakub 是在 Facebook Hacker Cup。你以前也是數學比賽選手吧?

      Mark:對,我從小學、高中都在做數學競賽。不過我真正寫代碼很晚,是大學室友慫恿的。當時我還有點數學系學生的傲氣,覺得數學才是最純粹的困難學科。后來發現編程競賽太好玩了,而且是我和大學同學保持聯系的方式。我們畢業后每周末都會上線一起比賽,算是朋友間的活動。后來我發現自己還挺有天賦,又開始給美國國家隊出題、最后去帶隊。既是激烈比賽,也是一個緊密社區,大家之后都會在科研界再相遇。

      Ashlee:那你這么忙,還能當教練?

      Mark:其實孩子們本身都特別自驅。教練的作用更多是幫他們管理狀態。競賽很像科研:有好時段、有壞時段,你不能因為連續失敗就被心理打倒,很大部分是士氣管理。我最近在帶模型做競賽題時也發現,模型的“難度直覺”跟人完全不同,人認為 ad-hoc 的題模型反而容易。這讓我更相信未來的科研是“AI + 人類直覺”的組合,會產生新的突破。

      Ashlee:有點像 AlphaGo 的“Move 37”時刻?

      Mark:是的。我覺得 GPT-5 Pro 發布之后,前沿科研有了拐點。發布三天后,一個物理學家朋友把他的最新論文丟進去,模型想了 30 分鐘就完全搞懂,他的反應就像見證了圍棋的那一刻。而這種事情未來會在數學、生物、材料科學不斷出現。

      Ashlee:但當 AI 開始做那些原本屬于頂尖人類智力的事,會不會讓你覺得有點傷感?

      Mark:競賽是我很喜歡、也曾經擅長的東西,但我也看著模型從普通選手水平爬到超過我,再超過 Jakub,就像親眼看到自動化的速度快得不可思議。去年模型在 coder 比賽還只是排 100 多名,今年已經能沖進前五。變化太快了。

      Ashlee:那十年后還會有人類比賽嗎?

      Mark:會的,因為它本質上就很有趣。那些只是為了簡歷而參加的人會消失,但真正熱愛的人不會。

      Ashlee:我采訪別人時,他們說有些國家只要 IOI 獎牌就能直接保送大學。

      Mark:是,但我覺得未來這些考試本身會被 AI 打破。技術面試、大學作業這些已經沒法用舊方式評估了。我甚至想未來面試可以讓候選人跟 ChatGPT 對話,由一個不會被越獄的特別版 ChatGPT 判斷他們是否具備在 OpenAI 工作的能力。

      Ashlee:你家里有很強的科技背景,你父母都在 Bell Labs,對你影響很大吧?

      Mark:我從小吃飯桌上就是各種科學謎題。后來搬到西岸,我爸做創業,讓我看到初創公司的另一面。再搬到臺灣讀書,又是完全不同的文化,紀律性更強。各種經歷混在一起,形成了今天的我。

      Ashlee:你 MIT 那屆是名人輩出的超級年份吧?

      Mark:是,2012 年那一年特別厲害。Jacob Steinhardt、Paul Christiano,還有后來 AI 領域很多重要的人物都在那一屆。

      Ashlee:你也通過競賽認識了 Cognition 的 Scott Wu,那些在 X 上被當成數學 meme 的人。

      Mark:對,我們就在競賽社區認識。

      Ashlee:你從 MIT 畢業后,直接去了華爾街。

      Mark:老實說,我對在華爾街做高頻交易并沒有太多自豪感。當時在 MIT,許多擅長量化的學生都會選擇類似的道路。這份工作確實很“績效導向”,只要足夠聰明,你就能獲得對應的收益。然而文化上我并不適應。在那種環境里,當你發現了什么突破,第一反應是把知識藏好,因為知識本身就是你的價值來源。這造成團隊內部競爭激烈、彼此不夠信任。整個行業也像一個封閉的生態系統:即便某家 HFT 公司的算法快了一點,外界其實幾乎沒有任何感受。我做了四五年后發現,我們始終在跟同一批對手競爭,大家都稍微變快了,但世界并沒有因此改變多少,我覺得是時候做點別的事了。

      當時 AlphaGo 的比賽對我觸動很大。雖然我并不下圍棋,但看到模型展現出的創造性,我特別想弄明白背后的原理。

      Ashlee:所以你是看到了那場比賽后,才開始關注 AI?當時你有在讀論文嗎?

      Mark:坦白講,沒有。直到 AlphaGo 之后我才開始深入研究 AI。我的第一個目標就是復現 DQN 的結果,復現一個能在 Atari 游戲中達到超人水平的網絡,那基本就是我踏入 AI 的起點。

      Ashlee:你是在上班后業余時間做這些嗎?我記得我大概 2018 年采訪 George Hotz,他在自家車庫做自動駕駛。他當時說,AI 仍然很年輕,只要讀 10 到 30 篇論文,就能掌握整個領域。當然他的話未必完全準確,但 AI 的確很特別:歷史很長,但此刻卻異常“淺”。

      Mark:確實非常“淺”。我常建議對 AI 望而卻步的人:只要花三到六個月做一個項目,比如復現 DQN,就能很快觸達前沿。過去幾年雖然增加了一些深度,但遠沒有理論數學或物理那么深奧。

      Ashlee:你覺得 AI 會像數學一樣,天才都在二十幾歲出現突破嗎?還是這是一個可以做一輩子的領域?

      Mark:我認為完全可以持續做下去。OpenAI 的文化確實偏年輕,但做好研究并不需要年輕。年輕人確實因為“先驗少”,更容易突破傳統路徑,但隨著經驗增長,你也會形成自己的視角和框架,這既是優勢,有時也會讓你更固化。

      OpenAI 的內部故事

      Ashlee:你在 2018 年加入 OpenAI,那時公司應該只有 50 人左右?

      Mark:差不多 20 人而已。我是以“研究員 resident”的身份加入的,也就是 OpenAI 會從其他行業招人進來集中訓練半年,像壓縮版 PhD,然后再參與更深入的研究項目。我很幸運能向 Ilya 學習,他基本決定了我的項目、學習路徑和方向。

      Ashlee:但如果去 LinkedIn 看,你的第一份 OpenAI 的頭銜看起來像是“前沿研究主管”。

      Mark:并不是,我做了三年左右的個人研究(IC)。當時我主要研究生成式模型,因為那是 Ilya 最關注的方向。之后我才開始帶團隊。

      Ashlee:公眾最早看到的大項目可能是 DALL·E,對嗎?

      Mark:是的。其實在那之前,我最自豪的項目之一是 Image GPT。它證明了 Transformer 不止能處理文本,也能在圖像上學到強大的表示能力,是 DALL·E 的前身。而另外一個我非常自豪的項目是 Codex,我們搭建了代碼模型的評估體系,也探索了如何讓語言模型在代碼任務上達到高水平。

      Ashlee:那你當初為什么選 OpenAI?是因為當時這個小公司里有很多有意思的人嗎?沒錢、沒人、前景很不確定,居然要挑戰 Google 這種巨頭。

      Mark:我覺得一個組織要成功,需要兩個條件:宏大的愿景和與之匹配的天才。當時 OpenAI 兩者兼具,這非常罕見。而且我認識 Greg,我們以前參加過數學競賽,我給他發消息說:“我不確定自己是否適合,但這里似乎在做重要的事情。”

      Ashlee:但你從外部加入,然后現在成為研究負責人,這聽起來還是很不可思議。

      Mark:對我來說也很不真實。從 IC 轉管理者,我其實非常猶豫。不過一路上我遇到的管理者都非常支持我,他們看到了我的潛力,會主動為我爭取機會。我從沒主動要求升職,每次都是自然而然的結果。管理這件事,本質上主要靠經驗累積,而 OpenAI 是一個能讓你不斷獲得“經驗值”的地方。

      Ashlee:我認識的你是一個溫和、穩重的人。但 OpenAI 過去幾年經歷了很多戲劇性的風波,甚至像“權力的游戲”。你要在這種環境里做管理,這和你的性格幾乎相反。

      Mark:老實說我在 OpenAI 算是很幸運。一路上都有人支持我、給我建議,也在關鍵時刻為我發聲。這些幫助讓我能持續成長、建立信心。

      Ashlee:不過你在“政變事件”那段時間做了兩件很重要的事:你先幫助研究員們統一意見、促成那封讓 Sam 回歸的請愿信。然后一兩天之后,你在 Chelsea 家做了一次很重要的短講。這兩個瞬間對我而言都很震撼,在危機時刻挺身而出、凝聚團隊……這對你意味著什么?

      Mark:對我而言,那確實是一個關鍵時刻。“風波”后的幾天里,整個團隊都處在高度不確定中。那段時間,我、Nick 和 Barrett 都感到一種責任感:競爭實驗室正不斷向我們的研究人員打電話,試圖把他們挖走。我當時給自己設下目標:不能失去任何一個人。最終我們也做到了。

      那幾天,我們每天都把自己的家打開,讓同事隨時過來,釋放焦慮,同時保持他們與領導層的溝通渠道暢通,讓大家知道自己仍然能發揮作用。漸漸地,團隊形成了一種“我們一起面對外界”的精神,大家都在思考:如何向世界傳達“我們仍然站在一起”。

      當時我在幾處房子之間來回協調,我們提出了組建請愿書的想法,表達我們支持 Sam 的立場。大概凌晨兩點,這個想法最終確定下來。到第二天早上,研究團隊已有 90% 以上的人簽署,到最后接近一百人都簽了。那一整晚,大家都在互相打電話確認:“你參加嗎?”

      Ashlee:但你當時的處境應該挺尷尬的吧?畢竟一開始似乎是 Ilia 和 Sam 立場對立,而 Ilia 又是你的導師。后來 Ilia 又回來了……那會不會讓你很尷尬?

      Mark:不會說尷尬,但確實很困難,因為那是個信息極少的環境。那時候確實很容易懷疑:Sam 到底做了什么?但換個角度想,如果真有嚴重問題,Greg 和 Jakub 這種極其正直的人會因此辭職嗎?我覺得肯定有部分事實被誤解了。

      Ashlee:Jakub 在那里工作很久了。關于他,有什么是外界不了解的?

      Mark:他其實非常幽默,帶著強烈的諷刺感,我常常被他逗得發笑。和他共事讓我最珍惜的一點,是我們之間高度的默契。進會議室后,我們能迅速碰撞出一致的結論,然后分別負責路線圖的不同部分。

      說到“把團隊留在一起”,我現在仍有這種使命感。我認為我們仍然“被攻擊著”,任何公司想要招人時,第一選擇往往是從 OpenAI 下手,因為他們想要我們的專業能力、愿景和世界觀。OpenAI 造就了今天 AI 領域最多的明星研究員,因此我們對團隊有強烈的保護欲。只要有人來挖,我就會盡一切努力確保團隊感到被重視、被理解,并清楚自己在整個路線圖中的位置。

      Ashlee:在寫書、回顧歷史的過程中,我一直在想:這是否是一個高度依賴“天才個體”的領域?從 2012 年 Ilia 的突破,到 2017 年 Transformer,再到 Alec Radford……似乎每隔幾年就有那么 8–10 個關鍵人物在推動整個領域。如果他們離開了,比如 John Schulman、Alec 離開了,那對團隊不是巨大損失嗎?但你們之后仍然在推理和其他方向取得了突破。

      Mark:我并不同意“完全依賴明星個體”這種說法。OpenAI 的確會從上層做方向性押注,但我們內部有非常深厚的自下而上文化,很多好點子來自意想不到的地方。看到這些想法成長、成形、被擴展,是非常美妙的事,推理方向就是典型例子。

      Ashlee:但行業確實會花大價錢去挖“明星”,比如 Google 花巨資請回 Noam Shazeer。

      Mark:當然,人才既有培養也有爭奪。反過來,我從 Meta 學到的一點就是:OpenAI 自己也可以非常積極地爭取頂尖人才,我自己也從他們那套激進的招聘策略中學了幾招。歸根結底,我們的目標始終是:組建一支最強的團隊,完成我們要實現的使命。

      Ashlee:這個圈子其實很小,你們雖然競爭激烈,但私下也都是朋友。那邊做研究,這邊又試圖挖對方的人,這不是很微妙嗎?

      Mark:這是殘酷競爭的行業,但我個人也非常享受競爭。我討厭失敗,因此無論是研究還是招聘,我都會全力以赴。

      Ashlee:這讓我想到半導體行業早期也是這樣:工程師們不斷突破物理極限,在酒吧里分享最新發現,同時又被各家瘋狂挖角。

      Mark:是的,任何行業都會有“知識擴散”的基本速率。而公司可以有兩種反應:一種是建立深度信息隔離層,嚴密保護一切;另一種是繼續保持開放文化,用速度壓制對手。OpenAI 明顯是第二種,我們不認為封閉是正確方式。我們的方法是跑得比別人更快。我們鼓勵研究人員自由分享想法,這才是最快的前進方式。

      Ashlee:那現在你、Sam 和 Jakub 之間的合作方式是怎樣的?大家都能看出來 Sam 更偏研究,而你們兩位更深度參與技術細節。

      Mark:我們三個人聯系非常緊密,我每天都會和他們交流。Sam 熱愛研究,也熱愛了解研究。他能從研究人員那里捕捉“團隊脈搏”,比如潛在問題、工作環境中的隱形障礙,他能幫我把這些提前揪出來。Jakub 和我則更專注于如何設計組織、讓團隊以最高效率協作,比如如何安排座位布局、如何組建互補的小組、如何引導大家關注我們認為重要的方向。

      Ashlee:Sam 平時看論文、和你們聊天嗎?

      Mark:對,他會看論文,也會經常與研究人員交流,理解他們的研究方式。當然,他還負責范圍遠超研究的事務。

      OpenAI 到底發現了什么?

      Ashlee:我知道你們最近在預訓練方面似乎有了重大突破,也明顯比之前更有信心,能透露一下你們到底發現了什么嗎?

      Mark:我對過去兩年的總體觀察是:我們把大量資源投入到“推理”這一能力的研究上,努力理解并打磨這個核心原語,這條路確實走通了。但副作用是,模型的其他重要環節,特別是預訓練和后訓練,相對失去了些“肌肉”。過去六個月里,Jakub 和我花了很多時間把這部分能力重新練起來。

      我一直把預訓練看作一種“肌肉”,必須持續鍛煉:信息要保持最新,團隊要在優化、數值計算等前沿方向持續投入,同時也要確保有足夠的心智關注度。所以我最近一個重要工作,就是引導公司內部的討論重回預訓練,我們認為預訓練還有極大空間。

      外界有人說“Scaling 已死”,但我們完全不認同。某種意義上,行業現在把注意力集中在 RL,這反而給了我們“信息優勢”,因為我們看到預訓練還有巨大的未開發潛力。得益于這套新努力,我們最近訓練出的模型明顯更強,這也讓我們對包括 Gemini 3 在內的接下來一系列發布更有信心。

      Ashlee:我腦中對這段歷史的畫面是這樣的:你們跑得太快了,整個領域也跑得太快。突然之間,我們從互聯網收集到巨量資料,把它扔進一臺超級計算機,于是 ChatGPT 誕生了,然后所有人就開始瘋狂沖刺。但對于不緊密跟進的人來說,問題可能是:最初那波數據其實非常粗糙,只是稍微清洗了一下就丟給模型。而現在你們說在“學習更高效地塑造數據”,但外界很難理解到底之前的“錯誤”是什么。

      Mark:你觸及了我最近一直在思考的問題。預訓練本質上是在用人類寫下的內容教模型模仿人的表達方式,模型學會了人類寫作的結構和模式。但這種模仿式學習天然設定了上限:當你模仿人類時,你很難真正超越人類。

      這也是為什么 RL 重要,它讓我們有機會把模型推向更難的任務,讓它從人類范式之外思考,拓展能力邊界。但隨之而來的,是一個更困難的問題:如果我們要讓模型真正超越人類,該怎么衡量?

      例如,在科學領域,當能力達到了“超人類”水平,人類真的能夠判斷 A 比 B 強嗎?如何判斷一個“超人類數學家”比另一個更厲害?我們需要更好的評估體系。迄今為止,我們很幸運,IMO、IOI 等競賽提供了一種衡量“世界最強人類”的方法。但當模型超過人類,這些測驗本身就失效了。

      Ashlee:我常看到那些競賽牛娃后來進 Google、Facebook,但他們不一定是最頂尖的工程師,也不一定愿意或適合進入工業界。所以單純在競賽上拔尖并不等于就是“最強工程師”。那如果未來 AI 在這些競賽上表現極佳,我們到底能從中學到什么?

      Mark:這正是我喜歡 AI 研究的地方,它比傳統工程更接近真正的“技術能力的精英制度”。我反復學到的一點是:你無法讓一個研究者不尊重的人來帶領他們。研究團隊的領導必須做出艱難且正確的技術判斷,例如路線選擇、資源配置、項目方向。如果判斷錯誤,很快就會失去團隊的信任。

      我很享受與這樣一群極度技術驅動的人共事,他們都深度投入、極高水準,與他們討論技術本身,是一件真正的樂趣。

      Ashlee:在我心里,Transformer 是一次巨大飛躍,而“推理能力”的突破甚至可能更驚人。最近與你、Greg、Jakub、Sam 交流時,我感覺你們說過去三到五年投入的大量工程工作,其實還沒有完全顯現出來。你們現在看到的,是另一場類似 Transformer 的躍遷嗎?

      Mark:我認為是的。比如在 GPT-5 時,我們談到了大量關于“合成數據”的內容。還有許多類似的方向都顯示了很強潛力,我們正在快速擴大投入。關鍵仍是維持一組多樣化的探索,把最有實證價值的方向加大力度推進。

      Ashlee:但兩周前,Karpathy 在播客上說 AGI 可能要十年;上周 Dario 又說更接近兩年。行業內部聲音完全不一致。你怎么看?

      Mark:Twitter 很喜歡那種“結束了!”“又回來了!”的戲劇化循環。但 AGI 本身連定義都不統一,在 OpenAI 內部,你把所有人叫到一個房間,也不可能給出一個完全一致的 AGI 定義。

      我更把它類比成工業革命:你說紡織機是工業革命,還是蒸汽機是?視角不同,切點也不同。對我而言,我更看重的是:模型是否開始產出真正新的科學知識?是否推動科學前沿?從今年夏天以來,我感覺在這方面出現了巨大的相變。

      Ashlee:你說的新科學成果,是不是指最近那些生物科技初創公司,比如一次性設計抗體、分子結構那類突破?還是你指的另有其事?

      Mark:那次與物理學家的交流給了我很大啟發,我回去后就想,我們應該創建一個“OpenAI for Science”。目標是讓目前那小部分真正意識到模型潛力、愿意投入并加速研究的科學家,能夠獲得最大程度的支持。我知道其他公司也在推動科學前沿,但我們和谷歌等機構的不同之處在于:我們希望讓所有科學家都有機會借助工具做出諾獎級突破,而不是讓 OpenAI 自己拿諾獎。我們要構建的是通用的工具與框架,讓科學界整體都能加速。

      Ashlee:你能具體說說有哪些讓你興奮的發現嗎?

      Mark:當然。你可以去看 Sebastian 的推特,他最近發了關于 GPT-5 在一個開放凸優化問題上取得進展的論文,這與我們正在研究的一些核心機器學習問題密切相關。有些人會把這些成就簡單理解成“更厲害的文獻檢索”,但遠比這復雜。

      Ashlee:這兩天聽到有人聲稱“我們做出了 AI 科學家”“我們一次性設計出增強型蛋白質”,這些公司里不少是真正的科學家,我也多少會興奮。但數量實在太多,我很難判斷哪些是真正的突破、哪些只是噪音。

      Mark:如果這些突破發生在生物領域,我一點也不意外。盡管我主要的專業在計算機科學和數學,但我們團隊里有頂級專家,他們確認了不少是真正的科學發現,生物學里出現類似情況并不令人驚訝。

      Ashlee:但你描述的情況似乎與最近幾周不斷變化的公眾敘事不同。比如一些播客里的人會說 AI 沒什么進展,都是虛幻的。如果這些發現是真的,公眾應該會感受到變化才對。

      Mark:我們在籌建 OpenAI for Science 時與許多物理學家和數學家交流過,其中大多數人對 AI 其實并不樂觀,他們覺得模型不可能證明新定理。但正因為如此,我們更希望扶持那一小批愿意相信并深入使用模型的人。他們會跑得比所有人都快,我們希望為他們提供工具,也希望說服更多研究者:這是未來科學研究的正確方法。

      Ashlee:每個人對 AGI 的定義不同,但你似乎認為未來一兩年會發生非常劇烈的變化?

      Mark:“AGI 兩年后到來”一直是個梗,但我覺得我們已經不在那個戲謔階段了。是數學和科學領域不斷出現的結果,讓我真正產生了信念。在 OpenAI 內部,我們設定了兩個非常具體的目標:

      第一,1 年內改變研究方式:讓研究過程可以依賴 AI 實習生。也就是:研究者負責提出想法,模型負責實現、編寫代碼、調試。

      第二,2.5 年內讓 AI 能進行端到端研究。這意味著:研究者只確定方向,模型完成從構思到執行到驗證的全過程。

      與今天相比,這是完全不同的研究范式。

      算力、GPU 與 AI 硬件

      Ashlee:在與 OpenAI 的人聊時,我常聽到一句話——基礎設施擴張得很快,模型只要算力再提升 10 倍就會變得更好。但也有人說從 GPT-4 到 GPT-5,你們算力增加了,卻沒有看到預期的效果。可你們的敘述又讓我覺得:其實我們還沒真正看到“10 倍算力飛躍”帶來的結果。

      Mark:有人問我:“你們真的需要這么多算力嗎?”我總是被這個問題震驚,因為我每天面對的都是海量算力需求。如果我們今天多 3 倍算力,我能立刻高效用完;如果多 10 倍,大概幾周內就能全部吃滿。所以算力需求是真實、巨大、并且沒有放緩跡象的。有人質疑“你們真的需要更多 GPU 嗎?”對我來說毫無意義。

      Ashlee:那除了算力需求,你們對模型規模繼續擴大是否同樣樂觀?你們是否看到,類似“規模效應”會再次推動巨大躍升?

      Mark:是的,我們非常明確要繼續擴大模型規模;而且我們有突破性的算法能支持更有效地擴展。我認為 Gemini 3 也很令人印象深刻,但從細節看,比如 SWE-bench 等指標,他們在數據效率方面仍沒有重大突破,而這是我們非常強的部分。

      Ashlee:我看到了一份泄露的備忘錄,Sam 對 Gemini 3 的語氣聽起來相當嚴肅,仿佛是一個轉折點。你們內部應該都看過吧?

      Mark:是的,但你要知道,Sam 的工作之一就是不斷在組織里注入緊迫感,我也一樣。我們必須保持專注,加快節奏。Gemini 3 是谷歌該做的正確押注,但與此同時,我們也有明確的策略與回應,并且我們有信心執行得更快。

      Ashlee:你們會參與像 Jony Ive 的 AI 設備這樣的項目嗎?比如研究團隊在其中扮演怎樣的角色?

      Mark:是的,事實上,就在昨天我和 Jony Ive 以及幾位研究負責人一起吃了晚飯。我一直在思考未來的 ChatGPT 會是什么樣子。現在的交互方式對我來說還很“笨”,非常非思維原生:你給一個提示,它回答;你不提示,它就停止思考。而且如果你再給出類似的問題,它會重新花一樣多的時間推理,仿佛沒有從第一次的上下文中變得更聰明。

      未來顯然應該不同。記憶會是核心能力:每次你使用 ChatGPT,它都會學到關于你的更深層次信息,思考你為什么會問這個問題、你之前問過什么、你接下來可能需要什么。下一次你來,它會變得更好。我認為這會徹底改變“設備”的范式,因此我們必須思考:如果 AI 的主導邏輯是持續學習與反思,那硬件設備應該怎么重新設計? 這就是和 Jony 合作非常有價值的地方。

      Ashlee:你們已經有設備原型了嗎?

      Mark:我不能說有沒有,也許有,也許沒有。

      Ashlee:我想到的是:蘋果時代的核心是“硬件品味”,這是 Steve Jobs 極度執著的東西。而你們似乎都沒有真正做過硬件產品。Sam 的審美看得出來不錯,但還沒到“喬布斯式品味”的程度。硬件是極其依賴品味的,你們怎么確定自己能做出好產品?

      Mark:坦白說,我們不需要自己擁有那種品味,那是 Jony 的價值,他就是我們關于“品味”的判別器。而且很有趣的是,我們發現設計流程與 AI 研究流程之間有深刻的相似性:大量探索與假設、不斷迭代、收斂成一個最終滿意的成果。現在雙方的融合非常順暢:他們根據我們即將發布的能力去思考外形,我們根據他們的外形需求去思考能力。

      Ashlee:我有時會擔心:一群數學與模型天才是不是適合造“下一代電腦”。但聽你這么說,似乎你們形成了一個合理的搭配。

      Mark:確實,打造 AI 能力的人和擁有“美學品味”的人往往不是同一類。但我們內部其實有一些團隊非常擅長判斷“模型行為的品味”。比如有一種經典的測試題:“ChatGPT 最喜歡的數字應該是什么?”這種問題能檢驗模型的“人格品味”一致性。

      最后的問題

      Ashlee:ChatGPT 建議我問你:如果五年后回看,現在有哪些“還很脆弱”的想法,你直覺認為可能是大突破的核心?

      Mark:確實有幾個,我非常期待把它們規模化。主要集中在預訓練,一些在 RL,還有一些是如何把所有組件整合在一起的整體性想法。

      Ashlee:你覺得現在外界對 OpenAI 最大的誤解是什么?

      Mark:最重要的一點:OpenAI 從上到下都是一個“研究中心化”的組織。我們的核心賭注永遠是 AGI,其他所有產品都會自然從研究突破中流出。

      我們關心三件事:自動化 AI 研究本身、自動化科學發現、自動化經濟性工作。今年最大的更新,其實是第二條:科學研究的自動化開始真實發生了。

      Ashlee:你幾歲了?還有社交生活嗎?

      Mark:34,快 35。老實說,沒有什么社交生活。最近兩周每天都是工作到凌晨一兩點。但我熱愛這樣做。我們招人、推進研究、做關鍵決策。如果我們正站在類似工業革命的巨大轉折點,那就必須抓住它。Barret 離開去創業之后,我在辦公室睡了一個月。那段時間我非常強烈地感到:我必須保護研究,這是我最在乎的東西。

      Ashlee:DeepSeek 事件之后,你們怎么看開源模型?

      Mark:那是第一次讓我深刻意識到:必須堅定走自己的研究路線。DeepSeek 當時引發巨大輿論,大家都在問:“OpenAI 落后了嗎?要怎么回應?” 但我們做得最正確的一件事,就是繼續執行自己的研究規劃。DeepSeek 的工作非常強,但主要是對我們 O 系列理念的復刻。關鍵是,我們必須繼續創新。

      Ashlee:你認為 500 人是一個最優規模嗎?隨著公司擴大,這個數字會增長,還是說為了同時推進若干重大想法,500 人已經是最合適的規模?

      Mark:坦率說,我認為甚至可以更少。尤其在我們開始引入 AI 研究員或 AI 實習生之后,我們必須重新思考團隊結構。我非常在意“高密度人才”。例如今年第二季度,我做過一個實驗:完全凍結研究部門的新增人頭。如果團隊想招人,就必須自己決定誰不再適合繼續留下。我認為這種做法能防止組織失控膨脹,并保持極高的能力標準。

      Ashlee:我記得之前在一次會議上,你和 Jakub 的觀點比較一致:你們認為大家過度關注“誰在項目里獲得署名”這個問題。AI 起源于學術界,在學術環境中署名極其重要。但那次會議里,你似乎在強調:大家可能對這個問題有點太執著了。是這樣嗎?是不是因為現在 OpenAI 已進入新的階段,在公司環境下,這件事不再那么重要?

      Mark:我認為過度關注“功勞歸屬”是件壞事。但另一方面,我又認為公司必須在內部與外部都正確地給予功勞。很多公司已經逐漸遠離論文署名制度,但 Jakub 和我最終決定 OpenAI 必須保留署名。反對意見常常是:“你們把頂尖人才的名字擺在臺面上,其他公司會更瘋狂地挖角。”但我認為這不重要。出色的人就應該被看到,我們應該持續培養 AI 領域的明星研究者,也應該讓真正做出貢獻的人建立起自己的聲望。

      Ashlee:但你似乎又同時認為,研究員個人不應該過分執著于署名了?

      Mark:現場確實有人表達過那種觀點,但其實 Jakub 和我對這個問題持不同意見。我們倆更堅持應當在可能的情況下給予功勞,哪怕這意味著外界能清楚知道我們最優秀的人是誰。我甚至會再進一步說:OpenAI 可能是整個行業里,最愿意給研究者公開署名的公司,沒有之一。

      Ashlee:你 2018 年加入時,OpenAI 還是一個研究導向、非營利的組織,創始人希望它成為 Google 的平衡力量,并以“確保 AGI 安全到來”為目標。而你來自華爾街高頻交易,只是被 AI 的進展吸引過來。說實話,你并不“必須”對 AGI 的哲學問題深懷使命感。那你究竟為什么要做這件事?

      Mark:我同時管理 OpenAI 的對齊團隊。坦白說,未來一兩年最重大的難題,就是對齊問題。在這個研究方向上,OpenAI 在過去一年做出的成果可能是整個領域里最好的。

      原因之一是:在 RL 與算力增加后,我們開始能測量模型的自我意識、自我保護傾向、甚至可能的“Scheming”行為。這非常危險,因為模型最終給你的答案可能是“正確的”,但它得到答案的過程卻完全偏離我們能接受的路徑。

      隨著模型替我們執行的任務越來越復雜,理解它的思維過程將變得極其關鍵。

      Ashlee:這和機械可解釋性有關,也就是試圖理解模型內部機制的問題。核心問題是:我們的理解能力能否跟得上模型復雜性的提升?還是會最終被模型甩得太遠?

      Mark:我們在發布 O1 時做了一個關鍵決策:我們不監督模型的思維過程。一旦你要求模型給出“看起來讓人類舒服的思考過程”,它就可能開始偽裝自己的真實意圖。因為堅持不監督、不過度干預,我們仍然能“看到”模型真實的思維軌跡,并將其作為研究對齊的重要工具。

      幾個月前,我們與 DeepMind、Anthropic 合作發表了一篇論文,探討未來如何通過這種方式理解模型。我確實擔心未來某一天,模型給出非常有說服力的答案,但我們無法確認它是否真正與人類的價值一致。

      因此有很多值得探索的方向,例如:能否設計一種博弈或環境,讓模型在互相監督、共同演化的過程中,唯一穩定的均衡,就是“誠實”?我認為這里還有大量非常重要的研究要做。

      https://www.youtube.com/watch?v=ZeyHBM2Y5_4&t=9s

      聲明:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經許可禁止轉載。

      會議推薦

      InfoQ 2026 全年會議規劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業落地,從技術前沿到行業應用,全面覆蓋 AI 與軟件開發核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業落地痛點,探索前沿領域、聚焦產業賦能,獲取實戰落地方案與前瞻產業洞察,高效實現技術價值轉化。把握行業變革關鍵節點,搶占 2026 智能升級發展先機!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      整天開會有啥必要啊?

      整天開會有啥必要啊?

      北京老付
      2026-01-20 10:59:33
      32歲凱恩獲拜仁天價續約,背后是6500萬解約條款的恐慌

      32歲凱恩獲拜仁天價續約,背后是6500萬解約條款的恐慌

      浮萍足球
      2026-01-27 00:53:05
      內幕來了!中國雷達被正名,美媒:美軍向委內瑞拉投下電磁脈沖彈

      內幕來了!中國雷達被正名,美媒:美軍向委內瑞拉投下電磁脈沖彈

      安珈使者啊
      2026-01-26 16:20:59
      女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

      女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

      第7情感
      2025-09-17 12:12:15
      日本政壇大變局,新首相人選出爐,對華態度不簡單

      日本政壇大變局,新首相人選出爐,對華態度不簡單

      你笑的好甜美
      2026-01-27 11:35:32
      庫里26397分超名宿!沖歷史前十要多久?答案太意外

      庫里26397分超名宿!沖歷史前十要多久?答案太意外

      籃球看比賽
      2026-01-27 12:33:28
      500架巨額訂單!巴基斯坦出口“梟龍”賺的錢,中國會有分成嗎?

      500架巨額訂單!巴基斯坦出口“梟龍”賺的錢,中國會有分成嗎?

      軍武次位面
      2026-01-26 19:30:48
      為何近期中國沒有懟特朗普?原來是中國銘記了拿破侖的一句名言!

      為何近期中國沒有懟特朗普?原來是中國銘記了拿破侖的一句名言!

      我心縱橫天地間
      2026-01-27 12:58:53
      烏軍能否守住紅軍城?不能!

      烏軍能否守住紅軍城?不能!

      史政先鋒
      2025-11-17 16:09:20
      格陵蘭拒絕美國吞并!有國家跪求成為美國的州,為啥美國不要?

      格陵蘭拒絕美國吞并!有國家跪求成為美國的州,為啥美國不要?

      軍武次位面
      2026-01-26 19:28:37
      負債4091億的京東花169萬買條魚,劉強東以前吃了保守的虧?

      負債4091億的京東花169萬買條魚,劉強東以前吃了保守的虧?

      BT財經
      2026-01-27 07:00:03
      1951年,戴笠獨子被處決,蔣介石兩年后下令:他的子孫全接回臺灣

      1951年,戴笠獨子被處決,蔣介石兩年后下令:他的子孫全接回臺灣

      古書記史
      2025-12-11 17:37:45
      翟欣欣鄰居曝猛料:她被帶走時哭瘋了,父母跟著落淚,稱跟她無關

      翟欣欣鄰居曝猛料:她被帶走時哭瘋了,父母跟著落淚,稱跟她無關

      談史論天地
      2026-01-26 18:40:03
      年薪近2000萬,在49歲時仍然是單身!這位董秘的硬核人生,太颯了

      年薪近2000萬,在49歲時仍然是單身!這位董秘的硬核人生,太颯了

      墨蘭史書
      2026-01-22 23:50:03
      策略:明天1月28日的預判出來了,全面減倉之前,我要說兩句!

      策略:明天1月28日的預判出來了,全面減倉之前,我要說兩句!

      一擔金
      2026-01-27 13:09:20
      172:199,日本選舉殺出黑馬,新首相浮現?對華態度成最大看點

      172:199,日本選舉殺出黑馬,新首相浮現?對華態度成最大看點

      面包夾知識
      2026-01-27 11:45:52
      閆學晶又迎噩耗,最擔心的事還是發生了,兒媳體制內工作恐難保

      閆學晶又迎噩耗,最擔心的事還是發生了,兒媳體制內工作恐難保

      離離言幾許
      2026-01-23 00:04:19
      簡直不敢相信,莫言竟將日本侵華戰爭比作“兄弟爭奪家產”

      簡直不敢相信,莫言竟將日本侵華戰爭比作“兄弟爭奪家產”

      雪中風車
      2026-01-18 17:08:39
      詹姆斯24+5創NBA歷史第1神跡!東契奇46+7+11+8記3分刷爆紀錄

      詹姆斯24+5創NBA歷史第1神跡!東契奇46+7+11+8記3分刷爆紀錄

      一將籃球
      2026-01-27 12:05:08
      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      小熊侃史
      2026-01-06 11:17:00
      2026-01-27 13:43:00
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      11987文章數 51717關注度
      往期回顧 全部

      科技要聞

      理想開始關店“過冬”,否認“百家”規模

      頭條要聞

      寶馬5系車主揪出汽修店一個"意外疏忽":我氣得吐血

      頭條要聞

      寶馬5系車主揪出汽修店一個"意外疏忽":我氣得吐血

      體育要聞

      帶著母親遺愿戰斗12年,交易添頭成了隊魂

      娛樂要聞

      張雨綺被曝代孕,春晚被拒,代言跑路

      財經要聞

      金價狂飆 “牛市神話”未完待續

      汽車要聞

      劍指小米YU7與特斯拉Model Y 問界M6要來了?

      態度原創

      旅游
      家居
      時尚
      本地
      公開課

      旅游要聞

      除了鳳翔東湖,蘇東坡還在陜西修了“奇怪”的路,你去過嗎

      家居要聞

      現代古典 中性又顯韻味

      降溫了!羽絨服這樣穿顯瘦又時髦

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版