全文 3,000字 | 閱讀約 8 分鐘
![]()
(Jerry Tworek :AI推理,不是找答案,是發現未知)
2025 年 9 月,OpenAI 在全球編程界最頂級賽事之一——ICPC 世界總決賽上,用 AI 模型 5 小時內解出全部算法題目,擊敗了來自 MIT、清華、斯坦福的頂尖參賽隊伍。
但更值得關注的是背后的原因。10月17日,OpenAI 研究副總裁 Jerry Tworek 在訪談中透露:
我們從沒專門為這個比賽做過訓練。 模型在做研究時,自然就學會了解決難題。
這句話引出了一個更深層的問題:為什么 OpenAI 總比別人快?
從 GPT-3.5 到即將發布的 GPT-6,不到兩年時間。別人還在追趕 GPT-4 的能力,他們已經要發第六代了。從 O1到 O3、GPT5,他們甚至已經能讓模型自己決定要思考多久。
但這場訪談揭示了更深層的原因:他們跑得快,除了人才和算力的投入,更關鍵的是組織結構和迭代節奏。
Jerry Tworek 是 OpenAI 的研究副總裁,也是 O 系列推理模型的核心推動者。這一次,他第一次公開講清楚了三個核心問題:
推理模型的本質:為什么不是知道答案,而是現場推導?
小團隊的高效率:為什么 600 人的研究團隊,每個人都知道所有項目的細節?
下一代 AI 的形態:不是更快的助手,而是會自主決定思考深度的合作者
正如 Tworek 所說:你不能讓世界上最聰明的研究員只知道一部分信息,否則他們就無法做出最好的研究。
這就是 OpenAI 快的核心邏輯。接下來,我們就來拆解具體的方法論。
第一節|推理是什么?不是知道答案,而是現場推導
大多數人以為,ChatGPT 輸出一句話是瞬間完成的,就像搜索引擎給你一個網頁鏈接。
但在 OpenAI 副總裁 Jerry Tworek 指出,真正的區別在于:我們不想讓模型直接跳出答案,而是讓它花時間想一想。
這背后的核心概念,叫“推理”。
? 什么是推理?
Tworek 在播客里講:
“回答問題,意味著模型已經知道答案,只是在提取它。 推理,是你不知道答案,需要花時間、查資料、做計算,才能慢慢靠近。”
簡單說:
回答= 背誦已知信息
推理 = 分析問題、逐步推導
就像一個學生,背了答案能拿60分,但真正會解題的人,能從題目本身推出方法。OpenAI 想教模型的,不是記住更多,而是學會推導。
? 模型怎么推理?
很多人用 ChatGPT 或者DeepSeek 時會注意到,它會把思考過程展示出來,比如:第一步我們先計算 A,接著判斷 B,最后執行 C。
本質是讓模型用自然語言,把推理過程寫下來,一步步走完。
Tworek 解釋道,這種行為,叫“思維鏈”(Chain of Thought)。它的本質,是讓模型用人類語言,把自己的“想法”寫下來,一步步走完。
他說:
“如果你讓模型直接說答案,它常常答錯。但你說'請一步步完成',它就會慢慢分析、計算、查資料,答案反而更準。”
這個方法背后沒有復雜的算法,靠的就是一句簡單提示:
Let’s think step by step(讓我們一步步地思考).
這句話就像一個觸發開關,讓模型不再急于給結論,而是展開一段文字版的推理過程。
? 推理時間,決定答案質量
那模型多推導幾步,真的有用嗎?
OpenAI 內部研究團隊做了很多測試后發現:模型花的時間越多,結果越好。
這和人類非常像。難題不是靠直覺,而是靠時間和推導。
所以,在 GPT-5 中,他們引入了“高推理”和“低推理”模式。
有些用戶希望它快一點,就可以選低推理;但如果你希望答案更精準、更完整,就選高推理,讓它“多想一會兒”。
而這個選擇的背后,是 GPT-5 的一個重大變化:它不是變得更快了,而是開始學會分步驟地想問題,并能控制自己要花多少時間、要不要查資料、要不要用工具。
Tworek 把這稱作一種行為能力:
“推理,不是知識,是模型主動采取行動的過程。”
那么,OpenAI 是如何讓模型具備這種能力的?答案藏在他們的組織方式里。
第二節| 為什么 600 人能跑得比誰都快?
外界總覺得,OpenAI 背后是龐大的研究大軍,一整層樓的工程師在寫代碼。
但 Jerry Tworek 在訪談里給出的數字讓人意外:
OpenAI 的研究團隊,大概只有 600 人。
不到一個中型企業的規模,卻撐起 GPT-5、O 系列、Codex、Agent SDK、Prearch 等所有核心項目。
關鍵不在于人多,而在于他們的協作方式完全不一樣。
? 所有人都在同一個項目里
Tworek 說得很明確:我們不會把研究分成十幾個方向。OpenAI 只做三四件真正重要的事。
舉例來說,現在的主線包括:
推理模型(O系列)
編碼智能體(Codex / GPT Code Interpreter)
使用工具的智能體(GPT Agents)
信息整理研究(Deep Research)
這幾件事之外,OpenAI 不設邊緣課題或探索方向。每個研究員必須為這幾條主線服務。
而且,這不是命令,是默認共識。
Tworek 用一種比喻說:
“我們不是讓每個人都開自己的小車,而是一起修一輛大巴。”
? 每個人都能看到全局細節
在很多機構,研究信息是隔離的。項目之間互相保密、團隊之間少有交流。
但 OpenAI 的研究部門完全反過來:我們是完全透明的。幾乎每個人,都能訪問每個項目的詳細內容。
Tworek 的理由很簡單:
“如果一個研究員不知道其他人做了什么,他就不可能做出最好的研究。”
當一個模型涉及推理、工具調用、搜索信息、代碼能力時,如果你只能看懂其中一部分,就無法推動整體進步。
所以他們選擇讓每個人知道所有事。
? 協作不是靠會議,而是靠節奏感
Tworek 說他每天的工作很簡單:我每天就是和不同研究員對話,從一個跳到另一個,持續對齊方向。
他不做計劃表,也不下命令,而是充當節拍器的角色,幫助整個團隊保持研究節奏。
這一點非常不同。
傳統組織是自上而下分配任務,而 OpenAI 是設定共同目標后,讓研究員自主決定如何推進。這聽起來像放任自流,但其實是一種目標明確的自由協作:方向統一,路徑開放。
Tworek 坦承,OpenAI 的節奏是快的,但這種快不是靠加班,而是因為:
方向清晰:大家都往同一個地方走
信息共享:不重復、不誤解、不打架
組織輕量:不設過多流程與邊界
反饋即時:好點子可以立刻被討論和采納
他說:
“我們不是想追求多快,而是我們知道這個機會可能不會再來一次。”
這就是 OpenAI 快的真正原因:不是規模優勢,而是組織效率。
第三節|為什么能月月有新模型?邊做邊發,持續迭代
過去一年,OpenAI 推出了一連串推理模型:O1、O3、GPT-5。
從時間上看,每隔幾個月就有新模型出現。外部觀察者看得眼花繚亂,但內部人員并不覺得意外。
在這場訪談中,Tworek 給出了核心原因:
“我們不是等所有東西都完美才發布,而是每次向前推進一小步。”
? 邊做邊發,持續迭代
Tworek 回顧了 O 系列的節奏:
O1 是第一次嘗試,只是為了證明推理模型可以成立,所以只解決一些小問題
O3 是第一次實用化,他自己說:“從那以后,我只信任推理模型”
GPT-5 是O3的延伸,不是全新突破,而是在同一個方向上走得更遠
他說:
“我們做的事情不是一下跳躍式改變,而是圍繞幾件事,持續、穩定地推。”
在他看來,GPT-5 不是一次革命性飛躍,而是一場持續進展的最新階段。
這點和很多公司的發布節奏形成鮮明對比。傳統的模型發布,是一次性的大項目:計劃數月、籌備演示、集中宣傳。
但在 OpenAI,節奏是邊做邊用、邊用邊改。他們不是每次都推倒重來,而是在原有架構上不斷替換過時的部分、加入新的能力,讓模型持續進化。
更關鍵的是,推理模型需要不斷實測、不斷調節思考方式。
比如在 O3 推出后,他們發現:
用戶喜歡模型一步步分解問題的方式
用戶愿意等待,只要答案更有幫助
推理時長與結果質量之間的關系,比預想中更強
這些反饋,不是通過靜態測試得出的,而是來自真實用戶的使用過程。
所以,他們選擇快速發布,用真實使用反饋來持續優化模型。
? Codex、Agent、Research:研究主線的自然延伸
除了核心的推理模型,OpenAI 在過去 幾個月里,還接連推出了多個新產品:
Codex Agent:可以自動執行編碼任務
GPT SDK:幫助模型連接各種工具
Prearch:用于聚合信息、構建資料庫的探索方向
這些聽起來像獨立產品,其實是研究中自然延伸出來的能力。
Tworek 反復強調,他們發布得快,不是為了趕進度,而是為了更早把模型放到真實環境里測試。
不是所有問題都能在實驗室里發現,真正的推理能力需要在實戰中不斷校準。等太久才上線,反而會拖慢整體進展。
OpenAI 的快,是一種每走一步就上臺階的節奏,像培養長跑選手而非短跑沖刺。
第四節|模型怎么變聰明?像訓狗一樣給獎勵
你可能以為,讓 GPT-5 更聰明,就是堆更多數據、調更多參數。
但 OpenAI 研究副總裁 Jerry Tworek 說,不是這樣。
他說,他們是把模型當成“行為體”來訓練的,就像小時候訓練家里那只狗。
? 什么是強化學習?像訓狗一樣給獎勵
Tworek 描述了一段親身經歷:我小時候家里養狗。有人教我,要隨身帶一袋零食。看到狗做對的事,就微笑并獎勵一塊。做錯的事,就別理它。
他接著說:
“我們訓練模型,也是這樣。 不是靠灌輸知識,而是靠不斷給‘它做對了’的反饋。”
這就是強化學習(Reinforcement Learning,簡稱 RL)的本質。
你讓模型試著去做很多事,然后:
做對了,就獎勵
做錯了,就不理它,或者懲罰 久而久之,模型傾向去做被鼓勵的事。
這不是模型在記住答案,而是在改變行為傾向。
? GPT-4 怎么變得更像人?靠人類反饋調行為
很多人覺得 GPT-4 是一下子變聰明了。
但 Tworek 透露,最初訓練完的 GPT-4 并不如預期:我們剛訓練完 GPT-4 的時候,其實有點失望。模型看起來好像懂很多,但只要你讓它寫多一點,就開始出錯、不連貫、不靠譜。
轉折點在于,他們后來加了一步訓練,叫RLHF(用人類反饋做強化學習):。
這個詞聽起來復雜,其實很簡單:
把模型的回答交給真實人類來打分(比如:哪段寫得更清楚?哪段更靠譜?)
然后教模型更像得分高的那一段
Tworek 說:
“我們用人類偏好,來訓練模型學會怎么說話、怎么做選擇。”
每次你在 ChatGPT 里點 贊 或踩,,模型其實是在觀察。**這些反饋被收集起來,用于訓練模型怎么回應。
就像小孩學說話,不是因為上了語言課,而是因為每天聽父母怎么表達,知道什么樣的回應被夸、什么樣的表達沒人理。
模型也是一樣。
? 獎勵機制是關鍵,但也容易出錯
Tworek 提醒:訓練模型像訓狗,聽起來簡單,但獎勵給錯了,就會帶來嚴重偏差。
比如,如果你不小心“點贊”了一個模型寫得很煽情但內容錯誤的答案,它就會覺得這么寫能得到獎勵,下次還這么寫。
這就是所謂的獎勵被誤導。
Tworek 認為,這和現實中的激勵問題很相似:很多組織的激勵制度設計不當,也會導致員工行為跑偏。
所以,OpenAI 做 RLHF 時非常小心,要反復檢查模型學到的到底是不是他們希望的東西。
真正能做事的模型,不是你告訴它怎么做,而是它自己在嘗試中學會了怎么做好。這依靠不斷試錯、不斷反饋、不斷調整行為傾向。
他說:
“我們不是在優化一個算法,而是在培養一種行為傾向。”
當模型不再只是對輸入做出反應,而是開始有偏好、有耐心、有方法地去做事,它就從工具變成了真正的智能體。
結語 | 不是模型變強,而是人被組織得更好
GPT-5 能解數學題、能用工具、能贏下編程大賽,表面看是模型能力越來越強。
但這場對話背后傳遞的,不是一個技術迭代的故事,而是一個更底層的問題:
為什么 OpenAI 能不斷跑在前面?
Jerry Tworek 的回答很清楚:他們沒有什么秘密武器。
真正的差別,在于組織方式:
每個人都能看到全貌
所有人只做少數關鍵目標
協作不靠流程,靠節奏統一
600 人小隊,不是體量小,而是結構輕。
日更迭代,不是趕時間,而是步調穩。
他們不是喊我們要更快,而是問:如果我們相信這件事重要,那該怎么安排,讓每個人都能走得更遠?
不是讓人干得更多,而是干得更準。
OpenAI 的成功,不只是模型越來越會思考,更是一群人學會了怎么一起思考。
這才是他們跑贏同行的真正原因。
本文由 AI 深度研究院出品,內容整理自 OpenAI 研究副總裁 Jerry Tworek 的最新訪談。未經授權,不得轉載。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:
https://www.youtube.com/watch?v=RqWIvvv3SnQ&t=8s
https://openai.com/devday/?utm_source=chatgpt.com
https://www.reuters.com/business/sam-altman-says-meta-offered-100-million-bonuses-openai-employees-2025-06-18/?utm_source=chatgpt.com
https://www.youtube.com/watch?v=hS1YqcewH0c&utm_source=chatgpt.com
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.