<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI 副總裁:600人研究小隊,日更迭代,如何跑贏同行?

      0
      分享至

      全文 3,000字 | 閱讀約 8 分鐘


      (Jerry Tworek :AI推理,不是找答案,是發現未知)

      2025 年 9 月,OpenAI 在全球編程界最頂級賽事之一——ICPC 世界總決賽上,用 AI 模型 5 小時內解出全部算法題目,擊敗了來自 MIT、清華、斯坦福的頂尖參賽隊伍。

      但更值得關注的是背后的原因。10月17日,OpenAI 研究副總裁 Jerry Tworek 在訪談中透露:

      我們從沒專門為這個比賽做過訓練。 模型在做研究時,自然就學會了解決難題。

      這句話引出了一個更深層的問題:為什么 OpenAI 總比別人快?

      從 GPT-3.5 到即將發布的 GPT-6,不到兩年時間。別人還在追趕 GPT-4 的能力,他們已經要發第六代了。從 O1到 O3、GPT5,他們甚至已經能讓模型自己決定要思考多久。

      但這場訪談揭示了更深層的原因:他們跑得快,除了人才和算力的投入,更關鍵的是組織結構和迭代節奏。

      Jerry Tworek 是 OpenAI 的研究副總裁,也是 O 系列推理模型的核心推動者。這一次,他第一次公開講清楚了三個核心問題:

      1. 推理模型的本質:為什么不是知道答案,而是現場推導?

      2. 小團隊的高效率:為什么 600 人的研究團隊,每個人都知道所有項目的細節?

      3. 下一代 AI 的形態:不是更快的助手,而是會自主決定思考深度的合作者

      正如 Tworek 所說:你不能讓世界上最聰明的研究員只知道一部分信息,否則他們就無法做出最好的研究。

      這就是 OpenAI 快的核心邏輯。接下來,我們就來拆解具體的方法論。

      第一節|推理是什么?不是知道答案,而是現場推導

      大多數人以為,ChatGPT 輸出一句話是瞬間完成的,就像搜索引擎給你一個網頁鏈接。

      但在 OpenAI 副總裁 Jerry Tworek 指出,真正的區別在于:我們不想讓模型直接跳出答案,而是讓它花時間想一想。

      這背后的核心概念,叫“推理”。

      ? 什么是推理?

      Tworek 在播客里講:

      “回答問題,意味著模型已經知道答案,只是在提取它。 推理,是你不知道答案,需要花時間、查資料、做計算,才能慢慢靠近。”

      簡單說:

      • 回答= 背誦已知信息

      • 推理 = 分析問題、逐步推導

      就像一個學生,背了答案能拿60分,但真正會解題的人,能從題目本身推出方法。OpenAI 想教模型的,不是記住更多,而是學會推導。

      ? 模型怎么推理?

      很多人用 ChatGPT 或者DeepSeek 時會注意到,它會把思考過程展示出來,比如:第一步我們先計算 A,接著判斷 B,最后執行 C。

      本質是讓模型用自然語言,把推理過程寫下來,一步步走完。

      Tworek 解釋道,這種行為,叫“思維鏈”(Chain of Thought)。它的本質,是讓模型用人類語言,把自己的“想法”寫下來,一步步走完。

      他說:

      “如果你讓模型直接說答案,它常常答錯。但你說'請一步步完成',它就會慢慢分析、計算、查資料,答案反而更準。”

      這個方法背后沒有復雜的算法,靠的就是一句簡單提示:

      Let’s think step by step(讓我們一步步地思考).

      這句話就像一個觸發開關,讓模型不再急于給結論,而是展開一段文字版的推理過程。

      ? 推理時間,決定答案質量

      那模型多推導幾步,真的有用嗎?

      OpenAI 內部研究團隊做了很多測試后發現:模型花的時間越多,結果越好。

      這和人類非常像。難題不是靠直覺,而是靠時間和推導。

      所以,在 GPT-5 中,他們引入了“高推理”和“低推理”模式。

      有些用戶希望它快一點,就可以選低推理;但如果你希望答案更精準、更完整,就選高推理,讓它“多想一會兒”。

      而這個選擇的背后,是 GPT-5 的一個重大變化:它不是變得更快了,而是開始學會分步驟地想問題,并能控制自己要花多少時間、要不要查資料、要不要用工具。

      Tworek 把這稱作一種行為能力:

      “推理,不是知識,是模型主動采取行動的過程。”

      那么,OpenAI 是如何讓模型具備這種能力的?答案藏在他們的組織方式里。

      第二節| 為什么 600 人能跑得比誰都快?

      外界總覺得,OpenAI 背后是龐大的研究大軍,一整層樓的工程師在寫代碼。

      但 Jerry Tworek 在訪談里給出的數字讓人意外:

      OpenAI 的研究團隊,大概只有 600 人。

      不到一個中型企業的規模,卻撐起 GPT-5、O 系列、Codex、Agent SDK、Prearch 等所有核心項目。

      關鍵不在于人多,而在于他們的協作方式完全不一樣。

      ? 所有人都在同一個項目里

      Tworek 說得很明確:我們不會把研究分成十幾個方向。OpenAI 只做三四件真正重要的事。

      舉例來說,現在的主線包括:

      • 推理模型(O系列)

      • 編碼智能體(Codex / GPT Code Interpreter)

      • 使用工具的智能體(GPT Agents)

      • 信息整理研究(Deep Research)

      這幾件事之外,OpenAI 不設邊緣課題或探索方向。每個研究員必須為這幾條主線服務。

      而且,這不是命令,是默認共識。

      Tworek 用一種比喻說:

      “我們不是讓每個人都開自己的小車,而是一起修一輛大巴。”

      ? 每個人都能看到全局細節

      在很多機構,研究信息是隔離的。項目之間互相保密、團隊之間少有交流。

      但 OpenAI 的研究部門完全反過來:我們是完全透明的。幾乎每個人,都能訪問每個項目的詳細內容。

      Tworek 的理由很簡單:

      “如果一個研究員不知道其他人做了什么,他就不可能做出最好的研究。”

      當一個模型涉及推理、工具調用、搜索信息、代碼能力時,如果你只能看懂其中一部分,就無法推動整體進步。

      所以他們選擇讓每個人知道所有事。

      ? 協作不是靠會議,而是靠節奏感

      Tworek 說他每天的工作很簡單:我每天就是和不同研究員對話,從一個跳到另一個,持續對齊方向。

      他不做計劃表,也不下命令,而是充當節拍器的角色,幫助整個團隊保持研究節奏。

      這一點非常不同。

      傳統組織是自上而下分配任務,而 OpenAI 是設定共同目標后,讓研究員自主決定如何推進。這聽起來像放任自流,但其實是一種目標明確的自由協作:方向統一,路徑開放。

      Tworek 坦承,OpenAI 的節奏是快的,但這種快不是靠加班,而是因為:

      • 方向清晰:大家都往同一個地方走

      • 信息共享:不重復、不誤解、不打架

      • 組織輕量:不設過多流程與邊界

      • 反饋即時:好點子可以立刻被討論和采納

      他說:

      “我們不是想追求多快,而是我們知道這個機會可能不會再來一次。”

      這就是 OpenAI 快的真正原因:不是規模優勢,而是組織效率。

      第三節|為什么能月月有新模型?邊做邊發,持續迭代

      過去一年,OpenAI 推出了一連串推理模型:O1、O3、GPT-5。

      從時間上看,每隔幾個月就有新模型出現。外部觀察者看得眼花繚亂,但內部人員并不覺得意外。

      在這場訪談中,Tworek 給出了核心原因:

      “我們不是等所有東西都完美才發布,而是每次向前推進一小步。”

      ? 邊做邊發,持續迭代

      Tworek 回顧了 O 系列的節奏:

      • O1 是第一次嘗試,只是為了證明推理模型可以成立,所以只解決一些小問題

      • O3 是第一次實用化,他自己說:“從那以后,我只信任推理模型”

      • GPT-5 是O3的延伸,不是全新突破,而是在同一個方向上走得更遠

      他說:

      “我們做的事情不是一下跳躍式改變,而是圍繞幾件事,持續、穩定地推。”

      在他看來,GPT-5 不是一次革命性飛躍,而是一場持續進展的最新階段。

      這點和很多公司的發布節奏形成鮮明對比。傳統的模型發布,是一次性的大項目:計劃數月、籌備演示、集中宣傳。

      但在 OpenAI,節奏是邊做邊用、邊用邊改。他們不是每次都推倒重來,而是在原有架構上不斷替換過時的部分、加入新的能力,讓模型持續進化。

      更關鍵的是,推理模型需要不斷實測、不斷調節思考方式。

      比如在 O3 推出后,他們發現:

      • 用戶喜歡模型一步步分解問題的方式

      • 用戶愿意等待,只要答案更有幫助

      • 推理時長與結果質量之間的關系,比預想中更強

      這些反饋,不是通過靜態測試得出的,而是來自真實用戶的使用過程。

      所以,他們選擇快速發布,用真實使用反饋來持續優化模型。

      ? Codex、Agent、Research:研究主線的自然延伸

      除了核心的推理模型,OpenAI 在過去 幾個月里,還接連推出了多個新產品:

      • Codex Agent:可以自動執行編碼任務

      • GPT SDK:幫助模型連接各種工具

      • Prearch:用于聚合信息、構建資料庫的探索方向

      這些聽起來像獨立產品,其實是研究中自然延伸出來的能力。

      Tworek 反復強調,他們發布得快,不是為了趕進度,而是為了更早把模型放到真實環境里測試。

      不是所有問題都能在實驗室里發現,真正的推理能力需要在實戰中不斷校準。等太久才上線,反而會拖慢整體進展。

      OpenAI 的快,是一種每走一步就上臺階的節奏,像培養長跑選手而非短跑沖刺。

      第四節|模型怎么變聰明?像訓狗一樣給獎勵

      你可能以為,讓 GPT-5 更聰明,就是堆更多數據、調更多參數。

      但 OpenAI 研究副總裁 Jerry Tworek 說,不是這樣。

      他說,他們是把模型當成“行為體”來訓練的,就像小時候訓練家里那只狗。

      ? 什么是強化學習?像訓狗一樣給獎勵

      Tworek 描述了一段親身經歷:我小時候家里養狗。有人教我,要隨身帶一袋零食。看到狗做對的事,就微笑并獎勵一塊。做錯的事,就別理它。

      他接著說:

      “我們訓練模型,也是這樣。 不是靠灌輸知識,而是靠不斷給‘它做對了’的反饋。”

      這就是強化學習(Reinforcement Learning,簡稱 RL)的本質。

      你讓模型試著去做很多事,然后:

      • 做對了,就獎勵

      • 做錯了,就不理它,或者懲罰 久而久之,模型傾向去做被鼓勵的事。

      這不是模型在記住答案,而是在改變行為傾向。

      ? GPT-4 怎么變得更像人?靠人類反饋調行為

      很多人覺得 GPT-4 是一下子變聰明了。

      但 Tworek 透露,最初訓練完的 GPT-4 并不如預期:我們剛訓練完 GPT-4 的時候,其實有點失望。模型看起來好像懂很多,但只要你讓它寫多一點,就開始出錯、不連貫、不靠譜。

      轉折點在于,他們后來加了一步訓練,叫RLHF(用人類反饋做強化學習):。

      這個詞聽起來復雜,其實很簡單:

      1. 把模型的回答交給真實人類來打分(比如:哪段寫得更清楚?哪段更靠譜?)

      2. 然后教模型更像得分高的那一段

      Tworek 說:

      “我們用人類偏好,來訓練模型學會怎么說話、怎么做選擇。”

      每次你在 ChatGPT 里點 贊 或踩,,模型其實是在觀察。**這些反饋被收集起來,用于訓練模型怎么回應。

      就像小孩學說話,不是因為上了語言課,而是因為每天聽父母怎么表達,知道什么樣的回應被夸、什么樣的表達沒人理。

      模型也是一樣。

      ? 獎勵機制是關鍵,但也容易出錯

      Tworek 提醒:訓練模型像訓狗,聽起來簡單,但獎勵給錯了,就會帶來嚴重偏差。

      比如,如果你不小心“點贊”了一個模型寫得很煽情但內容錯誤的答案,它就會覺得這么寫能得到獎勵,下次還這么寫。

      這就是所謂的獎勵被誤導。

      Tworek 認為,這和現實中的激勵問題很相似:很多組織的激勵制度設計不當,也會導致員工行為跑偏。

      所以,OpenAI 做 RLHF 時非常小心,要反復檢查模型學到的到底是不是他們希望的東西。

      真正能做事的模型,不是你告訴它怎么做,而是它自己在嘗試中學會了怎么做好。這依靠不斷試錯、不斷反饋、不斷調整行為傾向。

      他說:

      “我們不是在優化一個算法,而是在培養一種行為傾向。”

      當模型不再只是對輸入做出反應,而是開始有偏好、有耐心、有方法地去做事,它就從工具變成了真正的智能體。

      結語 | 不是模型變強,而是人被組織得更好

      GPT-5 能解數學題、能用工具、能贏下編程大賽,表面看是模型能力越來越強。

      但這場對話背后傳遞的,不是一個技術迭代的故事,而是一個更底層的問題:

      為什么 OpenAI 能不斷跑在前面?

      Jerry Tworek 的回答很清楚:他們沒有什么秘密武器。

      真正的差別,在于組織方式:

      • 每個人都能看到全貌

      • 所有人只做少數關鍵目標

      • 協作不靠流程,靠節奏統一

      600 人小隊,不是體量小,而是結構輕。

      日更迭代,不是趕時間,而是步調穩。

      他們不是喊我們要更快,而是問:如果我們相信這件事重要,那該怎么安排,讓每個人都能走得更遠?

      不是讓人干得更多,而是干得更準。

      OpenAI 的成功,不只是模型越來越會思考,更是一群人學會了怎么一起思考。

      這才是他們跑贏同行的真正原因。

      本文由 AI 深度研究院出品,內容整理自 OpenAI 研究副總裁 Jerry Tworek 的最新訪談。未經授權,不得轉載。

      星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標

      參考資料:

      https://www.youtube.com/watch?v=RqWIvvv3SnQ&t=8s

      https://openai.com/devday/?utm_source=chatgpt.com

      https://www.reuters.com/business/sam-altman-says-meta-offered-100-million-bonuses-openai-employees-2025-06-18/?utm_source=chatgpt.com

      https://www.youtube.com/watch?v=hS1YqcewH0c&utm_source=chatgpt.com

      來源:官方媒體/網絡新聞

      排版:Atlas

      編輯:深思

      主編: 圖靈

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      反轉!越南隊主帥回應0-3輸中國隊真相,主力后衛或遭亞足聯重罰

      反轉!越南隊主帥回應0-3輸中國隊真相,主力后衛或遭亞足聯重罰

      何老師呀
      2026-01-22 16:23:50
      深夜利空,商業航天龍頭利潤暴降1426%,21股暴雷,20股大幅增長

      深夜利空,商業航天龍頭利潤暴降1426%,21股暴雷,20股大幅增長

      風風順
      2026-01-23 04:31:15
      1-0爆冷?亞洲球迷挺中國隊:34%奪冠!日本球迷:我們先丟球難了

      1-0爆冷?亞洲球迷挺中國隊:34%奪冠!日本球迷:我們先丟球難了

      侃球熊弟
      2026-01-23 00:10:03
      沖上熱搜!U23國足主帥禁止球員點外賣

      沖上熱搜!U23國足主帥禁止球員點外賣

      環球網資訊
      2026-01-22 12:39:58
      美記:綠軍快船彼此滿意對方的籌碼,但現在問題卡在了首輪數量上

      美記:綠軍快船彼此滿意對方的籌碼,但現在問題卡在了首輪數量上

      移動擋拆
      2026-01-23 00:56:31
      馬克龍受了奇恥大辱,轉頭對中國提出兩個請求,特朗普緊急攤牌

      馬克龍受了奇恥大辱,轉頭對中國提出兩個請求,特朗普緊急攤牌

      策略述
      2026-01-22 12:48:55
      曼聯官宣33歲傳奇今夏離隊 4年助隊奪2冠+周薪35萬鎊 3大去向曝光

      曼聯官宣33歲傳奇今夏離隊 4年助隊奪2冠+周薪35萬鎊 3大去向曝光

      我愛英超
      2026-01-23 06:28:12
      短短11天 2烏克蘭女將發聲抵制薩巴倫卡:我的家毀了 她是危險分子

      短短11天 2烏克蘭女將發聲抵制薩巴倫卡:我的家毀了 她是危險分子

      風過鄉
      2026-01-22 10:11:42
      從千年名茶到化學試劑:我們的茶葉怎么了?

      從千年名茶到化學試劑:我們的茶葉怎么了?

      富貴說
      2026-01-21 11:19:58
      26歲健美選手畢嘉琪去世,好友曝在睡夢中猝死,滿身肌肉血管暴起

      26歲健美選手畢嘉琪去世,好友曝在睡夢中猝死,滿身肌肉血管暴起

      180視角
      2026-01-22 13:34:58
      網友分享柬埔寨中國大使館門口,躺著一群從園區逃出來的同胞

      網友分享柬埔寨中國大使館門口,躺著一群從園區逃出來的同胞

      映射生活的身影
      2026-01-21 20:41:36
      重磅!官方宣布:禁止房子大降價,“限跌令”重出江湖!

      重磅!官方宣布:禁止房子大降價,“限跌令”重出江湖!

      常州壹樓市
      2026-01-17 23:59:54
      有網友要我,不要總看農民取暖這類消極新聞,多了解下中國六代機

      有網友要我,不要總看農民取暖這類消極新聞,多了解下中國六代機

      廖保平
      2026-01-22 09:11:32
      日本U23國腳:亞軍和冠軍有著天壤之別,我們要全力以赴奪冠

      日本U23國腳:亞軍和冠軍有著天壤之別,我們要全力以赴奪冠

      懂球帝
      2026-01-22 15:26:16
      特朗普的達沃斯“暴論”看似瘋魔,實則藏著清晰的戰略意圖,千萬不可小視!

      特朗普的達沃斯“暴論”看似瘋魔,實則藏著清晰的戰略意圖,千萬不可小視!

      識局Insight
      2026-01-22 19:57:22
      美國啟動所謂“和平委員會”,匈牙利、巴基斯坦、阿根廷、印尼、蒙古等18國已簽署!特朗普達沃斯講話,卻遭群嘲

      美國啟動所謂“和平委員會”,匈牙利、巴基斯坦、阿根廷、印尼、蒙古等18國已簽署!特朗普達沃斯講話,卻遭群嘲

      每日經濟新聞
      2026-01-23 00:41:25
      被生活錘老實了,他們不再跟著吳京嗷嗷叫

      被生活錘老實了,他們不再跟著吳京嗷嗷叫

      老蕭雜說
      2026-01-22 18:44:45
      演員王雷方向嫣然天使基金捐款500元/月,發文稱:李亞鵬太感人了,自己錢不多、富裕了再多捐

      演員王雷方向嫣然天使基金捐款500元/月,發文稱:李亞鵬太感人了,自己錢不多、富裕了再多捐

      臺州交通廣播
      2026-01-22 22:01:38
      所謂“和平委員會”有哪些國家加入?名單公布

      所謂“和平委員會”有哪些國家加入?名單公布

      新京報政事兒
      2026-01-22 22:44:37
      年薪400萬銀行高管被曝“失聯”,官方暫未回應,反腐猜測四起

      年薪400萬銀行高管被曝“失聯”,官方暫未回應,反腐猜測四起

      老貓觀點
      2026-01-20 08:04:27
      2026-01-23 08:31:00
      AI深度研究員 incentive-icons
      AI深度研究員
      AI時代剛剛到來,一切才剛開始,我們正當其時!
      367文章數 158關注度
      往期回顧 全部

      科技要聞

      財報還行,股價崩了,英特爾“掉鏈子”

      頭條要聞

      美國啟動“和平委員會”18國已簽署 西歐國家無一參加

      頭條要聞

      美國啟動“和平委員會”18國已簽署 西歐國家無一參加

      體育要聞

      跑個步而已,他們在燃什么?

      娛樂要聞

      車銀優賺800億 涉嫌逃稅200億!

      財經要聞

      西貝拿到“救命錢”,然后呢

      汽車要聞

      配備多塊娛樂屏 極氪8X內飾曝光

      態度原創

      教育
      健康
      旅游
      親子
      軍事航空

      教育要聞

      吉利學院山東招生分數曝光!工商管理471分穩嗎?

      打工人年終總結!健康通關=贏麻了

      旅游要聞

      創歷史新高!2025年上海入境游接待總量超936萬人次,解讀來了

      親子要聞

      你還敢送娃去幼兒園?1個月腸道菌群大換血!《自然》:這是好事

      軍事要聞

      美軍首艘“高超導彈戰艦”出海測試

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产在线精品欧美日韩电影 | 丝袜制服无码国产| 亚洲精品国产自在现线最新 | 亚洲欧美日韩高清一区二区三区| 欧美老少配性行为| 国产v自拍| 南乐县| 白浆视频在线观看| 中中文字幕亚洲无线码| 99国产视频在线观看| 欧美日韩精品| 欧美丰满老妇性猛交| 国产av天堂亚洲国产av天堂| gogogo高清在线播放免费| 在线精品自拍亚洲第一区| 国产精品中文| 平南县| 久久婷婷国产精品香蕉| 亚洲天堂区| 伊人久久大香线蕉av一区二区 | 2025AV在线| 亚洲国产一区二区三区在线观看| 毛片内射久久久一区| 丰满人妻熟妇乱又伦精品软件| 内谢少妇xxxxx8老少交| 韩国18禁啪啪无遮挡免费| 色色看片| 亚洲香蕉av一区二区蜜桃| 熟妇人妻无码中文字幕老熟妇| 黑人巨大精品欧美一区二区| 午夜福利理论片在线观看| AV秘 无码一区二| 91精品导航| 精品自拍一区国产精品| 久久国产精品一国产精品| 人妻少妇无码精品| 午夜无码免费福利视频网址| 老司机精品视频一区二区| 国产一级小视频| 福利导航在线视频| 亚洲av片在线免费观看|