網易首頁 > 網易號 > 正文申請入駐

OpenAI新模型不是GPTX！全新預訓練“土豆”曝光

2026-04-05 17:09:09　來源: 量子位

北京舉報

分享至

一水發自凹非寺
量子位 | 公眾號 QbitAI

蛙趣！還得是OpenAI總裁親自爆料啊…

Sora“世紀大關門”后，全網熱議OpenAI此舉背后動機，本以為這是為了IPO而進行的戰略收縮。

結果聯創兼總裁Greg Brockman直接放料——其實是為了一個“蓄謀已久”的Super App

而且不止告訴你這個Super App長啥樣，連即將到來的新模型“Spud”（中文名土豆？）也沒憋住。

等等，如果你和我一樣，以為“Spud”不過是又一個“GPTxxx”，那就大錯特錯了！

Greg已經說了，這是個重新預訓練的模型，凝聚了OpenAI過去兩年的心血智慧——等上手你就會意識到，它將變得有多聰明且“順從”。

還沒完，Greg還聊到了OpenAI今年的大筆融資、和A社家對B端用戶的爭奪……

當前OpenAI主要把精力放在GPT系列上，Sora后續會放在機器人領域里推進；
已經確信文本模型可以走向AGI；
未來幾個月會分步推進Super App，它將整合編程、瀏覽器和ChatGPT；
“Spud”將能解決更復雜的問題，理解力更強，對上下文把握更好；
現在的收入主要來自個人訂閱，但企業正展現出驚人的付費意愿。

以下為播客實錄精校（感謝AI），在不改變原意的基礎上做了適當編輯。

對話實錄精校

為何放棄Sora？

主持人：現在外界看到你們放棄Sora轉向Super App，為什么？

Greg：過去我們一直在兩條線并進：一是研發深度學習技術，看它能否產生我們設想的積極影響；二是嘗試部署這項技術，為業務提供支撐，積累真實世界的落地經驗。

現在我們到了一個節點——技術已經驗證可行，不再只是跑benchmark、做智力演示，而是必須進入真實世界，通過人們實際使用來獲得反饋，才能繼續推進。

所以這是一個更大的戰略調整，不是因為我們要從消費端轉向B2B，而是因為我們不能什么都做。我們要聚焦那些能形成協同、真正產生影響力、能幫助每個人的應用

主持人：你曾把OpenAI比作迪士尼，以模型為核心（像米老鼠），然后衍生出視頻、助理、企業服務等。現在是無法兼顧了嗎？

Greg：實際上這個比喻依然成立，而且某種程度上反而更適用。但從技術層面看，Sora視頻模型與GPT系列（核心推理模型）是技術樹上不同的分支。

我們確實還在繼續做Sora的研究，但它是放在機器人領域里推進的——機器人目前仍處在研究階段，還沒成熟到未來一年就能在知識工作領域大規模落地。

所以我們當前的戰略是：把主要精力放在GPT系列上，這不僅包括文本，也包括語音等交互，這些都是在同一個模型上做微調，而不是另起新枝。在算力有限的情況下，同時推進兩個差異巨大的產品分支非常困難

主持人：那你為什么不押注Sora這條路？視頻生成進步這么大。

Greg：現在最大的問題是機會太多。我們在OpenAI很早就發現，只要邏輯在數學上成立，幾乎所有想法都能奏效，這就是深度學習的迷人之處。

但重點在于排序和時機。我們已經確信文本模型可以走向AGI——AGI就在眼前，今年還會有更強的模型。

比如最近，一位物理學家研究了很久的難題，OpenAI模型在12小時內就給出了解決方案。這種“思考”的能力讓我們必須加倍下注。這不是說哪個方向不重要，而是OpenAI肩負的使命是把AGI帶給世界，我們要做的就是把這條技術樹推到底。

主持人：DeepMind的哈薩比斯曾說，圖像生成器最接近他心中的AGI，因為它們必須理解物體間的互動。OpenAI會不會因為只押注一條路徑而錯失什么？

Greg：在這個領域你必須做出選擇。OpenAI從一開始就決定了自己相信的AGI路徑。而且，圖像生成也是ChatGPT的重要功能，但我們是基于GPT架構而非擴散模型來實現它的。

所以我們要做的是盡可能統一技術棧，這樣才能支撐起整個經濟——OpenAI做的是“通用”人工智能，G就代表這個意思。

Super App到底長啥樣？

主持人：那Super App具體會是什么樣？

Greg：它將整合編程、瀏覽器和ChatGPT。我們希望為你構建一個能讓你體驗AGI力量的端點應用。它不僅是一個工具，更是你的“個人助理”，它了解你、與你的目標一致、值得信任。

以前Codex只是軟件工程師的工具，現在它將變成每個人的工具。你想讓電腦做什么，直接告訴它就行，電腦會順應人類，而不是人類順應電腦。

主持人：這不僅是針對商業，也針對個人生活？

Greg：沒錯，就像你的筆記本電腦既用于工作也用于生活。未來的Super App會有記憶，它連接你的郵件、日歷，知道你的偏好，從而更深層次地幫你達成目標。

主持人：什么時候推出？

Greg未來幾個月會分步推進。起點就是Codex應用——它既是通用的智能體框架，能調用各種工具，又擅長寫軟件。這個通用框架可以接入電子表格、Word文檔，幫你完成知識工作。在OpenAI內部，我們已經看到很多人自發用它來做這些事。第一步就是讓Codex對普通知識工作更友好，后面還有很多步。

怎么看待和Anthropic的競爭？

主持人：像Anthropic已經有了Claude Code等類似Super App的功能。OpenAI覺得自己趕上來了嗎？

Greg：如果回看12到18個月前，OpenAI一直很重視編程這個方向，在各種編程競賽上成績最好。但當時沒怎么投入“最后一公里”的易用性——AI雖然能解競賽題，但沒接觸過真實世界的代碼庫，那些代碼雜亂無章，不像它訓練時遇到的那樣規整。

去年年中我們才真正認真補上這一塊，專門組建了團隊，聚焦真實世界的各種問題，構建訓練環境，讓AI體驗實際軟件工程中會遇到的中斷和混亂。

到現在，當與對手面對面競爭時，用戶往往更傾向于我們。OpenAI正在往前趕，這個問題會解決的。

主持人：你們怎么看待競爭？現在對手追上來了，公司內部氛圍變了嗎？

Greg：我在OpenAI最恐懼的時刻，其實是ChatGPT剛發布后的年會，當時大家覺得“我們贏了”。我當時想：“不，我們一直是挑戰者（Underdog）。”現在的競爭環境其實非常健康，它讓我們保持謙遜和統一，不再有“支線任務”，全神貫注于核心目標。

我從不覺得我們像外界說的那么好，也從沒那么差，始終很平穩。模型這塊我對我們的路線圖非常有信心，產品這邊也能量十足，一切都在匯聚。

傳聞中的新模型“Spud”

主持人：傳聞中的新模型“Spud”是什么？

Greg：其實重點不是某一個模型。“Spud”代表了OpenAI過去兩年的研究成果，是一個新的預訓練模型。但它只是一個節點，引擎的進步速度會越來越快。

主持人：它能做哪些現在的模型做不了的事？

Greg它能解決更復雜的問題，理解力更強，對上下文把握更好

人們常說“大模型感（Big Model Smell）”——模型更聰明時，你會感覺它更懂你。你問一個問題，AI沒聽懂，這很讓人沮喪。現在它會更少讓你重復解釋。它既能拉高天花板——解決更開放、時間跨度更長的問題，也能提升基礎體驗——讓你做任何事都更順手。

主持人：普通用戶能明顯感覺到變化嗎？

Greg：會是一樣的情況——有些人用起來覺得天差地別，有些應用本來就不是卡在智力上，變化沒那么明顯。

但關鍵是你的心智會慢慢改變。比如有朋友被診斷為絕癥，醫生說他沒救了，他用ChatGPT研究不同方案，最終找到了治療途徑。這種場景里，你得先相信AI能幫上忙，才會投入精力去用。隨著技術變強，這種“能幫上忙”的感知會越來越明顯

即將在秋季推出的“AI研究員”

主持人：你們內部還在做一個自動化AI研究員，計劃秋季推出。它具體做什么？

Greg：現在我們處在技術起飛階段——AI越強，我們越能用AI來改進AI，開發速度不斷加快。同時芯片廠商在加碼，生態里的人在探索各種應用，所有這些能量匯聚在一起，AI正從經濟的一個分支變成主要驅動力。

這個研究員，本質上就是把研究科學家的整個工作流程在硅片上實現。它現在已經能承擔相當比例的科研任務，我們可以讓它自主運行，但不是說撒手不管——就像帶初級研究員，你得給他方向、審閱他產出的結果，而不是完全放養。

主持人：AI從漸進式進步到勢不可擋地超越人類智能，你不擔心出問題嗎？

Greg：當然擔心。獲取技術收益的同時必須考慮風險。技術上我們投入了很多在安全上，比如提示詞注入攻擊——一個很聰明的AI如果連了很多工具，不能被惡意指令利用。這方面我們有很好的團隊，也取得了不錯的成果。

有些問題其實可以類比人類——人也容易被釣魚、被欺騙、看不清全局。我們在研發和發布模型時，都會用這些類比來思考如何確保對齊。當然還有更大的問題，涉及整個經濟和社會，不是OpenAI一家能解決的。

主持人：你曾說過很多人做對很多事才能創造，但一個人心存惡意就能破壞。獎勵真的值得風險嗎？

Greg：我認為值得，但這個答案太粗糙了。從OpenAI一開始我們就在問：一個好的未來是什么樣的？

一條路是集中化，只有一家在開發，這樣壓力小、能確保安全后再推向所有人，但這本身很難讓人接受。

另一種是構建一個“有韌性的開放系統”，很多參與者共同開發，同時圍繞技術建立社會基礎設施——就像電，很多人生產它，有危險，但我們建立了安全標準、監管體系、檢查機制。

AI也需要廣泛的對話，讓所有人參與進來，而不是由某個中心化的小組秘密完成。這是我們一直相信的方向。

主持人：黃仁勛說AGI已經實現了，你同意嗎？

Greg：不同人對AGI定義不同。如果用我個人的定義，我可以說已經完成了70%到80%。極其明確的是，在未來幾年內我們將擁有AGI。它能完成你在電腦上進行的幾乎任何智力任務。

Agent帶來的變革

主持人：去年12月發生了什么，那好像是個轉折點——讓機器連續編碼幾小時從理論變成了現實。

Greg：新模型發布后，AI從能完成20%的任務躍升到80%。這帶來了巨大變化——從“有點意思”變成“你必須圍繞AI重構工作流”。

我自己有一個測試提示，用了很多年：幫我建一個網站。這個網站我當年學編程時花了幾個月才做出來。后來用AI，前后四個小時，反復調整提示。到了去年12月，一次提問，它直接生成，而且做得很好。

主持人：模型是怎么實現這種跨越的？

Greg：基礎模型變強了。這是我們長期投入預訓練的結果，那只是今年一系列進展的前奏。

但也不只是某一點，我們在每個維度上都在推進。它并不是從0到80%，而是從20%到80%。而且這種進步還在繼續，比如從5.2到5.3版本，一個做底層系統工程的同事，以前AI根本搞不定他做的事，現在不僅能給出設計方案，還能直接實現、加指標、跑性能分析、持續優化，最后出來的東西就是他想要的。

可以說是“一點一點，然后一下子”。

主持人：OpenAI后來把OpenClaw的創始人請進來了。這是不是意味著“AI替你管理生活”就是你們的愿景？

Greg：這項技術最核心的難點，其實是搞清它怎么才能真正幫到人、人們想怎么用、智能體的未來長什么樣。

據我觀察，在這個領域，真正投入、充滿好奇、有遠見的人，是非常稀缺且有價值的。Peter就是這樣的人。

所以與其說我們看重某個具體技術，不如說是看中他如何把這些能力真正融入人們的生活。作為技術人員我覺得這很激動人心，但從服務用戶的角度，我們也在全力投入這件事。

主持人：你曾說使用AI Agent就像成為“管理數十萬Agent的CEO”。這會不會讓人失去對問題的實際掌握？

Greg：我覺得有利有弊。你可以把機械的細節交給Agent，就像房主信任施工隊一樣，但你不能放棄責任。你必須主動保持對優勢和弱點的把握，只有在信任某個系統能做好的前提下，才能放心把那些低層次任務交出去。

主持人：你們經歷了預訓練、微調、強化學習，讓模型一步步學會解決問題、使用工具。接下來是什么？

Greg：接下來是能力的不斷加深，比如讓AI真正能操作電腦，做任何你能做的事。但同時我們還要建設企業級的身份認證、審計、可觀測性這些配套技術。

除此之外，我們還在推動語音交互，讓對話像現在這樣自然，你一早起來它就能給你匯報Agent昨晚的進展。我覺得這會是一個巨大的應用場景。比如它會告訴你“有個客戶不高興了，想跟真人聊聊，你得去處理一下”。這些都會實現。

更遠一點，是提升人類解決挑戰的“天花板”，我們已經能看到端倪。就像AlphaGo的“第37手”，人類從未想過的下法，改變了整個棋局的認知。這樣的突破會在每個領域發生，它們會打開我們對創造力和想法的理解，遠超我們現在的想象。

主持人：既然模型已經這么強了，為什么這些突破還沒有發生？

Greg：因為我們還在理解這些模型能力的階段。即使技術不再進步，現有的能力也足以引發巨大的經濟轉型。以前我們只在有明確答案的任務（如數學、編程）上訓練，現在我們正擴展到開放式問題（如創意寫作）。

還需要預訓練嗎？

主持人：隨著OpenAI轉向Agent型應用，有人開始討論，是不是不需要那么大規模的預訓練了？模型夠好之后，讓它出去自己學就行，不一定要建那些超大數據中心。你負責這方面的戰略，怎么看？

Greg：這種看法忽略了一個關鍵點：模型生產流程的每一步都是相乘效應的。更強的預訓練會讓后面的所有步驟都更輕松。模型初始能力越強，學得越快，在試錯過程中犯的錯也越少。

以前我們只關注預訓練，沒太考慮推理能力，但過去兩年我們意識到，這兩者要平衡。你可以在基礎模型上做得很強，但同時也得讓它能高效推理，用于強化學習和對外服務。

所以你不一定要無限做大，而是要找到“智能×成本”的最優解。

主持人：如果未來主要靠推理，還需要NVIDIA的GPU嗎？

Greg：絕對需要。一方面，無論訓練和推理的配比怎么變，大規模訓練仍然需要集中大量算力。另一方面，NVIDIA團隊非常出色，我們和他們深度合作。

主持人：會不會有一天，大家覺得“模型已經夠聰明了，不用再預訓練了”？

Greg：那得等到人類解決了所有問題才行。我們這五十年其實把很多雄心放低了。比如“讓每個人都能享受醫療”——不只是治病，而是預防，是提前發現潛在疾病。這完全可以通過更智能的模型實現。

到某個程度，也許你會說“不用再翻倍聰明了”，但總會有新問題提出更高的要求。

為什么重金押注算力？

主持人：今年你們融了1100億美元，這些錢是直接投到數據中心嗎？這筆錢怎么回饋投資者？

Greg算力不是成本中心，而是收入中心。就像招聘銷售人員，只要你能賣出產品，雇的人越多收益越大。我們發現算力的增長永遠趕不上需求。

主持人：這種前所未有的投入，你很有信心嗎？

Greg：歷史已經證明了這一點。從ChatGPT發布起，我的團隊問要買多少算力，我的回答一直是“全部”。我們要projection（預測）未來。現在的收入主要來自個人訂閱，但知識工作的企業市場正展現出驚人的支付意愿。

主持人：現在消費者訂閱是OpenAI最大的收入來源，未來企業業務會反超嗎？

Greg：我覺得“企業”這個概念本身也在變。重要的是人們用AI做“知識工作”。比如現在ChatGPT的消費者訂閱也可以使用Codex，所以界限不會那么清晰。將來就像你的筆記本電腦一樣，是你接入數字世界的入口，收入自然也就跟著來了

主持人：Anthropic CEO說過，有些玩家“過于冒進”，把杠桿拉得太滿。他應該是在說你們的基建投入，你怎么看？

Greg：我不同意。我們一直非常審慎，也一直在前瞻性地判斷技術走向。今年大家都會看到，所有參與者都會面臨算力緊缺。我們是預判到這一點、最早開始布局的。其他玩家大概去年底才反應過來，匆忙去找算力，但那時候已經沒什么可用的了。

主持人：有人覺得如果預測出一點偏差，公司可能就破產了，你們也面臨同樣的情況嗎？

Greg：我覺得其實有更多的緩沖空間。擔心下行風險是合理的，但我們的押注不只是針對某一家公司，而是整個行業——你是否相信這項技術能創造我們看到的那股巨大價值。

軟件工程領域的變化已經很明顯了，如果你不是工程師，沒試過Codex，真的很難描述那種差別。六個月前我們內部看到了這些趨勢，但外部證據還不多，現在證據已經出來了。

再過六個月，所有人都會感受到，然后大家都會發現，明明有很厲害的模型，卻沒有算力可用。

主持人：AI在公眾中似乎并不受歡迎，很多人擔心失業，你擔心AI的品牌形象嗎？

Greg：我們需要向國家展示AI如何改善生活。比如有人用ChatGPT協助診斷出了孩子被誤診的腦瘤，這些故事被講得太少了。

關于數據中心，很多人擔心環境和電費。這里有很多誤解，比如水資源消耗其實非常小。我們承諾會支付自己的能源費用，不推高居民電價。甚至在某些地方（如北達科他州），數據中心的到來幫助升級了陳舊的電網，反而降低了居民電費。

如何為AGI時代做準備？

主持人：如果現在有一個害怕AI的人，他可能覺得AI會搶走他的工作、污染他的社區、讓世界變得太快。你有什么想對他說的？

Greg第一件事就是親自去試試這些工具。只有真正體驗過現在的AI，你才會明白它能為你做什么。人們總是更容易看到“會失去什么”，而不是“會得到什么”，但我覺得值得給它一個公平的機會，去理解天平的兩端。

主持人：如何為未來做準備？

Greg最重要的還是理解這項技術。我們觀察到，最能從AI中受益的人，都是帶著好奇心去嘗試、真正把它融入工作流程的人。

他們克服了“面對一個空白框不知道干什么”的階段，培養出一種“我可以當管理者”的意識——我可以定方向、分派任務、做監督。

這項技術是為人類設計的，最終是為了幫助人類建立更多的連接，讓人有更多時間做自己想做的事。關鍵就在于搞清楚——你到底想要什么？然后借助這項技術去實現它。

全文完。

[1]https://www.youtube.com/watch?v=J6vYvk7R190
[2]https://x.com/chatgpt21/status/2039447583936901340
[3]https://x.com/AndrewCurran_/status/2039426704394035245

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.