網易首頁 > 網易號 > 正文申請入駐

奧特曼發紅色警報，大模型走進死胡同了嗎？

2025-12-03 21:32:17　來源: 虎嗅APP

北京舉報

分享至

本文來自微信公眾號：直面AI，作者：苗正，題圖來自：AI生成

昨天，OpenAI CEO奧特曼發出了一份內部備忘錄，宣布公司進入“Code Red”（紅色警報）緊急狀態。

表面上看，這是OpenAI針對谷歌、Anthropic這兩位強力競爭對手的應急響應。

但更深層的問題是，OpenAI正在面臨一個整個行業都無法回避的技術困境。那就是訓練成本飆升，模型規模不斷擴大，但性能提升卻越來越有限。

根據斯坦福大學的《2025年AI指數報告》，2019年到2022年間，訓練成本每增加10倍，模型在主流基準測試上的性能平均能提升25%～35%。但到了2023年之后，同樣10倍的成本投入，性能提升就只剩下10%～15%。

更糟糕的是，2024年以來，即使訓練成本再翻倍，性能提升往往不足5%，投入產出比正在斷崖式下跌。

各家頭部模型的表現開始趨同，仿佛集體撞上了某種看不見的天花板。

這引發了一個在AI學術界和產業界激烈爭論的問題：大語言模型，是否已經走進了死胡同？

一

首先從用戶數據來看，OpenAI的領先地位已經開始動搖。

谷歌的Gemini 3模型在基準測試上超越了OpenAI，這使得Gemini的月活用戶飆升，谷歌第三季度財報披露，目前Gemini的月活已經從7月的4.5億增長到10月的6.5億。

與此同時，Anthropic的Claude也在企業客戶中越來越受歡迎。根據OpenRouter的數據，截至2025年11月末，Claude的周訪問量達0.41億人次，較六周前增長17.1%。

但更要命的消息還在后面。

根據半導體行業分析公司SemiAnalysis的爆料，自2024年5月GPT-4o發布以來，OpenAI的頂尖研究人員就再也沒有成功完成過一次大規模的全面預訓練。

這意味著GPT-5跟GPT-4o之間，其實沒有經歷真正意義上的代際升級，更像是在GPT-4o基礎上做的微調和優化，而不是一個全新訓練出來的模型。

SemiAnalysis還在分析中給OpenAI補了一刀：“預訓練一個前沿模型，是整個AI研發中最困難、資源最密集的挑戰。而谷歌的TPU平臺已經決定性地通過了這個測試，可OpenAI并沒有。”

預訓練是訓練大語言模型的第一步，也是最關鍵的一步。在這個階段，模型要在海量的文本數據上學習語言的基本規律，比如語法、語義、事實知識等等。

無法完成大規模預訓練，就無法升級迭代到下一個時代的模型，這對于OpenAI這種必須保持技術領先的企業來說是致命的。

MMLU的跑分進一步佐證了SemiAnalysis的觀點。其全稱為大規模多任務語言理解（Massive Multitask Language Understanding），是衡量大模型綜合知識與推理能力的核心權威基準測試。

從結果來看，GPT-5的MMLU評分只比GPT-4提升了10%～20%。

要知道，Anthropic CEO 達里奧·阿莫迪（Dario Amodei）曾公開表示，2024～2025年期間的大模型，訓練成本是10億到20億美元，是一年前大模型訓練成本的10倍。而GPT-5的成本更是比GPT-4（約 6000萬～1億美元）高了約20～30倍。

面對如此的雙重困境，奧特曼不得不調整策略，將重心轉向優化現有產品。

奧特曼在備忘錄中表示，公司需要改進ChatGPT的個性化功能、提高速度和可靠性、擴大其可回答的問題范圍。

為此，OpenAI決定推遲廣告、健康和購物AI代理、名為Pulse的個人助手等其他項目的開發，鼓勵員工臨時調崗，每天召開專門會議討論ChatGPT的改進。

在此之前，OpenAI曾于2025年10月拉響過“Code Orange”（橙色警報）。

OpenAI內部的警報分為三個級別：黃色、橙色、紅色。顏色越紅，就代表事態越嚴重。而拉響內部警報的標準，是根據OpenAI當前的市場競爭壓力和產品危機。

橙色警報對應明確的競爭威脅或產品危機，核心業務已出現 “被動局面”，比如市場份額被蠶食、用戶流失。需要OpenAI “局部資源傾斜” 應對。

當時OpenAI的做法是成立 “應急優化小組”，由產品、技術、算法核心負責人牽頭，調配 50% 以上的研發資源聚焦核心產品。

二

但OpenAI不是唯一陷入瓶頸的公司，整個行業都在面臨同樣的困境。

從2024年底到2025年初，頂尖大模型的性能提升曲線出現了明顯的平緩。根據LMSYS Chatbot Arena的盲測數據，2024年6月時，排名第一和第十的模型之間Elo評分差距超過150分。

但到2025年11月，這個差距已經收窄到不足50分。更值得注意的是，幾乎所有主流模型在關鍵基準測試上的得分都開始集中在一個狹窄的區間內。這種趨勢意味著，即使各家公司投入的資源差異巨大（從數千萬美元到數十億美元不等），但最終產出的模型性能卻越來越相似。

在2023年3月，OpenAI剛發布GPT-4時，其在MMLU測試中的得分確實為86.4%。而當時主流競爭對手的成績大多集中在60%～75%區間，比如同期的Claude v1在該測試中得分僅為75.6%，LLaMA-65則只有 63.4%。

可是到了2025年9月的MMLU-Pro（MMLU的進階版評測基準，評分標準更嚴格）中，所有的頭部模型都是85%到90%，幾乎沒有任何差別。

從更新的頻率來看，Meta的Llama模型從第二代到第三代間隔約9個月，而Llama 3到計劃推出的Llama 4間隔已超15個月；Anthropic從Claude 3到Claude 4的間隔也長達11個月。

種種跡象都在表明，曾經被奉為大語言模型黃金定律的Scaling Law，正在失效。

造成這一結果的原因，其實就來自于大模型本身。

大模型訓練的核心任務是“預測下一個詞”。

通過在海量文本上反復訓練這個任務，模型逐漸學會了語法、常識、推理能力等。當模型已經足夠強，明白語法和常識時，語言本身的不確定性就成為了影響模型輸出結果的變量。

舉個例子：“他把蘋果放在桌子上，然后它就不見了。”這里的“它”是指蘋果還是桌子？從語法上講，兩種理解都說得通。要搞清楚“它”指什么，需要的不是更好的語法知識，而是對現實世界的常識判斷。

但如果換一種說法：“他把手機放在桌子上，然后它就倒了。”這里的“它”可能是手機，也可能是桌子。如果是廉價折疊桌，確實可能因為放了個手機就倒了；如果是手機殼打開了，手機本身也可能倒。沒有足夠的上下文，連人類也很難做出準確判斷。

這種由語言本身的歧義和不確定性造成的誤差，在統計學上叫“不可約誤差”（Irreducible Error），或者“貝葉斯誤差率”（Bayes Error Rate）。

即使你有完美的算法、無限的數據和算力，這個誤差也無法消除，它是問題本身固有的特性。

人類語言充滿了這種不確定性。我們平時說話，很多信息靠語境、肢體語言、聲調、共同背景知識來傳遞。把這些都去掉，只留下純文本，信息損失巨大。

大語言模型訓練的就是這些純文本，所以天生就會面臨不可約誤差的限制。

當模型還比較弱時，它會犯很多低級錯誤，比如語法錯誤、事實錯誤、邏輯錯誤。解決這些可以通過增加數據、增大模型、改進算法來實現。但當模型已經足夠強，不再犯低級錯誤時，剩下的錯誤主要就是這種不可約的、由語言本身特性造成的誤差。

到這個階段，再怎么砸錢砸資源，提升也是有限的。

第二個問題是數據枯竭。到GPT-4的時候，OpenAI幾乎已經把整個互聯網上的高質量文本都學完了。各種百科、數字圖書館、GitHub代碼、Reddit討論、各種專業論文和文檔。

能用的高質量數據基本都用完了。剩下的是大量低質量內容，比如廣告軟文、垃圾帖子、重復內容、機器生成的垃圾信息。

要解決數據不足，一些廠商開始用AI生成數據來訓練AI。但這會導致一個嚴重問題，叫“模型崩潰”（Model Collapse）。簡單說，如果一個模型只吃自己或其他模型產出的數據，它的多樣性會下降，甚至會放大自身的錯誤和偏見，最終導致模型變得越來越笨，輸出越來越單調。

這個過程有點像生物學上的近親繁殖。在生物界，如果一個種群長期近親繁殖，基因多樣性會逐漸喪失，遺傳缺陷會被放大，最終導致種群退化。模型崩潰也是同樣的道理。

2024年發表在Nature上的一篇論文《當 AI 模型在遞歸生成的數據上訓練時，會出現性能崩潰》（AI models collapse when trained on recursively generated data），就系統研究了這個問題。研究人員發現，在早期模型崩潰階段，模型會首先丟失數據分布尾部的信息。到了后期，整個數據分布會收斂到一個非常狹窄的范圍，跟原始數據幾乎沒有相似之處。

研究人員做過實驗：用一個預訓練好的語言模型生成一批文本，然后用這批文本訓練新模型，再用新模型生成文本，再訓練更新的模型……如此反復幾代后，模型的輸出變得越來越單調、重復，原本數據中那些出現頻率較低但很重要的信息（比如專業領域知識、小眾但正確的觀點）逐漸消失了。

每一代模型生成數據時，都會傾向于生成那些在訓練數據中最常見、最“安全”的內容。那些出現頻率低的、邊緣的信息，在生成的數據中出現概率會更低。經過幾代迭代，這些信息就徹底丟失了。

更麻煩的是，現在互聯網上已經充斥著大量AI生成的內容。ChatGPT發布后，網絡上的文章、社交媒體帖子、甚至學術論文，都開始出現越來越多AI生成痕跡。

如果未來模型通過爬取互聯網獲取訓練數據，不可避免地會把這些AI生成內容也包含進去。這意味著，模型崩潰不再只是實驗室里的理論問題，而是整個AI行業都將面臨的實際威脅。

三

關于大語言模型是否進入了死胡同，這個問題其實一直充滿爭議。

以AI教母李飛飛為代表的維新派認為：大語言模型不是萬能的，它只是AI系統中的一個組件。要實現真正的人工智能，需要把不同類型的任務分配給不同類型的模型。

李飛飛曾直言不諱地說，AGI是一個營銷術語，不是科學術語。現如今真正缺失的不是“通用智能”，而是“空間智能”，也就是理解和操作三維物理世界的能力。

她認為，未來的AI系統可能是“世界模型”（World Model）。它的核心能力是理解三維空間、物理規律和因果關系。它不是通過學習文本理解世界，而是通過觀察視頻、圖像、傳感器數據來建立對物理世界的認知。

世界模型使用嚴格的邏輯規則和數學證明技術，而不是像現在的大語言模型一樣依賴統計模式。

谷歌DeepMind開發的AlphaGeometry就是這個方向的例子，它能夠解決奧林匹克競賽級別的幾何問題，靠的不是語言模型，而是符號推理系統和神經網絡的結合。

圖靈獎得主、Meta前首席AI科學家楊立昆（Yann LeCun）對語言模型路徑的批評更加直接。他形容這條路徑是“給鸚鵡喂更大的芯片”。

在他看來，語言模型只是在學習統計規律，在做模式匹配，并沒有真正理解世界。要實現真正的智能，必須讓AI建立對物理世界的模型，理解物體、空間、時間、因果關系這些基本概念。

彼時，大語言模型將會成為“翻譯官”。當用戶用自然語言提出需求時，大語言模型負責理解需求，把它翻譯成機器能處理的指令，分配給合適的像是世界模型這樣的子系統來執行。

當任務完成后，大語言模型再把結果翻譯成自然流暢的人類語言輸出給用戶。

OpenAI和Anthropic則是守舊派。

奧特曼認為，只要把語言模型繼續放大，投入更多數據和算力，智能就會“自動涌現”。

他相信，當模型規模達到某個臨界點時，會突然展現出質的飛躍，獲得真正的理解能力和推理能力。這個觀點在業內被稱為“scaling hypothesis”（規模假說）。

OpenAI聯合創始人兼首席科學家伊爾亞·蘇茲科維（Ilya Sutskever）的觀點是壓縮就是理解。

他坦言，“如果你能把全世界的數據無損地壓縮進一個大語言模型的神經網絡，那么這個模型就在內部構建出了一個關于這個世界的真實模型。”

Anthropic的聯合創始人杰拉德·卡普蘭（Jared Kaplan）則認為語言模型本身可能不是智能，但可以成為智能的基礎。他認為通過改進訓練方法、增強安全性對齊、結合其他技術，語言模型路徑仍然有潛力達到AGI。

MIT的認知學家伊芙琳娜·費多林柯（Evelina Fedorenko）以及多位MIT和伯克利的學者，在《Nature》期刊上發表文章，他們指出：語言不是思維，人類的思維是獨立于語言的。嬰兒在學會說話之前就已經有了對物理世界的理解，對因果關系的認知。盲人和聾人雖然缺失某些感官通道，但思維能力并不受影響。

語言主要是交流工具而非思維工具，語言模型也就不可能是真正的人工智能。

本文來自微信公眾號：直面AI，作者：苗正

本內容由作者授權發布，觀點僅代表作者本人，不代表虎嗅立場。如對本稿件有異議或投訴，請聯系 tougao@huxiu.com。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4812882.html?f=wyxwapp

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.