![]()
作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
Scaling Law撞墻了,這話AI圈已經聽了一年多。
從Gary Marcus的減收益批評,到坊間關于 OpenAI下一代模型“Orion” 進展不順的傳聞,再到 GPT-5 發布時不少人感到“并不驚艷”。進步是有的,但沒有那種讓人眼前一亮的躍升。連 Ilya 都說,我們正從擴展時代回到研究時代。大力出奇跡的配方,似乎真的到頭了。
然后Gemini 3來了。Gemini 3 不只是變強,而是跨越了過去兩年 Google 所有被批評的點,第一次在全面維度,能力、推理、速度、成本、生態,真正追上和整體超越 OpenAI。看不到任何墻。
關鍵是,Gemini 3不是靠換一套全新架構做到的。Google說,突破來自預訓練和后訓練兩個階段的配方升級。具體怎么升級的,外界只能猜測,也許是Google積累了25年的獨家數據終于派上用場,也許是找到了處理數據的新技術。但不管原因是什么,Google愿意公開說"預訓練仍有改進空間",這本身就是一個信號:Scaling的兩條主線:預訓練和后訓練,都還沒走到頭。
![]()
大模型訓練變成了“重資產游戲”
Gemini聯合負責人Oriol Vinyals說得更直接:2.5到3.0之間的性能躍遷是他們見過最大的一次,“看不到任何墻”。
同一時間,馬斯克的xAI宣布其超算集群Colossus已擴展到20萬塊GPU,目標是100萬塊。OpenAI、Anthropic、微軟也在砸下數千億美元擴建數據中心。
如果Scaling Law真的死了,這些人在賭什么?
1
墻不存在
先看最直接的證據。
Gemini 3證明了算法改進遇上更好的算力,預訓練Scaling依然有效。前DeepMind的研究科學家Oriol Vinyals把Gemini 3的提升歸功于預訓練和后訓練的雙重改進,不是換了一套全新的方法論,而是把現有方法做得更好,換句話說,不是Scaling不行了,是之前的方法還不夠好。
黃仁勛提出了一個更系統的框架:現在有三條Scaling曲線同時在起作用,預訓練Scaling、后訓練Scaling、以及推理時Scaling(test-time compute)。傳統的預訓練Scaling是用更多數據和算力訓練更大的模型;后訓練Scaling是通過RLHF、DPO等技術在訓練后繼續優化;推理時Scaling則是讓模型在回答問題時花更多時間“思考”,比如OpenAI的o1系列。
Sam Altman在2025年初的博客里寫得更直白。他說,模型的智能水平大致等于用于訓練和運行它的資源的對數。這聽起來像是壞消息,但反過來理解,只要你愿意持續投入,模型就會持續變好。曲線沒有彎曲,只是斜率需要用對數坐標來理解。
![]()
Google DeepMind的CEO Demis Hassabis態度同樣明確。他在一次公開活動上說,現有系統的擴展必須推到極限,因為它至少會是最終AGI系統的關鍵組成部分,甚至可能就是全部。
如果Scaling Law真的撞墻了,你很難解釋為什么整個行業還在以前所未有的速度往里砸錢。這些人在賭什么?即使退一步說,算力可以用于推理而非訓練,但這種規模的投入也需要模型能力的持續提升來支撐,否則推理什么呢,一個能力停滯的模型,值得為它建造價值萬億美元的基礎設施嗎?
1
他們吵的不是同一件事
不過,如果你仔細聽各方的表態,會發現一個有意思的現象,大家嘴里說的Scaling Law,可能根本不是同一個東西。
傳統意義上的Scaling Law很簡單:更多數據、更大模型、更多算力,等于更強性能。這是2020年OpenAI那篇著名論文確立的范式,也是過去幾年大模型競賽的底層邏輯。如果你說的是這條曲線,那確實在放緩。數據快被用完了,單純堆參數的邊際收益在下降,這是事實。
但現在行業里討論的Scaling,早就不只是這一個維度了。
黃仁勛提出的三階段框架就是一個例子。預訓練是第一階段,相當于讓模型上大學,獲取廣泛的基礎知識。后訓練是第二階段,相當于讀研,針對特定領域深造。測試時計算是第三階段,相當于讓模型在回答問題之前先想一想,而不是脫口而出。o1、DeepSeek-R1這些推理模型的出現,本質上就是在第三階段做文章。
還有一個更有意思的視角,來自IBM的一檔播客Mixture of Experts。幾位嘉賓討論Gemini 3的時候提出了一個觀點:我們是不是應該把它叫做Scaling Experimentation Law,而不是Scaling Law?他們的意思是,算力增加的真正作用,不是直接轉化成智能,而是讓研究人員能夠更快地跑實驗、試錯、迭代。更多的算力等于更快的實驗速度,等于更好的算法,最終等于更強的模型。這才是Scaling的真正含義。所以哪怕繼續Scale的收益下降,頭部公司也有不能不跟的博弈壓力。
從這個角度看,Ilya Sutskever說的回歸研究時代,和其他人說的Scaling Law沒死,其實并不矛盾。Ilya的意思是,那個簡單粗暴的配方用完了,不能再指望光靠堆資源就能出奇跡。但他從來沒說算力不重要,他說的是我們帶著大型計算機回到了研究時代。算力是前提,但不再是唯一的變量。
當然,Ilya的表態也不能完全當作純粹的技術判斷來聽。他現在在做Safe Superintelligence,走的是少商業化、重基礎研究的路線。說擴展時代結束、研究時代回歸,某種程度上也是在為自己的新公司找一個差異化的敘事。
所以,與其問Scaling死沒死,不如問,哪條曲線在放緩、哪條曲線在加速。
![]()
1
各方立場
說到立場和利益,這場爭論里每個人的位置其實都很清楚。
英偉達是最明顯的。無論Scaling Law怎么演變,無論你是堆預訓練、堆后訓練還是堆推理,都需要GPU。三條曲線變成一條還是十條,對他來說沒區別,只要大家還在Scaling,他就是賣鏟子的那個人。所以他當然要說沒死,而且要說還有三條。
OpenAI、Google、Anthropic這些模型公司也是一樣。他們正在建造或者規劃中的數據中心,投資規模是百億甚至千億美元級別的。這些錢已經花出去了,或者已經承諾出去了。這時候說Scaling Law失效,相當于說自己在做一筆糟糕的投資。從公司利益的角度,他們必須相信,也必須讓投資人相信,Scaling仍然有效。
馬斯克的xAI也是這個邏輯。他多次警告,目前 AI 最大的中長期瓶頸會從芯片,轉向電力生產和電網,數據中心和 AI 集群會在未來幾年吃掉極其可觀的全球電力,對電網形成硬約束。再結合他瘋狂堆GPU、建算力超級工廠/超級集群的行為,很難說他主觀上相信再堆算力也沒什么提升。
看起來站在另一邊的是Ilya和他的SSI。但仔細想想,他的位置其實也合理。SSI融資規模和OpenAI、Google不在一個量級,拼算力拼不過。這時候說Scaling時代結束、研究突破更重要,既是技術判斷,也是競爭策略。他需要讓投資人相信,有另一條路可以通向超級智能,而那條路也許不需要萬億美元的基礎設施。
另一種是“世界模型派”,Yann LeCun和李飛飛都認為靠現在這一套 LLM 路線,怎么 scale 都很難做出真正AGI。Yann LeCun創辦了一家專注世界模型的公司AMI,他認為LLM很有用,但只是“高級自動補全”,真正通用的智能需要世界模型 + 自監督學習 + 規劃 + 持久記憶 + 具身交互 的新架構。
李飛飛創立的 World Labs 把賭注壓在 world models 和空間智能上,主攻能重建和生成 3D 世界的基礎模型,而不是再做一套更大的聊天 LLM。從這個意義上說,它們都代表了一條有別于“單純把語言模型做大”的 scaling 路線,世界模型意味著學到環境的動態和結構,而不是只學 token。
所以這場爭論,與其說是技術分歧,不如說是各方在自己的位置上講述對自己有利的不同版本的故事。
1
DeepSeek的一句話
在這場爭論里,中國AI公司是一個特殊的存在,而DeepSeek可能是最有代表性的案例。
過去一年,DeepSeek靠著極高的算力利用效率,用遠低于硅谷同行的成本做出了能打的模型。這一度被解讀為Scaling Law的反例,你看,不用砸那么多錢也能做出好東西。
但這可能是一個誤讀。
DeepSeek真正證明的是,架構優化和工程能力可以讓你在同樣的算力預算下獲得更好的結果。用他們自己的話說,是把Scaling曲線往更省算力的方向平移了。但曲線本身還在那里,你想往上走,還是要投入更多資源。
這一點在DeepSeek-V3.2的技術報告里說得很清楚。他們在結論部分直接承認,模型在世界知識廣度上的不足,根本原因是總訓練算力比前沿閉源模型少。要補這個短板,只有一個辦法,擴大預訓練算力。
![]()
翻譯成白話:我們要買更多卡了。這可能會在接下一代模型上應驗。
對中國AI公司來說,這是一個現實的處境。算法優化、工程效率,這些是現階段的護城河,但不是永久的。長期來看,如果Scaling Law繼續有效,算力就是繞不過去的坎。而在芯片受限的情況下,這意味著要么找到其他的路,要么在有限的資源里把效率做到極致。
![]()
苦澀的教訓:只要我 GPU 足夠多、算力足夠大,我就能碾壓你們
1
Scaling Law死了,Scaling Law萬歲
回到最初的問題,Scaling Law到底死沒死?
從目前的證據來看,答案是沒有。Gemini 3的表現、各家公司的持續投入、技術演進的方向,都指向同一個結論,Scaling仍然有效,只是方式變了。
過去那種簡單粗暴的配方,更大、更多、更強,確實在遇到瓶頸。但Scaling的內涵正在變化。預訓練、后訓練、測試時計算,三個階段都有各自的增長曲線。算力的價值也從直接轉化成智能,變成了加速實驗和迭代的基礎設施。
對頭部廠商而言,Scaling不僅是技術問題,更是資產負債表問題。已經宣布和在建的數據中心項目,未來會持續壓在頭上,要求模型能力不斷提高來消化這些投入。
所以這不意味著一切都很樂觀,模型在變強,但變強的速度是否足以支撐當前的估值和投資規模,這是另一個問題。
華爾街有句話:“趨勢是你的朋友,直到它不是。”Scaling Law也一樣,它會一直有效,直到它不有效。但那一天,顯然還沒到來。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.