<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Scaling Law沒死,它只是換了個活法

      0
      分享至


      作者 | 周一笑
      郵箱 | zhouyixiao@pingwest.com

      Scaling Law撞墻了,這話AI圈已經聽了一年多。

      從Gary Marcus的減收益批評,到坊間關于 OpenAI下一代模型“Orion” 進展不順的傳聞,再到 GPT-5 發布時不少人感到“并不驚艷”。進步是有的,但沒有那種讓人眼前一亮的躍升。連 Ilya 都說,我們正從擴展時代回到研究時代。大力出奇跡的配方,似乎真的到頭了。

      然后Gemini 3來了。Gemini 3 不只是變強,而是跨越了過去兩年 Google 所有被批評的點,第一次在全面維度,能力、推理、速度、成本、生態,真正追上和整體超越 OpenAI。看不到任何墻。

      關鍵是,Gemini 3不是靠換一套全新架構做到的。Google說,突破來自預訓練和后訓練兩個階段的配方升級。具體怎么升級的,外界只能猜測,也許是Google積累了25年的獨家數據終于派上用場,也許是找到了處理數據的新技術。但不管原因是什么,Google愿意公開說"預訓練仍有改進空間",這本身就是一個信號:Scaling的兩條主線:預訓練和后訓練,都還沒走到頭。


      大模型訓練變成了“重資產游戲”

      Gemini聯合負責人Oriol Vinyals說得更直接:2.5到3.0之間的性能躍遷是他們見過最大的一次,“看不到任何墻”。

      同一時間,馬斯克的xAI宣布其超算集群Colossus已擴展到20萬塊GPU,目標是100萬塊。OpenAI、Anthropic、微軟也在砸下數千億美元擴建數據中心。

      如果Scaling Law真的死了,這些人在賭什么?

      1

      墻不存在

      先看最直接的證據。

      Gemini 3證明了算法改進遇上更好的算力,預訓練Scaling依然有效。前DeepMind的研究科學家Oriol Vinyals把Gemini 3的提升歸功于預訓練和后訓練的雙重改進,不是換了一套全新的方法論,而是把現有方法做得更好,換句話說,不是Scaling不行了,是之前的方法還不夠好。

      黃仁勛提出了一個更系統的框架:現在有三條Scaling曲線同時在起作用,預訓練Scaling、后訓練Scaling、以及推理時Scaling(test-time compute)。傳統的預訓練Scaling是用更多數據和算力訓練更大的模型;后訓練Scaling是通過RLHF、DPO等技術在訓練后繼續優化;推理時Scaling則是讓模型在回答問題時花更多時間“思考”,比如OpenAI的o1系列。

      Sam Altman在2025年初的博客里寫得更直白。他說,模型的智能水平大致等于用于訓練和運行它的資源的對數。這聽起來像是壞消息,但反過來理解,只要你愿意持續投入,模型就會持續變好。曲線沒有彎曲,只是斜率需要用對數坐標來理解。


      Google DeepMind的CEO Demis Hassabis態度同樣明確。他在一次公開活動上說,現有系統的擴展必須推到極限,因為它至少會是最終AGI系統的關鍵組成部分,甚至可能就是全部。

      如果Scaling Law真的撞墻了,你很難解釋為什么整個行業還在以前所未有的速度往里砸錢。這些人在賭什么?即使退一步說,算力可以用于推理而非訓練,但這種規模的投入也需要模型能力的持續提升來支撐,否則推理什么呢,一個能力停滯的模型,值得為它建造價值萬億美元的基礎設施嗎?

      1

      他們吵的不是同一件事

      不過,如果你仔細聽各方的表態,會發現一個有意思的現象,大家嘴里說的Scaling Law,可能根本不是同一個東西。

      傳統意義上的Scaling Law很簡單:更多數據、更大模型、更多算力,等于更強性能。這是2020年OpenAI那篇著名論文確立的范式,也是過去幾年大模型競賽的底層邏輯。如果你說的是這條曲線,那確實在放緩。數據快被用完了,單純堆參數的邊際收益在下降,這是事實。

      但現在行業里討論的Scaling,早就不只是這一個維度了。

      黃仁勛提出的三階段框架就是一個例子。預訓練是第一階段,相當于讓模型上大學,獲取廣泛的基礎知識。后訓練是第二階段,相當于讀研,針對特定領域深造。測試時計算是第三階段,相當于讓模型在回答問題之前先想一想,而不是脫口而出。o1、DeepSeek-R1這些推理模型的出現,本質上就是在第三階段做文章。

      還有一個更有意思的視角,來自IBM的一檔播客Mixture of Experts。幾位嘉賓討論Gemini 3的時候提出了一個觀點:我們是不是應該把它叫做Scaling Experimentation Law,而不是Scaling Law?他們的意思是,算力增加的真正作用,不是直接轉化成智能,而是讓研究人員能夠更快地跑實驗、試錯、迭代。更多的算力等于更快的實驗速度,等于更好的算法,最終等于更強的模型。這才是Scaling的真正含義。所以哪怕繼續Scale的收益下降,頭部公司也有不能不跟的博弈壓力。

      從這個角度看,Ilya Sutskever說的回歸研究時代,和其他人說的Scaling Law沒死,其實并不矛盾。Ilya的意思是,那個簡單粗暴的配方用完了,不能再指望光靠堆資源就能出奇跡。但他從來沒說算力不重要,他說的是我們帶著大型計算機回到了研究時代。算力是前提,但不再是唯一的變量。

      當然,Ilya的表態也不能完全當作純粹的技術判斷來聽。他現在在做Safe Superintelligence,走的是少商業化、重基礎研究的路線。說擴展時代結束、研究時代回歸,某種程度上也是在為自己的新公司找一個差異化的敘事。

      所以,與其問Scaling死沒死,不如問,哪條曲線在放緩、哪條曲線在加速。


      1

      各方立場

      說到立場和利益,這場爭論里每個人的位置其實都很清楚。

      英偉達是最明顯的。無論Scaling Law怎么演變,無論你是堆預訓練、堆后訓練還是堆推理,都需要GPU。三條曲線變成一條還是十條,對他來說沒區別,只要大家還在Scaling,他就是賣鏟子的那個人。所以他當然要說沒死,而且要說還有三條。

      OpenAI、Google、Anthropic這些模型公司也是一樣。他們正在建造或者規劃中的數據中心,投資規模是百億甚至千億美元級別的。這些錢已經花出去了,或者已經承諾出去了。這時候說Scaling Law失效,相當于說自己在做一筆糟糕的投資。從公司利益的角度,他們必須相信,也必須讓投資人相信,Scaling仍然有效。

      馬斯克的xAI也是這個邏輯。他多次警告,目前 AI 最大的中長期瓶頸會從芯片,轉向電力生產和電網,數據中心和 AI 集群會在未來幾年吃掉極其可觀的全球電力,對電網形成硬約束。再結合他瘋狂堆GPU、建算力超級工廠/超級集群的行為,很難說他主觀上相信再堆算力也沒什么提升。

      看起來站在另一邊的是Ilya和他的SSI。但仔細想想,他的位置其實也合理。SSI融資規模和OpenAI、Google不在一個量級,拼算力拼不過。這時候說Scaling時代結束、研究突破更重要,既是技術判斷,也是競爭策略。他需要讓投資人相信,有另一條路可以通向超級智能,而那條路也許不需要萬億美元的基礎設施。

      另一種是“世界模型派”,Yann LeCun和李飛飛都認為靠現在這一套 LLM 路線,怎么 scale 都很難做出真正AGI。Yann LeCun創辦了一家專注世界模型的公司AMI,他認為LLM很有用,但只是“高級自動補全”,真正通用的智能需要世界模型 + 自監督學習 + 規劃 + 持久記憶 + 具身交互 的新架構。

      李飛飛創立的 World Labs 把賭注壓在 world models 和空間智能上,主攻能重建和生成 3D 世界的基礎模型,而不是再做一套更大的聊天 LLM。從這個意義上說,它們都代表了一條有別于“單純把語言模型做大”的 scaling 路線,世界模型意味著學到環境的動態和結構,而不是只學 token。

      所以這場爭論,與其說是技術分歧,不如說是各方在自己的位置上講述對自己有利的不同版本的故事。

      1

      DeepSeek的一句話

      在這場爭論里,中國AI公司是一個特殊的存在,而DeepSeek可能是最有代表性的案例。

      過去一年,DeepSeek靠著極高的算力利用效率,用遠低于硅谷同行的成本做出了能打的模型。這一度被解讀為Scaling Law的反例,你看,不用砸那么多錢也能做出好東西。

      但這可能是一個誤讀。

      DeepSeek真正證明的是,架構優化和工程能力可以讓你在同樣的算力預算下獲得更好的結果。用他們自己的話說,是把Scaling曲線往更省算力的方向平移了。但曲線本身還在那里,你想往上走,還是要投入更多資源。

      這一點在DeepSeek-V3.2的技術報告里說得很清楚。他們在結論部分直接承認,模型在世界知識廣度上的不足,根本原因是總訓練算力比前沿閉源模型少。要補這個短板,只有一個辦法,擴大預訓練算力。


      翻譯成白話:我們要買更多卡了。這可能會在接下一代模型上應驗。

      對中國AI公司來說,這是一個現實的處境。算法優化、工程效率,這些是現階段的護城河,但不是永久的。長期來看,如果Scaling Law繼續有效,算力就是繞不過去的坎。而在芯片受限的情況下,這意味著要么找到其他的路,要么在有限的資源里把效率做到極致。


      苦澀的教訓:只要我 GPU 足夠多、算力足夠大,我就能碾壓你們

      1

      Scaling Law死了,Scaling Law萬歲

      回到最初的問題,Scaling Law到底死沒死?

      從目前的證據來看,答案是沒有。Gemini 3的表現、各家公司的持續投入、技術演進的方向,都指向同一個結論,Scaling仍然有效,只是方式變了。

      過去那種簡單粗暴的配方,更大、更多、更強,確實在遇到瓶頸。但Scaling的內涵正在變化。預訓練、后訓練、測試時計算,三個階段都有各自的增長曲線。算力的價值也從直接轉化成智能,變成了加速實驗和迭代的基礎設施。

      對頭部廠商而言,Scaling不僅是技術問題,更是資產負債表問題。已經宣布和在建的數據中心項目,未來會持續壓在頭上,要求模型能力不斷提高來消化這些投入。

      所以這不意味著一切都很樂觀,模型在變強,但變強的速度是否足以支撐當前的估值和投資規模,這是另一個問題。

      華爾街有句話:“趨勢是你的朋友,直到它不是。”Scaling Law也一樣,它會一直有效,直到它不有效。但那一天,顯然還沒到來。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      火箭擊敗老鷹,賽后3個好消息1個壞消息,伊森和申京能換字母哥?

      火箭擊敗老鷹,賽后3個好消息1個壞消息,伊森和申京能換字母哥?

      鄒維體育
      2026-01-30 11:34:49
      陪讀媽媽怒懟牢A,脖子上的“認主項鏈”被滬爺認出,暴露真相

      陪讀媽媽怒懟牢A,脖子上的“認主項鏈”被滬爺認出,暴露真相

      妍妍教育日記
      2026-01-27 20:19:13
      詹姆斯大幅降薪!?勇士梭哈字母!

      詹姆斯大幅降薪!?勇士梭哈字母!

      柚子說球
      2026-01-30 12:34:58
      兩性關系:70歲后想多活20年,牢記這5句話,健康長壽少煩惱

      兩性關系:70歲后想多活20年,牢記這5句話,健康長壽少煩惱

      匹夫來搞笑
      2026-01-22 12:05:40
      17戰16勝,勇士找到贏球秘訣!一人力壓庫里成最佳 5大奇兵更該夸

      17戰16勝,勇士找到贏球秘訣!一人力壓庫里成最佳 5大奇兵更該夸

      鍋子籃球
      2026-01-29 14:22:42
      布魯克林分享愛妻愜意床照,妮可拉赤裸上身瘦脫相,原因令人稱贊

      布魯克林分享愛妻愜意床照,妮可拉赤裸上身瘦脫相,原因令人稱贊

      夜深愛雜談
      2026-01-28 22:52:08
      胡靜現身昆明菜市場,主打一個接地氣,毫無明星架子。

      胡靜現身昆明菜市場,主打一個接地氣,毫無明星架子。

      可樂談情感
      2026-01-30 05:48:33
      薛佳凝自曝金價300多元一克時,買了兩公斤!有個男演員當時買了9公斤

      薛佳凝自曝金價300多元一克時,買了兩公斤!有個男演員當時買了9公斤

      現代快報
      2026-01-29 14:26:10
      中國垃圾真不夠燒了:真相,遠沒那么簡單

      中國垃圾真不夠燒了:真相,遠沒那么簡單

      正解局
      2026-01-29 17:15:02
      星光黯淡!海斯布萊恩特參加扣籃大賽 三屆扣籃王麥克朗不再參賽

      星光黯淡!海斯布萊恩特參加扣籃大賽 三屆扣籃王麥克朗不再參賽

      羅說NBA
      2026-01-30 06:38:29
      偉大的2-0!中國金花直通澳網決賽:解鎖2大成就,爭冠對手確定!

      偉大的2-0!中國金花直通澳網決賽:解鎖2大成就,爭冠對手確定!

      劉姚堯的文字城堡
      2026-01-29 16:33:24
      滬指失守4100點,日內跌超1.5%

      滬指失守4100點,日內跌超1.5%

      每日經濟新聞
      2026-01-30 10:24:27
      美國政府又“停擺”?特朗普發聲!黃金、白銀再爆發!

      美國政府又“停擺”?特朗普發聲!黃金、白銀再爆發!

      證券時報e公司
      2026-01-30 08:13:06
      國籍爭議不到1年,人民日報公開點名谷愛凌,鄧亞萍的話有人信了

      國籍爭議不到1年,人民日報公開點名谷愛凌,鄧亞萍的話有人信了

      閱微札記
      2025-12-22 14:28:33
      四川省委常委會召開會議 堅決擁護黨中央對包惠涉嫌嚴重違紀違法進行紀律審查和監察調查的決定

      四川省委常委會召開會議 堅決擁護黨中央對包惠涉嫌嚴重違紀違法進行紀律審查和監察調查的決定

      環球網資訊
      2026-01-29 19:02:10
      陳夢沒想到,自己創辦的乒乓學校,出了個男單冠軍,成了國乒希望

      陳夢沒想到,自己創辦的乒乓學校,出了個男單冠軍,成了國乒希望

      胡一舸南游y
      2026-01-30 12:28:21
      獲“救命錢”后,賈國龍攤牌:累計虧損將超6億!他終于認清自己

      獲“救命錢”后,賈國龍攤牌:累計虧損將超6億!他終于認清自己

      社會日日鮮
      2026-01-27 13:22:49
      中方開始清場?日本下令,所有漁船撤離釣魚島,高市當眾哭泣!

      中方開始清場?日本下令,所有漁船撤離釣魚島,高市當眾哭泣!

      悠悠寫故事
      2026-01-28 17:37:46
      什么是性成癮?患者自述:比煙癮、酒癮厲害多了,比戒毒還難

      什么是性成癮?患者自述:比煙癮、酒癮厲害多了,比戒毒還難

      泠泠說史
      2025-10-30 15:20:45
      山西婚鬧致死案:新郎被4個伴郎暴打致死,婚禮結束直接辦喪事

      山西婚鬧致死案:新郎被4個伴郎暴打致死,婚禮結束直接辦喪事

      明智家庭教育
      2025-12-02 11:20:34
      2026-01-30 13:08:49
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2830文章數 10432關注度
      往期回顧 全部

      科技要聞

      單季狂賺3000億;iPhone 17 全球賣瘋了!

      頭條要聞

      英國、法國、加拿大、日本等11國聯合發聲:強烈譴責

      頭條要聞

      英國、法國、加拿大、日本等11國聯合發聲:強烈譴責

      體育要聞

      敢揍多爾特,此子必成大器?

      娛樂要聞

      金晨出事前 曾靈魂發問未收到春晚邀請

      財經要聞

      血鉛超標工人,擋在“勞動關系”門檻外

      汽車要聞

      全面科技化 新款梅賽德斯-奔馳S級發布

      態度原創

      旅游
      游戲
      家居
      數碼
      時尚

      旅游要聞

      福建三明要做上海后花園?幾年前接待上海游客不足15萬人次,去年已破百萬

      我榮集合!《榮耀戰魂》廣州線下賽事即將火熱開啟!

      家居要聞

      藍調空舍 自由與個性

      數碼要聞

      英偉達GeForce NOW云游戲服務正式推出Linux原生應用

      “工裝混搭風”今年爆火!全世界的時髦女人都在穿

      無障礙瀏覽 進入關懷版