允中 發自 凹非寺
量子位 | 公眾號 QbitAI
2026年將至,ChatGPT發布三周年,但關于“AI瓶頸期”的焦慮正達到頂峰。
當全行業都在討論如何通過量化、蒸餾來“省錢”時,新加坡國立大學校長青年教授、潞晨科技創始人尤洋卻提出了一個更為本質的拷問:
如果給你300億美元預算,今天我們真的能訓出比GPT-4強出幾個維度的模型嗎?
在《智能增長的瓶頸》一文中,尤洋教授一針見血地指出:
- 當前智能增長的瓶頸,本質上是我們現有的技術范式,已經快要“消化”不動持續增長的算力了。
他提出了幾個顛覆常規認知的硬核觀點:
- 智能的本質是能源轉化:過去10年,AI的本質是將電力通過計算轉化為可復用的智能,而轉化效率正面臨大考。
- Transformer的秘密:它之所以勝出,并非因為更像人腦,而是因為它是一臺“偽裝成神經網絡的并行計算機”,完美契合了英偉達GPU的堆料邏輯。
- 效率不等于智能:Mamba等新架構提升了吞吐量,但在“算力轉智能”的終極上限上,它們真的比Transformer更強嗎?
- 未來的出路:拋棄Adam優化器?回歸高精度計算(FP32/64)?
從電影制作到地震時間預測,我們離真正的AGI還有多遠?……
![]()
這篇深度長文,或許能帶你穿透“降本增效”的迷霧,直達算力與智能最底層的邏輯。
一起來看。
智能的核心不是解釋,而是預測
什么是智能?
尤洋沒有照搬任何形式化或哲學化的“智能定義”。
相反,他采用了一種非常工程化、面向能力評估的處理方式,通過一組可驗證、可實踐的判斷標準來刻畫智能的邊界:
- 在關鍵人生決策上,是否愿意完全聽從AI;
- 在高風險、高不確定性領域,是否敢讓AI替代專家;
- 在創作層面,是否已經無法分辨作品是否由AI生成;
這些例子背后,指向的是同一個核心能力:即對未來狀態進行預測,并為預測結果承擔實際后果的能力
![]()
這一鋒利的判斷,不僅解釋了為什么Next-Token Prediction能在過去幾年成為事實上的“智能發動機”,也解釋了為何許多“在封閉評測中表現出色”的系統,一旦進入真實世界就迅速暴露短板——
它們往往擅長組織與解釋已有信息,卻難以在不確定環境中對未來做出穩定、可執行的判斷。
當然,需要強調的是,將智能高度凝聚為“預測”,更像是在給智能劃定一個工程上可對齊算力投入的核心能力維度,而非窮盡智能的全部內涵。
這是一個足夠清晰也足夠有解釋力的硬核視角。而規劃、因果建模以及長期一致性等能力,是否能夠完全被還原為預測問題,仍然是一個開放議題。
但當我們把智能簡化為預測能力時,下一步的問題自然落到:算力是如何轉化為這種能力的?
預訓練、SFT、RL之爭,本質上是“算力分配”問題
過去幾年,行業對訓練范式的討論,常常被“方法論優越感”主導;但如果把目標限定為單位算力能換來多少智能,那么范式本身就不再神秘,而變成了一種算力使用策略。
不同于主流敘事,尤洋在文章中直接把預訓練、微調、強化學習三者拉到統一層面,即三者本質上都是在計算梯度,更新參數。
![]()
文章指出,當前模型的主要智能來源,依然是預訓練階段——不是因為它更“聰明”,而是因為它消耗了最多的能源與計算
從智能增長角度看,這三者參數更新發生的頻率與更新所消耗的算力規模確有不同,但是通過視角的轉換,智能增長的討論就從方法論之爭,轉向了一個更樸素,也更殘酷的問題——
在算力持續投入的前提下,我們是否還能穩定地換取能力增長?
Transformer的勝出,不只是算法勝利
為了回答這個問題,這篇文章回溯了過去十年大模型快速進化的原因。尤洋指出,這一輪智能躍遷的成立,依賴于三件事情同時發生:
- 一是GPU體系在硬件層面持續提供指數級增長的并行算力;
- 二是Transformer架構在計算結構上天然支持大規模并行,能夠充分“吃下”這些算力;
- 三是Next-Token Prediction這一訓練目標為模型提供了近乎無限、且高度統一的學習信號。
因此,Transformer的成功,并不僅僅是算法層面的勝利,更源于模型架構與硬件體系高度匹配的系統性結果
在這三者共同作用下,算力增長、模型規模擴大與能力提升之間形成了一條相對穩定的正反饋鏈路。
需要注意的是,這一范式的有效性,也在一定程度上受益于語言任務本身的結構特性:語言高度符號化、序列化,且評測體系與訓練目標高度一致。
這使得算力增長、模型規模擴大與能力提升之間,在這一階段形成了一條相對穩定的正反饋鏈路。
也正是在這一歷史條件下,從GPT-1、GPT-2到GPT-3,再到ChatGPT,智能水平得以沿著同一范式持續抬升。
這也自然引出了后文的核心問題:
當算力繼續增長時,我們是否還擁有同樣可擴展的范式?
真正的瓶頸,并不是算力停了,而是算力“吃不動”了
尤洋在文中提出了一個非常具體、也非常可操作的標準來判斷智能的瓶頸:
- 當一次訓練的FLOPS從10^n變成10^{n+3}時,我們是否還能穩定地獲得顯著更強的模型?
如果答案開始變得不確定,那么問題就不在于“算力是否繼續增長”,而在于:
- 現有范式對新增算力的吸收效率是否下降;
- 計算規模的擴大,是否被通信、同步和系統開銷所抵消。
這也是文章里反復強調FLOPS的原因:
Token數、參數量、推理速度,往往會混合效率與商業因素;而FLOPS才是最底層、也最難被包裝或美化的算力尺度
在這個意義上,所謂“瓶頸”,并不是紅利消失,而是算力增長與智能增長之間的映射關系開始松動
更值得一提的是,尤洋在文章中刻意把討論從“效率優化”里拎出來,換了一個更接近一線大廠決策的場景:
假設今天Google拍給你一張“300億美元預算”的支票,給你半年DDL——在這種極限訓練目標下,你還會優先選擇Mamba這類“吞吐量更高”的架構嗎?
未必。因為吞吐量解決的是“同等智能更便宜”,不自動等價于“同等成本更聰明”。
真正的難點變成:我們到底有沒有一種擴展性更強的架構或Loss函數,能把新增算力更穩定地“吃進去”,并把它轉換成可兌現的能力增量?
那么如何能在單位時間內吃下更多算力,并真正將它轉化為智能呢?
未來未定,問題的答案可能在多個探索區間內
在正式回答算力轉化智能的問題之前,尤洋還對硬件與基礎設施層面進行了深入的探討。
他根據自身多年的從業經驗得出,計算開銷/通信開銷的比值,必須維持或提升,這樣才能在繼續堆疊GPU的情況下,線性地換來更多智能。
因此,未來AI基礎設施的核心目標,應該關注并行計算體系在軟硬件層面的整體擴展性,而不僅僅是單點芯片性能。
在這一基礎上,尤洋最后提出了多個探索方向,比如更高精度、高階優化器,更可擴展的架構或者Loss函數,更多epoch與更深度的超參數探索。
這些探索方向,都在試圖回答同一個命題——如何讓模型在“吃掉”萬億級投入的同時,吐出等比例增強的智能?
對于智能的進一步增長而言,真正重要的,是在極端算力條件下持續變強的能力——這也意味著,預訓練所能承載的智能增長空間,可能還遠未走到盡頭。
回到最初討論的問題,算力到底還能不能繼續轉化為智能?
尤洋并未給出斷言,但邏輯已經清晰:
- 只要我們還能找到更高效組織計算的方式,智能的上限就遠未到來。
原文傳送門:
https://zhuanlan.zhihu.com/p/1989100535295538013
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.