![]()
新智元報道
編輯:KingHZ
【新智元導讀】 KAN網絡作者劉子鳴新作直擊痛點:Scaling Law雖然能通過「窮舉」達成目標,但其本質是用無限資源換取偽智能。而真正的AGI應大道至簡。
繼Ilya之后,柯爾莫哥洛夫-阿諾德網絡KAN一作向Scaling Law發出最新檄文!
2025年圣誕節,斯坦福大學博士后、清華大學赴任助理教授劉子鳴把矛頭對準了Scaling Law。
在他看來,如今的大模型,更像是在用無限算力和數據做窮舉,換來的卻只是看起來聰明的假智能。
而真正的AGI應當像物理學定律一樣,用最簡潔的「結構」駕馭無限的世界。
劉子鳴話說很直白:
要想聰明地造出AGI,我們缺的不是規模,而是結構。
![]()
在他看來,結構主義AI并不是為了「否定」 Scaling Law。
問題在于,Scaling終究會撞上兩堵墻:能源和數據。
當這兩樣東西耗盡時,Scaling的路,也就到頭了。
Scaling Law
用戰術上的勤奮掩蓋戰略上的懶惰
在過去數年中,Scaling Law幾乎成為AI的「黃金法則」。
它的地位,就像AI界的「元素周期表」——
一旦被發現,整個方向都被統一了。
![]()
這一經驗規律揭示了模型性能與模型規模、數據量、計算量之間的冪律關系:當模型參數、訓練數據和算力不斷增加時,模型性能會持續提升。
然而,Scaling Law背后的邏輯卻出奇簡單:由于在分布外任務上,AI表現不佳,最直接的解決方案就是收集更多數據、訓練更大模型,直到一切任務都變得「分布內」。
換句話說,這就是AI版的「大力出奇跡」。
因此,Scaling Law提供了一個可靠但低效的未來。
![]()
其實,劉子鳴的立場非常明確:
如果大家完全忽略能源與數據的限制,我毫不懷疑僅靠Scaling Law最終能夠實現通用人工智能。
我從未懷疑過這一點。
如果算力無限、數據無窮,大模型原則上可以覆蓋一切。
![]()
問題恰恰在于——現實世界并不是這樣。算力有限。能源有限。高質量數據,同樣有限。
于是,真正的問題浮出水面:
有沒有一條更明智的路,在資源有限的前提下,走向AGI?
資源有限
AGI需要「智能」而非「蠻力」
劉子鳴認為有:
答案不是更大的規模,而是更多的結構。
注意:這里是結構而非符號。他有意區分了這一點。
為什么我們需要的是結構?
因為結構能帶來壓縮。而壓縮正是智能的核心。正如Ilya曾經說過的那樣:壓縮就是智能(Compression is intelligence)。
舉個簡單例子。
如果允許分形結構,那么雪花的內在復雜度極低——它是高度可壓縮的。如果不允許結構、必須逐點描述它,那么雪花的表觀復雜度幾乎是無限的。
![]()
今天的Scaling Law更像后者:用越來越多的參數和計算去擬合巨大的表觀復雜度。
一個更深的例子來自天體力學。
對行星運動建模最直接的方法,是把行星在每一個時刻的位置都存下來——一個成本極其高昂的查找表。
隨后,發生了兩次關鍵的「結構化壓縮」:
開普勒意識到行星軌道是橢圓,從而第一次實現了真正的壓縮:他找到了一個貫穿時間的全局結構,復雜度立刻大幅下降。
牛頓則發現了局部的動力學定律,實現了第二次壓縮:用更少的參數解釋了更多現象。
那么,現代AI大致站在什么位置?
Keyon Vafa和合作者的研究表明,Transformer并不會自然地學出牛頓式的世界模型。
![]()
這意味著:正確的物理結構并不會因為你把模型做得更大,就可靠地自動涌現。
如果我們把「結構終將涌現」當作默認信條,很多時候就像原始人的祈禱。
區別只是:我們的祭品(數據與算力)確實在一定程度上有效。也正因為它有效,我們反而缺少動力去追問更科學、更明智的路徑。
自然科學之所以成立,是因為結構是顯式的,而且無處不在。沒有結構,就不會有自然科學。
沿著「第谷–開普勒–牛頓」的軌跡做類比:
在很大程度上,今天的AI仍像「第谷時代」:實驗驅動、數據驅動;
只是剛剛進入「開普勒式階段」:出現了像Scaling Law這樣的經驗規律。
![]()
但問題在于:我們把經驗規律變成了信條。
大家選擇了激進Scaling、圍繞經驗規律做工程化系統,而不是把它們當作通往更深理論的線索——一種屬于AI的「牛頓力學」。
從思想層面看,這并不是進步,反而可能是一種退步。
到這里你可能會反問:這不就是「批評Scaling、批評基礎模型」的老生常談嗎?劉子鳴不就是年輕版Yann LeCun嗎?
不。并非如此。
劉子鳴選擇了另一條路。
另一條路,
在聯結主義x符號主義之外
劉子鳴的立場更中性:按照「無免費午餐」(No Free Lunch)的視角,每一種模型都有適用范圍和局限。
直白一點:所有模型都是錯的,但有些是有用的。
關鍵問題不在「用不用基礎模型」,而在我們是否真正理解:不同任務,具有本質不同的結構與可壓縮性。
從「壓縮」的角度,并借鑒自然科學的類比,任務大致可分為三類:
類物理任務:高度可壓縮,符號公式可能從連續數據中涌現出來。
類化學任務:可壓縮性強、結構清晰,但符號往往不完整或只能近似。
類生物任務:只能弱壓縮,更多依賴經驗規律與統計歸納。
純噪聲當然存在,但任何模型都處理不了,可先忽略。
一個理想的智能系統,應該能判斷自己面對的是哪一類任務,并施加恰到好處的壓縮。
![]()
符號模型擅長類物理任務,卻在類化學與類生物任務上失敗。
聯結主義模型因其通用性,原則上可處理所有類型——但恰恰因其缺乏結構,在類物理與類化學問題上極其低效。
這便是他主張結構主義的原因。
結構主義既不是Thinking Machines青睞的聯結主義,也不看好一度洛陽紙貴的符號主義,也不是兩者簡單雜交出的「雙頭怪獸」。
![]()
符號主義從類物理任務出發,聯結主義從類生物任務出發。
一個自然而然的問題是:我們能否從類化學任務出發構建AI?
結構主義的設計初衷,正是要捕捉這一中間狀態。
符號是一種更嚴格、更離散的結構,而經驗規律是一種更松散的結構。
我們期望符號能從結構中涌現;也期望經驗規律能通過從數據中松弛結構而習得。
在監督學習里,這種區分已經相當具體。
線性回歸是符號主義的。
多層感知機(MLP)是聯結主義的。
方程學習器(EQL,equation learner)則是神經–符號混合。
相比之下,Kolmogorov–Arnold Networks(KANs)是結構主義的。
KAN背后的表示理論可以緊湊地捕捉多變量函數的組合結構。因此,KAN既不像MLP那樣無結構,也不像線性模型那樣過度約束,也不會因為神經–符號不匹配而充滿不穩定性。
結構主義不是一種妥協。它是一種統一。
![]()
但真實世界遠不止監督學習。
我們不只是從數據里學習結構,我們還會比較結構、復用結構,并構建「結構的結構」。
這就是抽象。
![]()
范疇論研究「結構的結構」
劉子鳴把話說得更明確:抽象可能是AGI最核心的瓶頸之一。
這一點也與Rich Sutton在OaK架構里對抽象的強調相呼應:
持續學習,本質是在跨任務保留抽象不變性;
適應性與流動性(例如ARC-AGI語境)體現為在上下文中即時做抽象;
許多ARC-AGI任務,本質上是「直觀物理」的簡化形式,而直觀物理恰恰是世界模型的關鍵組成。
![]()
未來之路
如何讓抽象發生?
劉子鳴坦言:還沒有完整解法。
劉子鳴有一個洞見是:抽象來自對結構的比較與復用。
注意力(Attention)當然也是一種比較機制,但它隱含了兩個強假設:
結構可以嵌入向量空間;
相似性可以用點積來度量。
現實中,很多結構并不與向量空間同構。
這種表示方式之所以被廣泛采用,很大程度上不是因為它在認知上或科學上更正確,而是因為它更適配GPU計算范式。
他認為,當下AI的發展其實「暗地里」已經很結構主義,但更多是外在意義上的結構主義:
推理過程是結構化的;
AI智能體框架是結構化的;
但底層模型依然是聯結主義的。
這帶來一個直接后果:系統高度依賴Chain-of-Thought(思維鏈,CoT)數據,通過顯式監督把結構「貼」在模型外面。
他更愿意押注:下一波關鍵進展會來自內在結構主義——
把通用結構注入模型,或讓結構在模型內部自行涌現,而不是持續依賴顯式CoT監督來「外置結構」。
從應用角度看,我們真正需要的通用人工智能,必須同時滿足:
可適應
可泛化
具備物理基礎
結構對這四點都至關重要。因為物理世界本身就是高度結構化、也高度可壓縮的:可組合性、稀疏性和時間局部性。
如果這些結構無法在模型里出現,「世界模型」就仍遙不可及。
總結一下:結構主義AI代表了一條與Scaling根本不同的道路。
它可能更難,但也更有趣、機會更多,而且長遠看來看更有前途。
到了2026年,是時候把籌碼押在不一樣的方向上并身體力行:
結構,而不是規模。
參考資料:
https://kindxiaoming.github.io/blog/2025/structuralism-ai/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.