網易首頁 > 網易號 > 正文申請入駐

KAN作者劉子鳴：AI還沒等到它的「牛頓」

2026-01-02 16:38:48　來源: 人工智能學家

北京舉報

分享至

來源：機器之心

大家新年快樂！今天和大家分享 KAN 作者劉子鳴最新發布的一篇博客。

過去的一年，我們見證了 Scaling Laws 持續發力，模型能力不斷刷新天花板。雖然 AI 社區從未停止對可解釋性的探索，但在工程進展如此迅猛的當下，我們對模型內部機制的理解，似乎總是慢了半拍。

劉子鳴在博客中，借用科學史提出了一個發人深省的觀點：如果參照物理學的發展史，今天的 AI 可能還遠未在這個時代的「牛頓力學」時刻，而是仍處于「第谷（Tycho）時代」，一個擁有大量觀測和實驗，卻尚未來得及系統性總結規律的早期階段。

我們擁有海量的實驗數據和強大的模型，卻缺乏對底層現象的系統性梳理。他指出，為了追求短期性能指標，AI 領域跳過了「理解」這一關鍵步驟，這實際上是在背負高昂的「認知債務」。

更為矛盾的是，當前的學術發表機制往往偏愛「完美的故事」或「巨大的性能提升」，導致大量像「第谷的觀測記錄」那樣碎片化但極具價值的「AI 現象學」工作被忽視。

為此，劉子鳴呼吁建立一種「平易近人的現象學」：不以即時應用為導向，回歸到用 Toy Model（玩具模型）進行可控的、多視角的假設驅動探索。他宣布將身體力行，通過博客分享「半成品」的實驗筆記，并計劃在清華大學開設相關課程，邀請社區共同償還這筆認知債務，推動 AI 從「煉丹」走向真正的物理學。

明星數據科學家 Jeremy Howard 也在評論區表示贊同，長期以來「實驗性觀察」幾乎無法在 AI/ML 期刊和會議上發表，這種現象無疑阻礙了該領域的發展。

AI 物理學需要思維模式的轉變

大家都知道，物理學領域主要沿著「第谷 — 開普勒 — 牛頓」這一科研范式發展，而如果借用這一類比來理解 AI 的發展階段，那么今天的 AI 研究很大程度上仍然停留在「第谷階段」，即以「實驗與觀察」為主的階段。

但即便是在「觀察」這一層面，業界目前所做的事情也極其原始：大多數人關注的仍然只是少數幾個基于性能的指標調優。這背后，源于物理學與 AI 在目標上的根本差異。

物理學的目標是通過「理解世界來改變世界」，其中「理解」本身占據著核心地位。因此，這個領域對那些能夠提供洞見即便（暫時）沒有實際用途的工作，也具有極高的容忍度。

相比之下，AI 的目標則是「直接改變世界」，近些年 Scaling Laws 的盛行使得整個領域得以跳過「理解」這一階段，直接進入對 AI 本身進行改造和強化。但這似乎構成了一種認知債務（cognitive debt）—— 這種債務遲早是要償還的，如果不是現在，那也會是在未來。

因此，現在就談論 AI 的「牛頓力學」階段還為時過早，即使是在基礎現象學層面，仍處于非常早期的階段。AI 的現象學可以是相對宏觀的 —— 連接不同的模型，例如涌現與 Scaling laws，也可以更微觀 —— 聚焦于訓練動態，例如 Grokking、雙下降（double descent）或穩定性邊緣（edge of stability）……

我們首先需要發現更多現象，只有這樣，我們才會有動力去建立模型，并發展理論來研究它們。

為什么 AI 現象學如此難以發展？

為什么 AI 現象學的發展如此困難？一個原因是論文發表文化在其中扮演了重要角色。

總結來看，當前可發表的工作往往只有兩類：在性能上有顯著提升的工作（在這種情況下，現象學似乎「沒有必要」），或者擁有一個足夠吸引人的「故事」。

而所謂「好故事」，通常有兩種形式：

普適性（Universality）：該現象必須在大量不同設定中都能被驗證，穩定性邊緣（edge of stability）就是一個例子。但這類工作對投稿的要求極高。
驚奇性（Surprise）：現象必須足夠反直覺、足夠出人意料。這種情況非常罕見，也高度不可預測，grokking 就是代表性案例。

這也解釋了為什么 AI 領域中被反復引用的現象學例子如此之少。在「AI 物理學」仍處于如此早期階段的情況下，卻對現象學提出了過高的期望，反而抑制了它的發展。

朱澤園所寫的《大語言模型的物理學》是一項非常出色的工作，但從我與朋友們的交流來看，大家普遍的感受是：這很有意思，但不知道如果自己想進入這個領域，該從哪里開始。

同樣的情況也出現在我們自己的工作《疊加導致穩健的神經縮放》《 Superposition Leads to Robust Neural Scaling》中。很多人好奇這樣的「故事」是如何被構思出來的。

我無法代表整個 AI 物理學領域的整個研究群體，但從個人經驗來看，我花費了大量時間去「包裝」一個故事 —— 這既「浪費」自己的時間，也在無形中拉大了與讀者之間的距離。

更重要的是，能夠被包裝成故事的現象極其稀少。許多我個人覺得非常有趣的現象，因為無法整理成一篇論文，最終只能被隨意丟棄。

邁向更易理解的現象學

因此，我倡導一種更易于接近、更具包容性的現象學研究方式。這種方法將比當前的 AI 現象學更寬容，也更接近物理學中現象學的精神。它應當：

不以即時可用性為導向；
不被要求包裝成一個完整的「故事」；
不限制分析工具，只要它們在描述、預測上是有效的。

同時，它將強調：

可控性：使用玩具模型來簡化和抽象現實場景，使得結果能夠用最少的資源復現（理想情況下，一臺筆記本加一個 CPU 就足夠了）。
多視角刻畫：從盡可能多的角度和指標來描述研究對象 —— 就像「盲人摸象」。
好奇心或假設驅動的探索：現象應當能夠帶來新的洞見，定性結果已經足夠，定量結果當然更好。

這種「可接近的現象學」也許不容易發表在主流 AI 會議上，但它對于社區建設具有極高價值。

比如，研究者 A 發現了一個現象（關鍵在于把它公開出來），B 將其與自己此前觀察到的現象聯系起來，C 將二者統一，D 進行理論分析，E 再將這些洞見轉化為算法改進。最終，這五個人可以一起寫一篇論文。

但在傳統模式下，A 可能只會在一個很小的圈子里合作。就我對 AI 物理學社區的理解，目前這個領域仍然高度碎片化，往往按應用領域分割。例如，做視覺的研究者通常只與其他視覺研究者合作，他們的直覺也主要由視覺任務塑造。

那我們能夠做什么

就我個人的經驗來看，我是先從寫博客開始的，開始以博客文章的形式，分享我們自己的「AI 現象學」研究。讀者應當抱有這樣的預期：這是同事在分享階段性結果 —— 工作可能并不完整，但原始數據和思考過程會被透明地呈現出來。

目標有三點：

一是迫使自己記錄觀察結果：正如前面所說，無法寫成論文的現象往往會被丟棄。這個嘗試部分受到蘇劍林博客的啟發 —— 他的博客更偏向數學原理，而我的將更強調實驗觀察（現象學）、「物理直覺」，以及在必要時提供一些（半）定量分析，為未來的數學研究提供問題和直覺。
二是吸引志同道合的研究者與學生：如果你對這些問題感興趣，歡迎聯系我，一起探索。
課程準備：我計劃在清華大學開設一門《Physics of AI》課程。這些博客文章（及配套代碼）未來可能會成為課程材料。

那么對于你來說，該如何開始：

一是找到你真正關心的問題：例如，研究擴散模型損失函數的參數化方式，或復現已有現象（如 Grokking）。
定義一個簡單的玩具模型：例如，李天宏與何愷明的 JIT 論文使用一個二維螺旋數據集來研究損失參數化。而理解 grokking 的最好方式就是自己親手訓練一個模加任務。
致力于徹底理解這個玩具模型：這是最困難的一步。由于發表文化的影響，我們往往急于從玩具模型跳到更真實的模型。一旦玩具模型給出了「正向結果」，我們就會立刻離開。這是一種監督式使用玩具模型。而我認為，玩具模型在無監督使用時，才能真正展現其力量。既然是玩具，就應當以孩童般的好奇心去對待它，反復把玩，從所有可能的角度理解它（就像盲人摸象）。

當然，我無法保證這些洞見會立刻轉化為性能提升，但我相信：如果整個領域持續積累這樣的理解，最終一定會發生一次類似滲流（percolation）的相變。

https://x.com/ZimingLiu11/status/2006810684546494522

https://kindxiaoming.github.io/blog/2025/physics-of-ai/

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.