![]()
來源:機器之心
大家新年快樂!今天和大家分享 KAN 作者劉子鳴最新發布的一篇博客。
過去的一年,我們見證了 Scaling Laws 持續發力,模型能力不斷刷新天花板。雖然 AI 社區從未停止對可解釋性的探索,但在工程進展如此迅猛的當下,我們對模型內部機制的理解,似乎總是慢了半拍。
劉子鳴在博客中,借用科學史提出了一個發人深省的觀點:如果參照物理學的發展史,今天的 AI 可能還遠未在這個時代的「牛頓力學」時刻,而是仍處于「第谷(Tycho)時代」,一個擁有大量觀測和實驗,卻尚未來得及系統性總結規律的早期階段。
![]()
我們擁有海量的實驗數據和強大的模型,卻缺乏對底層現象的系統性梳理。他指出,為了追求短期性能指標,AI 領域跳過了「理解」這一關鍵步驟,這實際上是在背負高昂的「認知債務」。
更為矛盾的是,當前的學術發表機制往往偏愛「完美的故事」或「巨大的性能提升」,導致大量像「第谷的觀測記錄」那樣碎片化但極具價值的「AI 現象學」工作被忽視。
為此,劉子鳴呼吁建立一種「平易近人的現象學」:不以即時應用為導向,回歸到用 Toy Model(玩具模型)進行可控的、多視角的假設驅動探索。他宣布將身體力行,通過博客分享「半成品」的實驗筆記,并計劃在清華大學開設相關課程,邀請社區共同償還這筆認知債務,推動 AI 從「煉丹」走向真正的物理學。
明星數據科學家 Jeremy Howard 也在評論區表示贊同,長期以來「實驗性觀察」幾乎無法在 AI/ML 期刊和會議上發表,這種現象無疑阻礙了該領域的發展。
![]()
AI 物理學需要思維模式的轉變
大家都知道,物理學領域主要沿著「第谷 — 開普勒 — 牛頓」這一科研范式發展,而如果借用這一類比來理解 AI 的發展階段,那么今天的 AI 研究很大程度上仍然停留在「第谷階段」,即以「實驗與觀察」為主的階段。
但即便是在「觀察」這一層面,業界目前所做的事情也極其原始:大多數人關注的仍然只是少數幾個基于性能的指標調優。這背后,源于物理學與 AI 在目標上的根本差異。
物理學的目標是通過「理解世界來改變世界」,其中「理解」本身占據著核心地位。因此,這個領域對那些能夠提供洞見即便(暫時)沒有實際用途的工作,也具有極高的容忍度。
相比之下,AI 的目標則是「直接改變世界」,近些年 Scaling Laws 的盛行使得整個領域得以跳過「理解」這一階段,直接進入對 AI 本身進行改造和強化。但這似乎構成了一種認知債務(cognitive debt)—— 這種債務遲早是要償還的,如果不是現在,那也會是在未來。
因此,現在就談論 AI 的「牛頓力學」階段還為時過早,即使是在基礎現象學層面,仍處于非常早期的階段。AI 的現象學可以是相對宏觀的 —— 連接不同的模型,例如涌現與 Scaling laws,也可以更微觀 —— 聚焦于訓練動態,例如 Grokking、雙下降(double descent)或穩定性邊緣(edge of stability)……
我們首先需要發現更多現象,只有這樣,我們才會有動力去建立模型,并發展理論來研究它們。
為什么 AI 現象學如此難以發展?
為什么 AI 現象學的發展如此困難?一個原因是論文發表文化在其中扮演了重要角色。
總結來看,當前可發表的工作往往只有兩類:在性能上有顯著提升的工作(在這種情況下,現象學似乎「沒有必要」),或者擁有一個足夠吸引人的「故事」。
而所謂「好故事」,通常有兩種形式:
普適性(Universality):該現象必須在大量不同設定中都能被驗證,穩定性邊緣(edge of stability)就是一個例子。但這類工作對投稿的要求極高。
驚奇性(Surprise):現象必須足夠反直覺、足夠出人意料。這種情況非常罕見,也高度不可預測,grokking 就是代表性案例。
這也解釋了為什么 AI 領域中被反復引用的現象學例子如此之少。在「AI 物理學」仍處于如此早期階段的情況下,卻對現象學提出了過高的期望,反而抑制了它的發展。
朱澤園所寫的《大語言模型的物理學》是一項非常出色的工作,但從我與朋友們的交流來看,大家普遍的感受是:這很有意思,但不知道如果自己想進入這個領域,該從哪里開始。
同樣的情況也出現在我們自己的工作《疊加導致穩健的神經縮放》《 Superposition Leads to Robust Neural Scaling》中。很多人好奇這樣的「故事」是如何被構思出來的。
我無法代表整個 AI 物理學領域的整個研究群體,但從個人經驗來看,我花費了大量時間去「包裝」一個故事 —— 這既「浪費」自己的時間,也在無形中拉大了與讀者之間的距離。
更重要的是,能夠被包裝成故事的現象極其稀少。許多我個人覺得非常有趣的現象,因為無法整理成一篇論文,最終只能被隨意丟棄。
邁向更易理解的現象學
因此,我倡導一種更易于接近、更具包容性的現象學研究方式。這種方法將比當前的 AI 現象學更寬容,也更接近物理學中現象學的精神。它應當:
不以即時可用性為導向;
不被要求包裝成一個完整的「故事」;
不限制分析工具,只要它們在描述、預測上是有效的。
同時,它將強調:
可控性:使用玩具模型來簡化和抽象現實場景,使得結果能夠用最少的資源復現(理想情況下,一臺筆記本加一個 CPU 就足夠了)。
多視角刻畫:從盡可能多的角度和指標來描述研究對象 —— 就像「盲人摸象」。
好奇心或假設驅動的探索:現象應當能夠帶來新的洞見,定性結果已經足夠,定量結果當然更好。
這種「可接近的現象學」也許不容易發表在主流 AI 會議上,但它對于社區建設具有極高價值。
比如,研究者 A 發現了一個現象(關鍵在于把它公開出來),B 將其與自己此前觀察到的現象聯系起來,C 將二者統一,D 進行理論分析,E 再將這些洞見轉化為算法改進。最終,這五個人可以一起寫一篇論文。
但在傳統模式下,A 可能只會在一個很小的圈子里合作。就我對 AI 物理學社區的理解,目前這個領域仍然高度碎片化,往往按應用領域分割。例如,做視覺的研究者通常只與其他視覺研究者合作,他們的直覺也主要由視覺任務塑造。
那我們能夠做什么
就我個人的經驗來看,我是先從寫博客開始的,開始以博客文章的形式,分享我們自己的「AI 現象學」研究。讀者應當抱有這樣的預期:這是同事在分享階段性結果 —— 工作可能并不完整,但原始數據和思考過程會被透明地呈現出來。
目標有三點:
一是迫使自己記錄觀察結果:正如前面所說,無法寫成論文的現象往往會被丟棄。這個嘗試部分受到蘇劍林博客的啟發 —— 他的博客更偏向數學原理,而我的將更強調實驗觀察(現象學)、「物理直覺」,以及在必要時提供一些(半)定量分析,為未來的數學研究提供問題和直覺。
二是吸引志同道合的研究者與學生:如果你對這些問題感興趣,歡迎聯系我,一起探索。
課程準備:我計劃在清華大學開設一門《Physics of AI》課程。這些博客文章(及配套代碼)未來可能會成為課程材料。
那么對于你來說,該如何開始:
一是找到你真正關心的問題:例如,研究擴散模型損失函數的參數化方式,或復現已有現象(如 Grokking)。
定義一個簡單的玩具模型:例如,李天宏與何愷明的 JIT 論文使用一個二維螺旋數據集來研究損失參數化。而理解 grokking 的最好方式就是自己親手訓練一個模加任務。
致力于徹底理解這個玩具模型:這是最困難的一步。由于發表文化的影響,我們往往急于從玩具模型跳到更真實的模型。一旦玩具模型給出了「正向結果」,我們就會立刻離開。這是一種監督式使用玩具模型。而我認為,玩具模型在無監督使用時,才能真正展現其力量。既然是玩具,就應當以孩童般的好奇心去對待它,反復把玩,從所有可能的角度理解它(就像盲人摸象)。
當然,我無法保證這些洞見會立刻轉化為性能提升,但我相信:如果整個領域持續積累這樣的理解,最終一定會發生一次類似滲流(percolation)的相變。
https://x.com/ZimingLiu11/status/2006810684546494522
https://kindxiaoming.github.io/blog/2025/physics-of-ai/
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.