![]()
來源:智源社區
當 AI 領域還在為 “更大模型、更多數據” 的 Scaling 洪流歡呼時,劉子鳴卻走出了一條截然不同的研究道路 —— 把神經網絡當作物理系統來拆解,用物理學的思維破解 AI 的底層邏輯。這位先后扎根北大物理系、MIT 物理系,如今加盟清華人工智能學院擔任教職的科學家,用從 AI for Physics 到 Physics of AI 的學術轉向,為通用人工智能(AGI)探索提供了全新的 “科學路徑”。
在他的研究版圖里,沒有盲目追逐指標的 “刷榜”,只有對 AI 本質的執著追問:如何讓神經網絡跳出 “黑箱”,高效表示并提取符號規律?模型訓練中突然爆發的 “頓悟現象”,背后藏著怎樣的幾何演化邏輯?生成模型為何只能依賴擴散過程,電場、波動等物理現象能否成為新的解題思路?
圍繞這些問題,劉子鳴交出了令人矚目的答卷:以 Kolmogorov–Arnold 定理為基礎構建的 KAN 網絡,不僅打破了傳統 MLP 的壟斷,在科學計算場景的可解釋性與高精度優勢上實現突破;對 “頓悟現象” 的物理視角解讀,從表征幾何演化與模型表達能力壓縮兩個維度,揭開了 AI “突然開竅” 的神秘面紗;而對物理現象驅動生成模型的探索,更是為領域劃出了全新的研究邊界。
更難得的是,他始終帶著物理學家的清醒與務實:既承認 Scaling 路徑的短期價值,更堅持 Physics of AI 的長期意義 —— 通過觀察、實驗與歸納,為 AI 建立一套類似物理學的 “現象 - 規律 - 理論” 體系。
除了技術挑戰,劉子鳴更尖銳地指出了當前學術文化的困境:“現在的發表文化并不鼓勵做Physics of AI這類研究。” 那些細微、瑣碎但可能至關重要的觀察,往往因難以包裝成一篇完整論文而被拋棄。為此,他不僅堅持每天通過博客分享實驗中的 “小洞察”,更呼吁學界打破發表文化的束縛,用更多細碎卻扎實的觀察,拼湊出 AI 系統的完整圖景。
這場不賭規模、只探本質的研究之旅,究竟藏著怎樣的方法論?Physics of AI 又將如何為 AGI 搭建起科學的階梯?在這篇深度專訪中,劉子鳴將帶你走進 AI 研究的 “物理實驗室”,看清技術熱潮背后的底層邏輯。
采訪:李夢佳
要點速覽
關于學術轉向:博士階段從 AI for Physics 轉向 Physics of AI,“把 AI 當作一個物理系統來研究”,最終目標是攻克通用人工智能。
關于核心成果:提出 KAN 網絡,“不用 MLP 底層依賴的萬能逼近定理,而是換 KA 表示定理構建神經網絡”,在符號公式場景與高精度需求中可解釋性、靈活性遠超 MLP;破解 “頓悟現象”,發現其源于表征幾何演化成環的形態,或是模型表達能力壓縮后找到數據背后簡單算法。
關于生成模型探索:質疑 “生成模型一定要用擴散過程”,嘗試用電場等物理現象構建模型,發現 “部分物理方程經合適正則化能成為合格生成模型”。
關于研究方法論:物理背景的核心幫助是 “教會我如何抽象和簡化問題”,注重實驗、觀察與玩具模型,在理論與實踐間找到平衡,不盲從 “規模崇拜”。
關于學術生態:直言當前發表文化 “不鼓勵 Physics of AI 這類細碎研究”,導致 “小洞察被浪費”,主張通過博客、開放論壇分享觀察,凝聚社區合力。
關于 AGI 路徑:提出三條可能路徑,力推 Physics of AI 路線,堅信 “神經網絡底層機制可被數學明確定義,只要定義合適層次,就能建立 AI 理論”,是通往 AGI 的科學路徑。
智源專訪欄目意在展現行業頂尖技術研究者和創業者的研究經歷和故事,記錄技術世界的嬗變,激發當代AI從業者的創新思維,啟迪認知、關注突破性進展,為行業注入靈感光芒。本次專訪為總第34期。
簡介:劉子鳴,從事AI與基礎科學交叉研究的青年學者,他將于2026年秋季加入清華大學人工智能學院,擔任長聘軌助理教授。現為斯坦福大學與Enigma博士后研究員,合作導師為Andreas Tolias教授。他本科畢業于北京大學物理學專業,后于麻省理工學院(MIT)獲得博士學位,博士階段導師為著名物理學家Max Tegmark教授,期間曾在微軟亞洲研究院實習。其研究圍繞三條核心主線展開:以科學方法理解人工智能、以基礎科學推動新一代人工智能范式,以及利用人工智能加速科學發現,重點聚焦網絡涌現現象、可解釋模型與AI科學家的構建。他多次在頂尖的物理期刊和AI會議上發表論文,并擔任IEEE、Physical Review、NeurIPS、ICLR等的審稿人。同時,還共同組織了NeurIPS 2021和ICML 2022的AI4Science workshop。
01
從AI for Physics到Physics of AI——一位科學家的學術轉向
“在方法論層面,物理教會我的如何抽象和簡化問題。"
Q1:和我們分享一下您的學術脈絡,以及相關的代表作?
劉子鳴:我的本科就讀于北大物理系,博士階段在 MIT 物理系。博士前兩年專注于 AI for Physics 方向,從第三年起研究重心轉向 AI 本身,把 AI 當作一個物理系統來研究,進入 Physics of AI 的領域。我在斯坦福的研究方向和 MIT 時期基本一致。到清華后,我會繼續沿著 Physics of AI 的框架深入,最終目標是攻克通用人工智能。
代表作中最核心的是KAN(Kolmogorov–Arnold Networks),核心想法是取代傳統的MLP,而MLP是當前 AI 模型中非常常用的基礎模塊。
![]()
圖注:《KAN: Kolmogorov-Arnold Networks》論文的摘要
我們核心關注兩個問題:一是如何讓神經網絡更高效地表示符號公式,二是當用神經網絡擬合數據之后,如何提取背后的符號規律。傳統黑箱模型難以實現這一點,這也是我們開展研究的重要動因。
我們發現,符號公式的結構與KA 表示定理的形式非常接近。我們自然產生一個想法:能不能不用MLP底層依賴的萬能逼近定理,而是換一個底層數學基礎,也就是用 KA 表示定理,構建另一套具備萬能逼近能力的神經網絡?基于這個思路,我們搭建出了 KAN。
![]()
圖注:KAN 的概念與結構示意圖
搭建出 KAN 之后,我們開始研究它的性質。根據 “沒有免費的午餐定理”,沒有任何一個模型能在所有場景下都優于其他模型,所以我們重點探究了 KAN 在哪些場景下會比 MLP 更有優勢。
優勢主要有兩方面:一是含大量符號公式的科學任務場景,可解釋性遠超MLP;二是高精度需求場景,KAN 可學習的基礎函數相比傳統固定的基礎函數更靈活。在一些需要高精度的科學計算問題中,我們可以動態調整 KAN 的精度,而 MLP 很多時候需要從頭訓練一個更大的模型,這就存在明顯問題。
第二項重要工作是研究“頓悟現象”。該現象指模型訓練中,數據集分為訓練集與測試集,模型易快速過擬合于訓練集,導致測試集表現不佳,常被判定為過擬合而放棄訓練。2021 年底 OpenAI 團隊發現,若對模型進行足夠長時間的訓練,其訓練集表現會長期處于較差狀態,卻會在某個節點突然提升,這一現象就叫 “頓悟現象”。
![]()
圖注:NeurIPS 2023論文《The Clock and the Pizza》摘要頁:神經網絡的 “算法頓悟” 多樣性
這與人類的學習體驗高度相似,例如學習數學時,單純記憶題目未必能取得理想的考試成績,而持續練習、不斷思考后,往往會在某個節點產生知識融會貫通的頓悟感,此時便能在考試中表現優異。這一現象頗具研究價值,我們試圖探究神經網絡產生頓悟現象的原因。此外,頓悟現象存在明顯弊端,其效果提升的節點難以預測,有可能模型效果始終無法實現突破。為了理解這個現象,我們用了類似物理中的唯象方法,觀察模型的嵌入在幾何上是如何演化的。我們發現,嵌入從一開始的隨機初始化,會逐漸演化成一個環,就像數字在時鐘上排布的模式一樣。我們認為,出現頓悟現象的原因就在于這種表征學習。
![]()
圖注:時鐘算法(Clock Algorithm)與披薩算法(Pizza Algorithm)示意圖
這是一個研究角度,另一個角度是從模型的表達能力去理解,一個模型可能在一開始就具備很強的表達能力,這時候就會進入過擬合狀態。但在訓練過程中,因為有正則化的存在,模型的表達能力會逐漸變小。當表達能力變小時,就會強迫模型進行壓縮。這時候它沒辦法記住所有東西,就不得不找到數據背后更簡單的算法。等它找到這種更簡單的算法時,就會出現頓悟現象。
第三支線是生成模型相關的研究。現在大家常用的擴散模型對應著物理學中熱力學里的擴散現象。這就引出一個很自然的問題:為什么生成模型一定要用擴散過程?自然界里有很多其他現象,比如電荷、萬有引力,電荷之間同性相斥、異性相吸,還有波動現象等等,這些現象能不能用來做生成模型?我們圍繞這個問題做了一系列工作。
![]()
圖注:NeurIPS 2022 論文《Poisson Flow Generative Models》摘要頁:泊松流生成模型(PFGM)
首先是用電場的概念來構建生成模型。我們把數據當成正電荷,采樣過程當成負電荷,生成過程就是負電荷被正電荷吸引,當負電荷打到正電荷的流形上時,就生成了合格的樣本。這和擴散過程的物理圖像不一樣,但同樣能生成正確的分布。
之后我們又進一步追問,除了電場線的思路,其他物理過程能不能也用來構建生成模型?后面我們分析了一些物理中常見的方程,比如波動方程、亥姆霍茲方程等,發現一個很有意思的結論:這些方程如果進行合適的正則化也能成為合格的生成模型。
不過像波動方程、薛定諤方程,在我們的框架下沒辦法對應到合理的生成模型上。但我們也發現了一些不那么常規的方程,它們是可以轉化成生成模型的。所以我們一直在思考生成模型的邊界,主要是從物理角度去思考。
![]()
圖注:泊松流生成模型(PFGM)核心原理示意圖
說實話,這一支線我們現在探索得不多了。因為像 Flow Matching,還有英偉達的 EDM,他們已經從數學角度把這個框架統一得很好了。這支線在物理層面確實能帶來一些有意思的洞見,但這些洞見沒辦法形成顛覆性的影響,沒辦法讓大家覺得這些洞見能帶來算法上的提升,從而去用這些成果。
Q2:您在北大攻讀物理、在 MIT 跟隨 Max Tegmark學習基礎學科的經歷,對您個人成長及 AI 研究有哪些幫助?與計算機背景、數學背景的研究者相比,您在 AI 研究中是否有不一樣的視角?
劉子鳴:物理對我來說,在技術層面的幫助遠不如在方法論層面的幫助大。在方法論層面,物理教會我的如何抽象和簡化問題。當你面對一個巨大的復雜系統時,怎么抓住主要矛盾、怎么進行簡化和抽象?抽象之后,怎么去研究它?研究清楚了之后,又怎么把結論映射回原來你關心的那個大系統中?這是物理學家擅長的,也是物理給我帶來的核心訓練。當然,這也源于物理學中很多人秉持的還原論信念,認為可以把復雜的東西拆解開來分析。
我在 MIT 的時候,Max 從 2010 年代初就開始關注 AI 了。所以雖然我和 Max 隸屬于物理系,但我們一開始做的就是 AI 相關的研究,只不過前兩年側重的是 AI for Physics,也就是用 AI 去解決物理問題。這是很自然的切入角度:物理學大體上還是基于符號的,而符號系統的表達能力是有限的;但當前的 AI 是連接主義的,剛好能補充物理學中表達能力不足的問題。所以我們做了一些尋找守恒量、尋找對稱性這類的工作。
![]()
圖注:劉子鳴在MIT的研究,《AI Poincaré:從軌跡中機器學習守恒律》論文摘要頁
![]()
圖注:劉子鳴在MIT的研究,《機器學習隱藏對稱性》論文摘要頁
從博士第三年開始,我們對 AI 本身更感興趣了。這也是因為當年 ChatGPT 問世,Max 對此非常擔憂,覺得它會對人類造成威脅;而我則被它深深吸引,特別想弄明白它背后的工作原理。從那時候起,我們開始像研究物理一樣去研究 AI 系統,這也成為我在AI研究領域獨特的切入點。
當前多數 AI 研究者分屬兩類:計算機背景研究者以算法設計、提升數據集指標為核心目標;數學背景研究者則傾向于從第一性原理展開推導。而物理作為實驗驅動的學科,讓物理背景的我高度重視實驗、觀察與玩具模型的構建,同時培養了適度的理論精神。
我覺得物理思維就是這樣:建模能夠復現定性趨勢即可(能定量當然最好,但也不是始終必要),比數學更追求直觀,較少糾結邏輯的完全嚴格性;與計算機文化中唯指標論的取向也存在明顯差異。物理賦予的這種思維模式與研究方法論,讓我得以在理論研究與實踐應用間找到良好平衡點,這也是物理學習帶給我的最大助益。
另外,物理學習不僅為我奠定了扎實的數學基礎,還培養了多項核心能力:既提升了對問題的直觀感知能力,也具備公式推導的實操能力,只是我認為推導并非所有場景下最高效的研究方式。扎實的數理基礎,也讓我在研究中能夠保持獨立判斷,不易產生盲從心理。
Q3:如何看待 AI for Science 未來的機會在哪里?當前 AI for Science 存在哪些不足,重要發展方向是什么?
劉子鳴:AI 加速科學發現屬于 AI for Science 的范疇。從個人研究背景來看,我自博士階段開始,就沒有聚焦具體的科學任務,所以不會把賭注押在某個具體任務上。比如現在很火的蛋白質折疊、尋找高溫超導材料這些方向,我承認它們具備重要研究價值,但受背景和研究機緣影響,我沒有涉足相關領域。我會把更多賭注壓在工具上,畢竟具體科學問題的探索,本質上屬于對特定高深問題的深耕。
我會把賭注壓在類似編程智能體這樣的工具上,它能幫助科學家更快地處理日常事務。科研中存在大量可以自動化的工作,像我們經常要理解一些高維數據,面對這類數據,要嘗試不同的降維方法,然后用肉眼去盯著看里面有什么模式。
一方面這個過程很有趣,因為你在探索、擺弄這些數據,從不同角度去觀察它;但另一方面,我又覺得過程比較低效,有時候還挺痛苦,畢竟要不斷嘗試不同的方法。這些嘗試其實是可以自動化的,只是要么你樂在其中,要么你也不知道該怎么更好地把它自動化。
其實很多科學研究都存在這個問題:怎么在高維數據中無監督地發現一些模式,進而生成假設?我個人認為,現在 AI for Science 做得比較好的模型,比如 DeepMind 那些相關模型,都是針對具體問題的,輸入是氨基酸序列,輸出是每個物體的空間坐標,問題定義得很清晰。但科學研究中一個很重要的部分是定義問題,你得先把問題定義清楚,才能談解決問題。現在的 AI for Science,主要是在解決那些已經被定義好的問題。
![]()
圖注:劉子鳴的研究興趣在AI和Science的交叉領域,在AI for Science 方向,未來將“通過廣泛閱讀基礎科學里的問題,識別潛在能被AI解決的大問題”。
解決已定義的問題已經是很大的突破了,但我覺得下一個更重要的問題是,AI 怎么像科學家一樣去定義問題。物理學家是怎么定義問題的呢?首先他們會做一些觀察,通過觀察現象抽象出一些觀測量,再抽象出一些物理量,然后去探究這些物理量之間的關系。
首先,觀察這件事,我覺得現在 AI 還不是很擅長。但 AI 相比人的優勢在于,人做低維可視化時,只能理解二維,最多理解三維,而 AI 可以理解更高維的東西。但 AI 的問題是它沒有動機去做壓縮,高維的東西它就放在高維空間里,永遠沒辦法通過壓縮獲得洞察。而人因為自身計算能力的局限性,會有動力去壓縮信息,壓縮之后可能雖然只能描述 90% 的現象,但只需要一兩個因素就能把這 90% 的現象描述清楚。我們所說的洞察,本質上就是這樣的。AI 怎么模仿人去定義問題,也就是做觀察、問為什么,進而定義問題,這是我覺得總體上比較感興趣、也比較重要的一個問題。
當然具體怎么做,我還沒有太想好。不過我覺得或許可以試試用現在的一些智能體框架,收集一些科學發現的案例來做微調,或許能行,但我覺得應該還有更聰明的辦法。
02“發表文化不鼓勵我們摸大象”
“Physics Of AI 社區需要的是大量的小洞察,而不是少量的大洞察。”
Q4:物理與 AI 結合需要解決的本質問題是什么?
劉子鳴:最終我們還是要落地到提出更好的模型、更好的算法上。Scaling存在一個很大的問題,是需要非常多的數據、大量的計算量,還要消耗非常多的能源。
短期內我覺得可以實現的,一是提出更好的優化器,能用更少的訓練步數達到同樣的效果;二是給算法構建更好的結構,這就回到了之前說的結構主義;或者我覺得更有前景的是,我們需要一種架構,讓結構能在里面較好地涌現出來,而不是生硬地把結構構建進去。
但不管怎么樣,只要一個網絡學到了正確的結構,它需要的數據會比不知道這個結構時少得多,這就能讓它更數據高效。總結來說,物理與AI結合的目的是追求效率:能用更少的數據學到同樣的效果,能用更少的計算或更少的能量學到更好的效果。
Q5:若走 Physics of AI 路線,技術上有哪些進階可能?需要解決哪些核心技術難題?
劉子鳴:其實我覺得技術上有難題,但最大的問題其實是文化層面的,是發表文化的問題。神經網絡是個復雜系統,如果把它比作一頭大象,我們從各個角度研究它,就相當于盲人從不同角度觸摸大象,不管從什么角度摸,都只能摸到一部分,所以我們需要從更多角度去觸摸這頭大象。
但有時候你摸的角度太過細致,比如發現了一個現象后,沒辦法發表相關研究,因為這個結論可能非常小,不具備泛化性。包括我自己和一些朋友都有過這種經歷:發現了很有意思的現象,但沒辦法把它包裝成一個能發表的故事,就只能擱置一邊,繼續往下做其他研究,這個發現可能永遠不會跟別人分享。我覺得這是一種思維的浪費,你探索出了一些東西,卻因為當前的發表文化無法發表,就把它丟到垃圾桶里去了,這是很大的浪費。
![]()
圖注:劉子鳴指出,當前的發表文化不鼓勵我們“摸大象”,很多有意思的現象無法發表只能被浪費。
我一直在思考怎么解決這個問題,或許可以構建一個類似 Less Wrong 那樣的論壇平臺,讓大家能在上面分享自己的觀察,然后不同的人展開更多討論。我覺得這樣能讓 Physics of AI 領域發展得更快。但現在大家更多還是面臨發表壓力,當前的發表文化并不鼓勵做 Physics of AI 這類研究,這類研究可能很細碎,但很多重要的事情,最終可能就取決于這些細節。可現在的發展文化不鼓勵這類研究,這是我在文化層面最擔憂的一點。
![]()
圖注:明星數據科學家 Jeremy Howard 在評論區對劉子鳴的觀點表示贊同。
技術上確實有一些難點。首先是我們該觀察什么樣的現象,大家都很難想象自己沒見過的東西。現在我們已經觀察到了一些熟知的現象,比如我剛才說的頓悟現象、信息瓶頸現象,但我覺得可能存在上千種現象,我們目前發現的還不到十種。就像那只大象,它有哪些側面、我們該怎么去觸摸這些側面,這些都還不是特別清楚。
![]()
圖注:Physics of AI 的研究框架示意圖
不過我覺得,隨著我們做更多的玩具實驗,比如測試一個玩具模型各個方面的性質,在不同層次上對它進行測量,通過測量不同的東西,或許就能觀察到不同層次、不同觀測量下展現出的各種現象。接下來還要搞清楚這些現象之間的聯系,以及這些現象和工程上大家關心的模型最終表現之間的聯系,把整個知識網絡構建起來。
但現在大家做的研究,大多只關心模型最后一層的表現,中間的這些知識節點都沒有構建起來。這個領域的難點或者說核心,就是我們怎么去構建這些中間的知識節點,以及把這些知識節點串聯起來。
Q6:如何改變當前的發表文化,從學術文化層面推廣 Physics of AI?
劉子鳴:我已經開始寫博客了,大概從今年 1 月 1 號開始,到今天每天都在持續更新。對我來說,每天花兩個小時,通過在玩具模型上做實驗,就能學到一些之前不知道的東西。這些新發現由于太細微還是沒辦法發表,而且我也沒有把它們完全解釋清楚,但我覺得觀察現象本身非常重要。所以我會耐心做一些在別人看來可能比較瑣碎的實驗,只要觀察到的現象能幫助我構建知識體系,我就會記錄下來,發表在我的個人網站上。
博客是公開的,它記錄了我個人的探索脈絡。我覺得做研究需要親自動手實踐,還要做一些開放研究,不能說做什么都立志最后要寫成一篇文章,這是一種需要改變的思維模式。
當然,大家確實都有發表壓力,我自己也不例外。所以現階段,我只能呼吁更多人去做開放研究,用愛發電。至于后續,等碰到合適的機會,其實也可以嘗試開一個論壇,呼吁學校在考核時把這類分享也當作成果;或者創辦會議、期刊之類的,不過這些都是后話了。
![]()
圖注:劉子鳴從2026年開始在他的博客中踐行他“小洞察”的理念,《Sparse attention 4 -- previous token head》是他最新一篇博客,持續關注稀疏注意力的方向。
我目前認為博客是種比較高效的形式,迭代速度非常快,而且門檻沒有論文那么高,能讓更多人參與進來,借助群眾的力量。這也是我的一個理念:Physics Of AI社區需要的是大量的小洞察,而不是少量的大洞察。至少一開始是這樣,小洞察可能會慢慢積累成大洞察,但首先得收集大量小洞察,才能水滴石穿。
不過現在就算是 Physics of AI 領域,比如朱澤園的 Physics of LM,還有 Greg Yang、田淵棟的 Math for AI,這些工作都寫得很長,做得非常扎實,給人一種門檻很高的感覺,讓大家覺得自己可能做不來。我想通過我的博客傳遞一個理念:Physics of AI 的研究沒有那么高的門檻,不需要花一年時間去做一項 Physics of AI 的工作,你可以每天花幾個小時,然后和社區里的其他人分享你的小觀察。
這些小觀察現在還是出于好奇心驅動,但最終,當我們積累了足夠多的小觀察,到了某個節點后,我們就能頓悟,明白這些小觀察之間是怎么聯系起來的。到那個時候,我認為會給 AI 的算法設計、給整個領域帶來質的飛躍。不過現在這個領域還處在非常早期的階段,我不能打包票,但我希望能從文化層面,讓 Physics of AI 變得更加親民。
03
三條道路:Scaling、Agent,還是Physics of AI?
“結構主義提供了指導思想,但沒有給出具體的路徑,Physics of AI 是實現結構主義的一條路徑。”
Q7:您對 Scaling Law 有相關評論,其中提到AI領域現在還停留在“第谷時代”,剛進入“開普勒式”,并指出距離 “牛頓時刻” 還很遙遠,能否詳細解釋這個類比?在您看來,當前通往AGI有哪些可能的路徑?
劉子鳴:最終目標還是通用人工智能。這里我覺得有三條可能的路徑,當然可能不止三條。第一條就是靠 Scaling,無腦把現在的模型做得更大,收集更多數據,靠這個達到 AGI。其實我相信只要有足夠的算力、能源、數據,應該能實現 AGI。只不過我比較擔心的是,我們會不會碰到能量瓶頸,這是我覺得 Scaling 這條路徑主要的問題所在。
![]()
圖注:AI領域“第谷-開普勒-牛頓”對比示意圖
第二條路徑,接受 Scaling 這個黑盒子模型本身不那么容易被理解的特性,然后在此基礎上做一些構建。比如在模型外部搭建一些記憶模塊,讓它能更好地進行持續學習,做一些抽象,實現一些更像人類的能力。
其實第二條路徑就是現在 agent 這一支大家在發展的技術,我覺得這一支比第一支更有前景。因為它會從人的角度,或者從神經科學、認知科學的角度,尋求更高層次的指導,來明確我們的系統應該怎么使用。
第三條路徑就是我自己花很多時間思考和推動的方向 ——Physics of AI 。它的核心理念是,我們要把 AI 模型,具體到現在就是神經網絡,像研究物理一樣去研究它。
Q8:您特別強調Physics of AI這條路徑。這種“像研究物理一樣研究AI”的核心信念是什么?神經網絡作為一個復雜系統,真的能像物理系統一樣被理解和拆解嗎?
劉子鳴:這會涉及一些哲學問題,主要的質疑聲音是說,神經網絡中的很多現象是涌現出來的,沒辦法從底層機制推演出宏觀系統上會出現什么樣的現象。
我覺得這一點很重要,需要明確說出來。這里存在一個信念上的問題,我的信念是還原論。在 Physics of AI 領域,還原論會比在物理學領域更有效。物理學里,還原論是一種很主流的想法:復雜的東西可以拆解成簡單的部分,這些簡單部分拼湊起來又能形成更復雜的東西。
但凝聚態物理似乎對這種還原論想法提出了挑戰。有時候在更高層次上涌現的現象,沒辦法用低層次的機制去解釋。于是,一些 Physics of AI 的主要反對者就用物理學里的這個類比,來說明 Physics of AI 行不通。
但我個人的信念是,神經網絡和物理系統并不完全一樣。因為神經網絡底層的這些機制,比如神經元計算、權重計算,包括梯度下降,都是用數學明確定義的;而且我們訓練神經網絡整個過程是閉合的。也就是說,我們可以非常完備地描述這個系統是如何演化的,只不過暫時找不到簡單的方式去描述它,但一定不存在我們不知道的東西。物理系統就不一樣了,它可能在各個層次上都有我們未知的部分。而研究 AI 的物理學,本質上就是要找到它的層次結構。
![]()
圖注:物理學和(人工智能的)物理學的區別示意圖
這一點我承認是個難點。比如,我們到底該從單個神經元的層次去理解神經網絡,還是從整個表征的層次去理解?又或者,應該把神經網絡拆成模塊或者線路來研究?還是說,只能把整個網絡當成黑盒,去研究它的輸入輸出映射?這些問題目前都還不清楚。
但我認為,一旦定義出了合適的層次,這些層次之間的涌現就不是問題了。物理學中會有這類難題,因為物理系統里存在我們未知的東西,但神經網絡不一樣,我們完全清楚它是怎么訓練出來的。所以,只要把層次定義清楚,就能在每個層次上觀察到對應的不同現象。
比如在最底層,我們能觀察到massive activation(大規模激活),即部分神經元出現高激活值,這是最微觀的層面;到了介觀層面,會觀察到表征的演化規律,比如之前提到的,表征會從隨機狀態變成環的形態;而在宏觀層面,我們能觀察到模型的泛化能力突然變好。
只要我們分清了這些層次,在每個層次上進行充分觀察,并且堅信我們能構建起不同層次之間現象的關聯,就能建立起這樣一套 AI 理論。之后我們設計算法時,就可以從最底層的機制出發進行某種意義上的推演。當然,這里的推演需要和數學稍作區分。數學關心的是嚴格性,而 Physics of AI 強調的是物理上的直觀性,以及最終的實用性。
Q9:2026 年,從研究者角度,應呼吁大家把籌碼壓在結構而非規模上嗎?是該繼續在 scaling 上獲取短期紅利,還是現在就 all in 結構主義?
劉子鳴:我覺得核心是短期和長期的權衡問題。如果想獲得短期成功,持續 Scaling 還是正確的道路。這個短期,我個人估計可能是兩到三年,有人可能更悲觀,也有人可能更樂觀。
結構主義當然是比較宏大的敘事,我關于結構主義的文章是去年圣誕節寫的。之后我又高強度寫了幾篇 Physics of AI 的博客,因為我意識到,結構主義提供了指導思想,但沒有給出具體的路徑,所以某種意義上,Physics of AI 是實現結構主義的一條路徑。
![]()
圖注:劉子鳴在2025年12月25日寫的博客《Achieving AGI Intelligently – Structure, Not Scale》中,提出“結構主義人工智能是不可避免的超越擴展路徑——不是因為擴展錯了,而是因為它最終會撞上能量/數據的瓶頸”。
當然,Physics of AI 的價值不止于實現結構主義。比如,就算最后不追求結構主義,只要能系統地理解連接主義系統,進而優化這類系統的設計,這份研究就具備重要價值。Physics of AI 是底層研究,它能夠支撐結構主義 ,結構主義是綱領,Physics of AI 則是具體、可操作、可執行的,像是工作手冊一樣的東西。
至于怎么呼吁大家選擇這條路徑,就看個人的偏好和決斷了。我之前也糾結過,到底是跟著 Scaling 的大流走,還是做一些不一樣、新的東西。后來我意識到,自己還是更喜歡思考不一樣、新的東西,所以做了研究 AI 的科學這個決定。而結構主義,我覺得是在科學和規模之間權衡得比較好的一個地帶,是一條短期更慢、但長期更快的道路——如果說Scaling是無腦“煉丹”,那么AI的科學就是說我們要先找到元素周期表,再去“煉丹”就快多了。
除了結構主義,大家也會提到符號主義,但我認為符號主義太理想了。不一定所有東西都是符號,但很多東西即便沒有符號也是有結構的。這是我主張結構主義的原因。不過結構主義怎么實現最好,還是未知的,但Physics of AI 提供了一條可能的路徑。
Q10:決定回國加入清華人工智能學院的背后原因是什么?未來在教學和個人研究成長上有怎樣的目標?
劉子鳴:選擇清華主要有兩方面原因:一是姚期智先生對年輕學者支持力度大,人工智能學院2024年8月成立,全職教師多為同齡人,早期加入能獲得更多發展機會。另外,清華當然是有全世界(不止是全國)最優秀的學生,我喜歡和聰明、有自驅力的同學一起工作。二是不可否認,美國學術界有各種資金削減的相關因素,而且存在一定的華人發展天花板。
![]()
圖注:劉子鳴擬于今年9月加入清華大學人工智能學院,任助理教授
教學目標的話,我希望能開設一門Physics Of AI的課程,吸引志同道合的本科生、研究生一起來探索這個嶄新的領域。我特別喜歡楊振寧先生的教育理念,一是“年輕人要到有發展的領域去”,二是心態上有野心做大事、但行動上又能腳踏實地(“要知道大問題是什么,但是只盯著大問題做是會得精神病的”)。
至于研究目標,短期的話,三年以內,我核心就是推進 Physics of AI 這條研究線,觀察更多相關現象,也會把這些研究分享給社區,非常歡迎社區的人一起來加入我們的這項研究工作。更長期的目標,就是去打造 AGI。當然,怎么打造 AGI 是最好的,我其實也不確定,因為這個世界變化得太快了。但我個人覺得,需要一兩年的研究時間,先嘗試把 AI 當成一門科學去研究,之后我們再去決定,該用什么樣的方式更好地打造 AGI。短期慢一點,長期反而可能更快,我們需要警惕當前Scaling范式的“欲速則不達”。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.