魚羊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI4
爆火神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一作,畢業(yè)新去向已獲清華官網(wǎng)認(rèn)證:
劉子鳴,擬于今年9月加入清華大學(xué)人工智能學(xué)院,任助理教授。
![]()
KAN的初版論文發(fā)表于2024年4月,一經(jīng)發(fā)布,即以優(yōu)于多層感知機(jī)(MLP)的準(zhǔn)確性和可解釋性,成為當(dāng)時的學(xué)術(shù)界熱議話題。其GitHub倉庫,在短短兩三天內(nèi)就收獲了1.1k星星。
正如論文中所提到,大家關(guān)注的重點(diǎn)在于:
- KANs是MLPs的有力替代方案,為進(jìn)一步改進(jìn)目前重度依賴MLPs的深度學(xué)習(xí)模型提供了新的契機(jī)。
![]()
劉子鳴的這一教職其實早前就已敲定。從他本人在2025年5月發(fā)布的招生文章來看,他的首批博士生招生目前已經(jīng)完成。
KAN一作回國任教
劉子鳴,武漢人,是武鋼三中校友。
他從初中起就是競賽生,高中投身物理競賽,在2015年以全國第8名的成績?nèi)脒x物理國家集訓(xùn)隊,并被保送至北大物理學(xué)院。
本科期間,劉子鳴就關(guān)注到了物理學(xué)和機(jī)器學(xué)習(xí)的交叉領(lǐng)域,并有一作文章發(fā)表在European Physical Journal C、Physical Review C等刊物和NeurIPS 2020等學(xué)術(shù)會議上。
本科畢業(yè)后,劉子鳴赴MIT攻讀物理博士學(xué)位,師從物理學(xué)家Max Tegmark——這位物理學(xué)教授最初是一名宇宙學(xué)家,后將研究重心轉(zhuǎn)向了人工智能。
KAN正是劉子鳴和Max Tegmark合作的成果。劉子鳴在Max Tegmark指導(dǎo)下,致力于提升神經(jīng)網(wǎng)絡(luò)的可解釋性,KAN(Kolmogorov-Arnold Networks)的初始靈感,就是想從Kolmogorov-Arnold這個數(shù)學(xué)定理出發(fā),打開神經(jīng)網(wǎng)絡(luò)“黑盒”。
具體來說,Kolmogorov-Arnold定理的核心是:任何定義在有界域上的多元連續(xù)函數(shù),都能表示為有限個單變量連續(xù)函數(shù)的兩層嵌套疊加形式。
這為KAN的誕生提供了一個思路:將復(fù)雜高維函數(shù)學(xué)習(xí)轉(zhuǎn)化為一組單變量函數(shù)的學(xué)習(xí)。
也就是說,KAN完全無需線性權(quán)重:MLP在節(jié)點(diǎn)上使用固定激活函數(shù),而KAN則可將學(xué)習(xí)的激活函數(shù)置于邊(權(quán)重)上,每條邊的線性權(quán)重被單變量函數(shù)替代。
![]()
這種設(shè)計下,網(wǎng)絡(luò)中各變量的作用路徑都可以被直觀地觀察到,使得KAN具備MLP無法提供的可解釋性和交互性。
論文發(fā)布后迅速引發(fā)了強(qiáng)烈的反響。Google Scholar顯示,到現(xiàn)在,KAN的引用量已經(jīng)達(dá)到3000+。
![]()
2024年8月,劉子鳴和合作者們又發(fā)表了KAN 2.0,以進(jìn)一步提高KAN的實用性和易用性。
劉子鳴本人將KAN解讀為三個層面的AI+Science:
- Science for AI:原理來自于數(shù)學(xué);
- Science of AI:澄清了一些關(guān)于Neural Scaling Law的現(xiàn)象;
- AI for Science:依靠KAN,能夠發(fā)現(xiàn)科學(xué)和工程問題中的符號公式。
而這也正是他的研究方向。
![]()
2025年5月份,劉子鳴在社交媒體上更新了自己獲得清華教職的消息。在招生文章中,他還說明了自己的研究風(fēng)格:
- 1.好奇心驅(qū)動(覺得好玩)和影響力驅(qū)動(也追熱點(diǎn),但更追求長期影響力)。理想情況,希望研究既有科學(xué)上的啟發(fā),也能有影響力。比如KAN就是這樣的一個例子,我們希望從科學(xué)的角度想象AI的更多可能性。
2.理論和實驗結(jié)合。理論是物理的嚴(yán)格程度,可能會被數(shù)學(xué)家噴不嚴(yán)謹(jǐn)哈哈。實驗更多的是闡釋現(xiàn)象,而不是無腦刷SOTA。實驗告訴我們什么樣的理論可能有用的,而理論指導(dǎo)我們?nèi)绾稳ピO(shè)計實驗。
3.研究問題的層次通常介于純理論和純應(yīng)用之間的中間抽象層。抽象的好處是對不同的問題有很強(qiáng)的通用性,但需要抽象本身是高質(zhì)量的、對實踐有用的。所以我會和應(yīng)用組(具體的科學(xué)領(lǐng)域)進(jìn)行合作,去理解如何進(jìn)行更好的抽象來貼近應(yīng)用。
目前,劉子鳴在斯坦福從事博士后研究,合作導(dǎo)師是Andreas Tolias。
One More Thing
說起來,劉子鳴也并沒有放下從高中起就投身的物理學(xué)。
他現(xiàn)在每天更新的博客,名為“physics of AI”,意為用研究物理學(xué)的方式來研究AI,旨在回答:什么樣的模型,在什么樣的數(shù)據(jù)上,展現(xiàn)出什么樣的現(xiàn)象。
“關(guān)鍵在于‘大量小見解’,而非寄希望于‘少數(shù)大發(fā)現(xiàn)’。”
![]()
△圖源:劉子鳴博客
從2025年12月31日起,劉子鳴每天都在更新博客內(nèi)容,用他自己的話說是:
- 每天只需投入2小時,我就能通過玩具模型(toy models)了解到關(guān)于神經(jīng)網(wǎng)絡(luò)的驚人事實。許多見解最終可能微不足道或無關(guān)緊要,但其中一些將會產(chǎn)生足以改變領(lǐng)域現(xiàn)狀的巨大影響。
![]()
參考鏈接:
[1]https://collegeai.tsinghua.edu.cn/rydw/qzpi/liuziming.htm
[2]https://zhuanlan.zhihu.com/p/1907988943389045778
[3]https://kindxiaoming.github.io/
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.