2026年3月,全球人工智能界被一則來自中國的消息所震動:國際學校高三學生陳廣宇(Guangyu Chen)以共同第一作者的身份,參與發表了月之暗面(Moonshot AI)Kimi團隊的重磅技術論文,其提出的“注意力殘差”(Attention Residuals)方法,對Transformer底層架構進行了創新性改進。更引人注目的是,科技領袖埃隆·馬斯克在社交平臺公開點贊,稱“Kimi的工作令人印象深刻”。
01
17歲少年與AI“注意力殘差”
2026年3月16日,埃隆·馬斯克在社交平臺公開稱贊中國AI公司月之暗面(Moonshot AI)的Kimi團隊研究成果“令人印象深刻”(Impressive work),引發全球AI圈震動。
![]()
更令人矚目的是,這篇題為《Attention Residuals》(注意力殘差)的論文共同第一作者中,17歲的深圳高三學生陳廣宇(Guangyu Chen)赫然在列,他與知名研究者蘇劍林(RoPE旋轉位置編碼提出者)、張宇(Kimi架構核心開發者)并列署名,三人被標注為“同等貢獻”。
在馬斯克點贊的光環下,很多人好奇,這項研究究竟突破了什么?
今天的主流大模型幾乎都建立在Transformer架構之上,而其中有一個長期沿用、卻較少進入公眾視野的底層結構——“殘差連接”(Residual Connection)。通俗理解,可以把大模型的信息處理過程想象成一條多層傳輸帶。
傳統的“殘差連接”就像每一層處理完信息后,把原始信息一股腦地打包,連同新的處理結果一起傳給下一層。這種方式簡單有效,但隨著模型層數加深,傳輸帶上會堆積大量冗余信息,真正重要的內容反而容易被“沖淡” 。
![]()
Kimi團隊提出的“注意力殘差”(Attention Residuals)機制,則是對這一底層邏輯的重構。它不再讓每一層無差別地接收所有歷史信息,而是引入了一個“智能篩選器”,讓當前層按需選擇最值得參考的內容進行聚合 。如果說傳統方式是“搬運整座圖書館”,那么“注意力殘差”就是“只帶走最關鍵的幾頁參考文獻”。
這項工作的顛覆性在于,它為后發的大模型提供了一條擺脫“堆算力、堆參數”內卷的新路徑。公開材料顯示,這一方法在Kimi Linear 48B模型上驗證后,在效果相近的前提下,訓練計算量減少了約20%,相當于獲得了1.25倍的效率優勢 。這意味著,在算力如同戰略資源的今天,中國團隊試圖通過架構創新,從數學層面找到“彎道超車”的可能。
02
“非典型”天才的養成
比起技術本身,17歲的陳廣宇如何能參與到這種級別的核心研發中,或許更令公眾著迷。
如果梳理他的成長軌跡,會發現這并非一個傳統意義上的“學霸保送”故事,而更像互聯網時代“天賦與機遇”的精準碰撞。據媒體報道,陳廣宇真正深入接觸AI研究,僅僅是近一年的事。他的起步方式很“極客”:研讀經典論文、追蹤GitHub開源項目,以及在社交平臺上分享對技術博客的反思 。
![]()
恰恰是這種開放的分享,成為了他命運的轉折點。他在社交平臺上的一篇技術反思,引起了一家硅谷AI初創公司CEO的注意,并在通過限時實驗測試后,獲得了寶貴的實習機會。去年夏天,他遠赴美國實習七周,回國后于去年11月加入Kimi團隊。在Kimi,他不僅參與了核心研發,還在內部48小時“黑客馬拉松”中拿下冠軍,證明了自己在實戰中的創新能力。
陳廣宇的經歷,生動地勾勒出數字原生代“天才”的崛起路徑:他們不再受限于地理和年齡的隔閡,通過開源社區、社交媒體和全球化的實習機會,可以更早地與前沿知識接軌,完成從“學習者”到“貢獻者”的身份躍遷。
03
一份來自17歲的清醒
面對鋪天蓋地的贊譽,這位少年主角的反應,或許是這起事件中最值得書寫的一筆。
在接受媒體采訪時,陳廣宇多次重復同一句話:不要“造神”,不希望被寫成突出個人的故事 。他反復強調,這是一項團隊共同完成的研究。
![]()
事實也確實如此。公開的論文附錄清晰地顯示,Guangyu Chen、Yu Zhang(張宇)、Jianlin Su(蘇劍林)前三位作者均被標注為“同等貢獻”(Equal contribution)。
與陳廣宇并列的另外兩人,是Kimi高效模型架構的重要研究者和旋轉位置編碼(RoPE)的提出者,都是業內公認的頂尖研究者。論文發布后,陳廣宇在朋友圈回顧這段經歷時,特別提到了“同等貢獻作者”以及從事模型擴展和基礎設施工作的同事,稱這項工作“缺一不可”。
這份冷靜與謙遜,在某種程度上,比技術突破本身更值得珍視。它表明這位年輕人深刻理解現代科研的底層邏輯:在高度復雜的AI領域,任何重大的創新都不是靈光一現的孤膽英雄主義,而是高度組織化的團隊協作與思想碰撞的結果。一篇有37位作者署名的重磅論文,恰恰是當代AI研究“大科學”屬性的縮影。
04
中國AI新生代的“成人禮”
馬斯克的點贊,固然是對技術本身的認可,但其象征意義同樣耐人尋味。
這并非一次簡單的“隔空喊話”。它意味著中國AI初創公司的底層創新,已經開始進入全球頂級科技領袖的視野。月之暗面作為成立僅兩年的“AI四小虎”之一,能夠在Transformer的底層架構上動刀,并向全世界展示其技術路徑,這本身就是中國AI產業從應用追隨走向原始創新的一個信號。
![]()
而陳廣宇的出現,則讓這種信號增添了更多關于“未來”的想象。當一個17歲的中國高中生能夠在全球最前沿的AI戰場上與頂尖研究者并肩作戰,并作出同等貢獻時,它打破的不僅是對年齡的刻板印象,更是對中美AI人才儲備差距的某種固有焦慮。
正如陳廣宇所期望的,我們不應將這個故事簡化為“天才少年”的爽文。它的真正價值在于,讓我們看到了一個充滿活力的創新生態:這里有敢于投入底層研究的公司(Kimi團隊),有開放包容的協作機制(共同一作),有能夠跨越年齡和地域識別人才的新渠道(社交媒體與開源社區),更有面對榮譽時保持清醒的年輕一代。
不要“造神”,但要“造生態”。當更多的“陳廣宇”們能夠在這個生態中找到自己的位置,當更多的團隊敢于向底層架構發起挑戰,中國AI的未來,才真正值得期待。馬斯克的點贊或許會過去,但“注意力殘差”對AI效率的推動,以及這位17歲少年對科研協作精神的詮釋,才剛剛開始留下回響。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.