![]()
![]()
楊植麟首次完整披露Kimi技術路線圖。
作者|王藝
編輯|王博
發自美國圣何塞
美國當地時間3月17日下午,月之暗面(Kimi)創始人楊植麟輕快地走上圣何塞市民大禮堂的舞臺,這是英偉達GTC最重要的演講場館之一。雖然不少觀眾慕名而來,但很多人不知道的是,楊植麟是近兩年來第一位在GTC官方線下活動中舉行演講的中國大陸AI創業者。
前一天,英偉達創始人兼CEO黃仁勛在GTC主題演講中曾多次提及Kimi K2.5模型,不過這次,楊植麟很低調,他沒有展示任何花哨的產品Demo,沒有播放任何激動人心的宣傳視頻——除了一段展示模型能力的簡短錄屏外,他幾乎全程在講技術。
優化器的數學原理、注意力機制的并行分塊公式、強化學習的獎勵函數設計……在AI公司紛紛用炫酷的視頻和亮眼的榜單“秀肌肉”的時候,楊植麟反其道而行之,用密集的技術細節告訴在場的每一位聽眾:開源模型不僅要開放,還必須出色。
模型開源并不難。但是在數據變貴、訓練變難、推理變長、任務變復雜的今天,如何把開源模型的“智能密度”繼續往上推?
楊植麟的答案,是三個概念:Token Efficiency(Token效率)、Long Context(長上下文)、Agent Swarms(智能體集群)。
1.Token效率:突破智能的天花板
演講一開始,楊植麟就放出了一張機器學習歷史上“最經典的圖”——來自DeepMind Chinchilla論文的Scaling Law曲線。橫軸是訓練所用的token數量,縱軸是模型損失,一條平滑下降的曲線揭示了“投入更多的數據、更大的模型、更多的計算,就能獲得更低的損失、更好的智能”的道理。
![]()
過去幾年間,整個行業正是沿著這條曲線一路狂奔,才有了GPT-4、Claude、Gemini等一系列令人驚嘆的大模型。
但楊植麟提出了一個不同的視角。
“我們追求的是更好的Token效率,”他說,“Token效率不僅關乎效率,它實際上關乎提高智能的上限。”
在大多數人的理解中,Token效率是一個關于“省錢”和“降成本”的概念,但楊植麟的思路完全不同。他認為,假設全世界可用的高質量訓練數據總量是一個常數(比如50萬億token),如果模型優化器能將Token效率提升2倍,那么這50萬億Token就等價于100萬億Token的訓練效果——換言之,在數據總量有限的約束下,Token效率的每一次提升,都在直接拓展智能所能達到的極限。
由此,Kimi引入了Muon優化器。Muon是一個二階優化器,其核心思想是將每個梯度更新進行正交變換,使得更新方向上的各個條目彼此正交。在工程實現層面,Kimi團隊開發了分布式Muon優化方案,在數據并行組之間分區優化器狀態,使得Muon可以在NVIDIA GPU集群上高效運行,不因內存開銷而拖慢訓練進度。
![]()
在相同參數量和訓練Token數量的條件下,僅僅將優化器從Adam替換為Muon,就能在多項基準測試上獲得全面提升。楊植麟將這一收益概括為“約2倍的Token效率提升”,也就是說,使用Muon訓練的模型,只需一半的數據就能達到Adam訓練模型的同等水平。
然而,當Kimi團隊將Muon進一步擴展到萬億參數規模時,新的挑戰出現了。
“在中等規模的Muon訓練中,最大logits迅速爆炸,超過了1000,而典型值應該小于100。同時,訓練損失發散,無法收斂。”楊植麟在演講中描述了這一令人頭疼的訓練不穩定性問題。
在大模型訓練中,logit爆炸是一個經典的工程難題。當模型內部某些數值失控增長時,注意力機制中的softmax運算會變得極端——幾乎所有的注意力權重都集中到一個位置上,導致信息流被“堵塞”,進而引發梯度異常和損失發散。
Kimi團隊給出的解決方案是QK-Clipping(QK裁剪)技術。其原理并不復雜:對于每個注意力頭,在前向傳播中實時監控最大logit值,然后計算一個除法因子,應用于鍵(Key)和查詢(Query)投影,將最大值限制在特定范圍內,防止數值爆炸。
![]()
這個裁剪操作幾乎不影響正常訓練。楊植麟展示了一組對比實驗:有QK-Clip和無QK-Clip的訓練損失曲線幾乎完全重疊,說明裁剪并未引入額外的信息損失。而在啟用MuonClip(Muon + QK-Clip的組合)之后,K2模型的最大logits被穩定控制在100以下,并最終自然衰減。
![]()
"這是我見過的最美麗的訓練曲線之一。"楊植麟流露出感性的一面。
2.長上下文:從100個Token到一百萬個Token
如果說Token效率解決的是“用有限數據達到更高智能”的問題,那么長上下文解決的則是“讓智能在更復雜的任務中發揮作用”的問題。
“回到10年前,人們用RNN做機器翻譯,但無法理解整個代碼庫或運行超長智能體軌跡——比如從零編寫一個Linux內核,”楊植麟說,“這是智能體時代必需的能力,因為任務越來越難,需要越來越長的上下文。”
但Transformer原生的全注意力機制存在一個根本性限制:其計算復雜度和內存消耗隨上下文長度的平方增長。當上下文從4K擴展到128K,計算量增長了1000倍以上;如果進一步擴展到1M(一百萬token),全注意力幾乎不可能在當前硬件條件下高效運行。
Kimi給出的方案是Kimi Linear架構,其核心組件是Kimi Delta Attention(KDA),一種改進的線性注意力機制。原始線性注意力機制使用單一的全局衰減因子,就像一個簡陋的“遺忘開關”——要么忘記一切,要么保留一切。而KDA引入的alpha項是一個對角矩陣,控制每個通道的衰減率。這意味著模型可以同時擁有“慢衰減”通道(保留長程信息,如文檔的整體主題或代碼的架構設計)和“快衰減”通道(快速刷新信息,如最近幾行代碼的局部變量),從而大幅增強了線性注意力的表達能力。
這個設計思路類似于人腦的記憶機制:我們的長期記憶和短期記憶并不共享同一套“遺忘速率”——童年的深刻經歷可以保留一輩子,而今天早餐吃了什么可能下午就忘了。
KDA用數學的方式實現了這種多層次的記憶結構。在實際部署中,Kimi采用了3:1的混合比例,即75%的層使用KDA線性注意力,25%的層使用標準全局注意力。在短上下文任務MMLU-Pro(4K上下文)上,Kimi Linear達到了84.3分,與全注意力模型持平甚至略優。在長上下文任務RULER(128K上下文)上達到51.0分。而在解碼長度達到100萬token時,Kimi Linear的輸出token時間(TPOT)比當前主流的MLA(Multi-head Latent Attention)架構快6.3倍。
![]()
“這是首個在各方面(短上下文、長輸入、長輸出)都超越全注意力的架構。”楊植麟在演講現場表示。
3.智能體集群:讓AI學會像公司一樣協作
如果Token效率和長上下文主要是在“單個模型”層面的優化,那么“智能體群”則將視角抬升到了系統層面。
智能體集群(Agent Swarm)的核心架構并不復雜:有一個編排器(Orchestrator)或主智能體負責接收任務、理解任務結構、分解子任務。編排器可以生成多個子智能體——比如AI研究員、物理研究員、事實核查員、Web開發者等——每個子智能體負責一個特定的子任務。子智能體們并行執行各自的任務,將結果返回給編排器,編排器匯總、評估、必要時發起新一輪分配,如此迭代直到最終任務完成。
楊植麟做了一個類比:“這類似于人類社會——建立一個公司需要不同的角色,需要一個CEO來分解任務并分配給不同的角色,然后整個組織協同工作。”
從概念上,這并不是AI領域第一次提出“多智能體協作”的想法。早在2023年,學術界就出現了AutoGen、CrewAI等多智能體框架。但楊植麟指出了一個關鍵的區別:之前的多智能體系統大多是基于人工設計的工作流(workflow),依賴人類預先定義好每個智能體的角色和交互規則。而Kimi的智能體群是通過強化學習訓練出來的——模型自己學會了如何分解任務、何時生成子智能體、如何聚合結果。
這一范式轉換最大的意義在于泛化性:人工設計的工作流只能覆蓋預見到的場景,而學習出來的編排能力可以泛化到全新的任務類型。
楊植麟展示了一張圖表:橫軸是任務復雜性(由模型組在該任務上的準確率衡量),縱軸是執行時間。圖中清晰地顯示,智能體群相比單智能體在執行時間上有大幅縮減,在復雜任務上可以節省4.5倍的時間。楊植麟表示:“如果我們擴展到100甚至1000個智能體,就可以在可容忍的時間內完成極其復雜的任務,產生真正的經濟價值。”
![]()
從擴展維度來看,智能體集群可以在輸入規模、輸出規模、行動規模、編排規模四個方向上“拉伸”能力邊界;而在訓練方法上,楊植麟則介紹了三種精心設計的獎勵信號。
第一是實例化獎勵。這個獎勵信號的存在是為了解決“串行坍縮”的問題——在沒有適當激勵的情況下,模型可能會學到一個“懶惰策略”:不生成任何子智能體,自己單獨完成所有任務。這在簡單任務上可能勉強可行,但在復雜任務上會導致性能嚴重下降。實例化獎勵通過正向激勵子智能體的生成,防止模型退化為單智能體模式。
第二是完成獎勵。這是為了解決另一個對稱的問題——“虛假并行”。模型可能學會生成大量子智能體,但這些子智能體并不真正完成有意義的任務,只是做做樣子。完成獎勵確保每個被生成的子智能體都切實完成了分配給它的子任務。
第三是結果獎勵。這是最終的、面向任務目標的獎勵信號,衡量智能體集群作為一個整體是否成功完成了最終目標。
![]()
三種獎勵信號的層次設計體現了Kimi團隊對多智能體學習的深入理解。如果只有結果獎勵,模型很難學到有效的并行策略——因為在復雜任務中,從隨機策略到成功完成目標的信號極其稀疏。實例化獎勵和完成獎勵提供了中間層次的學習信號,幫助模型逐步學會有效的并行化策略。
將三個維度的創新整合在一起,楊植麟用一段精彩的總結將技術敘事拉回到統一的框架:“這三種維度可以轉化為智能體的語言——Token效率關乎更強的先驗知識,讓智能體能更高效地搜索解決方案;長上下文讓智能體能運行數天甚至數周來完成復雜任務;智能體集群則提供了另一個準確性維度。最終,我們將擁有一群智能體,每個都擁有超長上下文和強先驗知識,在整個智能體系統中進行搜索。”
4.下一代架構:當Attention旋轉90度
如果說前三個部分是Kimi已經兌現的技術成果,那么演講的最后一個部分則是對未來的一次大膽探索。
2024年的NeurIPS大會上,OpenAI的聯合創始人、深度學習領域最具影響力的研究者之一Ilya Sutskever提出了一個引人深思的觀察:“LSTM是旋轉90度的ResNet。”
![]()
這句話的含義是:殘差連接(Residual Connection)可以被視為LSTM在深度方向上的展開。LSTM通過門控機制在時間維度上傳遞和更新信息,而殘差連接通過簡單的加法在深度維度上傳遞信息。兩者在本質上解決的是同一個問題——如何在信息的長距離傳遞中防止衰減和丟失。
但Sutskever的類比也暗示了殘差連接的一個局限性:它只是一個“固定加法”操作。每一層的輸出被簡單地累加到殘差流中,沒有任何選擇性——無論信息是否有用,都被一視同仁地保留下來。這就像一條只能“往前走”的單行道,信息可以不斷被添加進來,但無法被有選擇性地過濾或重組。
楊植麟由此提出了一個自然而深刻的問題:“那么,Attention旋轉90度是什么?”
如果Attention在序列維度上的作用是:讓模型根據當前輸入,有選擇性地檢索和聚合之前的信息——那么將這個機制“旋轉90度”應用到深度維度上,就意味著:讓每一層根據當前的計算需求,有選擇性地檢索和聚合之前各層的輸出。
這就是AttentionResiduals(注意力殘差)。
在標準的Transformer中,第L層的輸入是前面所有層輸出的簡單累加。而在Attention Residuals中,第L層通過一個softmax注意力機制,對之前所有層的輸出進行加權聚合——權重是學習得到的、依賴于輸入的。這意味著模型可以根據當前token的具體需求,選擇性地“回溯”到最相關的層去提取信息,而不是機械地累加所有層的輸出。
這個設計在概念上極其優雅,但在工程上面臨一個顯而易見的挑戰:內存。
在標準Transformer中,殘差連接幾乎不消耗額外內存——只需保存當前的累加向量即可。而Attention Residuals需要保存所有之前層的輸出,以便進行注意力運算,這將每token的內存訪問從一個常數級別提升到與層數成正比。
Kimi團隊的解決方案是BlockAttentionResiduals,也就是將模型的層分成若干塊(Block),注意力在塊內的層之間和跨塊之間進行。這將每token的內存訪問從O(Ld)(L為總層數,d為隱藏維度)降低到O(Nd)(N為塊的大小),在實踐中是一個可接受的開銷。
![]()
在Scaling Law實驗中,Block Attention Residuals架構實現了1.24倍的計算效率提升;在驗證損失曲線上,Block Attention Residuals的表現持續優于基線;在MMLU-Pro、GPQA-Diamond、BBH等多項基準測試中,Block Attention Residuals也均有顯著提升。
![]()
此外,在跨模態研究方面,楊植麟分享了一個重要的觀察:原生的視覺-文本聯合預訓練中,視覺強化學習(Vision RL)能夠顯著反哺文本性能。消融實驗數據顯示,經過視覺 RL 訓練后,模型在 MMLU-Pro 和 GPQA-Diamond 等純文本基準測試上的表現提升了約2.1%。這意味著空間推理與視覺邏輯的增強,可以有效轉化為更深層的通用認知能力。
5.構建“基礎設施”級的開源模型
“Adam優化器發明于11年前,我們擴展并開源了MuonClip。Transformer架構發明于8年前,我們擴展并開源了Kimi Linear。殘差連接發明于10年前,我們擴展并開源了Attention Residuals。”
演講最后,楊植麟給出了三句話總結。而這張PPT,也吸引了大量現場觀眾拍照。
![]()
圖片來源:「甲子光年」拍攝
![]()
三項技術,分別對應深度學習大廈的三根支柱:優化算法、序列建模架構、深度信息傳遞機制。它們各自誕生于2015年前后的深度學習的“黃金時代”,至今仍然是幾乎所有大模型的核心組件。
而楊植麟在GTC 2026的舞臺上宣告,Kimi已經在這三個方向上完成了實質性的創新,并且將這些創新全部開源。
為什么楊植麟要這么做?
AI競爭進入2026年,開源與閉源的博弈已經進入了新階段。一方面,以OpenAI、Anthropic、Google為代表的閉源陣營繼續在模型能力上保持領先,其最新的推理模型在復雜任務上展現出令人矚目的表現;另一方面,開源社區的追趕速度令人驚嘆。
「甲子光年」認為,在這個背景下,Kimi的定位其實非常清晰:做開源陣營的技術先鋒。與Meta開源Llama系列模型、阿里開源Qwen系列模型等主要是開源模型權重不同,Kimi開源的是構建更好模型的方法論:更好的優化器、更好的架構、更好的訓練技術。這是一種“基礎設施級”的開源策略。
從技術影響的角度看,Kimi的三項創新各自面向不同的問題域,但共同指向一個統一的目標:提升開源模型的能力上限。MuonClip通過提升Token效率,讓有限的數據產生更多的智能;Kimi Linear通過高效的長上下文處理,讓模型能夠勝任更復雜的任務;Attention Residuals通過改進深層信息傳遞,讓每一層計算都更有效率。每一項創新,都在為其他創新創造更好的發揮空間。
當然,挑戰仍存。Kimi的三項技術創新目前主要通過內部實驗和基準測試得到驗證,它們在更廣泛的社區實踐中的表現還有待觀察——Muon優化器在不同硬件環境和不同模型規模上的適用性、Kimi Linear在更多樣化的任務上的表現、Attention Residuals能否真正走向生產場景……這些都需要時間來回答。
但無論如何,楊植麟在GTC 2026上的這場演講,傳遞了一個明確而有力的信號:中國的AI創業公司不僅能夠跟隨,還能夠引領。在深度學習最核心的技術領域——優化算法、模型架構、訓練方法——Kimi正在進行實質性的原創探索,并以開源的方式將成果回饋給全球社區。
在演講的最后一張PPT上,楊植麟再次展示了三條擴展曲線:Token效率維度上不斷左移的損失曲線,長上下文維度上不斷降低的位置損失,智能體群維度上不斷攀升的任務復雜性。三條曲線同時向著“更好”的方向延伸,沒有停下來的跡象。
這或許是整場演講最深刻的隱喻——在AI領域,真正的競爭力不在于此刻你站在哪里,而在于你沿著哪些維度在擴展,以及你擴展的速度有多快。
楊植麟和Kimi選擇三個維度同時發力。結果如何,時間會給出答案。
(封面圖來源:「甲子光年」拍攝,文中PPT圖片來源:月之暗面)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.