![]()
出品/未來科技界
作者/李彥
編輯/楊宇
大模型的底層架構(gòu),過時了?
過去幾年,行業(yè)對“Scaling”的理解幾乎等同于算力堆砌與參數(shù)擴張。但在今年的技術(shù)交流中,一個更清晰的共識正在形成:單純依賴資源線性投入,已經(jīng)難以持續(xù)推高模型能力的上限。如何在效率、結(jié)構(gòu)與系統(tǒng)協(xié)同中尋找新的“規(guī)模紅利”,成為新的命題。
北京時間3月18日凌晨,月之暗面創(chuàng)始人楊植麟在英偉達(dá) GTC 2026大會上首次系統(tǒng)披露了Kimi K2.5的技術(shù)路線圖,其核心指向“更有效率的規(guī)模化”。
他將Kimi的演進(jìn)總結(jié)為三個維度的協(xié)同:Token效率、長上下文能力,以及智能體集群(Agent Swarms)。這三個方向并非獨立優(yōu)化,而是試圖形成乘數(shù)效應(yīng)——即通過效率提升降低計算成本,通過長上下文提升推理能力,再通過多智能體協(xié)作放大任務(wù)處理能力,從而整體抬升模型智能水平。
這一技術(shù)路線的落腳點,在于對既有基礎(chǔ)架構(gòu)的重構(gòu)。
以優(yōu)化器為例,自2014年以來,Adam系列幾乎成為行業(yè)標(biāo)準(zhǔn)。但在超大規(guī)模訓(xùn)練中,其Tokenl效率與穩(wěn)定性問題逐漸暴露。Kimi團隊在實踐中引入Muon優(yōu)化器,并進(jìn)一步開發(fā)出MuonClip機制,通過數(shù)值穩(wěn)定性改進(jìn)解決Logits爆炸問題,在效率上實現(xiàn)對AdamW約2倍的提升。這意味著,在相同算力條件下,模型可以完成更多有效訓(xùn)練,從源頭提升“性價比”。
針對 2017 年誕生的全注意力機制(Full Attention),楊植麟展示了基于KDA架構(gòu)的 Kimi Linear。這是一種混合線性注意力架構(gòu),它挑戰(zhàn)了“所有層必須使用全注意力”的慣例,通過優(yōu)化遞歸存儲管理,在128K甚至1M的超長上下文中,將解碼速度提升了5到6倍,且在不同長度的場景下均保持了優(yōu)異性能。
與此同時,針對殘差連接這一長期被忽視的基礎(chǔ)組件,Kimi提出了Attention Residuals方案。通過用注意力機制替代傳統(tǒng)的逐層累加,模型可以更有選擇性地利用歷史信息,從而避免深層網(wǎng)絡(luò)中信息被稀釋的問題。這類改進(jìn)雖然不如新模型架構(gòu)“顯眼”,卻直接作用于模型表達(dá)能力的上限。
如果說上述優(yōu)化仍停留在單模型層面,那么Kimi更進(jìn)一步的探索,則指向“多模型協(xié)作”。
![]()
在演講中,楊植麟提出,未來的AI形態(tài)將不再是單一智能體,而是由多個Agent動態(tài)組成的協(xié)作系統(tǒng)。Kimi K2.5中的Orchestrator機制,能夠?qū)?fù)雜任務(wù)拆解為多個子任務(wù),并分配給不同Agent并行執(zhí)行。同時,通過專門設(shè)計的強化學(xué)習(xí)獎勵函數(shù),避免多Agent系統(tǒng)退化為串行流程,從而真正實現(xiàn)并行效率提升。
這一思路,實質(zhì)上將“Scaling”從單模型擴展為“系統(tǒng)級Scaling”。當(dāng)任務(wù)復(fù)雜度不斷提高,僅依賴單一模型能力已難以覆蓋全部場景,分布式智能體協(xié)作可能成為新的主流范式。
此外,Kimi在跨模態(tài)方向上的實驗也提供了一個值得注意的信號:視覺強化學(xué)習(xí)不僅提升視覺能力,還能夠反向增強文本推理能力。在相關(guān)基準(zhǔn)測試中,這種訓(xùn)練方式帶來了約2.1%的文本性能提升。這表明,不同模態(tài)之間的能力并非孤立,而是存在可以被利用的遷移關(guān)系。
從更宏觀的角度看,這場演講所傳遞的信息,或許比具體技術(shù)細(xì)節(jié)更重要。
一方面,大模型的發(fā)展正在從“資源驅(qū)動”轉(zhuǎn)向“效率驅(qū)動”。當(dāng)算力供給逐漸成為瓶頸,誰能在單位算力中挖掘出更高價值,誰就擁有更強的競爭力。
另一方面,AI的競爭邊界也在外擴。從模型本身,到訓(xùn)練方法,再到多智能體系統(tǒng),技術(shù)演進(jìn)正在向更復(fù)雜的系統(tǒng)工程演化。
楊植麟在最后提到,過去受限于算力,很多技術(shù)想法難以通過大規(guī)模實驗驗證,而現(xiàn)在,隨著“Scaling Ladder”的建立,研究者可以在不同規(guī)模上反復(fù)驗證假設(shè),從而讓那些曾被忽視的“舊技術(shù)”重新煥發(fā)生命力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.