Web3天空之城|城主
1. 2025年開源模型的年度回顧: 分水嶺之年與"東方三巨頭"的崛起
2025年被廣泛認(rèn)為是人工智能發(fā)展史上的一個(gè)決定性轉(zhuǎn)折點(diǎn)。根據(jù)Interconnects.ai最新發(fā)布的《2025年開源模型年度回顧》(2025 Open Models Year in Review),這一年的核心敘事徹底顛覆了以往的行業(yè)共識(shí)。年初,全球科技界普遍認(rèn)為開源模型在性能上將長(zhǎng)期滯后于閉源模型(如OpenAI的GPT系列和Anthropic的Claude系列),僅能作為隱私敏感場(chǎng)景或低成本微調(diào)的替代品。然而,隨著2025年的落幕,這一論斷已被徹底證偽。
開源模型生態(tài)在這一年不僅實(shí)現(xiàn)了"追趕",更在特定領(lǐng)域達(dá)成了"超越"。而在這一歷史性進(jìn)程中,最為顯著的現(xiàn)象莫過于中國(guó)AI實(shí)驗(yàn)室的集體躍升。Interconnects.ai的兩位主筆Nathan Lambert和Florian Brand將這一現(xiàn)象總結(jié)為"東方三巨頭"的確立:DeepSeek、阿里巴巴的Qwen(通義千問)以及Moonshot AI(月之暗面)的Kimi。
如果說DeepSeek R1的發(fā)布是打破平靜的"驚雷",徹底改變了全球?qū)Φ统杀就评砟P偷恼J(rèn)知;Qwen 3則憑借其強(qiáng)大的通用性和生態(tài)兼容性成為了開發(fā)者的"默認(rèn)選項(xiàng)"。那么,在2025年底登場(chǎng)的Kimi K2 Thinking,則扮演了另一個(gè)關(guān)鍵的歷史角色——驗(yàn)證者。正如年度回顧報(bào)告所言,Kimi K2是"讓世界確信DeepSeek并非孤例,且中國(guó)將持續(xù)產(chǎn)出眾多領(lǐng)先模型的關(guān)鍵力量"。
2025年開源模型生態(tài)層級(jí)分析
![]()
Interconnects.ai對(duì)2025年全球開源模型構(gòu)建者進(jìn)行了一個(gè)層級(jí)劃分。這一層級(jí)體系不僅反映了技術(shù)實(shí)力的消長(zhǎng),更揭示了全球AI算力經(jīng)濟(jì)的重心轉(zhuǎn)移。
Lambert和Brand在年度回顧中提出了一個(gè)基于"端到端模型訓(xùn)練能力"和"生態(tài)影響力"的層級(jí)評(píng)價(jià)體系。這一體系摒棄了單純的參數(shù)規(guī)模比較,更加注重模型的實(shí)際可用性、創(chuàng)新性以及對(duì)閉源前沿的追趕速度。
表1:2025年全球開源模型構(gòu)建者層級(jí)分布
層級(jí)分類 (Tier Classification)代表實(shí)驗(yàn)室/實(shí)體 (Labs / Entities)戰(zhàn)略評(píng)價(jià)與入選理由 (Strategic Significance)前沿開源實(shí)驗(yàn)室 (Frontier Open Labs)
DeepSeek (深度求索)
Qwen (阿里巴巴)
Kimi Moonshot (月之暗面)
這一層級(jí)完全由中國(guó)實(shí)驗(yàn)室占據(jù)。
它們持續(xù)發(fā)布定義"最新技術(shù)水平"(SOTA)的模型,
在推理能力、編碼能力及長(zhǎng)文本處理上與GPT-5和Claude Opus分庭抗禮。
緊隨其后 (Close Behind)
智譜
MiniMax AI (稀宇科技)
StepFun AI (階躍星辰)
這些機(jī)構(gòu)產(chǎn)出了極具競(jìng)爭(zhēng)力的模型,
在特定基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,
但在全球開發(fā)者社區(qū)的廣泛采用度或絕對(duì)創(chuàng)新性上略遜于第一梯隊(duì)。
值得注意的是,
該層級(jí)同樣沒有美國(guó)實(shí)驗(yàn)室的身影。
值得關(guān)注 (Noteworthy)
Nvidia (英偉達(dá))
Google (谷歌/Gemma)
Mistral
IBM
混合了中美歐的科技巨頭與初創(chuàng)公司。
它們生產(chǎn)了高質(zhì)量的實(shí)用模型
(如Gemma 3, Mistral Nemo),但在推動(dòng)推理能力的邊界方面,未起到核心引領(lǐng)作用,
更多是跟隨者或特定領(lǐng)域的工具提供者。
Kimi K2 thinking:打破"運(yùn)氣論"
在Kimi K2發(fā)布之前,硅谷存在一種普遍的心理防御機(jī)制:將DeepSeek R1的成功歸結(jié)為一種"運(yùn)氣"或"單點(diǎn)突破",認(rèn)為在硬件制裁(H100/H200禁運(yùn))的背景下,中國(guó)無(wú)法系統(tǒng)性地復(fù)制這種高效能模型。
然而,Kimi K2 Thinking的出現(xiàn)徹底粉碎了這一幻想。它證明了高效能模型的產(chǎn)出并非偶然,而是基于一種成熟的、可復(fù)制的方法論——即"中國(guó)模型發(fā)布劇本"(China's Model Release Playbook)。這種劇本包括:
1. 社交媒體的前置滲透:通過Twitter (X)和Hugging Face建立技術(shù)影響力,甚至讓研究人員直接與西方開發(fā)者對(duì)話。
2. 極致的資本效率:在受限硬件上通過算法優(yōu)化實(shí)現(xiàn)性能躍遷。
3. 對(duì)西方工具鏈的全面擁抱:迅速適配vLLM、Ollama等開源推理?xiàng)#档褪褂瞄T檻。
Interconnects.ai明確指出,Kimi K2的核心價(jià)值在于它終結(jié)了關(guān)于"DeepSeek現(xiàn)象是否可持續(xù)"的爭(zhēng)論,確立了中國(guó)在開源模型領(lǐng)域的系統(tǒng)性優(yōu)勢(shì)。
2. 硅谷的"技術(shù)反思時(shí)刻"與東方潛流
長(zhǎng)期以來(lái),硅谷奉行著"規(guī)模法則"(Scaling Laws)的暴力美學(xué),相信更大規(guī)模的算力、更多的數(shù)據(jù)和更昂貴的訓(xùn)練成本是通往通用人工智能(AGI)的唯一路徑。然而Moonshot AI(月之暗面)作為一家中國(guó)創(chuàng)業(yè)公司,其最新發(fā)布的推理模型Kimi K2 Thinking,卻以一種出乎意料的高效能姿態(tài),撕開了這一共識(shí)的缺口。它不僅在技術(shù)參數(shù)上對(duì)標(biāo)甚至超越了部分美國(guó)本土的頂尖模型,更關(guān)鍵的是,它通過開源權(quán)重(Open Weights)和極致的推理效率,迅速滲透進(jìn)了美國(guó)AI基礎(chǔ)設(shè)施的毛細(xì)血管之中。
從微軟Azure的企業(yè)級(jí)模型庫(kù)到NVIDIA的高性能推理微服務(wù)(NIM),從GitHub上火熱的開源項(xiàng)目到X (Twitter)上關(guān)于"算力經(jīng)濟(jì)學(xué)"的激烈辯論,Kimi K2 Thinking的身影無(wú)處不在。它不再是某個(gè)被常見的西方視角審視的"模仿者",而是變成了一個(gè)被美國(guó)互聯(lián)網(wǎng)巨頭和硅谷公司使用的"工具",一個(gè)被研究的"樣本",甚至在某些領(lǐng)域,成為了被追趕的"標(biāo)桿"。
比如,由前OpenAI首席技術(shù)官M(fèi)ira Murati創(chuàng)立的Thinking Machines Lab及其推出的Tinker平臺(tái),正在重塑AI微調(diào)(Fine-tuning)的格局,而Kimi K2正是其首批支持的核心模型之一。在應(yīng)用層,而Open Lovale等新一代AI代碼編輯器通過集成Kimi K2,正在重新定義開發(fā)者的生產(chǎn)力經(jīng)濟(jì)學(xué)。
![]()
3. 思考的架構(gòu):Kimi K2 Thinking的技術(shù)解構(gòu)與算力不對(duì)稱
我們首先簡(jiǎn)單剖析一下Kimi K2 thinking的技術(shù)內(nèi)核,方便我們理解Kimi K2 Thinking為何能在崇尚原創(chuàng)與硬核技術(shù)的硅谷贏得尊重。不同于早期的"聊天機(jī)器人(Chatbot)"范式,Kimi K2被明確定義為支持200到300步工具調(diào)用的"思考代理(Thinking Agent)"。這一概念的轉(zhuǎn)變,恰好擊中了2025年AI研發(fā)的核心痛點(diǎn):如何從單純的文本生成,轉(zhuǎn)向具備長(zhǎng)程規(guī)劃與執(zhí)行能力的智能體。
混合專家架構(gòu)(MoE)的極致效率:萬(wàn)億參數(shù)的"瘦身"藝術(shù)
Kimi K2 Thinking采用了一萬(wàn)億(1 Trillion)總參數(shù)的混合專家(Mixture-of-Experts, MoE)架構(gòu),但在實(shí)際推理過程中,它僅激活320億(32B)參數(shù)。這種超稀疏的"大存小取"的設(shè)計(jì)哲學(xué),是其在硅谷引發(fā)熱議的第一塊基石。
在傳統(tǒng)的致密模型(Dense Model)時(shí)代,運(yùn)行一個(gè)萬(wàn)億參數(shù)的模型需要龐大的GPU集群,這使得除了少數(shù)巨頭外,幾乎沒有人能染指頂級(jí)AI的部署。相比 DeepSeek 為代表的MoE模型,Kimi K2采用了更高的稀疏度(48 vs 32),通過僅激活320億參數(shù),它使得該模型能夠在相對(duì)"平民化"的推理平臺(tái)上運(yùn)行。
這種架構(gòu)選擇并非偶然,而是對(duì)當(dāng)前算力瓶頸的精準(zhǔn)回應(yīng)。除了通過超稀疏的架構(gòu)降低推理抽本,Moonshot 還AI采用了原生INT4量化技術(shù)與量化感知訓(xùn)練(Quantization-Aware Training, QAT)。這意味著模型在訓(xùn)練階段就已經(jīng)適應(yīng)了低精度計(jì)算,從而在不犧牲推理能力的前提下,大幅降低了顯存占用和帶寬需求。在推理階段,對(duì)于GPU芯片的適配度也更高,不僅可以適配上一代芯片,也能更好得適配國(guó)產(chǎn)推理芯片。
"交錯(cuò)式思考"(Interleaved Thinking):代理智能的"圣杯"
如果說MoE架構(gòu)解決了"跑得動(dòng)"的問題,那么"交錯(cuò)式思考"則解決了"跑得好"的問題。這是Kimi K2最具顛覆性的技術(shù)特性,也是讓谷歌開發(fā)專家(GDE) Sam Witteveen等技術(shù)大咖在評(píng)測(cè)中贊不絕口的關(guān)鍵。
傳統(tǒng)的思維鏈(Chain of Thought, CoT)通常是線性的:模型一次性生成所有思考步驟,然后給出結(jié)論。然而,現(xiàn)實(shí)世界的復(fù)雜任務(wù)往往需要"試錯(cuò)"和"反饋"。Kimi K2引入了"交錯(cuò)式思考"機(jī)制,允許模型在思考的過程中調(diào)用工具(如搜索、代碼執(zhí)行),觀察工具的返回結(jié)果,然后基于新信息繼續(xù)思考。
表2:傳統(tǒng)CoT模型與Kimi K2 Thinking的代理能力對(duì)比
模型傳統(tǒng)CoT模型(如GPT-o1
Kimi K2 Thinking推理模式
線性生成,一次成型
交錯(cuò)循環(huán):思考-行動(dòng)-觀察-再思考
工具調(diào)用深度
往往作為最后一步或單次調(diào)用,通常<10次
支持200-300次連續(xù)工具調(diào)用
上下文窗口
128k
256k
容錯(cuò)能力
思考鏈一旦斷裂即失敗
可根據(jù)工具反饋?zhàn)晕倚拚窂?/p>
Moonshot AI官方展示的一個(gè)案例在開發(fā)者社區(qū)廣為流傳:為了解決一個(gè)博士級(jí)的數(shù)學(xué)問題,Kimi K2進(jìn)行了23次交錯(cuò)的推理和工具調(diào)用,像一個(gè)真實(shí)的人類研究員一樣,不斷提出假設(shè)、驗(yàn)證假設(shè)、修正方向,最終得出正確答案。這種能力在"Humanity's Last Exam"基準(zhǔn)測(cè)試中得到了驗(yàn)證,Kimi K2在工具輔助下的得分為44.9%,甚至超過了發(fā)布時(shí)的GPT-5和Claude旗艦?zāi)P汀?/p>
資本效率(Capital Efficiency):打破成本神話
Kimi K2 Thinking的發(fā)布還帶來(lái)了一個(gè)令硅谷震驚的經(jīng)濟(jì)學(xué)數(shù)據(jù):其訓(xùn)練成本僅約為560萬(wàn)至700萬(wàn)美元。相比之下,GPT-4等同級(jí)別模型的訓(xùn)練成本據(jù)傳超過1億美元。這種20倍的資本效率差異是對(duì)OpenAI"暴力縮放定律"的一次有力修正。
Stability AI創(chuàng)始人Emad Mostaque指出,Kimi K2的低成本證明了通過算法優(yōu)化(如使用Muon優(yōu)化器解決注意力對(duì)數(shù)爆炸問題)和精細(xì)的數(shù)據(jù)工程,可以在算力受限(如使用H800芯片)的情況下觸達(dá)技術(shù)前沿。這導(dǎo)致了硅谷創(chuàng)投圈風(fēng)向的微妙轉(zhuǎn)變:投資人開始不僅僅關(guān)注模型的性能(Performance),更開始關(guān)注模型的"訓(xùn)練效能比"(Performance per Dollar)。Kimi K2成為了這一新指標(biāo)的標(biāo)桿案例。
4. 對(duì)美國(guó)企業(yè)級(jí)市場(chǎng)的滲透: Tinker生態(tài)系統(tǒng), 微軟和英偉達(dá)等巨頭的青睞
Kimi K2 Thinking的成功不僅僅在于模型本身,更在于它被迅速集成到了新興的AI基礎(chǔ)設(shè)施中。前OpenAI首席技術(shù)官M(fèi)ira Murati創(chuàng)立的Thinking Machines Lab及其推出的Tinker平臺(tái)就是一個(gè)最新的例子。
2025年10月,Thinking Machines Lab推出了Tinker,并在12月12日宣布結(jié)束等待名單,全面開放,同時(shí)正式支持Kimi K2 Thinking的微調(diào)。Tinker被描述為"AI訓(xùn)練的云計(jì)算平臺(tái)",旨在將復(fù)雜的分布式訓(xùn)練基礎(chǔ)設(shè)施抽象化,讓開發(fā)者可以通過簡(jiǎn)單的API調(diào)用來(lái)微調(diào)頂尖模型。
Tinker的核心價(jià)值主張包括:
LoRA優(yōu)先架構(gòu):
Tinker利用低秩適應(yīng)(LoRA)技術(shù),僅需調(diào)整少量參數(shù)即可完成對(duì)萬(wàn)億參數(shù)模型(如Kimi K2)的定制化訓(xùn)練。這使得微調(diào)成本大幅降低,讓個(gè)人開發(fā)者和小企業(yè)也能擁有自己的"私有版Kimi"。
OpenAI API兼容性(Scaffolding):
Tinker推出了與OpenAI API完全兼容的推理接口(稱為"Scaffolding"),這意味著開發(fā)者無(wú)需修改現(xiàn)有的代碼庫(kù),即可將后端的GPT-4替換為在Tinker上微調(diào)過的Kimi K2。這一策略極大地降低了遷移門檻,直接挑戰(zhàn)了OpenAI的生態(tài)鎖定。
而Google、微軟、亞馬遜和英偉達(dá)等巨頭對(duì)Kimi K2的官方集成,有著明確的指向性:他們集成的主要是Kimi K2 Thinking版本,看重的是其長(zhǎng)程推理能力。
2025年12月8日,微軟Azure AI Foundry官方博客宣布集成的模型名稱確切為"Kimi K2 Thinking"。微軟特別強(qiáng)調(diào)了該版本在"構(gòu)建長(zhǎng)視野、富工具代理(Long-horizon, tool-rich agents)"方面的優(yōu)勢(shì),而非普通對(duì)話能力。
在NVIDIA的NIM微服務(wù)目錄中,Kimi K2 Thinking被列為"十大最智能開源模型"之一。NVIDIA明確指出,該模型適合需要"多步推理(Multi-step reasoning)"的場(chǎng)景,這與僅用于快速響應(yīng)的K2 Instruct版本形成了鮮明區(qū)隔。
亞馬遜是在Amazon Bedrock 原生集成了Kimi K2,在 Bedrock中部署為無(wú)服務(wù)器(serverless)端點(diǎn), 完整支持全套AWS生態(tài)服務(wù); Google Cloud Vertex AI 對(duì)Kimi K2的集成方式則通過第三方代理層實(shí)現(xiàn)。
5. 應(yīng)用層破局: 編程代理和寫作的文藝復(fù)興"Open Lovable"與Kimi K2 Thinking:Agent的首選
12月最火的開源項(xiàng)目"Open Lovable"(網(wǎng)頁(yè)生成工具)主要依賴Kimi K2 Thinking的能力。開發(fā)者Leonardo Grigorio在演示視頻中明確提到:"Kimi K2 Thinking是我在Open Lovable中的首選模型(preferred model)。"他解釋說,是因?yàn)門hinking版本的推理能力能更好地理解復(fù)雜的前端布局邏輯,雖然速度比Instruct版本慢,但"一次做對(duì)"的概率更高。
在Open Lovable的GitHub Issues中,有討論提到如何配置Kimi K2 Thinking以利用其"交錯(cuò)式思考"來(lái)處理多步網(wǎng)頁(yè)修改任務(wù),而不是簡(jiǎn)單地生成代碼。
Windsurf的用戶反饋: "慢思考"與"深潛":獨(dú)特的開發(fā)者體驗(yàn)
在Windsurf中,Kimi K2的定價(jià)被設(shè)定為0.5 Credits per prompt(每條提示消耗0.5個(gè)信用點(diǎn))。對(duì)比競(jìng)品定價(jià):GPT-5 High Reasoning在Windsurf中的定價(jià)通常為1.5至2 Credits。
對(duì)于依賴"Agentic Loop"(智能體循環(huán))的開發(fā)者來(lái)說,成本是最大的痛點(diǎn)。一個(gè)復(fù)雜的代碼重構(gòu)任務(wù)可能需要智能體自主運(yùn)行50次交互。如果使用Sonnet,成本會(huì)迅速累積;而使用Kimi K2,僅需極其低廉的固定費(fèi)率。這種定價(jià)差異(10倍甚至更多)導(dǎo)致了大量?jī)r(jià)格敏感型開發(fā)者從Cursor遷移到Windsurf,或者在Windsurf內(nèi)部將Kimi K2設(shè)為默認(rèn)的"規(guī)劃"和"長(zhǎng)程推理"模型,僅在最后生成關(guān)鍵代碼片段時(shí)切換回Claude。
用戶反饋顯示,Kimi K2 Thinking在Windsurf中的表現(xiàn)呈現(xiàn)出一種獨(dú)特的"性格":略慢,但更深。
推理速度:Kimi K2的推理速度略低于Claude Sonnet,這使得它在簡(jiǎn)單的自動(dòng)補(bǔ)全任務(wù)中并不是反應(yīng)最快的。
深度推理:然而,在處理復(fù)雜的架構(gòu)設(shè)計(jì)或Debug任務(wù)時(shí),Kimi K2的"交錯(cuò)式思考"展現(xiàn)出巨大優(yōu)勢(shì)。它能夠自我糾錯(cuò),例如在生成代碼中途意識(shí)到引用的庫(kù)已廢棄,并自動(dòng)修正為新版庫(kù),而無(wú)需用戶干預(yù)。這種"一次做對(duì)"(One-shot success)的能力,使得開發(fā)者愿意容忍其沒那么快的生成速度。
機(jī)器創(chuàng)造力的文藝復(fù)興:寫作能力的差異化優(yōu)勢(shì)
除了在代碼領(lǐng)域的硬核表現(xiàn),Kimi K2 Thinking在創(chuàng)意寫作領(lǐng)域也意外地獲得了一批狂熱的追隨者。在Reddit的r/LocalLLaMA和r/SillyTavernAI社區(qū),用戶普遍認(rèn)為Kimi K2的寫作能力在某些維度上超越了經(jīng)過嚴(yán)格RLHF(人類反饋強(qiáng)化學(xué)習(xí))"規(guī)訓(xùn)"的美國(guó)模型。
用戶評(píng)論指出,Kimi K2 Thinking的文本輸出具有獨(dú)特的"文學(xué)性"。它傾向于使用生動(dòng)的意象(Vivid Imagery)和具體的感官細(xì)節(jié),而不是抽象的總結(jié)。
"Show, Don't Tell":相比于GPT-4喜歡直接陳述"他感到很悲傷",Kimi K2更可能描寫"他喉嚨發(fā)緊,手指不由自主地顫抖"。這種寫作風(fēng)格被認(rèn)為更接近人類作家的筆觸。
敘事邏輯:"Thinking"模塊似乎對(duì)長(zhǎng)篇敘事的連貫性有顯著幫助。模型在生成正文之前,會(huì)先在思維鏈中規(guī)劃情節(jié)走向和人物動(dòng)機(jī),從而避免了長(zhǎng)文本生成中常見的邏輯崩壞或人設(shè)漂移。
Kimi K2在寫作領(lǐng)域的流行,還與其獨(dú)特的后訓(xùn)練策略有關(guān)。在英文/國(guó)際環(huán)境里:Kimi K2模型的拒絕率極低(<7%),被用戶描述為"更自由"、"不愛說教"(Less Lecturing)。
后記: 算力摩爾定律的"中國(guó)修正"
《2025 Open Models Year in Review》中,將Kimi K2定義為"去魅者"。
在這個(gè)年度排名中,Moonshot AI被列入"Frontier open labs"(前沿開源實(shí)驗(yàn)室)的第一梯隊(duì),與DeepSeek和Qwen并列,而許多曾經(jīng)輝煌的美國(guó)開源項(xiàng)目則被下調(diào)。這在X上引發(fā)了關(guān)于美國(guó)開源生態(tài)是否正在喪失活力的反思。
Kimi K2的出現(xiàn)徹底粉碎了"DeepSeek是舉國(guó)體制下的偶然產(chǎn)物"這一論調(diào)。它證明了中國(guó)頭部實(shí)驗(yàn)室(Moonshot AI, Alibaba Qwen, DeepSeek, Z.ai,MiniMax)已經(jīng)形成了一套成熟的、可復(fù)制的方法論,能夠持續(xù)產(chǎn)出SOTA級(jí)別的開源模型。
最后,作為Kimi K2的日常使用者之一,城主對(duì)于K2 thinking只有一個(gè)想吐槽的地方:對(duì)于coding用途(比如使用claude code里調(diào)用Kimi K2 thinking API), 目前還沒有一個(gè)K2 thinking的包月訂閱方式,而Kimi已經(jīng)面向編程場(chǎng)景推出了一個(gè)Kimi K2的編程者包月訂閱模式,如果這里能改成K2 thinking,就完美了:)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.