網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

2025開源大模型年度回顧 : Kimi K2 thinking的非對(duì)稱前沿和對(duì)硅谷的生態(tài)滲透

2025-12-16 21:46:03　來(lái)源: Web3天空之城

浙江舉報(bào)

分享至

Web3天空之城|城主

1. 2025年開源模型的年度回顧: 分水嶺之年與"東方三巨頭"的崛起

2025年被廣泛認(rèn)為是人工智能發(fā)展史上的一個(gè)決定性轉(zhuǎn)折點(diǎn)。根據(jù)Interconnects.ai最新發(fā)布的《2025年開源模型年度回顧》（2025 Open Models Year in Review），這一年的核心敘事徹底顛覆了以往的行業(yè)共識(shí)。年初，全球科技界普遍認(rèn)為開源模型在性能上將長(zhǎng)期滯后于閉源模型（如OpenAI的GPT系列和Anthropic的Claude系列），僅能作為隱私敏感場(chǎng)景或低成本微調(diào)的替代品。然而，隨著2025年的落幕，這一論斷已被徹底證偽。

開源模型生態(tài)在這一年不僅實(shí)現(xiàn)了"追趕"，更在特定領(lǐng)域達(dá)成了"超越"。而在這一歷史性進(jìn)程中，最為顯著的現(xiàn)象莫過于中國(guó)AI實(shí)驗(yàn)室的集體躍升。Interconnects.ai的兩位主筆Nathan Lambert和Florian Brand將這一現(xiàn)象總結(jié)為"東方三巨頭"的確立：DeepSeek、阿里巴巴的Qwen（通義千問）以及Moonshot AI（月之暗面）的Kimi。

如果說DeepSeek R1的發(fā)布是打破平靜的"驚雷"，徹底改變了全球?qū)Φ统杀就评砟Ｐ偷恼J(rèn)知；Qwen 3則憑借其強(qiáng)大的通用性和生態(tài)兼容性成為了開發(fā)者的"默認(rèn)選項(xiàng)"。那么，在2025年底登場(chǎng)的Kimi K2 Thinking，則扮演了另一個(gè)關(guān)鍵的歷史角色——驗(yàn)證者。正如年度回顧報(bào)告所言，Kimi K2是"讓世界確信DeepSeek并非孤例，且中國(guó)將持續(xù)產(chǎn)出眾多領(lǐng)先模型的關(guān)鍵力量"。

2025年開源模型生態(tài)層級(jí)分析

Interconnects.ai對(duì)2025年全球開源模型構(gòu)建者進(jìn)行了一個(gè)層級(jí)劃分。這一層級(jí)體系不僅反映了技術(shù)實(shí)力的消長(zhǎng)，更揭示了全球AI算力經(jīng)濟(jì)的重心轉(zhuǎn)移。

Lambert和Brand在年度回顧中提出了一個(gè)基于"端到端模型訓(xùn)練能力"和"生態(tài)影響力"的層級(jí)評(píng)價(jià)體系。這一體系摒棄了單純的參數(shù)規(guī)模比較，更加注重模型的實(shí)際可用性、創(chuàng)新性以及對(duì)閉源前沿的追趕速度。

表1：2025年全球開源模型構(gòu)建者層級(jí)分布

層級(jí)分類 (Tier Classification)代表實(shí)驗(yàn)室/實(shí)體 (Labs / Entities)戰(zhàn)略評(píng)價(jià)與入選理由 (Strategic Significance)前沿開源實(shí)驗(yàn)室 (Frontier Open Labs)

DeepSeek (深度求索)
Qwen (阿里巴巴)
Kimi Moonshot (月之暗面)

這一層級(jí)完全由中國(guó)實(shí)驗(yàn)室占據(jù)。

它們持續(xù)發(fā)布定義"最新技術(shù)水平"(SOTA)的模型，

在推理能力、編碼能力及長(zhǎng)文本處理上與GPT-5和Claude Opus分庭抗禮。

緊隨其后 (Close Behind)

智譜
MiniMax AI (稀宇科技)
StepFun AI (階躍星辰)

這些機(jī)構(gòu)產(chǎn)出了極具競(jìng)爭(zhēng)力的模型，

在特定基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，

但在全球開發(fā)者社區(qū)的廣泛采用度或絕對(duì)創(chuàng)新性上略遜于第一梯隊(duì)。

值得注意的是，

該層級(jí)同樣沒有美國(guó)實(shí)驗(yàn)室的身影。

值得關(guān)注 (Noteworthy)

Nvidia (英偉達(dá))
Google (谷歌/Gemma)
Mistral
IBM

混合了中美歐的科技巨頭與初創(chuàng)公司。

它們生產(chǎn)了高質(zhì)量的實(shí)用模型

（如Gemma 3, Mistral Nemo），但在推動(dòng)推理能力的邊界方面，未起到核心引領(lǐng)作用，

更多是跟隨者或特定領(lǐng)域的工具提供者。

Kimi K2 thinking：打破"運(yùn)氣論"

在Kimi K2發(fā)布之前，硅谷存在一種普遍的心理防御機(jī)制：將DeepSeek R1的成功歸結(jié)為一種"運(yùn)氣"或"單點(diǎn)突破"，認(rèn)為在硬件制裁(H100/H200禁運(yùn))的背景下，中國(guó)無(wú)法系統(tǒng)性地復(fù)制這種高效能模型。

然而，Kimi K2 Thinking的出現(xiàn)徹底粉碎了這一幻想。它證明了高效能模型的產(chǎn)出并非偶然，而是基于一種成熟的、可復(fù)制的方法論——即"中國(guó)模型發(fā)布劇本"(China's Model Release Playbook)。這種劇本包括：

1. 社交媒體的前置滲透：通過Twitter (X)和Hugging Face建立技術(shù)影響力，甚至讓研究人員直接與西方開發(fā)者對(duì)話。

2. 極致的資本效率：在受限硬件上通過算法優(yōu)化實(shí)現(xiàn)性能躍遷。

3. 對(duì)西方工具鏈的全面擁抱：迅速適配vLLM、Ollama等開源推理?xiàng)＃档褪褂瞄T檻。

Interconnects.ai明確指出，Kimi K2的核心價(jià)值在于它終結(jié)了關(guān)于"DeepSeek現(xiàn)象是否可持續(xù)"的爭(zhēng)論，確立了中國(guó)在開源模型領(lǐng)域的系統(tǒng)性優(yōu)勢(shì)。

2. 硅谷的"技術(shù)反思時(shí)刻"與東方潛流

長(zhǎng)期以來(lái)，硅谷奉行著"規(guī)模法則"(Scaling Laws)的暴力美學(xué)，相信更大規(guī)模的算力、更多的數(shù)據(jù)和更昂貴的訓(xùn)練成本是通往通用人工智能(AGI)的唯一路徑。然而Moonshot AI(月之暗面)作為一家中國(guó)創(chuàng)業(yè)公司，其最新發(fā)布的推理模型Kimi K2 Thinking，卻以一種出乎意料的高效能姿態(tài)，撕開了這一共識(shí)的缺口。它不僅在技術(shù)參數(shù)上對(duì)標(biāo)甚至超越了部分美國(guó)本土的頂尖模型，更關(guān)鍵的是，它通過開源權(quán)重(Open Weights)和極致的推理效率，迅速滲透進(jìn)了美國(guó)AI基礎(chǔ)設(shè)施的毛細(xì)血管之中。

從微軟Azure的企業(yè)級(jí)模型庫(kù)到NVIDIA的高性能推理微服務(wù)(NIM)，從GitHub上火熱的開源項(xiàng)目到X (Twitter)上關(guān)于"算力經(jīng)濟(jì)學(xué)"的激烈辯論，Kimi K2 Thinking的身影無(wú)處不在。它不再是某個(gè)被常見的西方視角審視的"模仿者"，而是變成了一個(gè)被美國(guó)互聯(lián)網(wǎng)巨頭和硅谷公司使用的"工具"，一個(gè)被研究的"樣本"，甚至在某些領(lǐng)域，成為了被追趕的"標(biāo)桿"。

比如，由前OpenAI首席技術(shù)官M(fèi)ira Murati創(chuàng)立的Thinking Machines Lab及其推出的Tinker平臺(tái)，正在重塑AI微調(diào)(Fine-tuning)的格局，而Kimi K2正是其首批支持的核心模型之一。在應(yīng)用層，而Open Lovale等新一代AI代碼編輯器通過集成Kimi K2，正在重新定義開發(fā)者的生產(chǎn)力經(jīng)濟(jì)學(xué)。

3. 思考的架構(gòu)：Kimi K2 Thinking的技術(shù)解構(gòu)與算力不對(duì)稱

我們首先簡(jiǎn)單剖析一下Kimi K2 thinking的技術(shù)內(nèi)核，方便我們理解Kimi K2 Thinking為何能在崇尚原創(chuàng)與硬核技術(shù)的硅谷贏得尊重。不同于早期的"聊天機(jī)器人(Chatbot)"范式，Kimi K2被明確定義為支持200到300步工具調(diào)用的"思考代理(Thinking Agent)"。這一概念的轉(zhuǎn)變，恰好擊中了2025年AI研發(fā)的核心痛點(diǎn)：如何從單純的文本生成，轉(zhuǎn)向具備長(zhǎng)程規(guī)劃與執(zhí)行能力的智能體。

混合專家架構(gòu)(MoE)的極致效率：萬(wàn)億參數(shù)的"瘦身"藝術(shù)

Kimi K2 Thinking采用了一萬(wàn)億(1 Trillion)總參數(shù)的混合專家(Mixture-of-Experts, MoE)架構(gòu)，但在實(shí)際推理過程中，它僅激活320億(32B)參數(shù)。這種超稀疏的"大存小取"的設(shè)計(jì)哲學(xué)，是其在硅谷引發(fā)熱議的第一塊基石。

在傳統(tǒng)的致密模型(Dense Model)時(shí)代，運(yùn)行一個(gè)萬(wàn)億參數(shù)的模型需要龐大的GPU集群，這使得除了少數(shù)巨頭外，幾乎沒有人能染指頂級(jí)AI的部署。相比 DeepSeek 為代表的MoE模型，Kimi K2采用了更高的稀疏度（48 vs 32），通過僅激活320億參數(shù)，它使得該模型能夠在相對(duì)"平民化"的推理平臺(tái)上運(yùn)行。

這種架構(gòu)選擇并非偶然，而是對(duì)當(dāng)前算力瓶頸的精準(zhǔn)回應(yīng)。除了通過超稀疏的架構(gòu)降低推理抽本，Moonshot 還AI采用了原生INT4量化技術(shù)與量化感知訓(xùn)練(Quantization-Aware Training, QAT)。這意味著模型在訓(xùn)練階段就已經(jīng)適應(yīng)了低精度計(jì)算，從而在不犧牲推理能力的前提下，大幅降低了顯存占用和帶寬需求。在推理階段，對(duì)于GPU芯片的適配度也更高，不僅可以適配上一代芯片，也能更好得適配國(guó)產(chǎn)推理芯片。

"交錯(cuò)式思考"(Interleaved Thinking)：代理智能的"圣杯"

如果說MoE架構(gòu)解決了"跑得動(dòng)"的問題，那么"交錯(cuò)式思考"則解決了"跑得好"的問題。這是Kimi K2最具顛覆性的技術(shù)特性，也是讓谷歌開發(fā)專家(GDE) Sam Witteveen等技術(shù)大咖在評(píng)測(cè)中贊不絕口的關(guān)鍵。

傳統(tǒng)的思維鏈(Chain of Thought, CoT)通常是線性的：模型一次性生成所有思考步驟，然后給出結(jié)論。然而，現(xiàn)實(shí)世界的復(fù)雜任務(wù)往往需要"試錯(cuò)"和"反饋"。Kimi K2引入了"交錯(cuò)式思考"機(jī)制，允許模型在思考的過程中調(diào)用工具(如搜索、代碼執(zhí)行)，觀察工具的返回結(jié)果，然后基于新信息繼續(xù)思考。

表2：傳統(tǒng)CoT模型與Kimi K2 Thinking的代理能力對(duì)比

模型傳統(tǒng)CoT模型(如GPT-o1

Kimi K2 Thinking推理模式

線性生成，一次成型

交錯(cuò)循環(huán)：思考-行動(dòng)-觀察-再思考

工具調(diào)用深度

往往作為最后一步或單次調(diào)用，通常<10次

支持200-300次連續(xù)工具調(diào)用

上下文窗口

128k

256k

容錯(cuò)能力

思考鏈一旦斷裂即失敗

可根據(jù)工具反饋?zhàn)晕倚拚窂?/p>

Moonshot AI官方展示的一個(gè)案例在開發(fā)者社區(qū)廣為流傳：為了解決一個(gè)博士級(jí)的數(shù)學(xué)問題，Kimi K2進(jìn)行了23次交錯(cuò)的推理和工具調(diào)用，像一個(gè)真實(shí)的人類研究員一樣，不斷提出假設(shè)、驗(yàn)證假設(shè)、修正方向，最終得出正確答案。這種能力在"Humanity's Last Exam"基準(zhǔn)測(cè)試中得到了驗(yàn)證，Kimi K2在工具輔助下的得分為44.9%，甚至超過了發(fā)布時(shí)的GPT-5和Claude旗艦?zāi)Ｐ汀?/p>

資本效率(Capital Efficiency)：打破成本神話

Kimi K2 Thinking的發(fā)布還帶來(lái)了一個(gè)令硅谷震驚的經(jīng)濟(jì)學(xué)數(shù)據(jù)：其訓(xùn)練成本僅約為560萬(wàn)至700萬(wàn)美元。相比之下，GPT-4等同級(jí)別模型的訓(xùn)練成本據(jù)傳超過1億美元。這種20倍的資本效率差異是對(duì)OpenAI"暴力縮放定律"的一次有力修正。

Stability AI創(chuàng)始人Emad Mostaque指出，Kimi K2的低成本證明了通過算法優(yōu)化(如使用Muon優(yōu)化器解決注意力對(duì)數(shù)爆炸問題)和精細(xì)的數(shù)據(jù)工程，可以在算力受限(如使用H800芯片)的情況下觸達(dá)技術(shù)前沿。這導(dǎo)致了硅谷創(chuàng)投圈風(fēng)向的微妙轉(zhuǎn)變：投資人開始不僅僅關(guān)注模型的性能(Performance)，更開始關(guān)注模型的"訓(xùn)練效能比"(Performance per Dollar)。Kimi K2成為了這一新指標(biāo)的標(biāo)桿案例。

4. 對(duì)美國(guó)企業(yè)級(jí)市場(chǎng)的滲透: Tinker生態(tài)系統(tǒng), 微軟和英偉達(dá)等巨頭的青睞

Kimi K2 Thinking的成功不僅僅在于模型本身，更在于它被迅速集成到了新興的AI基礎(chǔ)設(shè)施中。前OpenAI首席技術(shù)官M(fèi)ira Murati創(chuàng)立的Thinking Machines Lab及其推出的Tinker平臺(tái)就是一個(gè)最新的例子。

2025年10月，Thinking Machines Lab推出了Tinker，并在12月12日宣布結(jié)束等待名單，全面開放，同時(shí)正式支持Kimi K2 Thinking的微調(diào)。Tinker被描述為"AI訓(xùn)練的云計(jì)算平臺(tái)"，旨在將復(fù)雜的分布式訓(xùn)練基礎(chǔ)設(shè)施抽象化，讓開發(fā)者可以通過簡(jiǎn)單的API調(diào)用來(lái)微調(diào)頂尖模型。

Tinker的核心價(jià)值主張包括:

LoRA優(yōu)先架構(gòu)：

Tinker利用低秩適應(yīng)(LoRA)技術(shù)，僅需調(diào)整少量參數(shù)即可完成對(duì)萬(wàn)億參數(shù)模型(如Kimi K2)的定制化訓(xùn)練。這使得微調(diào)成本大幅降低，讓個(gè)人開發(fā)者和小企業(yè)也能擁有自己的"私有版Kimi"。

OpenAI API兼容性(Scaffolding)：

Tinker推出了與OpenAI API完全兼容的推理接口(稱為"Scaffolding")，這意味著開發(fā)者無(wú)需修改現(xiàn)有的代碼庫(kù)，即可將后端的GPT-4替換為在Tinker上微調(diào)過的Kimi K2。這一策略極大地降低了遷移門檻，直接挑戰(zhàn)了OpenAI的生態(tài)鎖定。

而Google、微軟、亞馬遜和英偉達(dá)等巨頭對(duì)Kimi K2的官方集成，有著明確的指向性：他們集成的主要是Kimi K2 Thinking版本，看重的是其長(zhǎng)程推理能力。

2025年12月8日，微軟Azure AI Foundry官方博客宣布集成的模型名稱確切為"Kimi K2 Thinking"。微軟特別強(qiáng)調(diào)了該版本在"構(gòu)建長(zhǎng)視野、富工具代理(Long-horizon, tool-rich agents)"方面的優(yōu)勢(shì)，而非普通對(duì)話能力。

在NVIDIA的NIM微服務(wù)目錄中，Kimi K2 Thinking被列為"十大最智能開源模型"之一。NVIDIA明確指出，該模型適合需要"多步推理(Multi-step reasoning)"的場(chǎng)景，這與僅用于快速響應(yīng)的K2 Instruct版本形成了鮮明區(qū)隔。

亞馬遜是在Amazon Bedrock 原生集成了Kimi K2,在 Bedrock中部署為無(wú)服務(wù)器（serverless）端點(diǎn), 完整支持全套AWS生態(tài)服務(wù); Google Cloud Vertex AI 對(duì)Kimi K2的集成方式則通過第三方代理層實(shí)現(xiàn)。

5. 應(yīng)用層破局: 編程代理和寫作的文藝復(fù)興"Open Lovable"與Kimi K2 Thinking：Agent的首選

12月最火的開源項(xiàng)目"Open Lovable"(網(wǎng)頁(yè)生成工具)主要依賴Kimi K2 Thinking的能力。開發(fā)者Leonardo Grigorio在演示視頻中明確提到："Kimi K2 Thinking是我在Open Lovable中的首選模型(preferred model)。"他解釋說，是因?yàn)門hinking版本的推理能力能更好地理解復(fù)雜的前端布局邏輯，雖然速度比Instruct版本慢，但"一次做對(duì)"的概率更高。

在Open Lovable的GitHub Issues中，有討論提到如何配置Kimi K2 Thinking以利用其"交錯(cuò)式思考"來(lái)處理多步網(wǎng)頁(yè)修改任務(wù)，而不是簡(jiǎn)單地生成代碼。

Windsurf的用戶反饋: "慢思考"與"深潛"：獨(dú)特的開發(fā)者體驗(yàn)

在Windsurf中，Kimi K2的定價(jià)被設(shè)定為0.5 Credits per prompt(每條提示消耗0.5個(gè)信用點(diǎn))。對(duì)比競(jìng)品定價(jià)：GPT-5 High Reasoning在Windsurf中的定價(jià)通常為1.5至2 Credits。

對(duì)于依賴"Agentic Loop"(智能體循環(huán))的開發(fā)者來(lái)說，成本是最大的痛點(diǎn)。一個(gè)復(fù)雜的代碼重構(gòu)任務(wù)可能需要智能體自主運(yùn)行50次交互。如果使用Sonnet，成本會(huì)迅速累積；而使用Kimi K2，僅需極其低廉的固定費(fèi)率。這種定價(jià)差異(10倍甚至更多)導(dǎo)致了大量?jī)r(jià)格敏感型開發(fā)者從Cursor遷移到Windsurf，或者在Windsurf內(nèi)部將Kimi K2設(shè)為默認(rèn)的"規(guī)劃"和"長(zhǎng)程推理"模型，僅在最后生成關(guān)鍵代碼片段時(shí)切換回Claude。

用戶反饋顯示，Kimi K2 Thinking在Windsurf中的表現(xiàn)呈現(xiàn)出一種獨(dú)特的"性格"：略慢，但更深。

推理速度：Kimi K2的推理速度略低于Claude Sonnet，這使得它在簡(jiǎn)單的自動(dòng)補(bǔ)全任務(wù)中并不是反應(yīng)最快的。

深度推理：然而，在處理復(fù)雜的架構(gòu)設(shè)計(jì)或Debug任務(wù)時(shí)，Kimi K2的"交錯(cuò)式思考"展現(xiàn)出巨大優(yōu)勢(shì)。它能夠自我糾錯(cuò)，例如在生成代碼中途意識(shí)到引用的庫(kù)已廢棄，并自動(dòng)修正為新版庫(kù)，而無(wú)需用戶干預(yù)。這種"一次做對(duì)"(One-shot success)的能力，使得開發(fā)者愿意容忍其沒那么快的生成速度。

機(jī)器創(chuàng)造力的文藝復(fù)興：寫作能力的差異化優(yōu)勢(shì)

除了在代碼領(lǐng)域的硬核表現(xiàn)，Kimi K2 Thinking在創(chuàng)意寫作領(lǐng)域也意外地獲得了一批狂熱的追隨者。在Reddit的r/LocalLLaMA和r/SillyTavernAI社區(qū)，用戶普遍認(rèn)為Kimi K2的寫作能力在某些維度上超越了經(jīng)過嚴(yán)格RLHF(人類反饋強(qiáng)化學(xué)習(xí))"規(guī)訓(xùn)"的美國(guó)模型。

用戶評(píng)論指出，Kimi K2 Thinking的文本輸出具有獨(dú)特的"文學(xué)性"。它傾向于使用生動(dòng)的意象(Vivid Imagery)和具體的感官細(xì)節(jié)，而不是抽象的總結(jié)。

"Show, Don't Tell"：相比于GPT-4喜歡直接陳述"他感到很悲傷"，Kimi K2更可能描寫"他喉嚨發(fā)緊，手指不由自主地顫抖"。這種寫作風(fēng)格被認(rèn)為更接近人類作家的筆觸。

敘事邏輯："Thinking"模塊似乎對(duì)長(zhǎng)篇敘事的連貫性有顯著幫助。模型在生成正文之前，會(huì)先在思維鏈中規(guī)劃情節(jié)走向和人物動(dòng)機(jī)，從而避免了長(zhǎng)文本生成中常見的邏輯崩壞或人設(shè)漂移。

Kimi K2在寫作領(lǐng)域的流行，還與其獨(dú)特的后訓(xùn)練策略有關(guān)。在英文/國(guó)際環(huán)境里：Kimi K2模型的拒絕率極低(<7%)，被用戶描述為"更自由"、"不愛說教"(Less Lecturing)。

后記: 算力摩爾定律的"中國(guó)修正"

《2025 Open Models Year in Review》中，將Kimi K2定義為"去魅者"。

在這個(gè)年度排名中，Moonshot AI被列入"Frontier open labs"(前沿開源實(shí)驗(yàn)室)的第一梯隊(duì)，與DeepSeek和Qwen并列，而許多曾經(jīng)輝煌的美國(guó)開源項(xiàng)目則被下調(diào)。這在X上引發(fā)了關(guān)于美國(guó)開源生態(tài)是否正在喪失活力的反思。

Kimi K2的出現(xiàn)徹底粉碎了"DeepSeek是舉國(guó)體制下的偶然產(chǎn)物"這一論調(diào)。它證明了中國(guó)頭部實(shí)驗(yàn)室(Moonshot AI, Alibaba Qwen, DeepSeek, Z.ai，MiniMax)已經(jīng)形成了一套成熟的、可復(fù)制的方法論，能夠持續(xù)產(chǎn)出SOTA級(jí)別的開源模型。

最后，作為Kimi K2的日常使用者之一，城主對(duì)于K2 thinking只有一個(gè)想吐槽的地方：對(duì)于coding用途(比如使用claude code里調(diào)用Kimi K2 thinking API), 目前還沒有一個(gè)K2 thinking的包月訂閱方式，而Kimi已經(jīng)面向編程場(chǎng)景推出了一個(gè)Kimi K2的編程者包月訂閱模式，如果這里能改成K2 thinking，就完美了:)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.