<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      2025開源大模型年度回顧 : Kimi K2 thinking的非對稱前沿和對硅谷的生態滲透

      0
      分享至

      Web3天空之城|城主

      1. 2025年開源模型的年度回顧: 分水嶺之年與"東方三巨頭"的崛起

      2025年被廣泛認為是人工智能發展史上的一個決定性轉折點。根據Interconnects.ai最新發布的《2025年開源模型年度回顧》(2025 Open Models Year in Review),這一年的核心敘事徹底顛覆了以往的行業共識。年初,全球科技界普遍認為開源模型在性能上將長期滯后于閉源模型(如OpenAI的GPT系列和Anthropic的Claude系列),僅能作為隱私敏感場景或低成本微調的替代品。然而,隨著2025年的落幕,這一論斷已被徹底證偽。

      開源模型生態在這一年不僅實現了"追趕",更在特定領域達成了"超越"。而在這一歷史性進程中,最為顯著的現象莫過于中國AI實驗室的集體躍升。Interconnects.ai的兩位主筆Nathan Lambert和Florian Brand將這一現象總結為"東方三巨頭"的確立:DeepSeek、阿里巴巴的Qwen(通義千問)以及Moonshot AI(月之暗面)的Kimi。

      如果說DeepSeek R1的發布是打破平靜的"驚雷",徹底改變了全球對低成本推理模型的認知;Qwen 3則憑借其強大的通用性和生態兼容性成為了開發者的"默認選項"。那么,在2025年底登場的Kimi K2 Thinking,則扮演了另一個關鍵的歷史角色——驗證者。正如年度回顧報告所言,Kimi K2是"讓世界確信DeepSeek并非孤例,且中國將持續產出眾多領先模型的關鍵力量"。

      2025年開源模型生態層級分析


      Interconnects.ai對2025年全球開源模型構建者進行了一個層級劃分。這一層級體系不僅反映了技術實力的消長,更揭示了全球AI算力經濟的重心轉移。

      Lambert和Brand在年度回顧中提出了一個基于"端到端模型訓練能力""生態影響力"的層級評價體系。這一體系摒棄了單純的參數規模比較,更加注重模型的實際可用性、創新性以及對閉源前沿的追趕速度。

      表1:2025年全球開源模型構建者層級分布


      層級分類 (Tier Classification)代表實驗室/實體 (Labs / Entities)戰略評價與入選理由 (Strategic Significance)前沿開源實驗室 (Frontier Open Labs)

      DeepSeek (深度求索)
      Qwen (阿里巴巴)
      Kimi Moonshot (月之暗面)

      這一層級完全由中國實驗室占據。

      它們持續發布定義"最新技術水平"(SOTA)的模型,

      在推理能力、編碼能力及長文本處理上與GPT-5和Claude Opus分庭抗禮。

      緊隨其后 (Close Behind)

      智譜
      MiniMax AI (稀宇科技)
      StepFun AI (階躍星辰)

      這些機構產出了極具競爭力的模型,

      在特定基準測試中表現優異,

      但在全球開發者社區的廣泛采用度或絕對創新性上略遜于第一梯隊。

      值得注意的是,

      該層級同樣沒有美國實驗室的身影。

      值得關注 (Noteworthy)

      Nvidia (英偉達)
      Google (谷歌/Gemma)
      Mistral
      IBM

      混合了中美歐的科技巨頭與初創公司。

      它們生產了高質量的實用模型

      (如Gemma 3, Mistral Nemo),但在推動推理能力的邊界方面,未起到核心引領作用,

      更多是跟隨者或特定領域的工具提供者。


      Kimi K2 thinking:打破"運氣論"

      在Kimi K2發布之前,硅谷存在一種普遍的心理防御機制:將DeepSeek R1的成功歸結為一種"運氣"或"單點突破",認為在硬件制裁(H100/H200禁運)的背景下,中國無法系統性地復制這種高效能模型。

      然而,Kimi K2 Thinking的出現徹底粉碎了這一幻想。它證明了高效能模型的產出并非偶然,而是基于一種成熟的、可復制的方法論——即"中國模型發布劇本"(China's Model Release Playbook)。這種劇本包括:

      1. 社交媒體的前置滲透:通過Twitter (X)和Hugging Face建立技術影響力,甚至讓研究人員直接與西方開發者對話。

      2. 極致的資本效率:在受限硬件上通過算法優化實現性能躍遷。

      3. 對西方工具鏈的全面擁抱:迅速適配vLLM、Ollama等開源推理棧,降低使用門檻。

      Interconnects.ai明確指出,Kimi K2的核心價值在于它終結了關于"DeepSeek現象是否可持續"的爭論,確立了中國在開源模型領域的系統性優勢。

      2. 硅谷的"技術反思時刻"與東方潛流

      長期以來,硅谷奉行著"規模法則"(Scaling Laws)的暴力美學,相信更大規模的算力、更多的數據和更昂貴的訓練成本是通往通用人工智能(AGI)的唯一路徑。然而Moonshot AI(月之暗面)作為一家中國創業公司,其最新發布的推理模型Kimi K2 Thinking,卻以一種出乎意料的高效能姿態,撕開了這一共識的缺口。它不僅在技術參數上對標甚至超越了部分美國本土的頂尖模型,更關鍵的是,它通過開源權重(Open Weights)和極致的推理效率,迅速滲透進了美國AI基礎設施的毛細血管之中。

      從微軟Azure的企業級模型庫到NVIDIA的高性能推理微服務(NIM),從GitHub上火熱的開源項目到X (Twitter)上關于"算力經濟學"的激烈辯論,Kimi K2 Thinking的身影無處不在。它不再是某個被常見的西方視角審視的"模仿者",而是變成了一個被美國互聯網巨頭和硅谷公司使用的"工具",一個被研究的"樣本",甚至在某些領域,成為了被追趕的"標桿"。

      比如,由前OpenAI首席技術官Mira Murati創立的Thinking Machines Lab及其推出的Tinker平臺,正在重塑AI微調(Fine-tuning)的格局,而Kimi K2正是其首批支持的核心模型之一。在應用層,而Open Lovale等新一代AI代碼編輯器通過集成Kimi K2,正在重新定義開發者的生產力經濟學。


      3. 思考的架構:Kimi K2 Thinking的技術解構與算力不對稱

      我們首先簡單剖析一下Kimi K2 thinking的技術內核,方便我們理解Kimi K2 Thinking為何能在崇尚原創與硬核技術的硅谷贏得尊重。不同于早期的"聊天機器人(Chatbot)"范式,Kimi K2被明確定義為支持200到300步工具調用的"思考代理(Thinking Agent)"。這一概念的轉變,恰好擊中了2025年AI研發的核心痛點:如何從單純的文本生成,轉向具備長程規劃與執行能力的智能體。

      混合專家架構(MoE)的極致效率:萬億參數的"瘦身"藝術

      Kimi K2 Thinking采用了一萬億(1 Trillion)總參數的混合專家(Mixture-of-Experts, MoE)架構,但在實際推理過程中,它僅激活320億(32B)參數。這種超稀疏的"大存小取"的設計哲學,是其在硅谷引發熱議的第一塊基石。

      在傳統的致密模型(Dense Model)時代,運行一個萬億參數的模型需要龐大的GPU集群,這使得除了少數巨頭外,幾乎沒有人能染指頂級AI的部署。相比 DeepSeek 為代表的MoE模型,Kimi K2采用了更高的稀疏度(48 vs 32),通過僅激活320億參數,它使得該模型能夠在相對"平民化"的推理平臺上運行。

      這種架構選擇并非偶然,而是對當前算力瓶頸的精準回應。除了通過超稀疏的架構降低推理抽本,Moonshot 還AI采用了原生INT4量化技術與量化感知訓練(Quantization-Aware Training, QAT)。這意味著模型在訓練階段就已經適應了低精度計算,從而在不犧牲推理能力的前提下,大幅降低了顯存占用和帶寬需求。在推理階段,對于GPU芯片的適配度也更高,不僅可以適配上一代芯片,也能更好得適配國產推理芯片。

      "交錯式思考"(Interleaved Thinking):代理智能的"圣杯"

      如果說MoE架構解決了"跑得動"的問題,那么"交錯式思考"則解決了"跑得好"的問題。這是Kimi K2最具顛覆性的技術特性,也是讓谷歌開發專家(GDE) Sam Witteveen等技術大咖在評測中贊不絕口的關鍵。

      傳統的思維鏈(Chain of Thought, CoT)通常是線性的:模型一次性生成所有思考步驟,然后給出結論。然而,現實世界的復雜任務往往需要"試錯"和"反饋"。Kimi K2引入了"交錯式思考"機制,允許模型在思考的過程中調用工具(如搜索、代碼執行),觀察工具的返回結果,然后基于新信息繼續思考。

      表2:傳統CoT模型與Kimi K2 Thinking的代理能力對比


      模型傳統CoT模型(如GPT-o1

      Kimi K2 Thinking推理模式

      線性生成,一次成型

      交錯循環:思考-行動-觀察-再思考

      工具調用深度

      往往作為最后一步或單次調用,通常<10次

      支持200-300次連續工具調用

      上下文窗口

      128k

      256k

      容錯能力

      思考鏈一旦斷裂即失敗

      可根據工具反饋自我修正路徑

      Moonshot AI官方展示的一個案例在開發者社區廣為流傳:為了解決一個博士級的數學問題,Kimi K2進行了23次交錯的推理和工具調用,像一個真實的人類研究員一樣,不斷提出假設、驗證假設、修正方向,最終得出正確答案。這種能力在"Humanity's Last Exam"基準測試中得到了驗證,Kimi K2在工具輔助下的得分為44.9%,甚至超過了發布時的GPT-5和Claude旗艦模型。

      資本效率(Capital Efficiency):打破成本神話

      Kimi K2 Thinking的發布還帶來了一個令硅谷震驚的經濟學數據:其訓練成本僅約為560萬至700萬美元。相比之下,GPT-4等同級別模型的訓練成本據傳超過1億美元。這種20倍的資本效率差異是對OpenAI"暴力縮放定律"的一次有力修正。

      Stability AI創始人Emad Mostaque指出,Kimi K2的低成本證明了通過算法優化(如使用Muon優化器解決注意力對數爆炸問題)和精細的數據工程,可以在算力受限(如使用H800芯片)的情況下觸達技術前沿。這導致了硅谷創投圈風向的微妙轉變:投資人開始不僅僅關注模型的性能(Performance),更開始關注模型的"訓練效能比"(Performance per Dollar)。Kimi K2成為了這一新指標的標桿案例。

      4. 對美國企業級市場的滲透: Tinker生態系統, 微軟和英偉達等巨頭的青睞

      Kimi K2 Thinking的成功不僅僅在于模型本身,更在于它被迅速集成到了新興的AI基礎設施中。前OpenAI首席技術官Mira Murati創立的Thinking Machines Lab及其推出的Tinker平臺就是一個最新的例子。

      2025年10月,Thinking Machines Lab推出了Tinker,并在12月12日宣布結束等待名單,全面開放,同時正式支持Kimi K2 Thinking的微調。Tinker被描述為"AI訓練的云計算平臺",旨在將復雜的分布式訓練基礎設施抽象化,讓開發者可以通過簡單的API調用來微調頂尖模型。

      Tinker的核心價值主張包括:

      LoRA優先架構:

      Tinker利用低秩適應(LoRA)技術,僅需調整少量參數即可完成對萬億參數模型(如Kimi K2)的定制化訓練。這使得微調成本大幅降低,讓個人開發者和小企業也能擁有自己的"私有版Kimi"。

      OpenAI API兼容性(Scaffolding):

      Tinker推出了與OpenAI API完全兼容的推理接口(稱為"Scaffolding"),這意味著開發者無需修改現有的代碼庫,即可將后端的GPT-4替換為在Tinker上微調過的Kimi K2。這一策略極大地降低了遷移門檻,直接挑戰了OpenAI的生態鎖定。

      而Google、微軟、亞馬遜和英偉達等巨頭對Kimi K2的官方集成,有著明確的指向性:他們集成的主要是Kimi K2 Thinking版本,看重的是其長程推理能力。

      2025年12月8日,微軟Azure AI Foundry官方博客宣布集成的模型名稱確切為"Kimi K2 Thinking"。微軟特別強調了該版本在"構建長視野、富工具代理(Long-horizon, tool-rich agents)"方面的優勢,而非普通對話能力。

      在NVIDIA的NIM微服務目錄中,Kimi K2 Thinking被列為"十大最智能開源模型"之一。NVIDIA明確指出,該模型適合需要"多步推理(Multi-step reasoning)"的場景,這與僅用于快速響應的K2 Instruct版本形成了鮮明區隔。

      亞馬遜是在Amazon Bedrock 原生集成了Kimi K2,在 Bedrock中部署為無服務器(serverless)端點, 完整支持全套AWS生態服務; Google Cloud Vertex AI 對Kimi K2的集成方式則通過第三方代理層實現

      5. 應用層破局: 編程代理和寫作的文藝復興"Open Lovable"與Kimi K2 Thinking:Agent的首選

      12月最火的開源項目"Open Lovable"(網頁生成工具)主要依賴Kimi K2 Thinking的能力。開發者Leonardo Grigorio在演示視頻中明確提到:"Kimi K2 Thinking是我在Open Lovable中的首選模型(preferred model)。"他解釋說,是因為Thinking版本的推理能力能更好地理解復雜的前端布局邏輯,雖然速度比Instruct版本慢,但"一次做對"的概率更高。

      在Open Lovable的GitHub Issues中,有討論提到如何配置Kimi K2 Thinking以利用其"交錯式思考"來處理多步網頁修改任務,而不是簡單地生成代碼。

      Windsurf的用戶反饋: "慢思考"與"深潛":獨特的開發者體驗

      在Windsurf中,Kimi K2的定價被設定為0.5 Credits per prompt(每條提示消耗0.5個信用點)。對比競品定價:GPT-5 High Reasoning在Windsurf中的定價通常為1.5至2 Credits。

      對于依賴"Agentic Loop"(智能體循環)的開發者來說,成本是最大的痛點。一個復雜的代碼重構任務可能需要智能體自主運行50次交互。如果使用Sonnet,成本會迅速累積;而使用Kimi K2,僅需極其低廉的固定費率。這種定價差異(10倍甚至更多)導致了大量價格敏感型開發者從Cursor遷移到Windsurf,或者在Windsurf內部將Kimi K2設為默認的"規劃"和"長程推理"模型,僅在最后生成關鍵代碼片段時切換回Claude。

      用戶反饋顯示,Kimi K2 Thinking在Windsurf中的表現呈現出一種獨特的"性格":略慢,但更深。

      推理速度:Kimi K2的推理速度略低于Claude Sonnet,這使得它在簡單的自動補全任務中并不是反應最快的。

      深度推理:然而,在處理復雜的架構設計或Debug任務時,Kimi K2的"交錯式思考"展現出巨大優勢。它能夠自我糾錯,例如在生成代碼中途意識到引用的庫已廢棄,并自動修正為新版庫,而無需用戶干預。這種"一次做對"(One-shot success)的能力,使得開發者愿意容忍其沒那么快的生成速度。

      機器創造力的文藝復興:寫作能力的差異化優勢

      除了在代碼領域的硬核表現,Kimi K2 Thinking在創意寫作領域也意外地獲得了一批狂熱的追隨者。在Reddit的r/LocalLLaMA和r/SillyTavernAI社區,用戶普遍認為Kimi K2的寫作能力在某些維度上超越了經過嚴格RLHF(人類反饋強化學習)"規訓"的美國模型。

      用戶評論指出,Kimi K2 Thinking的文本輸出具有獨特的"文學性"。它傾向于使用生動的意象(Vivid Imagery)和具體的感官細節,而不是抽象的總結。

      "Show, Don't Tell":相比于GPT-4喜歡直接陳述"他感到很悲傷",Kimi K2更可能描寫"他喉嚨發緊,手指不由自主地顫抖"。這種寫作風格被認為更接近人類作家的筆觸。

      敘事邏輯:"Thinking"模塊似乎對長篇敘事的連貫性有顯著幫助。模型在生成正文之前,會先在思維鏈中規劃情節走向和人物動機,從而避免了長文本生成中常見的邏輯崩壞或人設漂移。

      Kimi K2在寫作領域的流行,還與其獨特的后訓練策略有關。在英文/國際環境里:Kimi K2模型的拒絕率極低(<7%),被用戶描述為"更自由"、"不愛說教"(Less Lecturing)。

      后記: 算力摩爾定律的"中國修正"

      《2025 Open Models Year in Review》中,將Kimi K2定義為"去魅者"

      在這個年度排名中,Moonshot AI被列入"Frontier open labs"(前沿開源實驗室)的第一梯隊,與DeepSeek和Qwen并列,而許多曾經輝煌的美國開源項目則被下調。這在X上引發了關于美國開源生態是否正在喪失活力的反思。

      Kimi K2的出現徹底粉碎了"DeepSeek是舉國體制下的偶然產物"這一論調。它證明了中國頭部實驗室(Moonshot AI, Alibaba Qwen, DeepSeek, Z.ai,MiniMax)已經形成了一套成熟的、可復制的方法論,能夠持續產出SOTA級別的開源模型。

      最后,作為Kimi K2的日常使用者之一,城主對于K2 thinking只有一個想吐槽的地方:對于coding用途(比如使用claude code里調用Kimi K2 thinking API), 目前還沒有一個K2 thinking的包月訂閱方式,而Kimi已經面向編程場景推出了一個Kimi K2的編程者包月訂閱模式,如果這里能改成K2 thinking,就完美了:)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      津門虎1-1遭海牛讀秒絕平,楊帆烏龍送禮,黃嘉輝染紅

      津門虎1-1遭海牛讀秒絕平,楊帆烏龍送禮,黃嘉輝染紅

      懂球帝
      2026-04-12 21:24:04
      摸景甜胸側,摟李雪琴胳膊,沒分寸感的他來《你好星期六》干嘛?

      摸景甜胸側,摟李雪琴胳膊,沒分寸感的他來《你好星期六》干嘛?

      老黯談娛
      2026-04-12 13:43:48
      尸骨未寒!陳麗華剛走,遲重瑞被當眾挑毛病,眾目睽睽下顏面掃地

      尸骨未寒!陳麗華剛走,遲重瑞被當眾挑毛病,眾目睽睽下顏面掃地

      一盅情懷
      2026-04-12 15:22:24
      76年周恩來去世,楊振寧問鄧穎超:總理已生病,為何不讓他休息?

      76年周恩來去世,楊振寧問鄧穎超:總理已生病,為何不讓他休息?

      墨道榮
      2026-04-12 18:43:15
      1979年,我軍一張照片讓越軍膽寒!許世友:攝影干事立一等功

      1979年,我軍一張照片讓越軍膽寒!許世友:攝影干事立一等功

      云霄紀史觀
      2026-04-12 16:39:20
      菲律賓悔哭了!仁愛礁趴了25年的破船,竟是幫中國逆襲的神助攻

      菲律賓悔哭了!仁愛礁趴了25年的破船,竟是幫中國逆襲的神助攻

      晨初浮若
      2026-04-11 11:35:18
      桑切斯帶著妻子逛北京鼓樓被偶遇!穿藍襯衫藍牛仔褲,活力感滿滿

      桑切斯帶著妻子逛北京鼓樓被偶遇!穿藍襯衫藍牛仔褲,活力感滿滿

      八八尚語
      2026-04-12 08:28:05
      東風日產NX8動了理想的蛋糕,李想氣的朋友圈飆臟話

      東風日產NX8動了理想的蛋糕,李想氣的朋友圈飆臟話

      智電汽車.
      2026-04-12 10:48:15
      Type-C 接口最大的問題,是看起來已經「統一」了

      Type-C 接口最大的問題,是看起來已經「統一」了

      少數派sspai
      2026-04-10 12:11:49
      歐洲最神奇球隊:提前7輪無緣聯賽冠軍!歐冠2-0,一只腳晉級4強

      歐洲最神奇球隊:提前7輪無緣聯賽冠軍!歐冠2-0,一只腳晉級4強

      球場沒跑道
      2026-04-12 12:17:30
      37歲杜蘭特常規賽提前結束!本賽季場均26+5.5+4.8,他依舊是超巨

      37歲杜蘭特常規賽提前結束!本賽季場均26+5.5+4.8,他依舊是超巨

      愛體育
      2026-04-12 21:06:19
      大雨過后,武漢街頭多處出現,不是蘑菇!專家提醒:不要隨便吃,小心中毒

      大雨過后,武漢街頭多處出現,不是蘑菇!專家提醒:不要隨便吃,小心中毒

      極目新聞
      2026-04-12 18:55:16
      以色列誰都敢打,為何唯獨不敢動巴基斯坦?核武只是冰山一角

      以色列誰都敢打,為何唯獨不敢動巴基斯坦?核武只是冰山一角

      泠泠說史
      2026-04-11 23:48:34
      根據潘石屹預測的未來房價:150萬房子,到了2030年還能值多少錢

      根據潘石屹預測的未來房價:150萬房子,到了2030年還能值多少錢

      愛看劇的阿峰
      2026-04-11 21:30:58
      MAC廣告詞騷過杜蕾斯,評論區都是大黃丫頭

      MAC廣告詞騷過杜蕾斯,評論區都是大黃丫頭

      4A廣告網
      2026-04-10 17:32:54
      演都不演了!全紅嬋報警不到24小時,惡心的一幕發生,還不止一件

      演都不演了!全紅嬋報警不到24小時,惡心的一幕發生,還不止一件

      子芫伴你成長
      2026-04-11 23:26:38
      欣旺達成為特斯拉供應商!

      欣旺達成為特斯拉供應商!

      電動知家
      2026-04-10 09:22:44
      河南小伙在非洲16年,當地一夫多妻制,男人只用玩,女人掙錢養家

      河南小伙在非洲16年,當地一夫多妻制,男人只用玩,女人掙錢養家

      北緯的咖啡豆
      2026-04-12 16:48:09
      數艘美國海軍艦船通過霍爾木茲海峽

      數艘美國海軍艦船通過霍爾木茲海峽

      每日經濟新聞
      2026-04-11 21:23:39
      新京報力挺陳芋汐:網友質疑,陳芋汐轉賬記錄曝光,評論區太扎心

      新京報力挺陳芋汐:網友質疑,陳芋汐轉賬記錄曝光,評論區太扎心

      眼光很亮
      2026-04-11 20:22:50
      2026-04-12 21:44:49
      Web3天空之城 incentive-icons
      Web3天空之城
      美好,有趣的,值得銘記的
      116文章數 93關注度
      往期回顧 全部

      科技要聞

      理想稱遭惡意拉踩,東風日產:尊重同行

      頭條要聞

      媒體:美伊面對面長談20多小時無果 其實早有預兆

      頭條要聞

      媒體:美伊面對面長談20多小時無果 其實早有預兆

      體育要聞

      創造歷史!五大聯賽首位女性主教練誕生

      娛樂要聞

      賭王女兒何超蕸病逝,常年和乳癌斗爭

      財經要聞

      美伊談判破裂的三大癥結

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      藝術
      手機
      家居
      公開課
      軍事航空

      藝術要聞

      殯葬新規落地,小區里的“骨灰房”真能絕跡嗎?

      手機要聞

      曝蘋果已解決iPhone Ultra折疊手機兩大核心問題

      家居要聞

      復古風格 自然簡約

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國副總統萬斯:美伊談判未能達成協議

      無障礙瀏覽 進入關懷版