<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      詳解Kimi K2 Thinking:謝謝DeepSeek,我先去干掉GPT-5了

      0
      分享至


      作者 | 周一笑
      郵箱 | zhouyixiao@pingwest.com

      “這是又一次DeepSeek式的輝煌時刻嗎?開源軟件再次超越閉源軟件。”

      2025年11月6日,Hugging Face 聯合創始人 Thomas Wolf 在 X 上的感慨,精準概括了Kimi K2 Thinking模型發布后所引發的討論。


      Kimi K2 Thinking在多個基準測試中取得了亮眼的成績,追平、乃至超過了SOTA的閉源模型。例如,在HLE(Humanity's Last Exam)text-only子集的基準上,其工具增強版得分達到44.9%,超過了GPT-5的41.7% 。

      Kimi K2 Thinking是基于 Kimi K2 模型訓練而來的,專注于提升Agentic能力和推理能力。這是一個擁有1萬億總參數的混合專家模型(Mixture-of-Experts, MoE),每次推理激活約320億參數,支持256k的上下文窗口,并采用了原生INT4量化技術。設計思路是在保持巨大模型規模的同時,想辦法控制計算成本和訓練成本。據CNBC援引知情人士的報道,該模型的訓練成本僅為460萬美元。作為對比,DeepSeek披露的 V3訓練成本(租賃價,正式訓練階段)是560 萬美元,R1為29.4萬美元。這里主要考慮的是GPU預訓練費用,不包括研發、基礎設施等投資。

      Kimi K2 Thinking的一個核心特性是Agent能力,官方宣稱它能夠連續執行200-300次工具調用來解決復雜問題。Grok-4等閉源陣營廣泛采用RL提升工具使用與長程規劃,但在開源模型中看到如此的實現還是第一次。它表明開源社區正在快速跟上智能體技術的前沿,同時也對模型托管服務提出了更高的要求。

      Kimi K2 Thinking目前還沒有發布技術報告,僅有技術博客、使用文檔,未披露它的訓練數據、RL細節或配方。模型發布后不久,技術社區的關于模型架構本身的討論也開始出現。在X和Reddit上,一張將其與DeepSeek模型并排比較的架構圖又開始流傳,引發了關于其技術淵源的討論。

      在DeepSeek的R2“難產”已久、社區翹首以盼的背景下,Kimi帶著一個架構存在繼承關系且同樣是開源SOTA推理模型的模型出現,讓人恍惚以為Kimi是替DeepSeek把R2發了。

      1

      架構的“繼承”與工程的“魔法”


      LLM研究工程師Sebastian Raschka對此進行了詳細的分析,他在threads指出了兩者間的具體異同:

      ?每個MoE層的專家數量增加約1.5倍(384 vs 256)

      ?更大的詞匯表(160k vs 129k)

      ?K2每個token激活約320億參數(DeepSeek R1為370億)

      ?MoE之前的密集FFN塊更少


      “簡而言之,Kimi K2本質上就是一個規模上略作調整的 DeepSeek V3/R1。它的改進主要體現在數據和訓練配方上。”

      Raschka的分析指出了一個關鍵事實,Kimi K2 Thinking對DeepSeek核心架構的“繼承”是顯而易見的,包括MoE機制、MLA(多頭潛在注意力)等設計。這是在一個已被驗證的基座上,根據自身的目標進行了針對性的調整和優化。例如,減少注意力頭和激活參數量,旨在降低推理成本;而增加專家數量和詞匯表,則是為了增強模型的知識容量和表達能力。這種“站在巨人肩膀上”的做法,是開源精神最直接的體現。

      除了對DeepSeek架構的繼承,Kimi K2 Thinking的成果也離不開對整個開源生態成果的廣泛“化用”。從底層用于加速注意力計算的FlashAttention,到K2技術報告中提到的、為解決訓練不穩定性而改進的MuonClip優化器,再到各種數據處理和后訓練方法論,都整合了開源社區的集體智慧。

      如果說架構和開源技術決定了模型的骨架,那么讓其血肉豐滿的,則是月之暗面自身的工程實現能力。這主要體現在三個方面:

      1、訓練穩定性:在長達15.5萬億tokens的預訓練過程中,Kimi K2 Thinking實現了“零loss spike(損失尖峰)”。這意味著訓練過程極其穩定,無需因模型崩潰而進行成本高昂的回滾。這對于萬億參數規模的模型來說,是一項重要的工程成就。

      2、原生量化推理:Kimi K2 Thinking支持原生INT4量化推理,據稱能在極小的性能損失下,將推理速度提升約2倍,并顯著降低部署所需的GPU顯存。這是將大參數模型從實驗室推向廣泛應用的關鍵。

      3、長程任務執行:模型能夠穩定執行200-300輪工具調用,這不僅考驗了模型的推理能力,也檢驗了其系統魯棒性。在長達數百步的交互中,模型必須能處理各種異常,背后需要一套復雜的工程機制。

      Kimi團隊在選擇和整合這些開源技術時的具體決策,及其工程團隊最終的執行能力,共同構成了Kimi K2 Thinking取得當前成果的基礎。這種技術路線和成功范式,讓許多人聯想到了當初R1發布時的情景。它承接DeepSeek 的 MLA+MoE高效架構與“可驗證任務優先”的數據/獎勵取向,用工程手段(如 MuonClip、長上下文、工具鏈)把能力做穩。不同點在于K2 Thinking的開放形態與目標更偏應用交付。

      1

      SOTA之外的取舍

      對Kimi K2 Thinking的全面審視,不能只停留在Benchmark的分數上。一個繞不開點是其Benchmark成績的來源。Kimi K2 Thinking在技術博客中展示的許多SOTA分數,是基于一個特殊的“Heavy”模式獲得的。根據官方在Hugging Face上的說明,這個模式通過并行運行多達8個推理然后通過反思性地聚合所有輸出來生成最終結果。這種做法在學術界和模型競賽中很常見。在今年7月9日的Grok 4的發布會上,xAI公布Grok 4 Heavy的HLE得分為44.4 %,text-only 子集得分50.7%。

      這種heavy模式也帶來一些問題,一是資源消耗巨大,普通用戶通過API或本地部署幾乎不可能復現這種性能,二是它造成了Benchmark分數與模型單實例真實能力之間的差距。用戶實際能體驗到的標準模式,與榜單上的“野獸模式”不是一回事。

      對效率的追求,也體現在模型底層的工程決策中,而這些決策往往遵循著性能與成本的交換原則。例如,模型采用的原生INT4量化,雖然官方宣稱性能損失極小,但從FP16到INT4的精度壓縮是巨大的。這種量化在標準評測集上可能表現良好,但在更長、更復雜的推理鏈條中,精度損失的累積效應是否會影響任務的最終成功率,仍有待更廣泛的實際應用檢驗。

      同樣,將注意力頭從128個減少到64個,也是Kimi團隊為降低內存帶寬和計算開銷做出的主動選擇。但K2技術報告也承認,更多的注意力頭通常能帶來更好的模型質量。這意味著,Kimi K2為了更高的推理效率,在模型能力上做出了一定的妥協。

      Kimi K2 Thinking對Agent能力的押注,也帶來了其他維度的局限性。官方公布的基準測試顯示,K2 Thinking 在"智能體推理"和"智能體搜索"兩項指標上超越了 OpenAI 與 Anthropic 的頂級模型(GPT-5 和 Sonnet 4.5 Thinking),但在“編程能力”方面尚未登頂。

      在前沿模型紛紛將多模態作為標配的今天,Kimi K2 Thinking仍然是一個純文本模型。這種差異在處理涉及視覺或空間推理的任務時尤為明顯。例如,在生成一個“鵜鶘騎自行車”的SVG圖像這類任務上,純文本模型可能會因為缺乏對物理世界的基本視覺理解而存在一些問題:


      Kimi K2 Thinking生成的SVG

      Kimi K2 Thinking的發布,給人的感覺就像是開源AI社區又一次集體狂歡。它站在DeepSeek這樣所有優秀開源成果之上,想明白了自己此階段最重要的性能目標,對細節進行改進,對訓練效率進行提高,得到一個可以在今天最關鍵方向上超過閉源最強模型的新開源模型。然后這個模型也給開源社區帶來反饋和啟發,同時它也是Kimi下一代更大更完整模型的一塊拼圖——也許下一次DeepSeek時刻不遠了,而且它可能真的不需要由DeepSeek自己帶來。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新國標電動車上市被吐槽,舊車翻新成了香餑餑,消費者:我買車就想圖個便利

      新國標電動車上市被吐槽,舊車翻新成了香餑餑,消費者:我買車就想圖個便利

      極目新聞
      2025-12-06 11:37:09
      亞冠成都蓉城VS神戶勝利船:周定洋坐鎮 韋世豪+德爾加多領銜進攻

      亞冠成都蓉城VS神戶勝利船:周定洋坐鎮 韋世豪+德爾加多領銜進攻

      零度眼看球
      2025-12-08 07:31:37
      家中風水改變無察覺,風水師透露:不怕蛤蟆進家門,就怕三樹立門頭

      家中風水改變無察覺,風水師透露:不怕蛤蟆進家門,就怕三樹立門頭

      古怪奇談錄
      2025-12-02 15:51:46
      力壓2大洲冠軍!國足手下敗將爆冷 3輪不敗頭名出線 改寫59年歷史

      力壓2大洲冠軍!國足手下敗將爆冷 3輪不敗頭名出線 改寫59年歷史

      侃球熊弟
      2025-12-08 09:23:36
      內娛老戲骨們集體塌房!

      內娛老戲骨們集體塌房!

      八卦瘋叔
      2025-12-02 11:24:10
      雞那么臟,那為啥雞巢幾乎沒有蟑螂?網友:你對雞的力量一無所知

      雞那么臟,那為啥雞巢幾乎沒有蟑螂?網友:你對雞的力量一無所知

      夜深愛雜談
      2025-11-24 20:11:21
      中北大學學生吐槽吹頭發還要付費:3分鐘0.5元!校方回應

      中北大學學生吐槽吹頭發還要付費:3分鐘0.5元!校方回應

      極目新聞
      2025-12-07 14:02:10
      賴斯:我就喜歡這種三天一賽,一周踢一場會打亂我的節奏

      賴斯:我就喜歡這種三天一賽,一周踢一場會打亂我的節奏

      懂球帝
      2025-12-08 01:09:10
      小酒窩尖叫之夜橫掃半個娛樂圈,帶禮物見白鹿,楊冪主動摟肩補拍

      小酒窩尖叫之夜橫掃半個娛樂圈,帶禮物見白鹿,楊冪主動摟肩補拍

      菲菲愛電影
      2025-12-08 08:10:19
      非洲傳奇總統,46歲上臺,連任4屆讓國家走向強大,至今備受愛戴

      非洲傳奇總統,46歲上臺,連任4屆讓國家走向強大,至今備受愛戴

      博覽歷史
      2025-12-05 18:33:49
      又一比賽獲獎名單復制百度人名大全,負責人:工作人員鉆空子

      又一比賽獲獎名單復制百度人名大全,負責人:工作人員鉆空子

      澎湃新聞
      2025-12-07 20:46:28
      谷歌將舉行AndroidXR特別發布會 端側AI有望迎重磅催化

      谷歌將舉行AndroidXR特別發布會 端側AI有望迎重磅催化

      財聯社
      2025-12-08 08:08:28
      國足何時重返世界杯?克勞琛:若無足協干擾,05國青至少能踢兩次世界杯!

      國足何時重返世界杯?克勞琛:若無足協干擾,05國青至少能踢兩次世界杯!

      隱于山海
      2025-12-07 08:51:25
      225單退款女后續:鄰居爆料炸裂,全家都是“慣犯”,都不是善茬

      225單退款女后續:鄰居爆料炸裂,全家都是“慣犯”,都不是善茬

      鋭娛之樂
      2025-12-08 08:48:31
      魔獸時光服:官方統計裝備排名,MC最貴裝備確定,213紫裝滯銷了

      魔獸時光服:官方統計裝備排名,MC最貴裝備確定,213紫裝滯銷了

      胖哥游戲說
      2025-12-07 20:09:01
      10-8!塞爾比英錦賽奪冠,集齊3套大滿貫!斯諾克世界排名更新了

      10-8!塞爾比英錦賽奪冠,集齊3套大滿貫!斯諾克世界排名更新了

      球場沒跑道
      2025-12-08 07:26:07
      “禁止入內”,日韓商鋪貼滿中文告示,中國游客被拒,誰還去?

      “禁止入內”,日韓商鋪貼滿中文告示,中國游客被拒,誰還去?

      歷史求知所
      2025-12-07 08:55:05
      十塊錢一包的煙,怎么就成了2025最真實的經濟信號?

      十塊錢一包的煙,怎么就成了2025最真實的經濟信號?

      牛鍋巴小釩
      2025-12-04 01:14:35
      壓軸王者!新機官宣:12月25日,即將發布上市!

      壓軸王者!新機官宣:12月25日,即將發布上市!

      科技堡壘
      2025-12-07 12:02:22
      醫學死于2025!中大附七網傳裁員,副高以下難保,4篇一區也被裁

      醫學死于2025!中大附七網傳裁員,副高以下難保,4篇一區也被裁

      東東趣談
      2025-12-06 15:12:25
      2025-12-08 10:59:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2693文章數 10414關注度
      往期回顧 全部

      科技要聞

      蘋果核心人才"出逃"內幕,庫克為何攔不住

      頭條要聞

      牛彈琴:對日斗爭突發新情況 中國軍方回應火力全開

      頭條要聞

      牛彈琴:對日斗爭突發新情況 中國軍方回應火力全開

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      家居
      本地
      親子
      教育
      公開課

      家居要聞

      有限無界 打破慣有思維

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      親子要聞

      家長帶孩子跑了很多家醫院,你是我們最后的希望

      教育要聞

      收藏:2025山東高考各段分數及一分一段表!附:山東高考【大綠本+大藍本】下載

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产自产在线视频一区| 亚洲国产成人精品无码区蜜柚| 亚洲成人A√| 久久香蕉欧美精品| 无码高潮少妇毛多水多水| 东京热无码AV| 国产av大全| 曰韩无码二三区中文字幕| 色综亚洲国产vv在线观看| a国产一区二区免费入口| 吐鲁番市| av大香蕉| 欧美熟妇丰满肥白大屁股免费视频| 老熟妇仑乱一区二区视頻| 欧洲无码av| 天天综合91| 曰批永久免费40分钟免费观看软件| 美女张开腿黄网站免费下载| 男女做爰真人视频直播| 昌邑市| 亚洲天堂在线播放| 日韩少妇内射免费播放18禁裸乳 | 亚洲欧美日韩综合一区二区| 中文字幕av久久爽一区| 国产黄色视频大全| 亚州九九久久| 久久96热在精品国产高清 | 成人国产综合| 91成人无码| 中文字幕无码视频手机免费看 | awww在线天堂bd资源在线| 吴桥县| 91色色网| 亚洲综合无码| 中文字幕在线日韩一区| 天天操夜夜操| 欧洲无码成人| 丁香五月天激情网| 99在线精品视频观看免费| 四虎永久www成人影院| 后入内射无码人妻一区|