<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      開源新紀錄!月之暗面 Kimi K2 實測超越 GPT-5 和 Claude 4.5,完全免費

      0
      分享至


      開源模型的歷史性突破

      就在美國AI巨頭OpenAI因高額支出承諾而備受質疑之際,中國開源AI供應商正在加速競爭——其中一家甚至在關鍵的第三方性能基準測試中趕超了OpenAI的旗艦付費專有模型GPT-5,而且是用一個完全免費的模型

      月之暗面(Moonshot AI)今日發布的全新Kimi K2 Thinking模型,在推理、編程和智能體工具使用等基準測試中一舉超越了所有專有和開源競爭對手,登頂榜首。

      盡管是完全開源,該模型目前在多項標準評估中的表現已超過OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5(思維模式)以及xAI的Grok-4——這標志著開放AI系統競爭力的一個歷史性拐點

      開發者可以通過 platform.moonshot.ai 和 kimi.com 訪問該模型;權重和代碼托管在 Hugging Face 上。開源發布包含了聊天、推理和多工具工作流的API。

      用戶可以直接通過其類似ChatGPT的網站以及Hugging Face空間試用Kimi K2 Thinking。

      修改版開源協議:商業友好

      月之暗面在Hugging Face上以修改版MIT協議正式發布了Kimi K2 Thinking。

      該協議授予完整的商業和衍生權利——這意味著個人研究者和代表企業客戶工作的開發者可以免費訪問并在商業應用中使用——但增加了一項限制:

      “如果軟件或任何衍生產品的月活躍用戶超過1億,或每月收入超過2000萬美元,部署方必須在產品用戶界面上顯著展示’Kimi K2’標識。”

      對于大多數研究和企業應用,這一條款相當于一個輕量級的署名要求,同時保留了標準MIT協議的自由度。

      這使得K2 Thinking成為目前可用的最寬松授權的前沿級模型之一

      新的基準測試領跑者

      Kimi K2 Thinking是一個基于萬億參數的混合專家(MoE)模型,每次推理激活320億參數

      它將長程推理與結構化工具使用相結合,能夠在無需人工干預的情況下執行200-300次連續的工具調用

      性能數據一覽

      根據月之暗面公布的測試結果,K2 Thinking取得了:

      • 44.9% - Humanity’s Last Exam(HLE),達到業界最先進水平
      • 60.2% - BrowseComp(智能體網絡搜索和推理測試)
      • 71.3% -SWE-Bench Verified 和 83.1% - LiveCodeBench v6(關鍵編程評估)
      • 56.3% -Seal-0(真實世界信息檢索基準)

      在這些任務中,K2 Thinking持續超越GPT-5的相應得分,并超過了幾周前MiniMax AI發布的前開源領跑者MiniMax-M2。

      開源模型超越專有系統

      GPT-5和Claude Sonnet 4.5 Thinking仍是領先的專有"思維"模型。

      然而在同一基準測試套件中,K2 Thinking的智能體推理得分超過了兩者:例如在BrowseComp上,開源模型的60.2%明顯領先GPT-5的54.9%和Claude 4.5的24.1%。

      K2 Thinking在GPQA Diamond上也略勝GPT-5一籌(85.7% vs 84.5%),并在AIME 2025和HMMT 2025等數學推理任務上與之持平。

      只有在某些重度模式配置下——GPT-5聚合多條推理軌跡——專有模型才能重新取得平衡。

      月之暗面的全開源權重發布能夠達到或超過GPT-5的得分,標志著一個轉折點。封閉前沿系統與公開可用模型之間的差距,在高端推理和編程領域已經事實上消失

      超越MiniMax-M2:前任開源王者

      就在一周半前,VentureBeat報道MiniMax-M2時,它還被譽為"開源LLM新王",在開源權重系統中取得了頂尖得分:

      • τ2-Bench: 77.2

      • BrowseComp: 44.0

      • FinSearchComp-global: 65.5

      • SWE-Bench Verified: 69.4

      這些結果使MiniMax-M2在智能體工具使用方面接近GPT-5級別的能力。然而Kimi K2 Thinking現在以大幅優勢超越了它們。

      其BrowseComp結果60.2%超過M2的44.0%,SWE-Bench Verified的71.3%也勝過M2的69.4%。即使在FinSearchComp-T3(47.4%)等金融推理任務上,K2 Thinking表現相當,同時保持了卓越的通用推理能力。

      技術創新

      從技術角度看,兩個模型都采用稀疏混合專家架構以提高計算效率,但月之暗面的網絡激活了更多專家,并部署了先進的量化感知訓練(INT4 QAT)

      這種設計在不降低準確性的情況下使推理速度翻倍——這對于支持高達256k上下文窗口的長"思維token"會話至關重要。

      智能體推理與工具使用

      K2 Thinking的核心能力在于其顯式推理軌跡。模型輸出一個輔助字段reasoning_content,在每個最終響應之前揭示中間邏輯。這種透明性在長時間多輪任務和多步驟工具調用中保持了連貫性。

      月之暗面發布的參考實現演示了模型如何自主執行"每日新聞報告"工作流:調用日期和網絡搜索工具、分析檢索內容、生成結構化輸出——同時保持內部推理狀態。

      這種端到端的自主性使模型能夠在數百個步驟中進行規劃、搜索、執行和綜合證據,反映了正在崛起的"智能體AI"系統類別,這些系統以最少的監督運行。

      效率與訪問成本

      盡管規模達到萬億參數,K2 Thinking的運行成本保持適中。月之暗面列出的使用價格為:

      • $0.15 / 100萬tokens(緩存命中)
      • $0.60 / 100萬tokens(緩存未命中)
      • $2.50 / 100萬tokens(輸出)

      這些價格甚至優于MiniMax-M2的$0.30輸入/$1.20輸出定價——比GPT-5($1.25輸入/$10輸出)低了一個數量級

      對比背景:開源權重加速

      M2和K2 Thinking的快速接連發布,展示了開源研究追趕前沿系統的速度有多快。MiniMax-M2證明了開源模型可以以一小部分計算成本接近GPT-5級別的智能體能力。月之暗面現在將這一前沿推進得更遠,將開源權重從平衡推向了徹底領先

      兩個模型都依賴稀疏激活來提高效率,但K2 Thinking更高的激活數(320億 vs 100億活躍參數)在各個領域產生了更強的推理保真度。其測試時縮放——擴展"思維tokens"和工具調用輪次——提供了可測量的性能提升,無需重新訓練,這是MiniMax-M2中尚未觀察到的特性。

      技術展望

      月之暗面報告稱,K2 Thinking支持原生INT4推理和256k token上下文,性能下降微乎其微。其架構集成了量化、并行軌跡聚合(“重度模式”)以及針對推理任務調優的混合專家路由。

      在實踐中,這些優化使K2 Thinking能夠維持復雜的規劃循環——代碼編譯-測試-修復、搜索-分析-總結——跨越數百次工具調用。這種能力支撐了它在BrowseComp和SWE-Bench上的優異表現,而推理連續性在這些任務中至關重要。

      對AI生態系統的巨大影響

      開放和封閉模型在高端的趨同,標志著AI格局的結構性轉變。曾經完全依賴專有API的企業,現在可以部署匹配GPT-5級別推理的開源替代方案,同時保留對權重、數據和合規性的完全控制

      月之暗面的開放發布策略遵循了DeepSeek R1、Qwen3、GLM-4.6和MiniMax-M2設定的先例,但將其擴展到完整的智能體推理

      對于學術和企業開發者來說,K2 Thinking提供了透明性和互操作性——檢查推理軌跡和針對特定領域智能體微調性能的能力。

      戰略時機:對AI投資模式的挑戰

      K2 Thinking的到來表明,月之暗面——這家2023年成立、獲得中國一些最大應用和科技公司投資的年輕初創公司——已經準備好在日益激烈的競爭中一展身手,而這正值AI行業最大玩家的財務可持續性受到越來越多審視之際。

      就在一天前,OpenAI首席財務官Sarah Friar在WSJ Tech Live活動上表示,美國政府可能最終需要為該公司超過1.4萬億美元的計算和數據中心承諾提供"后盾"——這一評論被廣泛解讀為呼吁納稅人支持的貸款擔保,引發了爭議。

      盡管Friar后來澄清OpenAI并未尋求直接的聯邦支持,但這一事件重新點燃了關于AI資本支出規模和集中度的辯論。

      隨著OpenAI、微軟、Meta和Google都在競相確保長期芯片供應,批評者警告說,這是一場不可持續的投資泡沫和"AI軍備競賽",更多是由戰略恐懼驅動,而非商業回報——如果出現猶豫或市場不確定性,可能會"爆炸"并拖垮整個全球經濟,因為現在已經有太多交易和估值是基于對AI持續巨額投資和巨額回報的預期。

      在這種背景下,月之暗面和MiniMax的開源權重發布給美國專有AI公司及其支持者帶來了更大壓力,要求他們證明投資規模和盈利路徑的合理性。

      商業邏輯的根本性挑戰

      如果企業客戶從免費開源的中國AI模型中獲得的性能可以與付費專有AI解決方案(如OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5或Google的Gemini 2.5 Pro)相當甚至更好——他們為什么還要繼續付費訪問專有模型?

      硅谷的標桿企業如Airbnb已經引起關注,因為它們承認大量使用阿里巴巴的Qwen等中國開源替代方案,而非OpenAI的專有產品。

      對于投資者和企業來說,這些發展表明,高端AI能力不再等同于高端資本支出。最先進的推理系統可能不是來自建造超大規模數據中心的公司,而是來自優化架構和量化以提高效率的研究團隊。

      從這個意義上說,K2 Thinking的基準主導地位不僅僅是一個技術里程碑——它是一個戰略里程碑,到來的時機正值AI市場最大的問題已經從"模型能變得多強大"轉變為"誰能負擔得起維持它們"。

      對企業的前瞻意義

      在MiniMax-M2崛起后的幾周內,Kimi K2 Thinking已經超越了它——以及GPT-5和Claude 4.5——在幾乎每一個推理和智能體基準測試中。

      該模型證明,開源權重系統現在可以在能力和效率上達到或超越專有前沿模型。

      對于AI研究社區來說,K2 Thinking不僅僅是又一個開源模型:它是前沿已經變得協作化的證據。

      今天可用的性能最佳的推理模型不是封閉的商業產品,而是任何人都可以訪問的開源系統。


      原文來源: VentureBeat

      整理:周華香

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      你無意之中撞見過什么秘密?網友:我婆婆和公公外面各自有人

      你無意之中撞見過什么秘密?網友:我婆婆和公公外面各自有人

      帶你感受人間冷暖
      2026-02-12 00:05:09
      小玥兒迎來12歲生日,馬筱梅不再主持操辦,張蘭自娛自樂

      小玥兒迎來12歲生日,馬筱梅不再主持操辦,張蘭自娛自樂

      小冠說娛
      2026-04-25 17:47:31
      快訊!民進黨發言人吳崢慌了!

      快訊!民進黨發言人吳崢慌了!

      有態度的何總
      2026-04-25 14:04:12
      7國17000人逼近南海臺海,解放軍107編隊直接開到菲本土邊上

      7國17000人逼近南海臺海,解放軍107編隊直接開到菲本土邊上

      聞識
      2026-04-25 14:30:38
      情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

      情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

      新歐洲
      2026-04-21 19:37:05
      國際米蘭嘗試引進迪亞比:關鍵在于薩拉赫,原因解析。尼科·帕斯引援線索仍在

      國際米蘭嘗試引進迪亞比:關鍵在于薩拉赫,原因解析。尼科·帕斯引援線索仍在

      綠茵情報局
      2026-04-25 17:03:01
      汽車保有量超400萬輛的城市PK,蘇州交通健康指數以67.66%位列全國第一

      汽車保有量超400萬輛的城市PK,蘇州交通健康指數以67.66%位列全國第一

      現代快報
      2026-04-25 15:06:34
      日艦闖臺海3天后,高市被逼辭職,岸田已扛旗,052D抵近奄美大島

      日艦闖臺海3天后,高市被逼辭職,岸田已扛旗,052D抵近奄美大島

      鐵錘侃侃而談
      2026-04-21 15:00:04
      曹德旺沒想到,自己辭職不到半年,兒子曹暉一舉動給他賺足臉面

      曹德旺沒想到,自己辭職不到半年,兒子曹暉一舉動給他賺足臉面

      嘴角上翹的弧度
      2026-04-23 20:52:28
      2粒錯寫成21粒!紹興一街道社區衛生中心開錯藥量,大媽一天吃了42粒膠囊,衛健局已介入

      2粒錯寫成21粒!紹興一街道社區衛生中心開錯藥量,大媽一天吃了42粒膠囊,衛健局已介入

      極目新聞
      2026-04-24 20:54:24
      高呼三拒絕贏了的不說話了,把決決書也刪了

      高呼三拒絕贏了的不說話了,把決決書也刪了

      阿振觀點
      2026-04-25 05:08:40
      美軍在東太平洋發動打擊

      美軍在東太平洋發動打擊

      第一財經資訊
      2026-04-25 15:46:23
      DeepSeek-V4實測,處在GPT、Claude什么水平?

      DeepSeek-V4實測,處在GPT、Claude什么水平?

      鯨選AI
      2026-04-24 19:59:43
      震驚!廣州一互聯網公司招5名文員,收到4000余份簡歷,HR慌了…

      震驚!廣州一互聯網公司招5名文員,收到4000余份簡歷,HR慌了…

      火山詩話
      2026-04-23 16:46:58
      今明兩天騰訊愛奇藝炸場!4部新劇開播,閉眼沖不虧

      今明兩天騰訊愛奇藝炸場!4部新劇開播,閉眼沖不虧

      草莓解說體育
      2026-04-25 14:30:13
      男人如何刺激女人的荷爾蒙?方法很簡單,不是甜言蜜語,不信試試

      男人如何刺激女人的荷爾蒙?方法很簡單,不是甜言蜜語,不信試試

      楓紅染山徑
      2026-04-25 18:25:29
      安東尼要求給赫伊森紅牌,赫伊森隨即做了一個哭泣的手勢

      安東尼要求給赫伊森紅牌,赫伊森隨即做了一個哭泣的手勢

      懂球帝
      2026-04-25 09:50:06
      蘇翊鳴朱易4年戀情結束!雙方互相取關,女方曬眼淚照喊話向前走

      蘇翊鳴朱易4年戀情結束!雙方互相取關,女方曬眼淚照喊話向前走

      手工制作阿殲
      2026-04-25 16:53:13
      各科醫生最想跟你說的大實話,很有用!收藏好常看看

      各科醫生最想跟你說的大實話,很有用!收藏好常看看

      華人星光
      2026-04-23 12:00:20
      為什么山姆越來越多,麥德龍卻快倒光了?網友:降本增效的問題

      為什么山姆越來越多,麥德龍卻快倒光了?網友:降本增效的問題

      另子維愛讀史
      2026-04-13 13:14:30
      2026-04-25 19:24:54
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      274文章數 38關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      男童7歲18斤被當腦癱治多年 父母查出生病歷發現大問題

      頭條要聞

      男童7歲18斤被當腦癱治多年 父母查出生病歷發現大問題

      體育要聞

      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      數碼
      本地
      時尚
      公開課
      軍事航空

      數碼要聞

      雷達感應自動開關燈,Yeelight新品來了

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      上新|| 入夏第一件短袖,買它!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美防長:戰事不會“沒完沒了”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人精品一区二区三区中文字幕| 91私拍| 天天上天天添天天爱少妇| 五月天激情婷婷婷久久| 五月婷久久麻豆国产| 亚洲三区在线观看无套内射| 鲁鲁美女影院| 色欲色香综合网| 亚洲三级香港三级久久| 天天色天天操综合网| 永久免费的av在线电影网| 日韩色区| √天堂资源网最新版在线| 曰韩三级无码久久探| jzzijzzij亚洲成熟少妇| 亚洲欧美在线一区中文字幕| 丁香五月亚洲综合在线国内自拍 | 日B免费视频| 天天拍夜夜添久久精品大| 不卡无码av| 亚洲日韩成人无码| 亚洲综合天堂一区二区三区| 激情综合婷婷丁香五月| 中文字幕人妻熟女人妻洋洋| 国产亚洲精品VA片在线播放| 妖精色av无码国产在线看| 景泰县| 黑人巨大精品欧美| 9191久久| 日韩人妻中文字幕一区| 久久久久99精品成人片毛片| 亚洲国产成人精品综合| 欧美18videosex性欧美tube1080 | 亚洲黄色一区| 国产专区一va亚洲v天堂| 国产一区二区黄色在线观看 | 久久久久久久AV| 亚洲综合熟女久久久40p| 亚洲日产韩国一二三四区| 兴义市| 男人下部进女人下部视频|