<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      月之暗面Kimi,最有活人感的AI公司

      0
      分享至


      01

      當DeepSeek-R2持續跳票,GPT-5仍在難產,Grok-4不及預期,最近Kimi-K2的發布一時間風光無兩。

      K2從DeepSeek手中,奪過了全球開源第一的寶座,硅谷的開源社區的AI開發者都在熱議Kimi-K2。英國《自然》雜志網站也發表文章稱,中國大模型Kimi-K2發布后引發轟動,世界迎來又一個“DeepSeek時刻”。

      今天凌晨,Kimi發布了K2的技術報告,有趣的是,K2也在這87個署名作者名單里。意思很明顯,K2也參與創造了自己。Kimi算是第一家把AI寫進作者名單里的大模型公司。


      這種把AI當成協作伙伴,且署名的操作方式,體現出Kimi內部很強的“活人感”。

      并非唯一例證。Kimi-K2發布前夜,工程師把它接入公司門口的電鋼琴上,演奏了一首卡農。雖然有些磕磕絆絆,C大調和弦彈的也不完整,Kimi工程師chrysvlk在視頻號上寫道:“這算不算它的第一聲‘hello world’呢?”

      工程師們浪漫起來,文科生都要自愧不如。對于Kimi這家極具搖滾性的大模型公司來說,做出這種事情并不讓人感到意外。

      Kimi創始人楊植麟是個典型的文藝青年,以至于這家公司也透露著相同的文藝氣質。月之暗面這個名字,就來自平克弗洛伊德最著名的專輯《The Dark Side of The Moon》,團隊工程師們同樣是一群熱愛電臺司令、平克·弗洛伊德、昆汀和庫布里克的人。

      如果讓這個團隊去玩音樂、拍電影,似乎也毫不違和,“我加入的一個重要原因,就是覺得味道很對味。”月之暗面的團隊成員Crystal說。

      Kimi的活人感,正體現在工程師們敢于公開說話。K2在鋼琴營造的浪漫主義氛圍中發布后,Kimi的工程師們還在知乎玩起了接龍,他們發表感想,甚至自爆公司內部決策,解答網友對于技術方面的疑惑。

      比如,年初DeepSeek-R1爆火后,曾經作為明星大模型公司的Kimi,完全被DeepSeek搶占風頭,外界對Kimi有很多不好的言論,認為Kimi團隊一定恨死DeepSeek。

      Kimi成員Justin Wong卻坦率地說:“恰恰相反,不少Kimi的成員認為這是好事,DeepSeek證明硬實力是最好的推廣,只要模型做的好,就能獲得市場認可。”

      相比其他六小龍以及AI大廠閉起門來搞技術,Kimi讓工程師出來發言的操作很新鮮,能感受到他們是一群有激情、有溫度的人。

      Justin Wong還說,在DeepSeek的沖擊下,Kimi團隊的反思很激進,最激進的是楊植麟,他直接決定不再更新K1系列模型,而是集中資源搞基礎算法和K2。

      意圖很明顯,Kimi放棄短期產品迭代,轉向底層技術突破和下一代模型能力的躍進上。

      這種激進,正符合一群搖滾愛好者的作風。不過以追求AGI為目標的Kimi,激進中又帶著務實,他們沒有因為DeepSeek火出圈而陷入內耗,反而借助DeepSeek的開源,Kimi-K2的模型結構完全繼承了DeepSeek-V3。

      Kimi的工程師劉少偉說,在啟動K2訓練之前,他們進行了大量模型結構相關的scaling實驗,結果是,所有當時與DeepSeek-V3不同的結構,沒有一個能真正打敗它的。

      “在已經有muon優化器和更大參數量兩個巨大變量的前提下,我們并不想引入沒有明確收益的額外變量來標新立異。”意思是,若強行為了與DeepSeek不同,幾乎沒有一點優勢。

      經過綜合考慮,Kimi最終選擇完全繼承DeepSeek-V3的結構,并調整適合他們的模型結構參數。


      這是一種妥協后的務實,工程師們對此也很坦誠。Kimi另一位成員蘇劍林說,我們最終決定,K2還是先狠狠地致敬DeepSeek了,而不是刻意地標新立異,更多的想法和創意,我們把它們做得更扎實后,在K3、K4再見了。

      02

      K2被討論最多的是其總參數和價格。K2采用稀疏激活的混合專家(MoE)架構,總參數量達1萬億,每次推理激活320億參數(約3.2%),在保持高性能的同時大幅降低算力成本。

      但K2的核心亮點不是參數,而是首次讓萬億模型在MuonClip優化器下實現零訓練崩潰。萬億參數在模型訓練中存在穩定性不足問題,K2采用QK-Clip與Muon優化器(這兩項是大模型高參數訓練中,提升效率和解決穩定性的先進技術)結合的方法,幫助神經網絡在訓練過程中更好地收斂,提升了模型的準確性。

      借助這種方法,K2解決了超大規模訓練中的梯度爆炸問題,實現15.5萬億token的穩定訓練。在蘇劍林看來,QK-Clip給了他們很大啟發,在面對一個類似的難題時,應該至少要問自己三個問題:

      1.這個方法能保證解決這個問題嗎?(我們此前的一系列無效嘗試)

      2.如果不能,有什么方法能保證解決這個問題嗎?(QK-Clip)

      3.這是解決這個問題的最小改動的方法嗎?(Per-Head的QK-Clip)

      蘇劍林認為QK-Clip的思路,實際上是解決很多訓練不穩定問題的“抗生素”,它可以推廣成“哪里不穩Clip哪里”,只要監控指標出現了異常,那么就可以考慮構建類似的Clip。

      Kimi成員Flood Sung,對K2的Agent能力更為興奮,他用“一生二,二生三,三生萬物”形容K2的Agent能力。

      “我們先讓模型生成幾百個場景,比如外賣、微博、微信...然后基于場景生成幾千個tools,比如點個外賣,發送微博,查找聯系人,然后基于不同的tool組合生成幾百上千個不同的Agent(不同的sytem prompt+不同的tool set),接下來我們針對每一個不同的agent生成從簡單到復雜的具有得分點的任務……”

      幾千個agent在虛擬世界里瘋狂交互,Flood Sung覺得這有點科幻,讓他聯想到《黑鏡》的劇情。

      這次Kimi還給Scaling Law 正了身。劉少偉稱,他們還驗證了在固定activate params(激活參數)不變的前提下,單純增長 MOE總參數量,Scaling Law依然成立,且不論訓練loss還是驗證loss,結論始終保持,無需擔心增大總參數量會過擬合。

      Scaling Law(規模定律)此前一直受到爭議,OpenAI前首席科學家 Ilya提出“預訓練終結”論點,認為互聯網可用數據已接近枯竭,需轉向私域高精度數據或強化學習范式。

      包括楊植麟此前也曾被認為,在模型訓練中過度相信Scaling Law。這次Kimi驗證,借助Scaling Law依然能夠大力出奇跡。

      K2在各項測試中成績都比較拔尖。在SWE Bench Verified(編程)、LiveCodeBench 等測試中,Kimi K2 以65.8% 和53.7% 的準確率超越DeepSeek V3(46.9%)和GPT-4.1(44.7%),編程能力全球僅次于Claude 4 Sonnet。實際測試中,它能生成包含晝夜光影變化的3D HTML場景,并支持復雜代碼調試。


      MATH-500、AIME 等數學競賽級測試,Kimi K2分別以97.4% 和69.6% 的成績領先GPT-4.1(92.4%),成為當前數學推理能力最強的開源模型。

      這些成績自然沒能讓Kimi像年初DeepSeek那般轟動,但在一定范圍內確實產生較大影響。K2發布6天里,已在開源平臺HuggingFace上收獲10萬+下載,1400+點贊。

      全球最大開源AI平臺Hugging Face聯合創始人托馬斯評價稱:“來自中國的Kimi團隊在過去幾個月推出的系列模型令人印象深刻,K2更是挑戰了閉源模型的極限。”

      03


      Kimi近大半年像是坐上了過山車,地位起起伏伏。目前Kimi 正被市場追捧,但也不值得懈怠,畢竟大模型競逐賽依然很激烈。

      一個很現實情況是,在當前各家大模型你追我趕的情況下,基本上誰更新版本誰排名就能上升。可以說是,遍地SOTA王,短暫又輝煌。

      這邊K2全球開源模型第一的位置還沒坐穩,昨夜阿里Qwen3又迎來升級。升級后的Qwen3在GQPA(知識)、AIME25(數學)、LiveCodeBench(編程)、Arena-Hard(人類偏好對齊)、BFCL(Agent能力)等眾多測評中表現出色,超過Kimi-K2和DeepSeek-V3。

      要知道,今年DeepSeek R2和GPT 5都還沒發布,下半年的大模型競賽將更加白熱化。

      實際上Kimi K2的性能并沒有到達炸裂程度。一些網友反映,評測得分只是一方面,真實體驗才是王道。

      包括Kimi的工程師們也不是十分滿意,這一點從他們文章里能看出來。如劉少偉所說,K2發布前面臨的問題是,他們的“新結構”還沒有經歷過足夠大規模的驗證。K2更像是他們下一代模型的一個過渡產品。

      前文蘇劍林也說,K2先狠狠地致敬DeepSeek,更多的想法和創意,等做得更扎實后,會在K3、K4面世。言辭中多少透露著不甘和遺憾。

      Justin Wong知道Kimi K2還有數不清的缺點,所以和蘇劍林一樣,他說自己比任何時候都更想要K3。

      Kimi團隊的技術理想主義一直是追求AGI。Justin Wong認為,2025 年智能的上限仍然完全由模型決定,“作為一家以AGI為目標的公司,如果不去追求智能的上限,那我一天也不會多呆下去。”

      他把AGI形容為極其險峻的獨木橋,容不得一絲分心和猶豫,追求也許不會成功,但猶豫一定會失敗。他還提到2024年6月智源大會上,聽到李開復脫口而出地說:“我作為一個投資人,會關注AI應用的RO!”當時他就判斷,李開復的零一萬物活不長。

      無論如何,Kimi團隊搖滾式的反叛精神,以及認真做模型的態度,都融入到了他們在個人社交賬號文章里。讓大家對Kimi團隊多了一些具象的認知。

      從長期主義的角度來看,在這場大模型競賽中,公司文化氛圍更好的Kimi或許能走得更遠。楊植麟曾說:“AI不是我在接下來一兩年找到什么PMF(產品市場匹配),而是接下來十到二十年如何改變世界。”

      這位想要改變的世界的90后,眼下一切才剛剛開始。

      作者 | 孫方

      編輯 | 八尺

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗多地爆發抗議活動 哈梅內伊告別儀式被推遲

      伊朗多地爆發抗議活動 哈梅內伊告別儀式被推遲

      看看新聞Knews
      2026-03-04 20:42:20
      被爆換武僧心臟、喝小孩血! 李連杰笑噴:怎么不說我換「華為心、小米腎」?

      被爆換武僧心臟、喝小孩血! 李連杰笑噴:怎么不說我換「華為心、小米腎」?

      ETtoday星光云
      2026-03-04 16:42:06
      被問爆了!小龍蝦用什么電腦裝?選哪個模型省錢?這篇“養蝦”保姆級教程請收好

      被問爆了!小龍蝦用什么電腦裝?選哪個模型省錢?這篇“養蝦”保姆級教程請收好

      AI范兒
      2026-03-06 20:54:35
      全款一口價15.99萬起 2026款凱迪拉克XT4正式上市

      全款一口價15.99萬起 2026款凱迪拉克XT4正式上市

      太平洋汽車
      2026-03-06 16:07:18
      44歲范冰冰車內趕場賣面膜!素顏發福變大媽,昔日頂流如今只剩奔波

      44歲范冰冰車內趕場賣面膜!素顏發福變大媽,昔日頂流如今只剩奔波

      八卦王者
      2026-03-06 11:18:36
      豪門悲喜夜:巴黎圣日耳曼1-3,拜仁4-1,皇馬2-1,利物浦3-1晉級八強

      豪門悲喜夜:巴黎圣日耳曼1-3,拜仁4-1,皇馬2-1,利物浦3-1晉級八強

      側身凌空斬
      2026-03-07 06:10:33
      德黑蘭的最大漏洞,可能不是內鬼,而是滿街的攝像頭

      德黑蘭的最大漏洞,可能不是內鬼,而是滿街的攝像頭

      碼頭青年
      2026-03-07 14:44:45
      新娘臨時要10萬下車費,新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

      新娘臨時要10萬下車費,新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

      千秋歷史
      2026-02-02 20:23:42
      李連杰當面一句“我剛換了心臟”,謝苗臉唰一下白了,氣都不敢喘

      李連杰當面一句“我剛換了心臟”,謝苗臉唰一下白了,氣都不敢喘

      西樓知趣雜談
      2026-02-28 21:36:48
      萬萬沒想到!兩會最火提案不是醫療和就業,而是霍啟剛的這一舉動

      萬萬沒想到!兩會最火提案不是醫療和就業,而是霍啟剛的這一舉動

      查爾菲的筆記
      2026-03-05 20:24:50
      安徽肥西縣一飽受質疑的破產清算“坑”,致投資商千萬借款打水漂

      安徽肥西縣一飽受質疑的破產清算“坑”,致投資商千萬借款打水漂

      兵叔評說
      2026-03-07 11:37:00
      中央強力加杠桿,普通人的財富迎巨變

      中央強力加杠桿,普通人的財富迎巨變

      柏年說政經
      2026-03-06 18:00:03
      世界上最燒錢的十項運動,沒錢你真玩不起!

      世界上最燒錢的十項運動,沒錢你真玩不起!

      馬拉松跑步健身
      2026-02-28 11:37:18
      戲子當道,是央國企管理中的一大痛點

      戲子當道,是央國企管理中的一大痛點

      細說職場
      2026-03-06 20:01:27
      列寧曾派特工來到中國,專門暗殺一個人:腦袋至今保存在俄博物館

      列寧曾派特工來到中國,專門暗殺一個人:腦袋至今保存在俄博物館

      老范談史
      2026-03-06 07:28:20
      無緣世界杯?伊拉克通知國際足聯無法參加附加賽 40%球員無法出行

      無緣世界杯?伊拉克通知國際足聯無法參加附加賽 40%球員無法出行

      念洲
      2026-03-07 06:17:28
      德云社弟子人氣大洗牌!4人上桌,3人邊緣,2人換桌,岳云鵬退場

      德云社弟子人氣大洗牌!4人上桌,3人邊緣,2人換桌,岳云鵬退場

      好賢觀史記
      2026-03-07 09:50:01
      李賀:我爸是李雙江,我弟是李天一,我在沒有父愛的環境中成長

      李賀:我爸是李雙江,我弟是李天一,我在沒有父愛的環境中成長

      談古論今歷史有道
      2026-03-07 10:20:03
      1971年,老太太質問周恩來我啥級別,真相一出令人肅然起敬

      1971年,老太太質問周恩來我啥級別,真相一出令人肅然起敬

      棠棣分享
      2026-03-05 18:11:12
      特朗普夸梅西:你們隊沒一個丑的!話鋒突轉“下一個是古巴”,“梅球王”懵圈

      特朗普夸梅西:你們隊沒一個丑的!話鋒突轉“下一個是古巴”,“梅球王”懵圈

      紅星新聞
      2026-03-07 11:58:25
      2026-03-07 15:08:49
      白鯨實驗室one incentive-icons
      白鯨實驗室one
      記錄 AI改變世界的瞬間
      99文章數 5關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      伊朗大使:250年歷史的美國怎能挑釁3000年歷史的伊朗

      頭條要聞

      伊朗大使:250年歷史的美國怎能挑釁3000年歷史的伊朗

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      教育
      健康
      親子
      藝術
      軍事航空

      教育要聞

      開學第一個月,決定孩子一學期的成績!99%學霸家長都在盯3件事

      轉頭就暈的耳石癥,能開車上班嗎?

      親子要聞

      挑戰獨自帶弟弟們過8小時

      藝術要聞

      Mark Grantham | 城市街景

      軍事要聞

      美第三個航母打擊群據稱準備部署至中東

      無障礙瀏覽 進入關懷版