Fast Reading
■ 月之暗面發(fā)布了新一代模型Kimi K2 Thinking。與之同時引發(fā)熱議的,不僅是它在數(shù)學(xué)推理、代碼理解上的進(jìn)步,還有它背后的一個數(shù)字——460萬美元的訓(xùn)練成本。
■ 在估值5000億美元的“AI獨角獸之王”O(jiān)penAI面前,糧草彈藥薄弱的中國初創(chuàng)公司要想突圍,“硬剛”顯然不現(xiàn)實,只能另辟蹊徑、彎道超車。
■ 月之暗面正代表一種新型的AI力量——它不一定最豪華,卻可能最高效;不一定擁有最多資源,卻更懂得如何讓資源發(fā)揮最大價值。
![]()
10月的最后一個工作日,雪豹財經(jīng)社拜訪了月之暗面的北京辦公室。我們注意到,月之暗面的會議室都以樂隊命名:Pink Floyd、The Rolling Stone、Queen、The Beatles、Radiohead......
阿里有“光明頂”,百度有“昆侖”,它們講秩序與修煉;月之暗面卻更像一支正在排練的樂隊,崇尚自由、創(chuàng)新和反叛。搖滾樂在誕生之初,就是一種“低投入門檻”的音樂:它不需要復(fù)雜的錄音室或昂貴的樂器,一把破吉他、一套架子鼓就能表達(dá)強大的力量。
就在那次拜訪后一周,11月6日,月之暗面發(fā)布了新一代模型“Kimi K2 Thinking”。與之同時引發(fā)熱議的,不僅是它在數(shù)學(xué)推理、代碼理解上的進(jìn)步,還有它背后的一個數(shù)字——460萬美元的訓(xùn)練成本。
在一個大型AI模型動輒要花幾千萬美元、幾億算力小時的時代,這個數(shù)字顯得幾乎不真實。但它確實發(fā)生了——而且,類似的故事正在中國反復(fù)上演,它們共同指向一個事實:中國的AI產(chǎn)業(yè)正在進(jìn)入一個高效期:模型越來越強,但花的錢越來越少。
問題是,這意味著什么?
“中國效率”再次震撼硅谷
CNBC一則有關(guān)KimiK2 Thinking訓(xùn)練成本的報道,猶如巨石投入水面,業(yè)界一片嘩然。
460萬美元,還不到GPT-4訓(xùn)練成本的8%,甚至比DeepSeek披露的V3訓(xùn)練成本(租賃價,正式訓(xùn)練階段)560萬美元還要低。
而在性能上,Kimi K2 Thinking在Humanity‘s Last Exam、BrowseComp等部分權(quán)威基準(zhǔn)測試中,取得了媲美甚至超越GPT-5和Claude 4.5等頂級模型的表現(xiàn)。
長期以來,在人們的印象中,AI能力與天價資本支出之間似乎已形成了線性關(guān)系:更強大的模型,理應(yīng)對應(yīng)著更龐大的投入。
但Kimi K2和DeepSeek的出現(xiàn)都打破了這個邏輯,重建了一套新的敘事,徹底顛覆了傳統(tǒng)認(rèn)知。
雖然此后月之暗面創(chuàng)始團隊出面回應(yīng):“這不是官方數(shù)據(jù)。訓(xùn)練成本很難計算,因為其中很大一部分用于研究和實驗。”但在巨大的成本差異面前,這個解釋并沒有稀釋業(yè)界的驚嘆。
Hugging Face聯(lián)合創(chuàng)始人Thomas Wolf 甚至發(fā)出靈魂拷問:“我們是否每隔幾個月就要經(jīng)歷一次‘DeepSeek 時刻’?”
與之形成鮮明對比的是,今年8月,OpenAI首席執(zhí)行官山姆?奧爾特曼(SamAltman)表示,未來公司將投入數(shù)萬億美元夯實AI基建,用于支持各項人工智能服務(wù)。而就在Kimi K2發(fā)布后兩天,甲骨文一筆高達(dá)180億美元的數(shù)據(jù)中心融資交易的消息公布。
兩相對比,海外媒體開始反思中美兩國在AI基礎(chǔ)設(shè)施投入和發(fā)展模式的差異。
CNBC預(yù)計,到2027年,美國將在數(shù)據(jù)中心上投入近7000億美元,而相比之下,中國的主要玩家,包括阿里巴巴、騰訊、字節(jié)跳動和百度,合計預(yù)期投入不到800億美元。也就是說,資本支出差距高達(dá)10:1,但系統(tǒng)性能卻基本相當(dāng)。
當(dāng)美國玩家在通過私人信貸和債券市場為龐大的數(shù)據(jù)中心融資時,中國同行正在靠效率取勝——使用更便宜的芯片、開源模型,以及需要更少資本投入的精簡基礎(chǔ)設(shè)施。
據(jù)一家國際媒體估算,Kimi K2 Thinking的API價格比OpenAI和Anthropic的同類模型便宜6到10倍,可能對企業(yè)的采用模式造成沖擊。
Thomas Wolf表示,Kimi K2 Thinking發(fā)布后,已成為該平臺上最受開發(fā)者歡迎的模型。
進(jìn)一步的質(zhì)疑在于,AI領(lǐng)域的游戲規(guī)則是否正在被改寫?
Interconnected Capital 創(chuàng)始人兼首席投資官Kevin Xu在接受CNBC采訪時表示,此前,人工智能領(lǐng)域幾乎所有的事情都是由硬件主導(dǎo)的,這就是為什么OpenAI、Anthropic能夠做它們所做的事情。但DeepSeek的進(jìn)化提供了在中國發(fā)展人工智能的另一種方式,即軟件主導(dǎo)。
如今,從DeepSeek、阿里巴巴的通義大模型,再到Kimi K2 Thinking,中國的大模型,正在通過開源策略和極致的成本效率,改變?nèi)斯ぶ悄茴I(lǐng)域的競爭態(tài)勢和格局。
Kimi K2 Thinking 為何“炸場”?
Kimi K2 Thinking之所以大受歡迎,原因很簡單:更聰明,但價格更低。
以每百萬Token的API調(diào)用成本來對比,K2 Thinking的輸入和輸出成本分別為0.15和2.5美元 ,GPT-5分別為1.25和10美元。
市場的認(rèn)知已經(jīng)被重塑:最實用的模型≠最貴的模型。
在過去很長一段時間,資金算力決定論是美國模式主導(dǎo)下的敘事邏輯。OpenAI、Anthropic、Google DeepMind們爭相掀起大模型“軍備競賽”,但錢燒得越來越快,模型進(jìn)步卻越來越慢。據(jù)美國投行摩根士丹利的估算,訓(xùn)練GPT-4的成本超過6000萬美元。
而在中國,我們看到的恰好相反:Kimi用幾十分之一的成本,達(dá)到了接近GPT的能力。
估值5000億美元的“AI獨角獸之王”O(jiān)penA,技術(shù)團隊規(guī)模幾千人,其中大部分是高薪挖來的專家,已部署超過10 萬塊NVIDIA H100 GPU,接下來還有1萬億美元的算力擴張計劃。而月之暗面估值33億美元,不及前者的1%,技術(shù)團隊只有200余人。
在這場完全不對等的對決面前,糧草彈藥薄弱的中國初創(chuàng)公司要想突破OpenAI們的銅墻鐵壁,“硬剛”顯然不現(xiàn)實,只能另辟蹊徑、彎道超車。
Kimi現(xiàn)階段的重點是:“充分壓榨每一張卡”,通過架構(gòu)優(yōu)化和成本控制換取最佳性能。
從燒錢競賽轉(zhuǎn)向效率競賽,這并非“中國效率”第一次給硅谷帶來“億點點”小小的震撼。
自去年年底DeepSeek R1橫空出世,在大幅降低推理成本的達(dá)到了與o1并肩的表現(xiàn),國產(chǎn)大模型多次貢獻(xiàn)令人驚喜的表現(xiàn)。Qwen躋身Hugging Face模型下載榜單的Top 10,智譜(Z.ai)的GLM系列模型、MiniMax等也頗受海外用戶關(guān)注。
換句話說,中國AI創(chuàng)新在資源限制中不斷涌現(xiàn)。
“小米加步槍”的突圍邏輯
如果說 2022 年 ChatGPT 的發(fā)布標(biāo)志著“AI 啟蒙”,那么進(jìn)入2025年,中國AI在有限資源下涌現(xiàn)出的創(chuàng)新,用有限的算力榨出的極限性能,一次次向世界展示了中國團隊的技術(shù)實力。
AI創(chuàng)新不僅是算力競賽,也是效率競爭;AI的競爭不僅是“有多少錢”,也是“怎么用好每一分錢”。
Kimi和DeepSeek的崛起,讓全球觀察者重新審視一個老問題:為什么那些沒有寵大資金支撐的中國團隊,能在AI領(lǐng)域接連跑出黑馬?
答案或許可以概括為三點:技術(shù)哲學(xué)、資源稟賦、算法策略。
美國的大模型往往帶著“科研理想主義”的浪漫色彩——先設(shè)想一個理想系統(tǒng),再投入海量資源去逼近。而中國的團隊更像是“工程現(xiàn)實主義者”——現(xiàn)有資源下的最優(yōu)解是什么。
DeepSeek 在去年引入了被稱為“稀疏激活”的技術(shù),即模型在推理時并非激活所有神經(jīng)元,而是根據(jù)任務(wù)動態(tài)選擇部分網(wǎng)絡(luò)參與,從而將推理成本壓縮至原來的幾分之一。
Kimi K2模型第一次在超大規(guī)模的模型上采用了全新一代的優(yōu)化器,實現(xiàn)了2倍左右的效率提升。
11月5日,就在Kimi K2 Thinking發(fā)布的前一天,英偉達(dá)CEO黃仁勛在一場閉門會中斷言:“中國將贏下這場人工智能的全球競賽”。
重估中國AI基模的三重邏輯
是時候給月之暗面?zhèn)冎匦鹿乐盗恕R驗椋Y本市場正在慢慢意識到:AI公司的真正壁壘,或許不再是參數(shù)規(guī)模,而是單位算力產(chǎn)出價值(Compute Efficiency)。
對月之暗面?zhèn)兊膬r值重估至少有三重邏輯:
第一重,從“資本密集型”轉(zhuǎn)向“智力密集型”。不到500萬美元訓(xùn)練出能與GPT-4相抗的模型,意味著這家公司擁有一種新型技術(shù)杠桿,能在低成本條件下保持高速創(chuàng)新。這種能力本身就是資本市場最稀缺的資產(chǎn)——即高ROI的研發(fā)能力。
第二重,成本結(jié)構(gòu)可復(fù)制,商業(yè)化可預(yù)期。與那些動輒上億美元的模型不同,Kimi的成本意味著它的更新頻率更高、風(fēng)險更可控。這讓月之暗面具備了可持續(xù)迭代的模型。有點類似于服裝行業(yè)為應(yīng)對快速變化的市場需求而建立的柔性生產(chǎn)體系。
第三重,戰(zhàn)略位置:處于中國AI生態(tài)的關(guān)鍵節(jié)點。中國的AI產(chǎn)業(yè)正處在“算力去中心化”的關(guān)鍵階段。以阿里、字節(jié)為代表的巨頭,以Deepseek、月之暗面為代表的模型公司,正在形成一條從底層框架到應(yīng)用的“內(nèi)生循環(huán)”。DeepSeek和Kimi的出現(xiàn),不僅補全了“高性價比模型”這一生態(tài)空白,也成為中國AI產(chǎn)業(yè)全球化的新樣板。它證明了,不依賴巨額算力投入,也能在技術(shù)上正面對標(biāo)國際頂級模型。
過去三年,AI 競爭的關(guān)鍵詞是“大”:參數(shù)更大、語料更大、訓(xùn)練集群更大。
但接下來,它會變成另一種邏輯:誰能以最少的資源,創(chuàng)造出最強的智能。
未來的AI競爭將不再是“硬件戰(zhàn)爭”,而是四個維度的綜合較量:數(shù)據(jù)效率——誰能用更少的數(shù)據(jù)訓(xùn)練出更通用的模型;算法創(chuàng)新——誰能讓模型學(xué)得更快、想得更深;推理成本——誰能讓AI的使用成本降到人人可負(fù)擔(dān);場景融合——誰能最快把AI變成真實生產(chǎn)力。
中國的機會正在于此:在硬件上雖有短板,但在成本結(jié)構(gòu)、產(chǎn)業(yè)整合、場景落地上具備極強的實踐能力。
而像月之暗面這樣的公司,正代表著這種新型AI力量——它不一定最豪華,卻可能最高效;不一定擁有最多資源,卻更懂得如何讓資源發(fā)揮最大價值。
在這一新的周期里,決定勝負(fù)的不只是誰擁有更多芯片,還有誰能用有限的芯片做出最聰明的模型和應(yīng)用。
DeepSeek和 Kimi的幾百萬美元,也許不僅是一筆訓(xùn)練預(yù)算的數(shù)字,更是中國人在限制中也能持續(xù)創(chuàng)新的生動注腳。
作者 | 陳序?qū)?/p>
編輯 | 黃運濤
封面來源:kimi官網(wǎng)
End
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.