![]()
作者 | 周一笑
編輯 | 王兆洋
最近的AI圈,如果說有什么事能讓東西方開發者社區同時“上頭”,那可能就是月之暗面和它的 Kimi K2 Thinking模型了。K2 Thinking在推理和編碼能力上超越了不少前沿模型,被許多開發者譽為新SOTA ,發布后迅速在海內外技術社區引發熱議。
就在這波熱度席卷全球之時,Kimi團隊也趁熱打鐵,在Reddit舉辦了一場AMA (Ask Me Anything問我任何事)。
據了解,這次直接通宵答疑的正是月之暗面的三位聯合創始人楊植麟、周昕宇和吳育昕。這也算是三位聯創難得的對外“集體亮相”。
從回答陣容來看,楊植麟用了一個叫“ComfortableAsk4494”的賬號來直接在線答疑。
而我們也問了兩個外界很關注的問題,得到了回答。
1
460萬真的嗎?為何一直在做純文本
我們關注的兩個問題分別是此次K2 Thinking傳出的極低的成本,以及Kimi至今依然在走的純文本和Agent路線的原因。以下是他的回答。
![]()
Q:K2 思維模型 460 萬美元的訓練成本是真的嗎?
A:這不是官方數據。由于訓練成本中很大一部分是研究和實驗,所以很難量化具體數字。
![]()
Q:純文本 Agent 專注策略是為了短期達到 SOTA 而做出的,還是你們長期看好的方向?
A:訓練視覺語言模型需要時間獲取數據和調整訓練,所以我們決定先發布一個文本模型。
AMA是Reddit由來已久的傳統,從奧巴馬到基努·里維斯再到OpenAI團隊和Sam Altman,政商科技與娛樂圈的許多知名人物都曾通過這種形式與社區進行交流。Kimi這次選擇的是r/LocalLLaMA 這個分區,這是一個關于開源模型、模型本地化部署分區,聚集了許多硬核的開發者。這可能也是第一次中國AI公司選擇這種形式在海外技術社區開誠布公。以下是更多AMA內容:
1
AMA實錄
在我們提的這些問題之外,Kimi核心團隊也回答了全球開發者的更多問題,從Kimi本身的模型到整個行業的一些看法。
以下是這次AMA的省流版和實錄:
訓練成本:460萬美元訓練成本不是一個官方數字。
用什么訓練的: 配備 InfiniBand 的 H800 GPU。
K3新架構: 將采用混合架構。
K2為何采用 INT4: 為了更好地兼容非 Blackwell 架構的 GPU。
多模態:“我們正在做。”
Muon優化器:可良好擴展至 1 萬億參數
K3什么時候來: “Sam的萬億級數據中心建成之前”。
Q:你們的訓練硬件配置是怎樣的?很好奇你們的架構與美國那些巨頭使用的系統相比如何?
A:我們使用的是配備 Infiniband 的 H800 GPU;雖然比不上美國的高端 GPU,數量上也處于劣勢,但我們把每張顯卡的性能都榨取得淋漓盡致
![]()
Q:非常感謝你們為開源社區帶來了最先進的模型!我的問題是:Kimi 的下一代旗艦模型會采用 KDA 技術嗎?它有什么優勢?
A:在我們對預訓練和強化學習的公平比較中,采用 NoPE MLA 的 KDA 混合模型表現優于全量 RoPE MLA 模型。它們不僅獲得了更高的基準分數,而且速度更快、更經濟高效,使我們能夠加速預訓練、在強化學習階段更快部署,并服務更多用戶。我們還有更多改進正在研發中,將在準備就緒時分享。
A:KDA 是我們最新的實驗性架構。
相關理念很可能會應用于 K3 架構中。
![]()
Q:K3 什么時候出?
A:在 Sam 的萬億級數據中心建成之前
![]()
Q:是什么讓你們這群狠人(親切地說)決定用一個相對未經充分測試的優化器來訓練如此龐大的模型?
A:Muon 是一種未經他人測試的優化器,但我們已經通過所有擴展階梯驗證了它的有效性。
我們對自身的研究體系充滿信心。或許你會覺得 Muon 只是運氣好,但事實上已有數十種優化器和架構在嚴苛考驗中被淘汰。
![]()
Q:請問您認為 fp4 與 int4 相比是否確實有顯著提升?還是說 int4 已經足夠好地完成編碼任務?
A:我們選擇 int4 是為了更好地兼容非 Blackwell 架構的 GPU,同時利用現有的 int4 推理 Marlin 內核(https://github.com/IST-DASLab/marlin)。
我們的工程師對此話題有詳細中文解讀:https://www.zhihu.com/question/1969558404759544488/answer/1970539327902679960
除了分享技術亮點,Kimi 團隊回應了一些對模型槽點的質疑,并給出了對未來規劃和行業發的看法。
![]()
Q:關于 token 效率問題,kimi k2 thinking 似乎使用了過多 token。你們計劃在下一個版本中修復這個問題嗎?
A:說得好。在當前版本中,我們更看重絕對性能而非 token 效率。后續會嘗試將效率納入獎勵機制,讓模型學會壓縮思考過程。
![]()
Q:你好 Moonshot 團隊!感謝你們為閉源模型提供了真正的競爭 在開發 k2 思維模型的過程中,你們遇到的最大挑戰是什么?謝謝!
A:一個挑戰是支持"思考-工具-思考-工具"的交替模式。這是 LLMs 中相對較新的行為,需要大量工作才能正確實現。
![]()
Q:你認為 LLM 架構的下一個重大突破會是什么?
A:我們測試了 Kimi Linear 模型,效果看起來很有潛力。它還可以與稀疏性技術結合使用。
![]()
Q:為什么OpenAI 在燒這么多錢?是當前商業規則(稅收、生活成本等)導致的,還是你認為有其他原因?
A:不知道。只有 Sam 清楚。我們有自己的一套方法和節奏
![]()
Q:你們有計劃發布更重量級的閉源模型嗎?
A:if it gets too dangerous :)
在這些對與Kimi有關的話題之外,Kimi的聯創團隊也難得回答了許多帶有一點“隔空對話”火藥味的問題。
當被問道是否需要像OpenAI那樣也搞一個Chromium的套殼瀏覽器時,Kimi的回答是:No。
另一個非常有趣的回答則來自周昕宇。一個用戶問到了此前被廣為夸贊的DeepSeek的OCR模型,當時這款模型被認為是一個非常棒的創新,試圖用視覺的方式來解決原本依賴文字token的存儲和記憶的問題。
他回答到:
我個人的想法是,這個太刻意了。我寧愿留在特征空間,并找到更通用和模式無關的方法來讓模型更有效率。
![]()
這種和開發者當面聊的親歷感,或許正是AMA這種形式的最大特點。而由聯合創始人級別的核心技術成員親自下場,在海外技術社區與開發者交流技術細節,足見Kimi團隊的重視。而且這種交流過程里,也能讓這些對架構創新等的不同看法,從水底露出來一下,讓外界更加了解這樣一個技術團隊的思考方式。
這可能是更多AI研究團隊可以考慮的方式,這樣的交流至少更加有人味兒。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.