<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      我們問了問“通宵答疑”的楊植麟:460萬美金和Kimi的純文本路線

      0
      分享至


      作者 | 周一笑
      編輯 | 王兆洋

      最近的AI圈,如果說有什么事能讓東西方開發者社區同時“上頭”,那可能就是月之暗面和它的 Kimi K2 Thinking模型了。K2 Thinking在推理和編碼能力上超越了不少前沿模型,被許多開發者譽為新SOTA ,發布后迅速在海內外技術社區引發熱議。

      就在這波熱度席卷全球之時,Kimi團隊也趁熱打鐵,在Reddit舉辦了一場AMA (Ask Me Anything問我任何事)。

      據了解,這次直接通宵答疑的正是月之暗面的三位聯合創始人楊植麟、周昕宇和吳育昕。這也算是三位聯創難得的對外“集體亮相”。

      從回答陣容來看,楊植麟用了一個叫“ComfortableAsk4494”的賬號來直接在線答疑。

      而我們也問了兩個外界很關注的問題,得到了回答。

      1

      460萬真的嗎?為何一直在做純文本

      我們關注的兩個問題分別是此次K2 Thinking傳出的極低的成本,以及Kimi至今依然在走的純文本和Agent路線的原因。以下是他的回答。


      Q:K2 思維模型 460 萬美元的訓練成本是真的嗎?

      A:這不是官方數據。由于訓練成本中很大一部分是研究和實驗,所以很難量化具體數字。


      Q:純文本 Agent 專注策略是為了短期達到 SOTA 而做出的,還是你們長期看好的方向?

      A:訓練視覺語言模型需要時間獲取數據和調整訓練,所以我們決定先發布一個文本模型。

      AMA是Reddit由來已久的傳統,從奧巴馬到基努·里維斯再到OpenAI團隊和Sam Altman,政商科技與娛樂圈的許多知名人物都曾通過這種形式與社區進行交流。Kimi這次選擇的是r/LocalLLaMA 這個分區,這是一個關于開源模型、模型本地化部署分區,聚集了許多硬核的開發者。這可能也是第一次中國AI公司選擇這種形式在海外技術社區開誠布公。以下是更多AMA內容:

      1

      AMA實錄

      在我們提的這些問題之外,Kimi核心團隊也回答了全球開發者的更多問題,從Kimi本身的模型到整個行業的一些看法。

      以下是這次AMA的省流版和實錄:

      • 訓練成本:460萬美元訓練成本不是一個官方數字。

      • 用什么訓練的: 配備 InfiniBand 的 H800 GPU。

      • K3新架構: 將采用混合架構。

      • K2為何采用 INT4: 為了更好地兼容非 Blackwell 架構的 GPU。

      • 多模態:“我們正在做。”

      • Muon優化器:可良好擴展至 1 萬億參數

      • K3什么時候來: “Sam的萬億級數據中心建成之前”。

      Q:你們的訓練硬件配置是怎樣的?很好奇你們的架構與美國那些巨頭使用的系統相比如何?

      A:我們使用的是配備 Infiniband 的 H800 GPU;雖然比不上美國的高端 GPU,數量上也處于劣勢,但我們把每張顯卡的性能都榨取得淋漓盡致


      Q:非常感謝你們為開源社區帶來了最先進的模型!我的問題是:Kimi 的下一代旗艦模型會采用 KDA 技術嗎?它有什么優勢?

      A:在我們對預訓練和強化學習的公平比較中,采用 NoPE MLA 的 KDA 混合模型表現優于全量 RoPE MLA 模型。它們不僅獲得了更高的基準分數,而且速度更快、更經濟高效,使我們能夠加速預訓練、在強化學習階段更快部署,并服務更多用戶。我們還有更多改進正在研發中,將在準備就緒時分享。

      A:KDA 是我們最新的實驗性架構。

      相關理念很可能會應用于 K3 架構中。


      Q:K3 什么時候出?

      A:在 Sam 的萬億級數據中心建成之前


      Q:是什么讓你們這群狠人(親切地說)決定用一個相對未經充分測試的優化器來訓練如此龐大的模型?

      A:Muon 是一種未經他人測試的優化器,但我們已經通過所有擴展階梯驗證了它的有效性。

      我們對自身的研究體系充滿信心。或許你會覺得 Muon 只是運氣好,但事實上已有數十種優化器和架構在嚴苛考驗中被淘汰。


      Q:請問您認為 fp4 與 int4 相比是否確實有顯著提升?還是說 int4 已經足夠好地完成編碼任務?

      A:我們選擇 int4 是為了更好地兼容非 Blackwell 架構的 GPU,同時利用現有的 int4 推理 Marlin 內核(https://github.com/IST-DASLab/marlin)。

      我們的工程師對此話題有詳細中文解讀:https://www.zhihu.com/question/1969558404759544488/answer/1970539327902679960

      除了分享技術亮點,Kimi 團隊回應了一些對模型槽點的質疑,并給出了對未來規劃和行業發的看法。


      Q:關于 token 效率問題,kimi k2 thinking 似乎使用了過多 token。你們計劃在下一個版本中修復這個問題嗎?

      A:說得好。在當前版本中,我們更看重絕對性能而非 token 效率。后續會嘗試將效率納入獎勵機制,讓模型學會壓縮思考過程。


      Q:你好 Moonshot 團隊!感謝你們為閉源模型提供了真正的競爭 在開發 k2 思維模型的過程中,你們遇到的最大挑戰是什么?謝謝!

      A:一個挑戰是支持"思考-工具-思考-工具"的交替模式。這是 LLMs 中相對較新的行為,需要大量工作才能正確實現。


      Q:你認為 LLM 架構的下一個重大突破會是什么?

      A:我們測試了 Kimi Linear 模型,效果看起來很有潛力。它還可以與稀疏性技術結合使用。


      Q:為什么OpenAI 在燒這么多錢?是當前商業規則(稅收、生活成本等)導致的,還是你認為有其他原因?

      A:不知道。只有 Sam 清楚。我們有自己的一套方法和節奏


      Q:你們有計劃發布更重量級的閉源模型嗎?

      A:if it gets too dangerous :)

      在這些對與Kimi有關的話題之外,Kimi的聯創團隊也難得回答了許多帶有一點“隔空對話”火藥味的問題。

      當被問道是否需要像OpenAI那樣也搞一個Chromium的套殼瀏覽器時,Kimi的回答是:No。

      另一個非常有趣的回答則來自周昕宇。一個用戶問到了此前被廣為夸贊的DeepSeek的OCR模型,當時這款模型被認為是一個非常棒的創新,試圖用視覺的方式來解決原本依賴文字token的存儲和記憶的問題。

      他回答到:

      我個人的想法是,這個太刻意了。我寧愿留在特征空間,并找到更通用和模式無關的方法來讓模型更有效率。


      這種和開發者當面聊的親歷感,或許正是AMA這種形式的最大特點。而由聯合創始人級別的核心技術成員親自下場,在海外技術社區與開發者交流技術細節,足見Kimi團隊的重視。而且這種交流過程里,也能讓這些對架構創新等的不同看法,從水底露出來一下,讓外界更加了解這樣一個技術團隊的思考方式。

      這可能是更多AI研究團隊可以考慮的方式,這樣的交流至少更加有人味兒。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重慶一小學禁止“二手房”業主孩子入讀,當地:孩子多學校容量小,已調研后期可能調整

      重慶一小學禁止“二手房”業主孩子入讀,當地:孩子多學校容量小,已調研后期可能調整

      瀟湘晨報
      2025-12-08 16:29:25
      道歉!下架!第一個遭遇反噬的電動車廠商來了

      道歉!下架!第一個遭遇反噬的電動車廠商來了

      數字財經智庫
      2025-12-07 10:51:38
      40歲,想結婚,被網暴

      40歲,想結婚,被網暴

      南風窗
      2025-12-08 14:56:09
      受賄2.36億余元,十四屆全國政協原常委茍仲文一審被判死緩

      受賄2.36億余元,十四屆全國政協原常委茍仲文一審被判死緩

      界面新聞
      2025-12-08 17:01:51
      蘋果iPhone 18系列全新曝光,等等黨有福了!

      蘋果iPhone 18系列全新曝光,等等黨有福了!

      科技堡壘
      2025-12-08 11:15:49
      今后3天河南晴朗持續!11日起大風雨雪強降溫“組團”上線

      今后3天河南晴朗持續!11日起大風雨雪強降溫“組團”上線

      大象新聞
      2025-12-08 13:30:12
      現代朝鮮底層驚人的食量:一頓能吃下一斤多主食

      現代朝鮮底層驚人的食量:一頓能吃下一斤多主食

      百姓聞世界
      2025-12-04 18:14:06
      周星馳《鹿鼎記》票房慘淡首日僅18萬:情懷牌為何突然失靈?

      周星馳《鹿鼎記》票房慘淡首日僅18萬:情懷牌為何突然失靈?

      城市鄉村
      2025-12-08 10:13:29
      朝鮮宣布:糧食大豐收

      朝鮮宣布:糧食大豐收

      IN朝鮮
      2025-12-07 13:13:06
      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      老特有話說
      2025-12-06 17:31:27
      新加坡華裔男生被評“全球最丑”?本地網友怒懟:這鍋不背!

      新加坡華裔男生被評“全球最丑”?本地網友怒懟:這鍋不背!

      新加坡萬事通
      2025-12-07 20:55:03
      30歲的賀子珍在蘇聯莫斯科的真實容貌 并非演員扮演 貨真價實的照片

      30歲的賀子珍在蘇聯莫斯科的真實容貌 并非演員扮演 貨真價實的照片

      動物奇奇怪怪
      2025-12-08 13:26:50
      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      胡嚴亂語
      2025-12-07 15:51:07
      最新民調出來后,盧秀燕傻眼了,賴清德樂不出來,鄭麗文贏面大增

      最新民調出來后,盧秀燕傻眼了,賴清德樂不出來,鄭麗文贏面大增

      落雪聽梅a
      2025-12-08 13:58:40
      王迅老師不幸逝世,官網已變黑白

      王迅老師不幸逝世,官網已變黑白

      wuhu派
      2025-12-08 08:47:33
      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      艾米手工作品
      2025-12-08 07:21:13
      -4℃到-5℃!這個冬天比以往來得更晚些

      -4℃到-5℃!這個冬天比以往來得更晚些

      上觀新聞
      2025-12-08 16:57:06
      入選《金融時報》“2025年影響力人物榜” 黃仁勛坦言:怕公司倒閉,我一周工作7天

      入選《金融時報》“2025年影響力人物榜” 黃仁勛坦言:怕公司倒閉,我一周工作7天

      紅星新聞
      2025-12-08 15:35:14
      存在不當影射行為,郭德綱被約談!

      存在不當影射行為,郭德綱被約談!

      微微熱評
      2025-12-08 00:51:45
      它是止咳第一名,放到鍋中蒸一蒸,輕松排出黃痰,做法真的很簡單

      它是止咳第一名,放到鍋中蒸一蒸,輕松排出黃痰,做法真的很簡單

      墜入二次元的海洋
      2025-12-08 05:50:41
      2025-12-08 19:07:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2693文章數 10414關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      游戲
      教育
      時尚
      健康
      軍事航空

      《冒險島》游輪發布會放大招!這些新內容都堪稱王炸!

      教育要聞

      2025中國百強中學出爐!山東4所學校上榜!

      除了大衣,今年最火的外套一定就是它了!

      甲狀腺結節到這個程度,該穿刺了!

      軍事要聞

      柬泰沖突細節披露 洪森要求部隊“克制”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩图区| 亚洲精品日韩在线丰满| 亚洲中文在线观看| 先锋影音av最新资源| 91成人视频在线观看| 日日鲁鲁鲁夜夜爽爽狠狠| 乱码精品一区二区三区| 中文字幕无码Av在线看| 91在线无码精品秘?国产千人斩| 我把护士日出水了视频90分钟| 无套内谢少妇毛片aaaa片免费| 实拍女处破www免费看| 国产精品一区二区av片| 免费可以在线看a∨网站| 日韩乱码人妻无码中文字幕| 久热这里只有精品视频3| 亚洲都市激情| 18禁超污无遮挡无码免费游戏| 亚洲欧美V| 在线观看免费人成视频色9| 激情 小说 亚洲 图片 伦| 51精品视频| jizzjizz亚洲| 亚洲精品国产自在现线最新| 成人午夜AV| 成人免费无码大片a毛片抽搐| 免费国产好深啊好涨好硬视频| 无码123| 锦州市| 欧美寡妇xxxx黑人猛交| 国产va| 久久福利导航| 大香蕉综合网| 级毛片内射视频| 亚洲国产VA| 精品人妻二区中文字幕| 久久99人妻无码精品一区| 国产老妇伦国产熟女老妇高清| 国产第一区二区三区精品| 阿勒泰市| 中文字幕无码不卡在线|