<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Mind Lab 成立|64 張卡跑萬億參數 RL,開源

      0
      分享至

      先岔開個題外話,我有個朋友叫鍇杰,顏值在線,在樂團當過首席


      在線應援(bushi

      對于鍇杰,我一直覺得
      偶像前景>技術品味>產品塑造

      他有個產品叫馬卡龍,但本文和這個無關
      上個月鍇杰來酒吧,跟我說:
      做產品的過程中,他們有一些技術上的發現,然后成立了一個 Lab

      這對于鍇杰來說,我覺得,比單純做產品靠譜多了

      現在,Mind Lab 正式成立,并交出了第一份答卷

      • ? 萬億參數 LoRA 強化學習

      • ? GPU 消耗砍掉 90%

      • ? 記憶算法 SOTA

      現在他不但搞了產品,還搞了技術,很好
      偶像之路,再緩緩吧


      https://macaron.im/mindlab 預訓練結束了

      Richard Sutton 是 DeepMind 首席科學家,強化學習之父
      他今年有個判斷:預訓練時代結束了

      互聯網數據總共就 14T 左右,該訓的都訓過了
      那接下來怎么繼續提升模型智能?
      Sutton 給的方向叫Era of Experience
      翻譯過來就是「經驗智能

      核心思路是這樣:
      把模型放進真實產品里,基于用戶真實反饋,持續訓練訓練
      讓模型,在產品里一直訓、一直長


      Era of Experience

      ...等等,鍇杰跟我講這些的時候
      我突然想到了之前的另一個產品
      Hitem 為了訓練 3D 模型,專門建立了個工廠,也是這個理由

      Mind Lab 做了個實驗,恰好也驗證這件事:
      真實反饋數據流訓練的模型,智能提升效果遠比用固定 reward 訓練的好


      流式 Reward vs 固定 Reward 效果對比

      順道說一下,這里有個概念上的區分

      預訓練造的是 Brain——大腦
      大腦是靜態的,訓完就定型了,記住了互聯網上的海量知識,但不會再進化

      強化學習造的是 Mind——心智
      心智會在環境中不斷進化,能從反饋中學習,能動態調整行為

      這是 Mind Lab 名字的由來

      Mind Lab 在干啥

      鍇杰他們,在技術上做了兩件事

      第一件:萬億參數 LoRA 強化學習

      在萬億參數模型上跑全參數強化學習,算力太貴,絕大多數團隊玩不起

      Mind Lab 的解法是用 LoRA

      LoRA 的意思是:不動整個大模型,只取出大約 0.5% 的核心參數來訓練

      效果基本不打折,成本砍到十分之一

      他們在 Kimi K2 上驗證了這套方案:
      64 張 H800 搞定萬億參數模型的強化學習


      訓練曲線,穩定收斂

      這套方案,已經合并到 NVIDIA Megatron-Bridge 和字節 seed verl,代碼開源

      鍇杰跟我說,目前全球做這個方向的,只有兩家
      Thinking Machine 和 Mind Lab

      第二件:Memory Diffusion

      這是一個記憶算法,我很喜歡

      傳統模型想要保存更多的東西,要么每輪對話總結記憶(開銷大、細節丟失),要么存數據庫檢索(容易丟上下文)

      Mind Lab 的思路很有意思,它是把對話軌跡本身當記憶
      通過「遮蔽-分配-重填」三步動態壓縮

      • ? 選一塊遮掉

      • ? 根據重要性分配 token 預算

      • ? 在預算約束下重新生成

      靈感來自人類的遺忘機制:
      比如...在開車的時候,你會忘掉路過的廣告牌,只記住目的地

      這套東西,在 Locomo 基準上達到 93% 準確率,SOTA

      一個有意思的發現

      Mind Lab 做了個對照實驗

      三個模型,控制總計算量一致,來做個訓練對比

      • ?1.5B 全參數訓練

      • ?7B LoRA 訓練

      • ?32B LoRA 訓練

      結論是32B + LoRA 效果最好

      模型

      可訓練參數

      效果提升

      1.5B 全參數

      1.5B

      8.33%

      7B LoRA

      0.16B

      11.31%

      32B LoRA

      0.07B

      20.61%

      為什么?
      因為強化學習本質上是「先驗受限」的
      如果基座模型本身生成不出高質量軌跡,強化學習就沒什么有用的信號可以放大

      大模型已經編碼了豐富的推理模式,強化學習在這些基礎上精修,比從頭造輪子效率高得多

      大先驗 + 小 LoRA,比小模型全參數訓練更劃算

      還挺有意思的

      產品是天然的 RL 環境

      和鍇杰認識很久了,也一直很喜歡他的技術品味
      但即便是這樣,我依然會有一個問題
      這樣的技術,為什么是來自產品團隊?

      得到了這樣的回答
      產品本身,就是最好的強化學習環境

      這里說個很有趣的事實
      Cursor 的估值,能買下國內所有的大模型創業公司


      Cursor 最新一輪融資

      Cursor 值錢,在于它有最多的真實用戶數據
      用戶用 Cursor 寫代碼,接受或拒絕建議,編輯或刪除生成內容,這些全是訓練信號

      作為對比,X.AI 有很多算力、很多優秀研究員,但模型提升速度不夠快
      為什么?沒有真實產品環境,獎勵函數沒法持續進化

      Mind Lab 的邏輯也是這樣
      研究給產品帶來體驗升級(比如生成速度從 20 分鐘到 2 分鐘),產品給研究帶來真實數據,這些是互相增強的


      示意圖

      預訓練時代,贏家是數據多的
      經驗智能時代,贏家會是產品好的

      最后

      Ilya 說過:
      預訓練時代正在走向終結

      那下一個時代是什么?
      可能是「經驗智能」,也或者不是

      但正如我們所體驗的,
      大腦在真實世界中,產生的心智會不斷進化
      AI 或許也會遵循,在人類的世界中不斷進化

      至于鍇杰,他準備啥時候開啟偶像之路》

      我覺得...可能得等他先把心智這件事搞明白

      Lab 主頁
      https://macaron.im/mindlab

      合并PR
      https://github.com/volcengine/verl/pull/4063
      https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1310

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      觀察鑒娛
      2026-02-12 11:53:34
      訂單與股價齊飛!AI引爆需求,這個傳統板塊成了“香饃饃”

      訂單與股價齊飛!AI引爆需求,這個傳統板塊成了“香饃饃”

      證券時報
      2026-02-15 18:14:05
      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      南權先生
      2026-02-12 15:38:28
      52歲龍丹妮上熱搜,網友:舞是龍丹妮跳的,面子是前男友李維丟的

      52歲龍丹妮上熱搜,網友:舞是龍丹妮跳的,面子是前男友李維丟的

      她時尚丫
      2026-02-13 22:55:36
      古天樂被追問旗下女演員周秀娜被告事件,他非常平靜地說了三個字

      古天樂被追問旗下女演員周秀娜被告事件,他非常平靜地說了三個字

      黃河新聞網呂梁頻道
      2026-02-15 10:43:54
      2026是赤馬年,60年一遇,記得:1躲,2穿,3注意

      2026是赤馬年,60年一遇,記得:1躲,2穿,3注意

      讀書文史
      2026-02-15 16:24:49
      中戲風波持續發酵!王鑫在職期間3人免試入編,易烊千璽飽受質疑

      中戲風波持續發酵!王鑫在職期間3人免試入編,易烊千璽飽受質疑

      法老不說教
      2026-02-15 23:24:29
      “把瓦房當紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

      “把瓦房當紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

      妍妍教育日記
      2026-02-15 08:15:08
      太遺憾了!短道速滑女子3000米接力最后時刻被單吃無緣A組決賽!

      太遺憾了!短道速滑女子3000米接力最后時刻被單吃無緣A組決賽!

      籃球資訊達人
      2026-02-15 05:35:04
      美媒重排24年選秀!狀元暴跌至13名 火箭隊謝潑德第5馬刺成大贏家

      美媒重排24年選秀!狀元暴跌至13名 火箭隊謝潑德第5馬刺成大贏家

      鍋子籃球
      2026-02-15 22:35:02
      農村到底蕭條到了啥程度?我在村里住了三個月,說幾句刺耳的話

      農村到底蕭條到了啥程度?我在村里住了三個月,說幾句刺耳的話

      復轉這些年
      2026-02-11 23:59:46
      男子花80塊錢請人畫畫,付款時,要了張收據,50年后,這張收據賣了180萬

      男子花80塊錢請人畫畫,付款時,要了張收據,50年后,這張收據賣了180萬

      霹靂炮
      2026-02-14 20:47:47
      小卡開炮全明星賽!萊昂納德直言:這賽制根本沒人想認真打

      小卡開炮全明星賽!萊昂納德直言:這賽制根本沒人想認真打

      體育閑話說
      2026-02-15 14:19:21
      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      八斗小先生
      2025-12-26 09:33:27
      除夕三不擺,來年不惹災”,這3樣水果別上桌,易鬧笑話壞彩頭

      除夕三不擺,來年不惹災”,這3樣水果別上桌,易鬧笑話壞彩頭

      小陸搞笑日常
      2026-02-13 05:58:45
      男人別碰四五十歲的女人,她們有2個地方你“惹不起”!

      男人別碰四五十歲的女人,她們有2個地方你“惹不起”!

      加油丁小文
      2026-01-16 22:16:00
      【微特稿】不顧法院保護令 美國將9人秘密驅逐至喀麥隆

      【微特稿】不顧法院保護令 美國將9人秘密驅逐至喀麥隆

      新華社
      2026-02-15 20:38:11
      布朗尼情人節曬與女友合影!兩人都是星二代 已見過雙方父母

      布朗尼情人節曬與女友合影!兩人都是星二代 已見過雙方父母

      Emily說個球
      2026-02-15 20:40:18
      “學習學傻了吧?”女孩曬滿墻獎狀,挑釁有錢人被嘲:頭腦不清醒

      “學習學傻了吧?”女孩曬滿墻獎狀,挑釁有錢人被嘲:頭腦不清醒

      妍妍教育日記
      2026-02-14 17:00:28
      中烏極罕見一幕發生,普京和特朗普全都沒想到:澤連斯基敢這樣說

      中烏極罕見一幕發生,普京和特朗普全都沒想到:澤連斯基敢這樣說

      牛鍋巴小釩
      2026-02-16 02:38:23
      2026-02-16 05:12:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數 36關注度
      往期回顧 全部

      科技要聞

      發春節紅包的大廠都被約談了

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態度原創

      房產
      數碼
      家居
      手機
      公開課

      房產要聞

      三亞新機場,又傳出新消息!

      數碼要聞

      盲測顯示:音頻發燒友無法分辨銅線、香蕉與濕泥傳輸的音頻信號

      家居要聞

      中古雅韻 樂韻伴日常

      手機要聞

      榮耀Magic V6真機現身,圓形Deco、紅色機身

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版