<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Mind Lab 成立|64 張卡跑萬億參數 RL,開源

      0
      分享至

      先岔開個題外話,我有個朋友叫鍇杰,顏值在線,在樂團當過首席


      在線應援(bushi

      對于鍇杰,我一直覺得
      偶像前景>技術品味>產品塑造

      他有個產品叫馬卡龍,但本文和這個無關
      上個月鍇杰來酒吧,跟我說:
      做產品的過程中,他們有一些技術上的發現,然后成立了一個 Lab

      這對于鍇杰來說,我覺得,比單純做產品靠譜多了

      現在,Mind Lab 正式成立,并交出了第一份答卷

      • ? 萬億參數 LoRA 強化學習

      • ? GPU 消耗砍掉 90%

      • ? 記憶算法 SOTA

      現在他不但搞了產品,還搞了技術,很好
      偶像之路,再緩緩吧


      https://macaron.im/mindlab 預訓練結束了

      Richard Sutton 是 DeepMind 首席科學家,強化學習之父
      他今年有個判斷:預訓練時代結束了

      互聯網數據總共就 14T 左右,該訓的都訓過了
      那接下來怎么繼續提升模型智能?
      Sutton 給的方向叫Era of Experience
      翻譯過來就是「經驗智能

      核心思路是這樣:
      把模型放進真實產品里,基于用戶真實反饋,持續訓練訓練
      讓模型,在產品里一直訓、一直長


      Era of Experience

      ...等等,鍇杰跟我講這些的時候
      我突然想到了之前的另一個產品
      Hitem 為了訓練 3D 模型,專門建立了個工廠,也是這個理由

      Mind Lab 做了個實驗,恰好也驗證這件事:
      真實反饋數據流訓練的模型,智能提升效果遠比用固定 reward 訓練的好


      流式 Reward vs 固定 Reward 效果對比

      順道說一下,這里有個概念上的區分

      預訓練造的是 Brain——大腦
      大腦是靜態的,訓完就定型了,記住了互聯網上的海量知識,但不會再進化

      強化學習造的是 Mind——心智
      心智會在環境中不斷進化,能從反饋中學習,能動態調整行為

      這是 Mind Lab 名字的由來

      Mind Lab 在干啥

      鍇杰他們,在技術上做了兩件事

      第一件:萬億參數 LoRA 強化學習

      在萬億參數模型上跑全參數強化學習,算力太貴,絕大多數團隊玩不起

      Mind Lab 的解法是用 LoRA

      LoRA 的意思是:不動整個大模型,只取出大約 0.5% 的核心參數來訓練

      效果基本不打折,成本砍到十分之一

      他們在 Kimi K2 上驗證了這套方案:
      64 張 H800 搞定萬億參數模型的強化學習


      訓練曲線,穩定收斂

      這套方案,已經合并到 NVIDIA Megatron-Bridge 和字節 seed verl,代碼開源

      鍇杰跟我說,目前全球做這個方向的,只有兩家
      Thinking Machine 和 Mind Lab

      第二件:Memory Diffusion

      這是一個記憶算法,我很喜歡

      傳統模型想要保存更多的東西,要么每輪對話總結記憶(開銷大、細節丟失),要么存數據庫檢索(容易丟上下文)

      Mind Lab 的思路很有意思,它是把對話軌跡本身當記憶
      通過「遮蔽-分配-重填」三步動態壓縮

      • ? 選一塊遮掉

      • ? 根據重要性分配 token 預算

      • ? 在預算約束下重新生成

      靈感來自人類的遺忘機制:
      比如...在開車的時候,你會忘掉路過的廣告牌,只記住目的地

      這套東西,在 Locomo 基準上達到 93% 準確率,SOTA

      一個有意思的發現

      Mind Lab 做了個對照實驗

      三個模型,控制總計算量一致,來做個訓練對比

      • ?1.5B 全參數訓練

      • ?7B LoRA 訓練

      • ?32B LoRA 訓練

      結論是32B + LoRA 效果最好

      模型

      可訓練參數

      效果提升

      1.5B 全參數

      1.5B

      8.33%

      7B LoRA

      0.16B

      11.31%

      32B LoRA

      0.07B

      20.61%

      為什么?
      因為強化學習本質上是「先驗受限」的
      如果基座模型本身生成不出高質量軌跡,強化學習就沒什么有用的信號可以放大

      大模型已經編碼了豐富的推理模式,強化學習在這些基礎上精修,比從頭造輪子效率高得多

      大先驗 + 小 LoRA,比小模型全參數訓練更劃算

      還挺有意思的

      產品是天然的 RL 環境

      和鍇杰認識很久了,也一直很喜歡他的技術品味
      但即便是這樣,我依然會有一個問題
      這樣的技術,為什么是來自產品團隊?

      得到了這樣的回答
      產品本身,就是最好的強化學習環境

      這里說個很有趣的事實
      Cursor 的估值,能買下國內所有的大模型創業公司


      Cursor 最新一輪融資

      Cursor 值錢,在于它有最多的真實用戶數據
      用戶用 Cursor 寫代碼,接受或拒絕建議,編輯或刪除生成內容,這些全是訓練信號

      作為對比,X.AI 有很多算力、很多優秀研究員,但模型提升速度不夠快
      為什么?沒有真實產品環境,獎勵函數沒法持續進化

      Mind Lab 的邏輯也是這樣
      研究給產品帶來體驗升級(比如生成速度從 20 分鐘到 2 分鐘),產品給研究帶來真實數據,這些是互相增強的


      示意圖

      預訓練時代,贏家是數據多的
      經驗智能時代,贏家會是產品好的

      最后

      Ilya 說過:
      預訓練時代正在走向終結

      那下一個時代是什么?
      可能是「經驗智能」,也或者不是

      但正如我們所體驗的,
      大腦在真實世界中,產生的心智會不斷進化
      AI 或許也會遵循,在人類的世界中不斷進化

      至于鍇杰,他準備啥時候開啟偶像之路》

      我覺得...可能得等他先把心智這件事搞明白

      Lab 主頁
      https://macaron.im/mindlab

      合并PR
      https://github.com/volcengine/verl/pull/4063
      https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1310

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      攜程被大量用戶卸載!注銷按鈕點擊超300萬次,平臺暫未發布道歉

      攜程被大量用戶卸載!注銷按鈕點擊超300萬次,平臺暫未發布道歉

      火山詩話
      2025-12-21 06:24:06
      野村:中國經濟兩大支柱的極端分化

      野村:中國經濟兩大支柱的極端分化

      紫京講談
      2025-12-21 22:53:13
      你見過最主動的女人是啥樣?網友:不要主動,主動了,他就不理了

      你見過最主動的女人是啥樣?網友:不要主動,主動了,他就不理了

      帶你感受人間冷暖
      2025-12-20 00:20:10
      從高處跌落的硅膠臉夫人:被拘4個月瘦到80斤,頭發花白眼神驚恐

      從高處跌落的硅膠臉夫人:被拘4個月瘦到80斤,頭發花白眼神驚恐

      照見古今
      2025-12-12 18:19:05
      孟子義意外摔倒,李昀銳慌忙亂撈

      孟子義意外摔倒,李昀銳慌忙亂撈

      明天去看太陽
      2025-12-22 06:35:00
      威瑟斯龐大贊廣東隊1人:他很有能力,還在不斷進步

      威瑟斯龐大贊廣東隊1人:他很有能力,還在不斷進步

      體育哲人
      2025-12-22 08:12:26
      從澳大利亞探親回來,才敢說幾句真心話,移民真的不適合所有人嗎

      從澳大利亞探親回來,才敢說幾句真心話,移民真的不適合所有人嗎

      i書與房
      2025-12-18 11:10:02
      洪森威脅拋電詐股東名單,并非揭黑,更多是怕老底被抖出來

      洪森威脅拋電詐股東名單,并非揭黑,更多是怕老底被抖出來

      熱點菌本君
      2025-12-21 15:04:14
      香港前特首林鄭月娥:工作42年未在香港買房?卸任后為什么還是租房住?

      香港前特首林鄭月娥:工作42年未在香港買房?卸任后為什么還是租房住?

      歷史回憶室
      2025-12-21 12:51:07
      楊虎城的后人今何在:長子省委書記,倆女兒廳級,孫子移民加拿大

      楊虎城的后人今何在:長子省委書記,倆女兒廳級,孫子移民加拿大

      抽象派大師
      2025-12-14 03:12:02
      卡梅隆說他可能不拍《阿凡達4》了,理由聽起來很現實

      卡梅隆說他可能不拍《阿凡達4》了,理由聽起來很現實

      何以雜談
      2025-12-20 22:05:42
      1986年陳永貴病逝后,追悼會規格引起爭議,鄧小平一句話最終定調

      1986年陳永貴病逝后,追悼會規格引起爭議,鄧小平一句話最終定調

      寄史言志
      2025-12-19 15:28:23
      判了!又一大魚倒下:卷入李鐵案,多次逃過調查,如今獲5年刑期

      判了!又一大魚倒下:卷入李鐵案,多次逃過調查,如今獲5年刑期

      籃球看比賽
      2025-12-21 13:32:58
      善惡終有報!“銷聲匿跡”的宋祖英,已經走上了另一條康莊大道

      善惡終有報!“銷聲匿跡”的宋祖英,已經走上了另一條康莊大道

      芳芳歷史燴
      2025-09-09 16:56:18
      4連勝后廣東傳來3好消息!少杰傷情無礙,還有一件事讓粵迷更高興

      4連勝后廣東傳來3好消息!少杰傷情無礙,還有一件事讓粵迷更高興

      后仰大風車
      2025-12-22 07:10:10
      富家女被拐深山8年淪為生殖工具,民警解救時,她卻懇求:別管我

      富家女被拐深山8年淪為生殖工具,民警解救時,她卻懇求:別管我

      雅俗共賞1
      2025-09-02 10:15:19
      KK園區“再就業”,4天連炸卻照常運作?為何詐騙團伙越打擊越多

      KK園區“再就業”,4天連炸卻照常運作?為何詐騙團伙越打擊越多

      面包夾知識
      2025-12-21 14:18:29
      1955年,毛主席一筆劃掉二野劉鄧之下的3號人物:此人不予授銜!

      1955年,毛主席一筆劃掉二野劉鄧之下的3號人物:此人不予授銜!

      卿昀
      2025-11-24 21:26:43
      男子裝修時發現臥室少5平,鑿開后立馬報警,警方:這東西找10年了

      男子裝修時發現臥室少5平,鑿開后立馬報警,警方:這東西找10年了

      罪案洞察者
      2025-12-06 11:11:31
      馬克龍:法國將新建一艘航母

      馬克龍:法國將新建一艘航母

      澎湃新聞
      2025-12-22 00:50:09
      2025-12-22 09:36:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      218文章數 12關注度
      往期回顧 全部

      科技要聞

      7490億美元!馬斯克又把財富天花板捅破了

      頭條要聞

      牛彈琴:對付墨西哥的小動作 中國已準備了三大招

      頭條要聞

      牛彈琴:對付墨西哥的小動作 中國已準備了三大招

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經要聞

      人民幣快漲到7了!

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      教育
      家居
      親子
      公開課
      軍事航空

      教育要聞

      二次函數求最值,很多同學錯在最后一步!

      家居要聞

      高端私宅 理想隱居圣地

      親子要聞

      5個月嬰兒心臟手術變悲?。横t療疏忽引發巨大反思!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      石破茂:擁核絕不會給日本帶來正面影響

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 老肥熟女| 三级无码在钱av无码在钱| 大关县| 伊人成人在线视频免费| 国产无遮挡无码视频免费软件| 色欲色香天天综合网| 91亚洲精品国偷拍自产在线观看| 少妇被粗大的猛烈进出动视频| 天天噜噜噜在线视频| 酒店大战丝袜高跟鞋人妻| 建平县| 夜夜操影院| 无码欧洲| 激情自拍校园春色中文| 天天爱天天做天天爽夜夜揉| 无码内射成人免费喷射| 阜宁县| 免费看欧美成人A片无码| 女同另类激情在线三区 | 中文字幕人妻精品免费| 91丨国产丨白浆秘?3D动漫| 一本大道东京热av无码| 久久永久视频| 无遮挡又爽又刺激的视频| 亚洲精品久久| 精品人妻一区| 东乡县| 成人欧美一区二区三区白人| 999国产精品视频免费| ww污污污网站在线看com| 色屁屁www影院免费观看入口 | 国产制服丝袜在线视频观看| 精品国产成人a在线观看| 毛片在线播放网址| 韩国三级hd中文字幕| 特黄aaaaaaa片免费视频| 特黄大片又粗又大又暴| 色综合天天综合网国产成人网| 团风县| 岛国无码av| 88XV日韩|