網易首頁 > 網易號 > 正文申請入駐

只用10%的算力，這個團隊做到了大廠做不到的事

2025-12-10 16:59:45　來源: 深思圈

北京舉報

分享至

你有沒有想過，為什么我們花了那么多年時間訓練出越來越強大的 AI 模型，但它們卻像金魚一樣，每次對話結束后就忘記了你是誰、你想要什么？這不是 AI 不夠聰明，而是我們一直在用錯誤的方式構建它們。想象一下，如果你的 AI 助手能夠真正記住你的習慣、從每次互動中學習、隨著時間推移變得越來越懂你，那會是什么樣的體驗？這不是科幻小說的情節，而是 Macaron AI 背后的研究團隊 Mind Lab 正在實現的現實。

最近，Mind Lab 正式亮相，并且帶來了一個令整個 AI 圈震驚的技術突破：他們成為全球第一個在萬億參數規模的開源模型上，實現基于 LoRA 的高效強化學習訓練的團隊，而且僅用了傳統方法 10% 的 GPU 資源。更重要的是，這項技術已經被 NVIDIA Megatron 和字節跳動的 Seed verl 等核心基礎架構正式采納并合并。但讓我真正感興趣的，不是這些聽起來很技術的數字，而是他們對 AI 發展方向的根本性思考：AI 不應該只是一個訓練好就凍結的"大腦"，而應該是一個能夠持續從真實體驗中學習和成長的"心智"。

告別盲目堆算力的時代

過去十年，AI 的進步幾乎完全依賴于一個簡單粗暴的策略：把模型做得更大，數據集搞得更龐大，訓練時間拉得更長。這個方法確實有效。我們現在有了萬億參數的開源模型，它們能寫代碼、總結文檔、通過標準化考試。對于很多任務，你只需要接入一個預訓練模型，就能得到令人驚訝的結果。但這種方法正在遇到瓶頸。

我觀察到一個越來越明顯的問題：當我們把這些強大的模型部署到真實產品中時，會發現模型知道什么和它們如何成長之間存在著巨大的鴻溝。大多數模型仍然是一次性訓練完成的，基于一個靜態數據集，離線完成。訓練完成后，它們本質上就被凍結了。它們不會真正從使用中學習，會重復犯同樣的錯誤，也無法適應不斷變化的用戶需求。你今天告訴它你不喜歡某種回答方式，明天它還是會用同樣的方式回答你。你糾正它十次，它也不會記住。這就像是雇了一個永遠不會從錯誤中吸取教訓的員工。

Mind Lab 的存在就是為了解決這個問題。他們專注于構建能夠從真實世界經驗中持續改進的系統，而不僅僅是依賴越來越大的預訓練語料庫。他們把這種關注點稱為"經驗智能"：研究和工程化那些主要改進來源是與世界持續交互流的 AI 系統。這聽起來很學術，但實際上非常貼近我們人類的學習方式。我們不是通過閱讀整個互聯網來學習的，而是通過真實的生活體驗、試錯、反饋來不斷成長的。

我特別認同 Mind Lab 提出的一個觀點：現在的基礎模型雖然強大，但無法完全理解真實世界的復雜性。單純增加數據帶來的提升正在邊際遞減。你可以讓模型讀完整個維基百科，但這不代表它就能理解你個人的工作習慣或生活方式。你可以讓它學習一百萬個對話案例，但這不意味著它就能記住你昨天說過的話。這種"知識"和"智能"之間的鴻溝，正是 Mind Lab 試圖用全新方法來跨越的。

從"大腦"到"心智"的質變

Mind Lab 提出了一個我覺得非常有洞察力的區分：AI 系統應該從構建"大腦"轉向構建"心智"。這不僅僅是換個說法那么簡單，而是代表著根本性的范式轉變。

預訓練確實是構建"大腦"的絕佳方式：一個緊湊的、靜態的數據模式模型。在今天的大多數產品中，故事就到此為止了。每次交互都是單向街道。模型看到世界、做出反應，然后立即忘記。這種"純大腦"的設置很強大，但它有一個非常特定的形狀。所有的學習都發生在部署之前，在一次巨大的批處理中完成。之后，系統本質上就是一個固定函數。它可以模擬很多行為，但不會根據與你的體驗來改變自己的行為。

而"心智"則完全不同。心智不僅僅是知識的倉庫，它是一個維護和更新對世界、對自身、對什么是"更好"的理解的過程。它把每次交互不僅視為一個需要滿足的請求，而是可以完善未來行為方式的證據。具體來說，Mind Lab 認為一個系統要配得上"心智"這個名字，至少需要四樣東西。

第一是對世界和自身的內部模型。心智不會把每個輸入都當作孤立的提示。它維護著關于自己處在什么環境中、用戶試圖做什么、有哪些工具可用、自己的優勢和局限是什么的潛在狀態。這些內部模型讓它能夠形成預期、檢測意外、推理因果關系，而不僅僅是局部的詞元模式。想象一下，當你告訴 AI 助手"幫我安排明天的會議"時，一個只有"大腦"的系統可能會機械地創建一個日程條目；而擁有"心智"的系統會知道你通常喜歡把會議安排在上午、會避開午餐時間、需要在會議前留出準備時間，這些都是從過去的交互中學習到的。

第二是定義什么是"更好"的價值觀。心智有一個價值函數：在有限的時間、計算和風險下，哪些結果是更可取的。在產品中，這可能意味著優先考慮任務成功和用戶滿意度，而不是冗長或新穎性。如果沒有這樣的價值觀，系統可以生成看似合理的答案，但在面對權衡、不確定性或延遲后果時，無法持續選擇好的行動。這就是為什么很多 AI 助手會給你一堆選項，但不會真正幫你做決定——它們沒有價值判斷能力。

第三是通過經驗適應的機制。心智不會在預訓練后就凍結。當它與世界交互時，會更新內部模型和策略。如果某個特定策略在給定工作流程中不斷失敗，它會逐漸停止在那里使用該策略。如果用戶持續糾正某類錯誤，系統會調整如何處理類似情況。關鍵是過去的經歷會留下痕跡，塑造未來的行為。這才是真正的學習，而不是簡單的模式匹配。

第四是社交界面：在人類環境中的元認知。心智不是在真空中推理。它們在用戶和其他 agent 之間運作，并且知道這一點。這意味著對自己的不確定性有一定的認識，能在交互中暴露這種不確定性，并隨時間適應規范和偏好。這個社交層是讓 AI 系統成為可靠協作者而不僅僅是沉默函數調用的關鍵。

當你把這些要素放在一起時，系統的行為會發生本質變化，而不僅僅是程度上的提升。一個類似大腦的模型會一遍又一遍地為同樣的錯誤道歉；而類似心智的系統會重組自己的預期，使錯誤變得不太可能發生。大腦把你的糾正當作一次性事件；心智把它們當作訓練信號。大腦給你能力的快照；心智定義了一條軌跡：系統將如何隨著積累經驗與你一起成長。

研產共設：讓真實反饋驅動進化

Mind Lab 最讓我欽佩的地方，是他們不僅提出了這些理論，還真正找到了實現路徑。他們采用的方法叫"研產共設"，簡單說就是研究和產品共享同一個循環。他們研究的系統就是服務真實用戶的系統，驅動實驗的數據來自實際使用而不是合成腳本。

這種方法在實踐中是這樣運作的：當他們設計一個功能時，會同時思考用戶體驗、agent 將看到的反饋信號，以及這些信號將如何影響未來行為的機制。一個功能之所以有趣，不僅因為它能幫助人們，還因為它能產生清晰的、可解釋的觀察數據，說明 agent 做了什么以及效果如何。具體來說，他們會對交互進行儀器化，將任務結果、用戶編輯和偏好轉化為訓練和評估數據；維護將原始日志轉換為適合強化學習的結構化回合的管道；將策略更新集成到正常部署流程中，配有安全檢查和監控。

這讓我想起一個很實際的例子。Mind Lab 在研究前端布局生成時發現了一個有趣的現象。大語言模型已經可以生成 HTML 和 CSS，但視覺質量參差不齊：間距、對齊和層次結構經常讓人類設計師感覺不對勁。傳統做法是收集一批人類偏好數據，訓練一次獎勵模型，然后針對這個固定分數優化生成器。但在實踐中，他們發現這種離線設置會鼓勵獎勵破解：當策略學會利用靜態獎勵的怪癖時，它在新鮮人類比較中的 ELO 評分會下降。agent 變得擅長取悅代理，而不是生產人們真正喜歡的布局。

為了解決這個問題，他們轉向了流式獎勵模型。使用他們的實時基礎設施，持續更新獎勵模型，基于 agent 最新輸出和真實使用的新鮮、在線策略反饋，并針對這個不斷演化的信號訓練策略。在內部評估中，使用流式獎勵模型訓練的策略顯示出上升的 ELO 分數，而使用固定獎勵模型訓練的策略則穩步失去優勢。任務很窄，但它說明了他們關心的重點：當獎勵保持在線并與實時反饋綁定時，優化會改善與人類偏好的對齊，而不是與之對抗。

Memory Diffusion：智慧地遺忘比記住一切更重要

在 Mind Lab 的技術創新中，有一個我覺得特別有意思的概念叫 Memory Diffusion。這是一種全新的記憶算法，體現了他們對 AI 應該如何思考和記憶的深刻理解。

傳統的 AI agent 記憶機制通常分為兩類。第一類是基于推理的記憶，模型在每次對話回合后主動總結記憶片段。這在概念上類似于推理過程：信息被重新考慮、重新組合，并作為摘要存儲。雖然直觀，但重復總結計算成本高，關鍵細節經常在連續回合中退化。第二類是基于工具使用的記憶，記憶存儲在外部數據庫中。需要回憶時，模型查詢這個存儲并檢索相關交互。雖然容易集成，但這經常導致碎片化理解，因為檢索和重新整合過程可能會剝離掉關鍵的細微差別和上下文。

Mind Lab 開發了一種根本不同的方法。他們不把記憶當作單獨的存儲任務，而是把整個軌跡本身視為記憶，通過智能遺忘的持續過程來管理。這個方法分為三個步驟：掩碼（Mask）、分配（Allocate）和重填（Refill）。他們選擇 agent 軌跡的片段并掩蓋掉，為重新處理創造空間；根據估計的重要性為掩蓋的片段分配令牌預算，高價值片段獲得更大預算以保留細節，而不太關鍵的片段則被壓縮或丟棄；每個掩蓋的片段在分配的約束下重新生成，產生符合預算的壓縮表示。

這個循環讓系統能夠獨立同分布地決定該剪掉什么，嚴格遵守上下文預算約束。這個過程受到人類智慧遺忘方式的啟發——本能地丟棄無關細節（比如開車時經過的廣告牌），保留有意義的體驗。他們把這種范式稱為 Memory Diffusion。它使 agent 能夠動態優化上下文窗口，相對于軌跡長度保持常數時間復雜度。

我特別喜歡他們對這個概念的哲學表達："記憶不是記住一切，而是智慧地遺忘。" 這太符合人類的認知方式了。想想你開車上班的過程，你會瞬間遺忘無關信息，比如路過的廣告牌、前面車輛的顏色，只關注核心信息，比如目的地、路況、轉彎時機。如果你的大腦試圖記住每一個細節，你根本無法正常思考和行動。Memory Diffusion 就是讓 AI 像人類一樣，從真實體驗中學習，知道如何快速遺忘不重要的信息，同時保留真正重要的內容。

更令人興奮的是，這不只是理論。通過密集的工程努力，他們在 Locomo 基準測試上取得了 93% 的準確率（不包括對抗案例），這是目前的最佳成績。而且他們還發布了這個算法的實時演示，讓開發者可以親自體驗這種新的記憶機制如何工作。

我注意到 Andrej Karpathy 有一句很有意思的話："人類思維天真地感覺更像是自回歸，但很難說在某些思想的潛在空間中不存在更像擴散的組件。" Mind Lab 顯然也認同這個觀點。他們認為擴散語言模型是這種范式的理想架構選擇，因為 DLM 原生的雙向去噪和掩碼機制與他們的掩碼-分配-重填記憶觀完美對齊。他們目前正在完整的強化學習循環中訓練基于擴散的語言模型，使擴散成為模型原生的記憶機制，從而實現更扎實和高效的 agent。

Macaron AI：技術突破如何轉化為用戶體驗

說了這么多技術，你可能會問：這些高深的研究到底跟普通用戶有什么關系？這正是 Mind Lab 和 Macaron AI 最讓我佩服的地方——他們不是為了發論文而做研究，而是真正把技術突破轉化成了用戶可以感知的產品體驗升級。

Macaron AI 是一款非常特別的 AI 產品。當其他產品還在生產力賽道瘋狂內卷，催你干活的時候，Macaron 真正關心的是用戶是否有好好生活。它是你的 AI 伙伴，聊聊天就能生成專屬于你的個人小應用。這些小應用可以幫你輕松管理日常習慣、健身計劃、旅行安排、提醒事項等等。而且每一個小應用都簡單好用，還能隨時分享給朋友，大家一起編輯、一起玩。

這次隨著 Mind Lab 的技術突破，Macaron AI 帶來了幾個重要更新。最直觀的是 Mini-app 生成速度的大幅提升，從原來的 20 分鐘縮短到了 2 分鐘。這不是簡單的工程優化，而是底層強化學習訓練效率提升帶來的直接結果——更高效的模型意味著更快的推理速度。你可以自己打開 Macaron，創建一個 Mini-app 體驗一下，你會發現它比以前快太多了。這種速度的提升不僅僅是節省時間，更改變了使用體驗：從"我要等一會兒"變成了"幾乎是即時的"，這種質變會讓你更愿意頻繁使用和嘗試新想法。

他們還上線了社交功能。現在你可以創建群聊，和朋友、同事一起使用 Macaron。想象一下這些場景：團隊一起頭腦風暴，讓 AI 參與討論；朋友之間共享有趣的 AI 對話；多人協作完成任務，比如一起規劃旅行、籌備活動。這把 Macaron 從一個個人工具變成了一個協作平臺，讓 AI 不再是你一個人的助手，而是整個團隊或朋友圈的共同伙伴。

另一個我覺得特別有意思的功能是 Daily Spark。這個功能根據你的記憶和興趣點，每天為你推送專屬的靈感內容。和 ChatGPT Pulse 那種純資訊推送不同，Daily Spark 是有溫度的——它會根據你的性格、興趣、日常記錄，生成你最感興趣的內容。推送內容類型很豐富，包括資訊、觀察、隨筆、詩歌、技巧、內容推薦和治愈等。比如它可能會告訴你"蘋果發布新款 Vision Pro，帶來哪些全新功能"，或者問你"短視頻爆發式增長后，文字創作真的衰落了嗎"，又或者在你情緒低落時說"允許自己慢下來，接受不完美的一天"。這種個性化的靈感推送，正是"心智"系統區別于"大腦"系統的體現——它真正理解你是誰，你關心什么。

最重要的更新是記憶打通。以前 mini-app 和聊天之間的記憶是分離的，現在終于打通了。你在小應用中的數據，現在能被 Macaron 讀取了。比如你記錄了今天的飲食，就能繼續在聊天中討論營養成分；你積累了一周的健身記錄，可以在聊天中總結成果。這看似簡單的功能背后，實際上是 Memory Diffusion 等底層技術突破的直接應用。系統能夠智能地管理跨應用的記憶，知道什么時候該記住什么，什么時候該遺忘什么，從而提供真正連貫的體驗。

從 Scaling Law 到 Experiential Intelligence

回到更宏觀的視角，我認為 Mind Lab 代表的不僅僅是一個技術突破，更是整個 AI 行業發展方向的轉折點。過去幾年，整個行業都在信奉 Scaling Law，相信只要把模型做得足夠大、數據搞得足夠多，就能解決所有問題。這個路徑確實帶來了巨大進步，但現在我們已經清楚地看到了它的局限。

Mind Lab 提出的"經驗智能"是一個根本不同的方向。他們不是從頭做預訓練，而是基于強大的基座模型，通過 AI agent 強化學習進行擴展。他們利用 Macaron 產品中真實用戶的真實反饋來反哺研究。他們在實驗中證明，基于真實世界反饋的訓練，比單純增加數據帶來的性能提升更顯著。這不是說預訓練不重要，而是說我們需要在預訓練之外，找到讓 AI 持續成長的新路徑。

這讓我想起生物進化和個體學習之間的關系。預訓練就像是進化，通過漫長的時間積累種族的集體知識；而經驗學習則像是個體學習，在一生中快速適應特定環境。最成功的智能系統需要同時擁有這兩者。人類之所以強大，不僅因為我們繼承了進化賦予的本能，更因為我們能在一生中通過經驗快速學習和適應。Mind Lab 正在嘗試給 AI 系統同樣的能力。

我特別認同他們的口號："Real intelligence learns from real experience"（真正的智能源于真實的體驗）。這不是一句空洞的宣傳語，而是對 AI 發展方向的深刻洞察。我們已經有了足夠強大的"大腦"，現在是時候給它們配上能夠持續成長的"心智"了。我們不需要每次都從零開始訓練更大的模型，而是要讓現有模型能夠真正從與用戶的每次交互中學習和改進。

從產品角度看，這種轉變會帶來完全不同的用戶體驗。使用傳統 AI 產品，你會感覺自己在使用一個工具，一個很聰明但不會成長的工具。而使用基于經驗智能的產品，你會感覺自己在培養一個伙伴，一個會隨著時間越來越懂你的伙伴。這種差異看似微妙，但對用戶粘性和長期價值有著巨大影響。

展望未來：AI 伙伴時代正在到來

站在現在這個時間點回看，我覺得我們正處在 AI 發展的一個關鍵轉折點。過去十年是"大腦"的時代，我們成功構建出了強大的、知識豐富的 AI 模型。接下來的十年，將是"心智"的時代，我們要讓這些模型真正學會從經驗中成長，變成能夠持續進化的智能系統。

Mind Lab 在這個轉折點上的意義，不僅在于他們取得的技術突破，更在于他們為整個行業指明了一個清晰的方向。他們證明了我們不需要盲目追求更大的模型、更多的數據，而是應該專注于如何讓 AI 從真實世界的反饋中學習。他們證明了研究和產品可以形成正向循環，技術突破可以直接轉化為用戶體驗的提升。他們還證明了開源和分享不會削弱競爭力，反而能夠建立更強大的影響力和生態系統。

我特別期待看到 Memory Diffusion 技術在更多場景中的應用。這種智慧遺忘的機制，可能會徹底改變 AI agent 處理長期記憶和上下文的方式。想象一下，一個能夠像人類一樣記憶的 AI 助手：它不會被無關細節淹沒，能夠準確把握重點，隨著時間推移越來越懂你的需求和偏好。這不是科幻，而是 Mind Lab 正在實現的現實。

從商業角度看，這種技術路線也為創業公司提供了新的機會。你不需要像 OpenAI 或 Google 那樣擁有海量資源去訓練巨大的基礎模型，而是可以基于現有的開源模型，通過真實用戶反饋來構建差異化的產品體驗。這降低了進入門檻，但提高了產品壁壘——因為你的優勢不再是模型本身，而是你積累的用戶數據和持續學習的能力。

Macaron AI 的產品定位也很有意思。在這個所有 AI 產品都在強調生產力、效率、幫你完成工作的時代，Macaron 選擇關注生活本身。它不催你干活，而是幫你更好地生活。這種差異化不是表面的營銷策略，而是建立在技術能力之上的戰略選擇。正因為他們有能力讓 AI 真正理解你、記住你、適應你，所以才能提供這種更加個性化、更有溫度的體驗。

當然，這種轉變也帶來了新的挑戰和問題。當 AI 能夠從我們的行為中學習時，隱私保護變得更加重要。當 AI 能夠適應我們的偏好時，我們如何避免陷入信息繭房？當 AI 變得越來越懂我們時，我們如何保持人與人之間真實的連接？這些都是我們需要認真思考和解決的問題。

但我相信，就像 Mind Lab 的口號所說："Real intelligence learns from real experience"。真正的智能必須能夠在真實世界中學習和成長，而不是永遠停留在訓練時的狀態。這是通往真正智能的必經之路，即使路上充滿挑戰，我們也必須勇敢前行。

最后，我想說的是，AI 的未來不應該只是更大的模型和更多的算力，而應該是更智能的學習方式和更好的用戶體驗。Mind Lab 和 Macaron AI 正在探索的這條路，可能不是唯一的答案，但至少是一個非常有前景的方向。當所有人都在盲目追求 Scaling Law 時，他們選擇了另一條路：讓 AI 像人類一樣，從真實體驗中學習和成長。

歡迎來到經驗智能時代。這不是終點，而是一個新的開始。

結尾

也歡迎大家留言討論，分享你的觀點！

覺得內容不錯的朋友能夠幫忙右下角點個贊，分享一下。您的每次分享，都是在激勵我不斷產出更好的內容。

歡迎關注深思圈，一起探索更大的世界。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.