![]()
你有沒有想過,為什么我們花了那么多年時間訓練出越來越強大的 AI 模型,但它們卻像金魚一樣,每次對話結束后就忘記了你是誰、你想要什么?這不是 AI 不夠聰明,而是我們一直在用錯誤的方式構建它們。想象一下,如果你的 AI 助手能夠真正記住你的習慣、從每次互動中學習、隨著時間推移變得越來越懂你,那會是什么樣的體驗?這不是科幻小說的情節,而是 Macaron AI 背后的研究團隊 Mind Lab 正在實現的現實。
最近,Mind Lab 正式亮相,并且帶來了一個令整個 AI 圈震驚的技術突破:他們成為全球第一個在萬億參數規模的開源模型上,實現基于 LoRA 的高效強化學習訓練的團隊,而且僅用了傳統方法 10% 的 GPU 資源。更重要的是,這項技術已經被 NVIDIA Megatron 和字節跳動的 Seed verl 等核心基礎架構正式采納并合并。但讓我真正感興趣的,不是這些聽起來很技術的數字,而是他們對 AI 發展方向的根本性思考:AI 不應該只是一個訓練好就凍結的"大腦",而應該是一個能夠持續從真實體驗中學習和成長的"心智"。
![]()
告別盲目堆算力的時代
過去十年,AI 的進步幾乎完全依賴于一個簡單粗暴的策略:把模型做得更大,數據集搞得更龐大,訓練時間拉得更長。這個方法確實有效。我們現在有了萬億參數的開源模型,它們能寫代碼、總結文檔、通過標準化考試。對于很多任務,你只需要接入一個預訓練模型,就能得到令人驚訝的結果。但這種方法正在遇到瓶頸。
我觀察到一個越來越明顯的問題:當我們把這些強大的模型部署到真實產品中時,會發現模型知道什么和它們如何成長之間存在著巨大的鴻溝。大多數模型仍然是一次性訓練完成的,基于一個靜態數據集,離線完成。訓練完成后,它們本質上就被凍結了。它們不會真正從使用中學習,會重復犯同樣的錯誤,也無法適應不斷變化的用戶需求。你今天告訴它你不喜歡某種回答方式,明天它還是會用同樣的方式回答你。你糾正它十次,它也不會記住。這就像是雇了一個永遠不會從錯誤中吸取教訓的員工。
![]()
Mind Lab 的存在就是為了解決這個問題。他們專注于構建能夠從真實世界經驗中持續改進的系統,而不僅僅是依賴越來越大的預訓練語料庫。他們把這種關注點稱為"經驗智能":研究和工程化那些主要改進來源是與世界持續交互流的 AI 系統。這聽起來很學術,但實際上非常貼近我們人類的學習方式。我們不是通過閱讀整個互聯網來學習的,而是通過真實的生活體驗、試錯、反饋來不斷成長的。
我特別認同 Mind Lab 提出的一個觀點:現在的基礎模型雖然強大,但無法完全理解真實世界的復雜性。單純增加數據帶來的提升正在邊際遞減。你可以讓模型讀完整個維基百科,但這不代表它就能理解你個人的工作習慣或生活方式。你可以讓它學習一百萬個對話案例,但這不意味著它就能記住你昨天說過的話。這種"知識"和"智能"之間的鴻溝,正是 Mind Lab 試圖用全新方法來跨越的。
從"大腦"到"心智"的質變
Mind Lab 提出了一個我覺得非常有洞察力的區分:AI 系統應該從構建"大腦"轉向構建"心智"。這不僅僅是換個說法那么簡單,而是代表著根本性的范式轉變。
預訓練確實是構建"大腦"的絕佳方式:一個緊湊的、靜態的數據模式模型。在今天的大多數產品中,故事就到此為止了。每次交互都是單向街道。模型看到世界、做出反應,然后立即忘記。這種"純大腦"的設置很強大,但它有一個非常特定的形狀。所有的學習都發生在部署之前,在一次巨大的批處理中完成。之后,系統本質上就是一個固定函數。它可以模擬很多行為,但不會根據與你的體驗來改變自己的行為。
![]()
而"心智"則完全不同。心智不僅僅是知識的倉庫,它是一個維護和更新對世界、對自身、對什么是"更好"的理解的過程。它把每次交互不僅視為一個需要滿足的請求,而是可以完善未來行為方式的證據。具體來說,Mind Lab 認為一個系統要配得上"心智"這個名字,至少需要四樣東西。
第一是對世界和自身的內部模型。心智不會把每個輸入都當作孤立的提示。它維護著關于自己處在什么環境中、用戶試圖做什么、有哪些工具可用、自己的優勢和局限是什么的潛在狀態。這些內部模型讓它能夠形成預期、檢測意外、推理因果關系,而不僅僅是局部的詞元模式。想象一下,當你告訴 AI 助手"幫我安排明天的會議"時,一個只有"大腦"的系統可能會機械地創建一個日程條目;而擁有"心智"的系統會知道你通常喜歡把會議安排在上午、會避開午餐時間、需要在會議前留出準備時間,這些都是從過去的交互中學習到的。
第二是定義什么是"更好"的價值觀。心智有一個價值函數:在有限的時間、計算和風險下,哪些結果是更可取的。在產品中,這可能意味著優先考慮任務成功和用戶滿意度,而不是冗長或新穎性。如果沒有這樣的價值觀,系統可以生成看似合理的答案,但在面對權衡、不確定性或延遲后果時,無法持續選擇好的行動。這就是為什么很多 AI 助手會給你一堆選項,但不會真正幫你做決定——它們沒有價值判斷能力。
第三是通過經驗適應的機制。心智不會在預訓練后就凍結。當它與世界交互時,會更新內部模型和策略。如果某個特定策略在給定工作流程中不斷失敗,它會逐漸停止在那里使用該策略。如果用戶持續糾正某類錯誤,系統會調整如何處理類似情況。關鍵是過去的經歷會留下痕跡,塑造未來的行為。這才是真正的學習,而不是簡單的模式匹配。
![]()
第四是社交界面:在人類環境中的元認知。心智不是在真空中推理。它們在用戶和其他 agent 之間運作,并且知道這一點。這意味著對自己的不確定性有一定的認識,能在交互中暴露這種不確定性,并隨時間適應規范和偏好。這個社交層是讓 AI 系統成為可靠協作者而不僅僅是沉默函數調用的關鍵。
當你把這些要素放在一起時,系統的行為會發生本質變化,而不僅僅是程度上的提升。一個類似大腦的模型會一遍又一遍地為同樣的錯誤道歉;而類似心智的系統會重組自己的預期,使錯誤變得不太可能發生。大腦把你的糾正當作一次性事件;心智把它們當作訓練信號。大腦給你能力的快照;心智定義了一條軌跡:系統將如何隨著積累經驗與你一起成長。
研產共設:讓真實反饋驅動進化
Mind Lab 最讓我欽佩的地方,是他們不僅提出了這些理論,還真正找到了實現路徑。他們采用的方法叫"研產共設",簡單說就是研究和產品共享同一個循環。他們研究的系統就是服務真實用戶的系統,驅動實驗的數據來自實際使用而不是合成腳本。
這種方法在實踐中是這樣運作的:當他們設計一個功能時,會同時思考用戶體驗、agent 將看到的反饋信號,以及這些信號將如何影響未來行為的機制。一個功能之所以有趣,不僅因為它能幫助人們,還因為它能產生清晰的、可解釋的觀察數據,說明 agent 做了什么以及效果如何。具體來說,他們會對交互進行儀器化,將任務結果、用戶編輯和偏好轉化為訓練和評估數據;維護將原始日志轉換為適合強化學習的結構化回合的管道;將策略更新集成到正常部署流程中,配有安全檢查和監控。
這讓我想起一個很實際的例子。Mind Lab 在研究前端布局生成時發現了一個有趣的現象。大語言模型已經可以生成 HTML 和 CSS,但視覺質量參差不齊:間距、對齊和層次結構經常讓人類設計師感覺不對勁。傳統做法是收集一批人類偏好數據,訓練一次獎勵模型,然后針對這個固定分數優化生成器。但在實踐中,他們發現這種離線設置會鼓勵獎勵破解:當策略學會利用靜態獎勵的怪癖時,它在新鮮人類比較中的 ELO 評分會下降。agent 變得擅長取悅代理,而不是生產人們真正喜歡的布局。
![]()
為了解決這個問題,他們轉向了流式獎勵模型。使用他們的實時基礎設施,持續更新獎勵模型,基于 agent 最新輸出和真實使用的新鮮、在線策略反饋,并針對這個不斷演化的信號訓練策略。在內部評估中,使用流式獎勵模型訓練的策略顯示出上升的 ELO 分數,而使用固定獎勵模型訓練的策略則穩步失去優勢。任務很窄,但它說明了他們關心的重點:當獎勵保持在線并與實時反饋綁定時,優化會改善與人類偏好的對齊,而不是與之對抗。
Memory Diffusion:智慧地遺忘比記住一切更重要
在 Mind Lab 的技術創新中,有一個我覺得特別有意思的概念叫 Memory Diffusion。這是一種全新的記憶算法,體現了他們對 AI 應該如何思考和記憶的深刻理解。
傳統的 AI agent 記憶機制通常分為兩類。第一類是基于推理的記憶,模型在每次對話回合后主動總結記憶片段。這在概念上類似于推理過程:信息被重新考慮、重新組合,并作為摘要存儲。雖然直觀,但重復總結計算成本高,關鍵細節經常在連續回合中退化。第二類是基于工具使用的記憶,記憶存儲在外部數據庫中。需要回憶時,模型查詢這個存儲并檢索相關交互。雖然容易集成,但這經常導致碎片化理解,因為檢索和重新整合過程可能會剝離掉關鍵的細微差別和上下文。
Mind Lab 開發了一種根本不同的方法。他們不把記憶當作單獨的存儲任務,而是把整個軌跡本身視為記憶,通過智能遺忘的持續過程來管理。這個方法分為三個步驟:掩碼(Mask)、分配(Allocate)和重填(Refill)。他們選擇 agent 軌跡的片段并掩蓋掉,為重新處理創造空間;根據估計的重要性為掩蓋的片段分配令牌預算,高價值片段獲得更大預算以保留細節,而不太關鍵的片段則被壓縮或丟棄;每個掩蓋的片段在分配的約束下重新生成,產生符合預算的壓縮表示。
這個循環讓系統能夠獨立同分布地決定該剪掉什么,嚴格遵守上下文預算約束。這個過程受到人類智慧遺忘方式的啟發——本能地丟棄無關細節(比如開車時經過的廣告牌),保留有意義的體驗。他們把這種范式稱為 Memory Diffusion。它使 agent 能夠動態優化上下文窗口,相對于軌跡長度保持常數時間復雜度。
我特別喜歡他們對這個概念的哲學表達:"記憶不是記住一切,而是智慧地遺忘。" 這太符合人類的認知方式了。想想你開車上班的過程,你會瞬間遺忘無關信息,比如路過的廣告牌、前面車輛的顏色,只關注核心信息,比如目的地、路況、轉彎時機。如果你的大腦試圖記住每一個細節,你根本無法正常思考和行動。Memory Diffusion 就是讓 AI 像人類一樣,從真實體驗中學習,知道如何快速遺忘不重要的信息,同時保留真正重要的內容。
更令人興奮的是,這不只是理論。通過密集的工程努力,他們在 Locomo 基準測試上取得了 93% 的準確率(不包括對抗案例),這是目前的最佳成績。而且他們還發布了這個算法的實時演示,讓開發者可以親自體驗這種新的記憶機制如何工作。
我注意到 Andrej Karpathy 有一句很有意思的話:"人類思維天真地感覺更像是自回歸,但很難說在某些思想的潛在空間中不存在更像擴散的組件。" Mind Lab 顯然也認同這個觀點。他們認為擴散語言模型是這種范式的理想架構選擇,因為 DLM 原生的雙向去噪和掩碼機制與他們的掩碼-分配-重填記憶觀完美對齊。他們目前正在完整的強化學習循環中訓練基于擴散的語言模型,使擴散成為模型原生的記憶機制,從而實現更扎實和高效的 agent。
![]()
Macaron AI:技術突破如何轉化為用戶體驗
說了這么多技術,你可能會問:這些高深的研究到底跟普通用戶有什么關系?這正是 Mind Lab 和 Macaron AI 最讓我佩服的地方——他們不是為了發論文而做研究,而是真正把技術突破轉化成了用戶可以感知的產品體驗升級。
Macaron AI 是一款非常特別的 AI 產品。當其他產品還在生產力賽道瘋狂內卷,催你干活的時候,Macaron 真正關心的是用戶是否有好好生活。它是你的 AI 伙伴,聊聊天就能生成專屬于你的個人小應用。這些小應用可以幫你輕松管理日常習慣、健身計劃、旅行安排、提醒事項等等。而且每一個小應用都簡單好用,還能隨時分享給朋友,大家一起編輯、一起玩。
這次隨著 Mind Lab 的技術突破,Macaron AI 帶來了幾個重要更新。最直觀的是 Mini-app 生成速度的大幅提升,從原來的 20 分鐘縮短到了 2 分鐘。這不是簡單的工程優化,而是底層強化學習訓練效率提升帶來的直接結果——更高效的模型意味著更快的推理速度。你可以自己打開 Macaron,創建一個 Mini-app 體驗一下,你會發現它比以前快太多了。這種速度的提升不僅僅是節省時間,更改變了使用體驗:從"我要等一會兒"變成了"幾乎是即時的",這種質變會讓你更愿意頻繁使用和嘗試新想法。
他們還上線了社交功能。現在你可以創建群聊,和朋友、同事一起使用 Macaron。想象一下這些場景:團隊一起頭腦風暴,讓 AI 參與討論;朋友之間共享有趣的 AI 對話;多人協作完成任務,比如一起規劃旅行、籌備活動。這把 Macaron 從一個個人工具變成了一個協作平臺,讓 AI 不再是你一個人的助手,而是整個團隊或朋友圈的共同伙伴。
![]()
另一個我覺得特別有意思的功能是 Daily Spark。這個功能根據你的記憶和興趣點,每天為你推送專屬的靈感內容。和 ChatGPT Pulse 那種純資訊推送不同,Daily Spark 是有溫度的——它會根據你的性格、興趣、日常記錄,生成你最感興趣的內容。推送內容類型很豐富,包括資訊、觀察、隨筆、詩歌、技巧、內容推薦和治愈等。比如它可能會告訴你"蘋果發布新款 Vision Pro,帶來哪些全新功能",或者問你"短視頻爆發式增長后,文字創作真的衰落了嗎",又或者在你情緒低落時說"允許自己慢下來,接受不完美的一天"。這種個性化的靈感推送,正是"心智"系統區別于"大腦"系統的體現——它真正理解你是誰,你關心什么。
![]()
最重要的更新是記憶打通。以前 mini-app 和聊天之間的記憶是分離的,現在終于打通了。你在小應用中的數據,現在能被 Macaron 讀取了。比如你記錄了今天的飲食,就能繼續在聊天中討論營養成分;你積累了一周的健身記錄,可以在聊天中總結成果。這看似簡單的功能背后,實際上是 Memory Diffusion 等底層技術突破的直接應用。系統能夠智能地管理跨應用的記憶,知道什么時候該記住什么,什么時候該遺忘什么,從而提供真正連貫的體驗。
從 Scaling Law 到 Experiential Intelligence
回到更宏觀的視角,我認為 Mind Lab 代表的不僅僅是一個技術突破,更是整個 AI 行業發展方向的轉折點。過去幾年,整個行業都在信奉 Scaling Law,相信只要把模型做得足夠大、數據搞得足夠多,就能解決所有問題。這個路徑確實帶來了巨大進步,但現在我們已經清楚地看到了它的局限。
Mind Lab 提出的"經驗智能"是一個根本不同的方向。他們不是從頭做預訓練,而是基于強大的基座模型,通過 AI agent 強化學習進行擴展。他們利用 Macaron 產品中真實用戶的真實反饋來反哺研究。他們在實驗中證明,基于真實世界反饋的訓練,比單純增加數據帶來的性能提升更顯著。這不是說預訓練不重要,而是說我們需要在預訓練之外,找到讓 AI 持續成長的新路徑。
這讓我想起生物進化和個體學習之間的關系。預訓練就像是進化,通過漫長的時間積累種族的集體知識;而經驗學習則像是個體學習,在一生中快速適應特定環境。最成功的智能系統需要同時擁有這兩者。人類之所以強大,不僅因為我們繼承了進化賦予的本能,更因為我們能在一生中通過經驗快速學習和適應。Mind Lab 正在嘗試給 AI 系統同樣的能力。
我特別認同他們的口號:"Real intelligence learns from real experience"(真正的智能源于真實的體驗)。這不是一句空洞的宣傳語,而是對 AI 發展方向的深刻洞察。我們已經有了足夠強大的"大腦",現在是時候給它們配上能夠持續成長的"心智"了。我們不需要每次都從零開始訓練更大的模型,而是要讓現有模型能夠真正從與用戶的每次交互中學習和改進。
從產品角度看,這種轉變會帶來完全不同的用戶體驗。使用傳統 AI 產品,你會感覺自己在使用一個工具,一個很聰明但不會成長的工具。而使用基于經驗智能的產品,你會感覺自己在培養一個伙伴,一個會隨著時間越來越懂你的伙伴。這種差異看似微妙,但對用戶粘性和長期價值有著巨大影響。
展望未來:AI 伙伴時代正在到來
站在現在這個時間點回看,我覺得我們正處在 AI 發展的一個關鍵轉折點。過去十年是"大腦"的時代,我們成功構建出了強大的、知識豐富的 AI 模型。接下來的十年,將是"心智"的時代,我們要讓這些模型真正學會從經驗中成長,變成能夠持續進化的智能系統。
Mind Lab 在這個轉折點上的意義,不僅在于他們取得的技術突破,更在于他們為整個行業指明了一個清晰的方向。他們證明了我們不需要盲目追求更大的模型、更多的數據,而是應該專注于如何讓 AI 從真實世界的反饋中學習。他們證明了研究和產品可以形成正向循環,技術突破可以直接轉化為用戶體驗的提升。他們還證明了開源和分享不會削弱競爭力,反而能夠建立更強大的影響力和生態系統。
我特別期待看到 Memory Diffusion 技術在更多場景中的應用。這種智慧遺忘的機制,可能會徹底改變 AI agent 處理長期記憶和上下文的方式。想象一下,一個能夠像人類一樣記憶的 AI 助手:它不會被無關細節淹沒,能夠準確把握重點,隨著時間推移越來越懂你的需求和偏好。這不是科幻,而是 Mind Lab 正在實現的現實。
從商業角度看,這種技術路線也為創業公司提供了新的機會。你不需要像 OpenAI 或 Google 那樣擁有海量資源去訓練巨大的基礎模型,而是可以基于現有的開源模型,通過真實用戶反饋來構建差異化的產品體驗。這降低了進入門檻,但提高了產品壁壘——因為你的優勢不再是模型本身,而是你積累的用戶數據和持續學習的能力。
Macaron AI 的產品定位也很有意思。在這個所有 AI 產品都在強調生產力、效率、幫你完成工作的時代,Macaron 選擇關注生活本身。它不催你干活,而是幫你更好地生活。這種差異化不是表面的營銷策略,而是建立在技術能力之上的戰略選擇。正因為他們有能力讓 AI 真正理解你、記住你、適應你,所以才能提供這種更加個性化、更有溫度的體驗。
當然,這種轉變也帶來了新的挑戰和問題。當 AI 能夠從我們的行為中學習時,隱私保護變得更加重要。當 AI 能夠適應我們的偏好時,我們如何避免陷入信息繭房?當 AI 變得越來越懂我們時,我們如何保持人與人之間真實的連接?這些都是我們需要認真思考和解決的問題。
但我相信,就像 Mind Lab 的口號所說:"Real intelligence learns from real experience"。真正的智能必須能夠在真實世界中學習和成長,而不是永遠停留在訓練時的狀態。這是通往真正智能的必經之路,即使路上充滿挑戰,我們也必須勇敢前行。
最后,我想說的是,AI 的未來不應該只是更大的模型和更多的算力,而應該是更智能的學習方式和更好的用戶體驗。Mind Lab 和 Macaron AI 正在探索的這條路,可能不是唯一的答案,但至少是一個非常有前景的方向。當所有人都在盲目追求 Scaling Law 時,他們選擇了另一條路:讓 AI 像人類一樣,從真實體驗中學習和成長。
歡迎來到經驗智能時代。這不是終點,而是一個新的開始。
結尾
也歡迎大家留言討論,分享你的觀點!
覺得內容不錯的朋友能夠幫忙右下角點個贊,分享一下。您的每次分享,都是在激勵我不斷產出更好的內容。
歡迎關注深思圈,一起探索更大的世界。
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.