![]()
你有沒有想過,為什么我們花了那么多年時間訓練出越來越強大的 AI 模型,但它們卻像金魚一樣,每次對話結束后就忘記了你是誰、你想要什么?這不是 AI 不夠聰明,而是我們一直在用錯誤的方式構建它們。想象一下,如果你的 AI 助手能夠真正記住你的習慣、從每次互動中學習、隨著時間推移變得越來越懂你,那會是什么樣的體驗?這不是科幻小說的情節(jié),而是 Macaron AI 背后的研究團隊 Mind Lab 正在實現(xiàn)的現(xiàn)實。
最近,Mind Lab 正式亮相,并且?guī)砹艘粋€令整個 AI 圈震驚的技術突破:他們成為全球第一個在萬億參數(shù)規(guī)模的開源模型上,實現(xiàn)基于 LoRA 的高效強化學習訓練的團隊,而且僅用了傳統(tǒng)方法 10% 的 GPU 資源。更重要的是,這項技術已經(jīng)被 NVIDIA Megatron 和字節(jié)跳動的 Seed verl 等核心基礎架構正式采納并合并。但讓我真正感興趣的,不是這些聽起來很技術的數(shù)字,而是他們對 AI 發(fā)展方向的根本性思考:AI 不應該只是一個訓練好就凍結的"大腦",而應該是一個能夠持續(xù)從真實體驗中學習和成長的"心智"。
![]()
告別盲目堆算力的時代
過去十年,AI 的進步幾乎完全依賴于一個簡單粗暴的策略:把模型做得更大,數(shù)據(jù)集搞得更龐大,訓練時間拉得更長。這個方法確實有效。我們現(xiàn)在有了萬億參數(shù)的開源模型,它們能寫代碼、總結文檔、通過標準化考試。對于很多任務,你只需要接入一個預訓練模型,就能得到令人驚訝的結果。但這種方法正在遇到瓶頸。
我觀察到一個越來越明顯的問題:當我們把這些強大的模型部署到真實產(chǎn)品中時,會發(fā)現(xiàn)模型知道什么和它們?nèi)绾纬砷L之間存在著巨大的鴻溝。大多數(shù)模型仍然是一次性訓練完成的,基于一個靜態(tài)數(shù)據(jù)集,離線完成。訓練完成后,它們本質(zhì)上就被凍結了。它們不會真正從使用中學習,會重復犯同樣的錯誤,也無法適應不斷變化的用戶需求。你今天告訴它你不喜歡某種回答方式,明天它還是會用同樣的方式回答你。你糾正它十次,它也不會記住。這就像是雇了一個永遠不會從錯誤中吸取教訓的員工。
![]()
Mind Lab 的存在就是為了解決這個問題。他們專注于構建能夠從真實世界經(jīng)驗中持續(xù)改進的系統(tǒng),而不僅僅是依賴越來越大的預訓練語料庫。他們把這種關注點稱為"經(jīng)驗智能":研究和工程化那些主要改進來源是與世界持續(xù)交互流的 AI 系統(tǒng)。這聽起來很學術,但實際上非常貼近我們?nèi)祟惖膶W習方式。我們不是通過閱讀整個互聯(lián)網(wǎng)來學習的,而是通過真實的生活體驗、試錯、反饋來不斷成長的。
我特別認同 Mind Lab 提出的一個觀點:現(xiàn)在的基礎模型雖然強大,但無法完全理解真實世界的復雜性。單純增加數(shù)據(jù)帶來的提升正在邊際遞減。你可以讓模型讀完整個維基百科,但這不代表它就能理解你個人的工作習慣或生活方式。你可以讓它學習一百萬個對話案例,但這不意味著它就能記住你昨天說過的話。這種"知識"和"智能"之間的鴻溝,正是 Mind Lab 試圖用全新方法來跨越的。
從"大腦"到"心智"的質(zhì)變
Mind Lab 提出了一個我覺得非常有洞察力的區(qū)分:AI 系統(tǒng)應該從構建"大腦"轉(zhuǎn)向構建"心智"。這不僅僅是換個說法那么簡單,而是代表著根本性的范式轉(zhuǎn)變。
預訓練確實是構建"大腦"的絕佳方式:一個緊湊的、靜態(tài)的數(shù)據(jù)模式模型。在今天的大多數(shù)產(chǎn)品中,故事就到此為止了。每次交互都是單向街道。模型看到世界、做出反應,然后立即忘記。這種"純大腦"的設置很強大,但它有一個非常特定的形狀。所有的學習都發(fā)生在部署之前,在一次巨大的批處理中完成。之后,系統(tǒng)本質(zhì)上就是一個固定函數(shù)。它可以模擬很多行為,但不會根據(jù)與你的體驗來改變自己的行為。
![]()
而"心智"則完全不同。心智不僅僅是知識的倉庫,它是一個維護和更新對世界、對自身、對什么是"更好"的理解的過程。它把每次交互不僅視為一個需要滿足的請求,而是可以完善未來行為方式的證據(jù)。具體來說,Mind Lab 認為一個系統(tǒng)要配得上"心智"這個名字,至少需要四樣東西。
第一是對世界和自身的內(nèi)部模型。心智不會把每個輸入都當作孤立的提示。它維護著關于自己處在什么環(huán)境中、用戶試圖做什么、有哪些工具可用、自己的優(yōu)勢和局限是什么的潛在狀態(tài)。這些內(nèi)部模型讓它能夠形成預期、檢測意外、推理因果關系,而不僅僅是局部的詞元模式。想象一下,當你告訴 AI 助手"幫我安排明天的會議"時,一個只有"大腦"的系統(tǒng)可能會機械地創(chuàng)建一個日程條目;而擁有"心智"的系統(tǒng)會知道你通常喜歡把會議安排在上午、會避開午餐時間、需要在會議前留出準備時間,這些都是從過去的交互中學習到的。
第二是定義什么是"更好"的價值觀。心智有一個價值函數(shù):在有限的時間、計算和風險下,哪些結果是更可取的。在產(chǎn)品中,這可能意味著優(yōu)先考慮任務成功和用戶滿意度,而不是冗長或新穎性。如果沒有這樣的價值觀,系統(tǒng)可以生成看似合理的答案,但在面對權衡、不確定性或延遲后果時,無法持續(xù)選擇好的行動。這就是為什么很多 AI 助手會給你一堆選項,但不會真正幫你做決定——它們沒有價值判斷能力。
第三是通過經(jīng)驗適應的機制。心智不會在預訓練后就凍結。當它與世界交互時,會更新內(nèi)部模型和策略。如果某個特定策略在給定工作流程中不斷失敗,它會逐漸停止在那里使用該策略。如果用戶持續(xù)糾正某類錯誤,系統(tǒng)會調(diào)整如何處理類似情況。關鍵是過去的經(jīng)歷會留下痕跡,塑造未來的行為。這才是真正的學習,而不是簡單的模式匹配。
![]()
第四是社交界面:在人類環(huán)境中的元認知。心智不是在真空中推理。它們在用戶和其他 agent 之間運作,并且知道這一點。這意味著對自己的不確定性有一定的認識,能在交互中暴露這種不確定性,并隨時間適應規(guī)范和偏好。這個社交層是讓 AI 系統(tǒng)成為可靠協(xié)作者而不僅僅是沉默函數(shù)調(diào)用的關鍵。
當你把這些要素放在一起時,系統(tǒng)的行為會發(fā)生本質(zhì)變化,而不僅僅是程度上的提升。一個類似大腦的模型會一遍又一遍地為同樣的錯誤道歉;而類似心智的系統(tǒng)會重組自己的預期,使錯誤變得不太可能發(fā)生。大腦把你的糾正當作一次性事件;心智把它們當作訓練信號。大腦給你能力的快照;心智定義了一條軌跡:系統(tǒng)將如何隨著積累經(jīng)驗與你一起成長。
研產(chǎn)共設:讓真實反饋驅(qū)動進化
Mind Lab 最讓我欽佩的地方,是他們不僅提出了這些理論,還真正找到了實現(xiàn)路徑。他們采用的方法叫"研產(chǎn)共設",簡單說就是研究和產(chǎn)品共享同一個循環(huán)。他們研究的系統(tǒng)就是服務真實用戶的系統(tǒng),驅(qū)動實驗的數(shù)據(jù)來自實際使用而不是合成腳本。
這種方法在實踐中是這樣運作的:當他們設計一個功能時,會同時思考用戶體驗、agent 將看到的反饋信號,以及這些信號將如何影響未來行為的機制。一個功能之所以有趣,不僅因為它能幫助人們,還因為它能產(chǎn)生清晰的、可解釋的觀察數(shù)據(jù),說明 agent 做了什么以及效果如何。具體來說,他們會對交互進行儀器化,將任務結果、用戶編輯和偏好轉(zhuǎn)化為訓練和評估數(shù)據(jù);維護將原始日志轉(zhuǎn)換為適合強化學習的結構化回合的管道;將策略更新集成到正常部署流程中,配有安全檢查和監(jiān)控。
這讓我想起一個很實際的例子。Mind Lab 在研究前端布局生成時發(fā)現(xiàn)了一個有趣的現(xiàn)象。大語言模型已經(jīng)可以生成 HTML 和 CSS,但視覺質(zhì)量參差不齊:間距、對齊和層次結構經(jīng)常讓人類設計師感覺不對勁。傳統(tǒng)做法是收集一批人類偏好數(shù)據(jù),訓練一次獎勵模型,然后針對這個固定分數(shù)優(yōu)化生成器。但在實踐中,他們發(fā)現(xiàn)這種離線設置會鼓勵獎勵破解:當策略學會利用靜態(tài)獎勵的怪癖時,它在新鮮人類比較中的 ELO 評分會下降。agent 變得擅長取悅代理,而不是生產(chǎn)人們真正喜歡的布局。
![]()
為了解決這個問題,他們轉(zhuǎn)向了流式獎勵模型。使用他們的實時基礎設施,持續(xù)更新獎勵模型,基于 agent 最新輸出和真實使用的新鮮、在線策略反饋,并針對這個不斷演化的信號訓練策略。在內(nèi)部評估中,使用流式獎勵模型訓練的策略顯示出上升的 ELO 分數(shù),而使用固定獎勵模型訓練的策略則穩(wěn)步失去優(yōu)勢。任務很窄,但它說明了他們關心的重點:當獎勵保持在線并與實時反饋綁定時,優(yōu)化會改善與人類偏好的對齊,而不是與之對抗。
Memory Diffusion:智慧地遺忘比記住一切更重要
在 Mind Lab 的技術創(chuàng)新中,有一個我覺得特別有意思的概念叫 Memory Diffusion。這是一種全新的記憶算法,體現(xiàn)了他們對 AI 應該如何思考和記憶的深刻理解。
傳統(tǒng)的 AI agent 記憶機制通常分為兩類。第一類是基于推理的記憶,模型在每次對話回合后主動總結記憶片段。這在概念上類似于推理過程:信息被重新考慮、重新組合,并作為摘要存儲。雖然直觀,但重復總結計算成本高,關鍵細節(jié)經(jīng)常在連續(xù)回合中退化。第二類是基于工具使用的記憶,記憶存儲在外部數(shù)據(jù)庫中。需要回憶時,模型查詢這個存儲并檢索相關交互。雖然容易集成,但這經(jīng)常導致碎片化理解,因為檢索和重新整合過程可能會剝離掉關鍵的細微差別和上下文。
Mind Lab 開發(fā)了一種根本不同的方法。他們不把記憶當作單獨的存儲任務,而是把整個軌跡本身視為記憶,通過智能遺忘的持續(xù)過程來管理。這個方法分為三個步驟:掩碼(Mask)、分配(Allocate)和重填(Refill)。他們選擇 agent 軌跡的片段并掩蓋掉,為重新處理創(chuàng)造空間;根據(jù)估計的重要性為掩蓋的片段分配令牌預算,高價值片段獲得更大預算以保留細節(jié),而不太關鍵的片段則被壓縮或丟棄;每個掩蓋的片段在分配的約束下重新生成,產(chǎn)生符合預算的壓縮表示。
這個循環(huán)讓系統(tǒng)能夠獨立同分布地決定該剪掉什么,嚴格遵守上下文預算約束。這個過程受到人類智慧遺忘方式的啟發(fā)——本能地丟棄無關細節(jié)(比如開車時經(jīng)過的廣告牌),保留有意義的體驗。他們把這種范式稱為 Memory Diffusion。它使 agent 能夠動態(tài)優(yōu)化上下文窗口,相對于軌跡長度保持常數(shù)時間復雜度。
我特別喜歡他們對這個概念的哲學表達:"記憶不是記住一切,而是智慧地遺忘。" 這太符合人類的認知方式了。想想你開車上班的過程,你會瞬間遺忘無關信息,比如路過的廣告牌、前面車輛的顏色,只關注核心信息,比如目的地、路況、轉(zhuǎn)彎時機。如果你的大腦試圖記住每一個細節(jié),你根本無法正常思考和行動。Memory Diffusion 就是讓 AI 像人類一樣,從真實體驗中學習,知道如何快速遺忘不重要的信息,同時保留真正重要的內(nèi)容。
更令人興奮的是,這不只是理論。通過密集的工程努力,他們在 Locomo 基準測試上取得了 93% 的準確率(不包括對抗案例),這是目前的最佳成績。而且他們還發(fā)布了這個算法的實時演示,讓開發(fā)者可以親自體驗這種新的記憶機制如何工作。
我注意到 Andrej Karpathy 有一句很有意思的話:"人類思維天真地感覺更像是自回歸,但很難說在某些思想的潛在空間中不存在更像擴散的組件。" Mind Lab 顯然也認同這個觀點。他們認為擴散語言模型是這種范式的理想架構選擇,因為 DLM 原生的雙向去噪和掩碼機制與他們的掩碼-分配-重填記憶觀完美對齊。他們目前正在完整的強化學習循環(huán)中訓練基于擴散的語言模型,使擴散成為模型原生的記憶機制,從而實現(xiàn)更扎實和高效的 agent。
![]()
Macaron AI:技術突破如何轉(zhuǎn)化為用戶體驗
說了這么多技術,你可能會問:這些高深的研究到底跟普通用戶有什么關系?這正是 Mind Lab 和 Macaron AI 最讓我佩服的地方——他們不是為了發(fā)論文而做研究,而是真正把技術突破轉(zhuǎn)化成了用戶可以感知的產(chǎn)品體驗升級。
Macaron AI 是一款非常特別的 AI 產(chǎn)品。當其他產(chǎn)品還在生產(chǎn)力賽道瘋狂內(nèi)卷,催你干活的時候,Macaron 真正關心的是用戶是否有好好生活。它是你的 AI 伙伴,聊聊天就能生成專屬于你的個人小應用。這些小應用可以幫你輕松管理日常習慣、健身計劃、旅行安排、提醒事項等等。而且每一個小應用都簡單好用,還能隨時分享給朋友,大家一起編輯、一起玩。
這次隨著 Mind Lab 的技術突破,Macaron AI 帶來了幾個重要更新。最直觀的是 Mini-app 生成速度的大幅提升,從原來的 20 分鐘縮短到了 2 分鐘。這不是簡單的工程優(yōu)化,而是底層強化學習訓練效率提升帶來的直接結果——更高效的模型意味著更快的推理速度。你可以自己打開 Macaron,創(chuàng)建一個 Mini-app 體驗一下,你會發(fā)現(xiàn)它比以前快太多了。這種速度的提升不僅僅是節(jié)省時間,更改變了使用體驗:從"我要等一會兒"變成了"幾乎是即時的",這種質(zhì)變會讓你更愿意頻繁使用和嘗試新想法。
他們還上線了社交功能。現(xiàn)在你可以創(chuàng)建群聊,和朋友、同事一起使用 Macaron。想象一下這些場景:團隊一起頭腦風暴,讓 AI 參與討論;朋友之間共享有趣的 AI 對話;多人協(xié)作完成任務,比如一起規(guī)劃旅行、籌備活動。這把 Macaron 從一個個人工具變成了一個協(xié)作平臺,讓 AI 不再是你一個人的助手,而是整個團隊或朋友圈的共同伙伴。
![]()
另一個我覺得特別有意思的功能是 Daily Spark。這個功能根據(jù)你的記憶和興趣點,每天為你推送專屬的靈感內(nèi)容。和 ChatGPT Pulse 那種純資訊推送不同,Daily Spark 是有溫度的——它會根據(jù)你的性格、興趣、日常記錄,生成你最感興趣的內(nèi)容。推送內(nèi)容類型很豐富,包括資訊、觀察、隨筆、詩歌、技巧、內(nèi)容推薦和治愈等。比如它可能會告訴你"蘋果發(fā)布新款 Vision Pro,帶來哪些全新功能",或者問你"短視頻爆發(fā)式增長后,文字創(chuàng)作真的衰落了嗎",又或者在你情緒低落時說"允許自己慢下來,接受不完美的一天"。這種個性化的靈感推送,正是"心智"系統(tǒng)區(qū)別于"大腦"系統(tǒng)的體現(xiàn)——它真正理解你是誰,你關心什么。
![]()
最重要的更新是記憶打通。以前 mini-app 和聊天之間的記憶是分離的,現(xiàn)在終于打通了。你在小應用中的數(shù)據(jù),現(xiàn)在能被 Macaron 讀取了。比如你記錄了今天的飲食,就能繼續(xù)在聊天中討論營養(yǎng)成分;你積累了一周的健身記錄,可以在聊天中總結成果。這看似簡單的功能背后,實際上是 Memory Diffusion 等底層技術突破的直接應用。系統(tǒng)能夠智能地管理跨應用的記憶,知道什么時候該記住什么,什么時候該遺忘什么,從而提供真正連貫的體驗。
從 Scaling Law 到 Experiential Intelligence
回到更宏觀的視角,我認為 Mind Lab 代表的不僅僅是一個技術突破,更是整個 AI 行業(yè)發(fā)展方向的轉(zhuǎn)折點。過去幾年,整個行業(yè)都在信奉 Scaling Law,相信只要把模型做得足夠大、數(shù)據(jù)搞得足夠多,就能解決所有問題。這個路徑確實帶來了巨大進步,但現(xiàn)在我們已經(jīng)清楚地看到了它的局限。
Mind Lab 提出的"經(jīng)驗智能"是一個根本不同的方向。他們不是從頭做預訓練,而是基于強大的基座模型,通過 AI agent 強化學習進行擴展。他們利用 Macaron 產(chǎn)品中真實用戶的真實反饋來反哺研究。他們在實驗中證明,基于真實世界反饋的訓練,比單純增加數(shù)據(jù)帶來的性能提升更顯著。這不是說預訓練不重要,而是說我們需要在預訓練之外,找到讓 AI 持續(xù)成長的新路徑。
這讓我想起生物進化和個體學習之間的關系。預訓練就像是進化,通過漫長的時間積累種族的集體知識;而經(jīng)驗學習則像是個體學習,在一生中快速適應特定環(huán)境。最成功的智能系統(tǒng)需要同時擁有這兩者。人類之所以強大,不僅因為我們繼承了進化賦予的本能,更因為我們能在一生中通過經(jīng)驗快速學習和適應。Mind Lab 正在嘗試給 AI 系統(tǒng)同樣的能力。
我特別認同他們的口號:"Real intelligence learns from real experience"(真正的智能源于真實的體驗)。這不是一句空洞的宣傳語,而是對 AI 發(fā)展方向的深刻洞察。我們已經(jīng)有了足夠強大的"大腦",現(xiàn)在是時候給它們配上能夠持續(xù)成長的"心智"了。我們不需要每次都從零開始訓練更大的模型,而是要讓現(xiàn)有模型能夠真正從與用戶的每次交互中學習和改進。
從產(chǎn)品角度看,這種轉(zhuǎn)變會帶來完全不同的用戶體驗。使用傳統(tǒng) AI 產(chǎn)品,你會感覺自己在使用一個工具,一個很聰明但不會成長的工具。而使用基于經(jīng)驗智能的產(chǎn)品,你會感覺自己在培養(yǎng)一個伙伴,一個會隨著時間越來越懂你的伙伴。這種差異看似微妙,但對用戶粘性和長期價值有著巨大影響。
展望未來:AI 伙伴時代正在到來
站在現(xiàn)在這個時間點回看,我覺得我們正處在 AI 發(fā)展的一個關鍵轉(zhuǎn)折點。過去十年是"大腦"的時代,我們成功構建出了強大的、知識豐富的 AI 模型。接下來的十年,將是"心智"的時代,我們要讓這些模型真正學會從經(jīng)驗中成長,變成能夠持續(xù)進化的智能系統(tǒng)。
Mind Lab 在這個轉(zhuǎn)折點上的意義,不僅在于他們?nèi)〉玫募夹g突破,更在于他們?yōu)檎麄€行業(yè)指明了一個清晰的方向。他們證明了我們不需要盲目追求更大的模型、更多的數(shù)據(jù),而是應該專注于如何讓 AI 從真實世界的反饋中學習。他們證明了研究和產(chǎn)品可以形成正向循環(huán),技術突破可以直接轉(zhuǎn)化為用戶體驗的提升。他們還證明了開源和分享不會削弱競爭力,反而能夠建立更強大的影響力和生態(tài)系統(tǒng)。
我特別期待看到 Memory Diffusion 技術在更多場景中的應用。這種智慧遺忘的機制,可能會徹底改變 AI agent 處理長期記憶和上下文的方式。想象一下,一個能夠像人類一樣記憶的 AI 助手:它不會被無關細節(jié)淹沒,能夠準確把握重點,隨著時間推移越來越懂你的需求和偏好。這不是科幻,而是 Mind Lab 正在實現(xiàn)的現(xiàn)實。
從商業(yè)角度看,這種技術路線也為創(chuàng)業(yè)公司提供了新的機會。你不需要像 OpenAI 或 Google 那樣擁有海量資源去訓練巨大的基礎模型,而是可以基于現(xiàn)有的開源模型,通過真實用戶反饋來構建差異化的產(chǎn)品體驗。這降低了進入門檻,但提高了產(chǎn)品壁壘——因為你的優(yōu)勢不再是模型本身,而是你積累的用戶數(shù)據(jù)和持續(xù)學習的能力。
Macaron AI 的產(chǎn)品定位也很有意思。在這個所有 AI 產(chǎn)品都在強調(diào)生產(chǎn)力、效率、幫你完成工作的時代,Macaron 選擇關注生活本身。它不催你干活,而是幫你更好地生活。這種差異化不是表面的營銷策略,而是建立在技術能力之上的戰(zhàn)略選擇。正因為他們有能力讓 AI 真正理解你、記住你、適應你,所以才能提供這種更加個性化、更有溫度的體驗。
當然,這種轉(zhuǎn)變也帶來了新的挑戰(zhàn)和問題。當 AI 能夠從我們的行為中學習時,隱私保護變得更加重要。當 AI 能夠適應我們的偏好時,我們?nèi)绾伪苊庀萑胄畔⒗O房?當 AI 變得越來越懂我們時,我們?nèi)绾伪3秩伺c人之間真實的連接?這些都是我們需要認真思考和解決的問題。
但我相信,就像 Mind Lab 的口號所說:"Real intelligence learns from real experience"。真正的智能必須能夠在真實世界中學習和成長,而不是永遠停留在訓練時的狀態(tài)。這是通往真正智能的必經(jīng)之路,即使路上充滿挑戰(zhàn),我們也必須勇敢前行。
最后,我想說的是,AI 的未來不應該只是更大的模型和更多的算力,而應該是更智能的學習方式和更好的用戶體驗。Mind Lab 和 Macaron AI 正在探索的這條路,可能不是唯一的答案,但至少是一個非常有前景的方向。當所有人都在盲目追求 Scaling Law 時,他們選擇了另一條路:讓 AI 像人類一樣,從真實體驗中學習和成長。
歡迎來到經(jīng)驗智能時代。這不是終點,而是一個新的開始。
結尾
也歡迎大家留言討論,分享你的觀點!
覺得內(nèi)容不錯的朋友能夠幫忙右下角點個贊,分享一下。您的每次分享,都是在激勵我不斷產(chǎn)出更好的內(nèi)容。
歡迎關注深思圈,一起探索更大的世界。
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.