2026 剛開年,Anthropic 就用 Claude Cowork 開啟了 AI 行業新的創業熱點。
在 Claude Code 的能力基礎上加上 GUI 界面、對普通用戶更友好,Cowork 的火熱證明了,在主動進入用戶的工作環境后,桌面 Agent 大有可為。
而 Cowork 計劃引入知識庫(Knowledge Bases)獲得「永久記憶」能力的爆料,則把 Agent Memory 這個業界還沒有落地共識,但 infra 層已經「混戰」許久的各種框架的探索,推到了 AI 創業的最前線。
從最早的 RAG、Agent Context 到如今大家都在討論的 Agent Memory,「記憶」現在已經是影響 AI Agent 的關鍵因素之一。用戶畫像的維護和更新、跨對話跨任務的記憶維護,以及更主動、更懂用戶的 Agent,都對 AI 產品的 Memory 能力提出了更高的要求。
很明顯,這不是靠繼續提高模型上下文長度、更復雜的 RAG、N 個外掛的知識庫就可以輕易解決的問題。
今天我們想探討的,是為什么獨立的 Memory 層正在成為必需品,而一套工程化的記憶系統,又需要有哪些能力。
以及,為什么我們不建議開發者自己上手做記憶系統。
??關注 Founder Park,最及時最干貨的創業分享
YouWare 推出快一年了,Coding 賽道在 2025 年有了不少新的變化。
Coding 賽道在 2026 年會有什么樣的變化?Vibe Coding 還會繼續火熱嗎?
本周三(1 月 28 日),Founder Park 直播間,張鵬對話 YouWare CEO 兼創始人明超平,深度復盤創業這一年。
01「放棄」RAG 和長上下文吧,行業需要獨立的 Memory 層
模型能力在過去兩年持續變強,尤其是 coding 和工具使用能力上,推理越來越像樣,工具調用越來越熟練,Agent 產品的能力越來越讓人驚喜。
卡住工作流和交付的地方,反倒是連續性,上一輪溝通談過什么,這一輪還能不能接上。偏好和邊界有沒有被正確繼承。任務推進到哪一步,能不能穩定復盤。也因此,有了 Context Engineering,重點解決工作流過程中上下文的高效傳遞、Agent 之間的協同。
但更廣泛的記憶問題始終沒有很好得到解決,那些事關人類的知識、記憶與情感,歷史沉淀與持續協作的部分。
行業過去做記憶,最常見的兩條路:上下文變長,以及 RAG。
更上的上下文能解決一部分問題,但解決不了根本問題。
真實業務的記憶是持續增長的數據流,信息不斷寫入,不斷修正,不斷過期。把它們一股腦塞進上下文,推理成本會跟著增長,噪聲也會跟著增長。信息越多越像垃圾堆,模型越難穩定抓住關鍵點。窗口再大,選擇、組織、版本管理也不會自動發生。ChatGPT、Gemini 等通用型 Chatbot 在現階段已經在一定程度上緩解了域內用戶記憶的問題,但在實際使用過程中,用戶仍普遍感到「不夠用」。究其原因,一方面是其記憶能力主要局限于單一產品,難以實現跨域的統一管理;另一方面,其 API 服務本身并不具備持久化記憶能力,使得連續、長期的用戶體驗仍需要由業務側自行補足。
![]()
還有一個問題是,長上下文帶來的任務復雜度的增加,以及模型性能的折損,都讓行業開始更高效地管理上下文,而不是無限制地增加模型自身的上下文。
RAG 同樣有邊界。早年流行 RAG,是因為通過給模型增加一個可以實時查閱的外部數據庫,RAG 架構可以突破模型訓練數據的時效限制,讓模型掌握各種訓練中未曾接觸的新信息、新知識以及各種企業內部數據。
但很明顯,RAG 屬于偏被動的補給方式,致命短板的是:被動與割裂。
從工程角度來看,向量數據庫的操作門檻極高,相關的數據更新與導入通常以周為單位,跟不上實時協作的節奏。
其次,傳統 RAG 檢索觸發完全依賴用戶提問,信息存儲無權重區分,隨著知識庫規模擴大,無效召回率會持續上升,甚至影響最終的回答準確率。
最重要一點則在于,RAG 只能完成單次的檢索召回,但無法支撐長期協作場景下的經驗沉淀、偏差校正與業務規則對齊,執行一些長期任務,就需要用戶反復手動檢索拼裝、投喂大模型,低效且不可控。這類問題的根源,并不在檢索本身,而在于「記憶」一直被當作一次性數據,而不是可持續演化的系統狀態來對待。
有一類 AI 記憶產品,已經不再把記憶當作檢索結果,而是當作可調度的單獨記憶層進行嘗試和探索。
![]()
從成本和模型能力上來看,上下文和 RAG 背后有三類硬約束。
第一是成本與性能。注意力計算對無差別吞下歷史不友好,系統需要控制「該用的記憶在該用的時刻以可控的量注入」。
第二是復用與遷移。真實的工作流跨系統、跨端,多模型并用又進一步放大了遷移需求。記憶綁定某個模型或某個應用,遷移摩擦會變成鎖定成本,組織試錯會變貴,迭代會變慢。
第三是治理與合規。企業需要能改、能刪、能追責。記憶放在參數里更新慢且難審計,寫在提示詞里來源亂且難治理,堆在日志里調用與融合缺少機制。治理要求會把記憶從「模型附屬」推向「獨立層」。
當成本、遷移與治理同時成為硬約束時,記憶繼續依附在模型或應用之上,已經難以成立。記憶不再是某個功能模塊,而是和計算、存儲一樣,需要被統一調度與管理的系統資源。記憶張量作為行業內最早一批的探索者,推出的 AI 記憶產品 MemOS 將記憶作為一等系統資源獨立出來,通過精細調度精確控制記憶注入,避免計算負擔;將記憶抽離于單一模型或應用,實現跨模型、跨端復用,降低遷移摩擦;同時提供分層、可編輯、可審計的管理,讓企業能夠修改、刪除或追責,確保記憶資產既安全可控,又可治理與長期演化。
獨立的 Memory 層是必然的結果,進一步則還需要對 Memory 也進行分層,解決不同信息的歸屬。需要調度,解決寫入與喚醒的全局最優。也需要治理,把記憶做成可控資產。通過將歷史對話、用戶資料、用戶偏好長期存儲、主動調用,模型的智能就從當下正確升級為?期?致、可積累、可演化。
通俗點說,就是有了主動的記憶,模型就能夠從人類的助手,變身成為人類的伙伴與搭檔。
在 B 端:對程序員,AI 需要記住其代碼風格、協作規范與歷史項目,才能產出生產級代碼;對產品經理,AI 要厘清現有功能架構、技術依賴與業務目標,讓新需求落地更順暢。
而 C 端場景中,主動記憶是情感連接的基礎。當代人越來越習慣于大模型交流各種情緒困擾,而 AI 需要精準關聯過往人物關系與矛盾點,提供針對性回應,才能實現從機械應答到持續陪伴乃至數字分身的升級。
也是因此,AI 記憶類產品、單獨的 Memory 層正逐漸成為大模型、乃至所有 agent 的關鍵基礎設施。
02一個好用的記憶系統,需要什么?
當我們提起記憶時,它的本質是歷史事實、客觀知識、感受、情感的集合。這也意味著,記憶系統本身就不可能是單一結構或單一策略,而需要像操作系統一樣,對不同形態的記憶進行統一抽象與管理。
因此,構建主動記憶需要一套復雜的系統工程。過程中,既要攻克技術架構的難題,又要平衡成本與效率的天平。技術架構的合理性與成本效率的平衡,直接決定落地可行性。技術架構需解決存儲、算力與調度的協同問題,成本控制則關系到商業化落地的可持續性。
成本壓力主要來自存儲與算力兩方面。
存儲端,內存、磁盤與 S3 對象存儲的單位成本差異可達數十倍。海量的用戶記憶、歷史行為數據不能一概而論,以同樣的成本存儲,這就需要根據訪問頻率動態分層存儲,對工程化調度能力提出極高要求。
算力端,Transformer 的 attention 機制天然不適合「?差別吞下全部歷史」,當前架構下,?向應?場景的?限?下?是?個偽命題。?旦把記憶不加篩選地塞回上下?,序列?度增?會顯著推?推理時延、吞吐壓?與顯存占?,所謂無限長上下文與記憶在實際應用中難以落地。
這也引申出了第二個問題,記憶需要差異化管理,并為其賦予不同的權重并統一調度。
就像人類大腦會將情感、事實、邏輯存儲在大腦不同區域,按需喚醒。AI 記憶也需遵循此邏輯,給記憶配備一個類似 skill 的分層,并說明合適喚起什么記憶,相關記憶的重要性,以及記憶應該如何使用。
在這?領域,關鍵是對于記憶進行分層管理,從而把「記憶」從?個外掛數據庫,升級為可調度、可治理、可演化的系統能?。
這一思路,已經開始在部分 AI 記憶產品中以更工程化的方式落地,例如 MemOS 所提出的多層記憶架構。它并不把記憶視為簡單的外掛存儲或一次性檢索結果,而是將記憶抽象為具備生命周期與調度屬性的系統資源:不同類型的記憶被生產、激活、合并、衰減與歸檔,并在推理前根據任務目標與上下文狀態被精確喚起。通過對存儲層級、算力消耗與記憶使用方式的統一編排,MemOS 試圖在工程可行性、推理效率與長期一致性之間,建立一套可落地、可擴展的記憶管理范式。
其三層記憶可以拆解為:
參數化記憶:主打沉淀低頻更新、高復用的通用能力與穩定知識,比如編程語法、行業通識;承載穩定能力與長期泛化知識。
激活記憶:主要承載推理過程中的短期/中期狀態(如 KV 工作記憶),決定即時交互效率;承載短期到中期的工作狀態,例如任務目標、關鍵變量、正在推進的上下文,它需要快寫快用,用完衰減。
明文記憶:更偏向于存儲可解釋、可治理的外顯信息,比如業務事實、用戶偏好與合規元數據。需要可檢索、可編輯、可審計。
![]()
全局調度系統,則是三層架構的核心樞紐,負責統籌記憶的寫入、存儲、喚醒、更新與淘汰全流程,避免無效信息占用資源。全局調度要讓記憶變成一個可優化的讀寫體系。
統一抽象、統一調度、統一治理,記憶從某個產品的附屬能力,走向上層智能體與應用的共同依賴。
尤其是多模態模型正成為主流范式,用戶的記憶資產也開始多模態化,單純的補丁或者資產,還是停留在將記憶當成內容存起來的思路,我們需要的是可治理、可遷移的記憶系統。
03模型廠商會把記憶層吃掉嗎?兩種路線會長期共存
2025 年在跟知名科技記者 Ben Thompson 對談時,Sam Altman 明確表示:希望 OpenAI 成為一個平臺和入口,「你可以用你的 OpenAI 賬號登錄任何想要集成我們 API 的平臺,你可以帶著你的信用額度套餐、定制模型以及其他所有東西去任何你想去的地方。」用戶的所有行為、身份、偏好和數據,ChatGPT 都記得。
OpenAI 最近在官??檔中持續強調「已保存記憶」的管理與控制(可關閉、可刪除、也可?臨時對話避免引?憶);Google 在 2026 年 1 ?把 Personal Intelligence 擴展到 Search 的 AI Mode,允許?戶選擇加?,將 GmailPhotos 等個?數據接?以?成更貼合個?偏好的答案與建議;Anthropic 則是持續在 Corwok 上發力。
邏輯很清晰。模型廠商也在把「更懂你」推進到更深的個?上下?,把記憶內生進模型與入口,通過默認工作流與端到端優化,把體驗做成閉環。讓單個助?更連貫、更像?個?期使?的產品??。
從體驗上來說對用戶是絕對的加分項,但從記憶管理的角度來看,問題也很明顯:維護成本高、切換成本高、以及體驗割裂化。
ChatGPT 和 Claude 的月費已經在朝著 200 美元的門檻邁進,未來可能基礎的包月費用(20 美元/月)會繼續漲價,為了維持和管理個人的記憶,用戶需要支付的成本越來越高。
換模型的成本也越來越高,數據顯示,全球范圍內,SOTA 模型的平均保質期僅 35 天,半年后,曾經的 SOTA 模型大概率跌出行業前十,也是因此,用戶本身對模型的忠誠度,并未如互聯網時代一樣形成所謂的生態效應。將記憶綁定單一模型,就會導致用戶切換模型時,需重新投喂歷史信息,遷移成本極高。
即使不考慮模型的遷移,用戶往往會選擇多個模型、agent 并用,這也就導致數據與記憶分散在不同平臺,形成割裂孤島。
另外,從產品策略上來看,模型廠商在強調的,始終是產品入口側的記憶,強調個性化和更懂用戶。
但獨? Memory 層要回答的是另?類問題:把記憶當作可治理、可遷移、可復?的資產。?持在不同模型與?作流之間保持連續性,?不是被鎖死在某?個???。
在這一方向上,記憶張量則嘗試以「操作系統」的視角來重構 AI 記憶體系,并首創性地提出以 Memory Operating System 的形式承載個人與組織記憶,使其不依附于單一模型或入口,而是作為可遷移、可復用的獨立基礎設施存在。
![]()
?個很有代表性的「資產層信號」,是市場上已經出現了「記憶共享」式的交互形態:例如,在瀏覽器側提供?個獨??板,把?戶在多個助?平臺(如 ChatGPT、Gemini、DeepSeek、通義等)的歷史對話、偏好與?物設定做?鍵遷移與?動同步,再把這些信息清洗結構化成統?的個?記憶檔案;當?戶切換到任意模型/應?時,系統會在后臺靜默注?必要上下?,并?持把?檔沉淀為可復?的個?知識庫,同時提供「查看/編輯/刪除」的可控??——強調「記憶跟??/跟組織?」,?不是「記憶跟某個平臺?」。
記憶張量近期推出的 MemOS-MindDock 本質上是一個以「個人記憶主權」為核心的個人跨模型記憶助手,能夠將分散在不同 AI 助手中的歷史對話、偏好與人物設定統一沉淀為可控、可遷移的個人記憶檔案。這也從產品與交互層面進一步佐證了這一趨勢:用戶開始要求記憶的歸屬權回到個人本身,而非被平臺長期占有。
在組織協作場景中,這種獨立記憶管理的優勢更為突出。
個體通常在組織中運轉、工作,組織信息構成個體實際工作的真實上下文。而組織的記憶管理,則是一個典型的多 Agent/多部門/多用戶場景,需要記憶隔離、權限管控、可觀測性等工程能力。MemOS 推出的 MemCube 概念,可以將每個記憶單元封裝為獨立模塊,設定訪問權限與生命周期,承載多種形態的記憶條目,既保障企業數據的安全隔離,又支持團隊內部的記憶共享,適配多個體、多 Agent 等形式的協作需求。
兩條路線對應著不同的產業邏輯:模型派試圖通過記憶強化入口優勢,借助數據壁壘,換來用戶忠誠度;第三方中立派則想做 AI 時代的獨立記憶基礎設施,讓所有模型、所有 agent 都具備記憶能力,讓記憶成為各個場景中的通用基礎設施。
04把記憶做成資產層,是行業發展的必然趨勢
AI 陪伴,尤其是主打陪伴的 AI 硬件玩具成為 25 年下半年的熱門賽道,比如熱銷的芙崽(Fuzozo)。越來越多的玩家也在進入這個賽道,硬件的競爭、Agent 能力的競爭、如何在陪伴上做出自己的「Aha moment」,很卷,也都很難。
在與一位從業者交流后,發現他們的一個核心技術難題是,如何做好玩具的記憶管理。哪些對話要長期管理、哪些對話要短期管理、什么時候調用哪種記憶、交給模型自己判斷還是人為記上很多規則,以及更重要的,有了這些記憶后,怎么樣讓陪伴成為一件主動的事情。
很難,而且很明顯不是一個團隊自己手搓一個系統就能很好解決的問題。
靠提示詞,能讓單次的對話變得很聰明,但長期互動需要的高情商和驚喜,需要一套系統化的管理方案。
記憶的管理、更新、增刪和調用,參數化記憶、激活記憶、明?記憶的聯合動態管理,同時還要有基礎模型的訓練能?,不然基于 Prompt?程簡單構建的記憶系統很快也會模型上下文的問題:成本、幻覺和優化的邊際效應遞減。
![]()
既能服務上層多種 Agent/應?,也能適配下層模型的快速迭代,?不是被鎖死在某個??體驗?。
一個專業的 Memory 層系統,比如 MemOS、比如 Mem0,才是一個更好的選擇。而 MemOS 的代表性,恰恰在于它抓住了當前 AI 產業最確定的趨勢之一:模型會快速迭代,入口會不斷更換,但長期價值只能沉淀在獨立于模型與入口之外、可遷移、可治理的記憶系統之上。
而在記憶工程化之后,專業場景也會是最先受益的場景之一。
專業工作天然依賴上下文積累、版本演進與流程協作。Agent 能不能接力,能不能復盤,能不能穩定執行標準,記憶決定了交付上限。
今天流行的 Skill 技能,其實就是方法論和流程的記憶具象化,包括但不限于投研框架、盡調清單、評審標準、寫作風格、論證結構等等。如果沒有可控記憶,Skill 往往停留在模板與提示詞,復用與迭代都很脆弱。
組織側的變化更直接。多部門、多用戶、多 agent 場景需要隔離、權限、可觀測性。記憶系統若能把共享與隔離同時做好,就能盡可能減少協作的摩擦,真正成為可以協作的 AI 同事。
于專業場景的 agent 而言,它是高效協作,完成具體任務的加速器;于 AI 陪伴賽道而言,隨著當代人越來越孤獨,越來與需要情緒價值,持久的記憶會成為模型從聰明到理解再到高情商陪伴數字分身的靈魂進化源頭。
換句話說,模型可以更替,??可以變化,但記憶資產需要可遷移、可復?、可治理——這也是記憶管理系統能夠成為資產層、成為基礎設施的敘事成立的核心關鍵。
當前階段,基于記憶基礎設施層的構建,以及在此基礎上的應用創新,已然成為創業的熱點。
![]()
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.