![]()
新智元報道
編輯:犀牛
【新智元導讀】Karpathy公開個人知識管理新范式:讓大模型把你的一切資料「編譯」成一部活的百科全書——RAG已死,人類只需負責思考。
就在這兩天,AI圈又被一個人引爆了。
不是Sam Altman,不是馬斯克,是那個低調、卻每次出手都能掀翻桌子的男人——Andrej Karpathy。
這次他是做了一件看起來更「樸素」的事情:把自己的知識管理方式公開了。
就這?就這。
但「就這」,讓整個開發者社區炸了鍋。
他在X上隨手發的一條帖子,短短幾天收獲了1200多萬次圍觀。
![]()
卡帕西背后的意思是:大模型的下一個戰場,不是寫更多代碼,而是管理更多知識。
而他給出的方案,叫做「LLM Wiki」——一種讓大模型當你的全職知識管家、24小時不間斷整理、更新、自檢個人知識庫的全新范式。
GitHub上他附帶的一份「想法文件」(idea file),不到12小時拿下超2100顆Star。
![]()
開發者Farza緊隨其后,直接用這套思路,把自己2500條日記、筆記和iMessage消息,讓大模型「編譯」成了一個擁有400篇結構化文章的個人Wiki百科——Farzapedia。
一個給AI Agent用的、關于「你自己」的百科全書。
![]()
聽起來科幻?但它已經在運行了。
LLM Wiki 到底是什么?
回憶一下你自己的日常:讀了一篇好文章,收藏了;看了一篇論文,存了個PDF;開會記了一段筆記,扔進了Apple Notes;在微信群看到一個不錯的觀點,截了個圖……
然后呢?
然后就沒有然后了。
三天后你需要用到某條信息,翻遍所有app、所有文件夾,就是找不到。
要么是關鍵詞想不起來,要么是存的地方太分散,要么干脆就是——記得看過,但忘了在哪看的。
信息越多,大腦越亂;收藏越勤,遺忘越快。
這就是傳統知識管理的死穴——它需要你不斷花時間手動整理,而人類天生懶得整理。
那AI能幫忙嗎?當然能。
目前最主流的做法叫RAG(檢索增強生成):把一堆文檔切成碎片,存進向量數據庫,用戶問問題的時候,AI去「搜」相關片段,拼湊出答案。
NotebookLM、ChatGPT的文件上傳功能,本質上都是這個路子。
RAG好不好用?能用,但不夠好。
卡帕西一針見血地指出了RAG的根本問題:它每次都在從零開始「重新發現」知識。
你今天問一個需要綜合五篇論文才能回答的問題,AI把碎片翻了一遍給你拼了個答案。明天你換個角度再問,它得重新翻一遍、重新拼一遍。
什么都沒有積累下來,什么也沒有建立起來。
用卡帕西的原話說:「沒有積累。」(There's no accumulation.)
那他的方案是什么?
讓大模型不是每次「搜」你的文件,而是把你的文件「編譯」成一部活的百科全書。
這就是「LLM Wiki」的核心思想。
![]()
LLM Wiki的完整架構
卡帕西在GitHub Gist上公開了他的完整構想。
雖然他刻意寫得比較「抽象」——因為他認為在AI Agent時代,分享的應該是想法而非具體代碼,讓每個人的Agent去根據想法定制實現——但整套系統的骨架其實非常清晰。
第一層:原始數據(Raw Sources)
就是你的素材庫。論文、文章、代碼、圖片、數據集……統統扔進一個raw/文件夾。
不需要你整理,不需要你分類,扔進去就行。
這一層是「不可變」的——大模型只讀取,絕不修改。這是你的信息源頭、真相之本。
卡帕西推薦用Obsidian Web Clipper瀏覽器插件,看到好文章一鍵轉成Markdown,再用快捷鍵把圖片全部下載到本地,確保以后網站掛了圖也不會丟。
第二層:Wiki(The Wiki)
這是整個系統的核心。
大模型讀完raw/里的素材后,不是簡單地「索引」它們,而是主動地「編譯」出一整套結構化的Wiki。
什么叫「編譯」?
就像編譯器把你的源代碼變成可執行程序一樣,大模型把你的「原始資料」變成了一部可導航、可查詢、互相引用的知識體系。
具體來說,大模型會做這些事:給每篇素材寫摘要,抽取關鍵概念,為重要主題撰寫獨立文章,在不同頁面之間建立反向鏈接,維護一個總索引文件(index.md),記錄操作日志(log.md)。
你幾乎不用手動編輯Wiki里的任何內容。
寫文章的是大模型,打標簽的是大模型,建鏈接的是大模型。
用卡帕西自己的話說——Obsidian是IDE,大模型是程序員,Wiki是代碼庫。
第三層:規則文件(The Schema)
這是一份「說明書」,告訴大模型這個Wiki怎么組織、有什么規矩、遇到不同情況該怎么操作。
比如在Claude Code里是CLAUDE.md,在OpenAI Codex里是AGENTS.md。
這份文件由你和大模型「共同進化」——你用著用著發現什么規則好用就加上去,什么不好用就改掉。
四大操作:導入、查詢、輸出、自檢
架構搭好了,日常怎么用?
卡帕西給出了四個核心操作。
操作一:導入(Ingest)
把新素材扔進raw/,告訴大模型:「處理這個。」
大模型讀完之后,跟你討論關鍵發現,然后寫一篇摘要頁,更新總索引,并且在整個Wiki中找到所有相關的頁面——可能是某個概念頁、某個人物頁、某個對比頁——逐一更新。
一篇新素材可能會觸發10到15個Wiki頁面的聯動更新。
卡帕西個人喜歡一次導入一篇素材,邊導入邊看大模型寫的摘要,確保方向對了。
當然你也可以批量導入,一口氣扔100篇論文,讓大模型自己慢慢消化。
操作二:查詢(Query)
一旦Wiki積累到一定規模,你就可以對著它問各種復雜問題了。
卡帕西自己的一個研究Wiki攢了大約100篇文章、40萬字。他本以為這個規模得搞一套復雜的RAG才行——結果發現根本不需要。
為什么?
因為大模型平時把索引文件和摘要維護得很好,它先讀索引,找到相關頁面,再鉆進去細看。
40萬字的規模,輕松應對。
而且查詢的輸出格式不限于文字——可以是Markdown文章,可以是Marp格式的幻燈片,可以是matplotlib圖表,任何你想要的可視化形式。
操作三:回填(File Back)
這是最精妙的一步:把查詢結果存回Wiki。
你問了一個對比分析的問題,大模型給了你一份精彩的回答——這份回答本身也是有價值的知識。
卡帕西的做法是把這些輸出「歸檔」回Wiki,讓它成為Wiki的一部分,供未來的查詢使用。
你的每一次提問,都在讓知識庫變得更豐富。用的越多,它越聰明。
這不是消耗,是投資。
操作四:自檢(Lint)
定期讓大模型給Wiki做一次「體檢」。
檢查什么?數據不一致的地方;新素材推翻了舊結論的地方;有引用但沒有獨立頁面的重要概念;孤立的、沒有任何鏈接指向的頁面;通過網絡搜索可以補全的信息空缺。
這讓整個Wiki不僅保持健康,還在不斷生長。
VentureBeat對此有一個精彩的評價:「這就像一個能自我修復的活知識庫。」(It acts as a livingAIknowledge base that actually heals itself.)
到這里,你會發現卡帕西做出來的東西,跟傳統知識庫完全不是一回事了。
傳統知識庫是一個需要你不斷喂養的存儲工具,而LLM Wiki是一個自運行的知識引擎——大模型負責整理、更新、自檢、生長,人類只需要做一件事:思考。
Farzapedia:當你的一生被「編譯」成百科全書
如果說卡帕西給出了理論框架,那開發者Farza就是第一個把這套理論「跑通」的人。
Farza做了一件聽起來有點瘋狂的事:他把自己的2500條日記、Apple Notes筆記和部分iMessage對話全部喂給了大模型,讓AI從中「編譯」出了一部關于他自己的個人Wiki百科——Farzapedia。
![]()
這部「百科全書」包含400篇詳細文章,覆蓋了他的朋友們、他創辦過的公司、他的研究領域、甚至他最愛的動漫以及這些動漫對他的影響。
每篇文章都帶有反向鏈接,形成了一個完整的知識網絡。
但最關鍵的一點是——Farzapedia不是給Farza自己看的,是給他的AIAgent用的。
整個Wiki的結構和鏈接方式,天然適合Agent爬取。
Farza用Claude Code打開這個Wiki,Agent從index.md(總目錄)開始,可以像蜘蛛一樣順著鏈接一層層鉆到它需要的具體頁面。
舉個例子:Farza在設計一個新項目的落地頁,他問Agent:「我最近有什么影響了我審美的電影和圖片?幫我找找靈感。」
Agent怎么做的?
它在Wiki里找到了Farza的「哲學」文章——那里記錄了他看一部吉卜力紀錄片時的筆記;找到了「競品分析」文章——里面有他截圖保存的YC公司落地頁;甚至翻出了他幾年前存的1970年代披頭士樂隊周邊商品的圖片。
結果Agent給出了一份極其精準、極其「懂他」的創意方案。
Farza坦言,他一年前用RAG搭過類似的系統,但體驗很差。
而基于文件系統的知識庫,讓Agent通過它真正理解的目錄結構去查找信息,效果天差地別。
而Farzapedia最神奇的地方在于——它是「活」的。
當Farza往Wiki里添加新內容(一篇文章、一張靈感圖、一份會議紀要),系統會自動判斷這條新信息應該歸入哪2到3篇已有文章,或者干脆創建一篇新文章。
用Farza的比喻:「它就像一個超級天才圖書管理員,專門管理你的大腦——它永遠在幫你把東西歸到最合適的位置,而且它從不疲倦。」
權力歸你
卡帕西在轉發Farzapedia時,用了一段話來闡述他為什么如此推崇這種知識管理方式。
這段話值得仔細品味,因為它透露了一種關于「AI時代個人數據主權」的深層思考。
![]()
他歸納了四個核心優勢:
第一,顯式(Explicit)。你的知識不是藏在某個AI的「隱式記憶」里——那種你看不見、摸不著、也不知道它到底記了什么的黑箱。Wiki是顯式的、可導航的,你可以清清楚楚看到AI知道你什么、不知道你什么,可以檢視和管理這份「記憶制品」。
第二,你的(Yours)。數據就在你的本地電腦上,不在某個AI廠商的云端系統里。你不需要擔心「我的數據被誰拿去訓練了」,也不用恐懼「如果哪天換了AI服務商,我的記憶還能不能帶走」。
第三,文件優于應用(File overApp)。整個知識庫就是一堆Markdown文件和圖片——最通用的格式。任何工具都能讀取它們,任何Agent都能操作它們,你可以用Obsidian看,也可以自己寫個界面來看。這叫「互操作性」。
第四,自帶AI(BYOAI - Bring Your Own AI)。你想用Claude就用Claude,想用Codex就用Codex,想用開源模型就用開源模型。甚至你可以把Wiki當訓練數據,微調一個「打從權重層面就認識你」的專屬AI。AI廠商之間的競爭?讓他們卷去,你只管挑最好的用。
卡帕西的總結很干脆:這種個性化方案把你放在了完全的控制位上。數據是你的,格式是通用的,內容是透明的。用哪個AI隨你挑,讓AI公司們保持緊張吧!
知識的「編譯時代」來了
回頭看卡帕西的LLM Wiki,你會發現它的精神內核其實并不新。
1945年,美國科學家Vannevar Bush在那篇著名的論文《As We May Think》中,就提出過一個叫「Memex」的構想——一個個人化的、持續策展的知識存儲系統,文檔之間由「關聯線索」(associative trails)連接起來。
![]()
Bush認為,文檔之間的連接和文檔本身一樣有價值。
這個想法比互聯網還早了半個世紀。
后來,互聯網確實實現了文檔的連接,但走向了公共化、碎片化,而非個人化、結構化。
Bush當年沒能解決的問題只有一個:誰來做維護?
現在,大模型解決了這個問題。
卡帕西的方案,本質上是對Bush的Memex做了一次「現代編譯」:AI負責所有枯燥的維護工作——更新交叉引用、保持摘要最新、發現新舊數據的矛盾、維護幾十上百個頁面之間的一致性。
人類之所以放棄維護知識庫,不是因為不想,而是因為維護成本增長得比價值更快。
大模型消除了這個瓶頸。
我們正在目睹一個新范式的誕生——從「AI搜索信息」到「AI編譯知識」。
在這個范式里,大模型不再只是一個你問什么它答什么的「搜索引擎」,而是一個持續運轉的「知識編譯器」。
你的人生經歷、工作素材、閱讀記錄、靈感碎片,都是它的「源代碼」。
而它的產出,是一部只屬于你的、永遠在生長的、從不遺忘的「第二大腦」。
人類負責思考,AI負責記住。
這可能是大模型最「樸素」、卻也最深刻的一個應用方向。
不炫技,不燒錢,不需要百萬Token的上下文窗口,不需要復雜的向量數據庫——就是一堆Markdown文件,加上一個勤勞的AI圖書管理員。
1945年,Vannevar Bush只能把Memex畫在紙上。
2026年,你可以把它跑在你的筆記本電腦上了。
未來已來。
參考資料:
https://x.com/karpathy/status/2040470801506541998
https://x.com/karpathy/status/2039805659525644595
https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.