過去幾周,硅谷的空氣里彌漫著一種難以言說的緊張感。三家頂級實驗室幾乎在同一時間向內部團隊發出了類似的警告,他們的模型出現了“未經編程的能力”。
這些能力不屬于訓練目標,不屬于數據分布,甚至不屬于任何人類設計的范疇。有人形容這種現象像是在“空無一人的房子里發現腳印”——你不知道它從哪里來,也不知道它下一步會走向哪里。
這種“遞歸智能”的跡象讓整個行業開始重新審視一個被忽略已久的問題,遞歸能力,正在成為下一代LLM的真正戰場。
過去一年,大模型的上下文窗口從 32K、128K,一路飆升到 200K、1M,甚至出現了號稱“無限上下文”的模型。但窗口變大并不意味著模型真的能理解這些內容。越來越多的證據顯示,模型在面對超長輸入時會出現一種被稱為“上下文腐爛”(context rot)的現象,輸入越長,模型越迷糊,越容易忘記前面的信息,越難保持推理鏈條的穩定性。
這不是算力問題,也不是訓練規模問題,而是 Transformer 架構本身的結構性限制。注意力機制在百萬級 token 面前會迅速稀釋,模型的有效注意力范圍遠小于它的物理窗口。換句話說,你給它一本百萬字的書,它最多只能認真讀前幾章。
于是業界開始嘗試各種補丁式方案, 有人用長上下文訓練硬撐; 有人用壓縮、摘要、滑動窗口來“擠”信息; 有人用檢索增強(RAG)來“查字典式”訪問內容。
但這些方法都有一個共同的問題,它們假設模型是被動的。模型只能等著人類把信息整理好、切好、喂好。
而真正的智能,不應該是這樣的。
麻省理工學院的計算機科學與人工智能實驗室MIT CSAIL 的 Alex L. Zhang、Tim Kraska 和 Omar Khattab提出了一個顛覆性的想法,為什么不讓模型自己去讀?自己去查?自己去切片?自己去調用自己?
于是,Recursive Language Models(遞歸語言模型RLM)誕生了。
RLM 的核心洞察非常簡單,卻極具革命性,把上下文從“輸入”變成“環境”。
模型不再被動接收一長串 token,而是像程序一樣,在一個 REPL 環境中把整段上下文當作變量,隨時可以查看、切片、搜索、過濾、遞歸調用自己。 它不再是“被喂信息”,而是“主動探索信息”。
這就像從“給你一本書,你讀吧” 變成了 “給你一個圖書館,你自己查、自己拆、自己總結、自己調用助手”。
這不僅繞開了 Transformer 的上下文限制,更讓模型第一次擁有了“程序化訪問世界”的能力。
麻省理工學院的計算機科學與人工智能實驗室 (MIT CSAIL) 是由 MIT 的 AI Lab 與 LCS(計算機科學實驗室)在 2003 年合并而成。它是全球計算機科學、人工智能、機器人學、系統與理論研究的核心力量之一。Kraska 是數據庫系統與 ML 系統領域的頂尖人物, Khattab 是 RAG、DSPy、ColBERT 等推理系統的核心作者,Zhang 則是系統實現與推理框架的主力研究者。
他們把系統工程、檢索推理、程序化智能三條線合在一起,造出了一個真正意義上的“遞歸智能框架”。
01研究背景:長上下文任務的真實挑戰
如果說 RLM 是一種“新范式”,那它要解決的問題其實非常樸素,現代LLM在長上下文任務上表現得遠比我們想象的糟糕。
當上下文長度從 10K、50K、100K 一路擴展到百萬級,模型的性能不是線性下降,而是斷崖式崩塌。研究中引用了 GPT?5 的實驗結果,在百萬級上下文下,模型幾乎無法維持任何有效推理,甚至連簡單的needle-in-a-haystack 都會出現錯誤。
![]()
圖1:GPT-5和相應的RLM在三個復雜度不斷增加的長上下文任務上的比較:S-NIAH、OOLONG和OOLONG對。對于每個任務,我們將輸入長度從2.13縮放到2.18。GPT-5的性能隨著輸入長度和任務復雜度的增加而顯著下降,而RLM則保持了很強的性能。超出紅色區域的輸入不適合GPT-5的272K令牌上下文窗口,但RLM有效地處理了它們。
更糟糕的是,任務復雜度與上下文長度之間存在雙重耦合。 不是所有任務都一樣,有些任務對上下文的依賴是指數級的。
研究團隊將任務分成三類。
第一類是常數復雜度任務,比如 S?NIAH。 無論上下文多長,你只需要找到一個 needle。 模型只要能掃描到關鍵片段,任務就能完成。
第二類是線性復雜度任務,比如 OOLONG。 每一行都可能影響最終答案,信息密度高,模型必須“讀完整本書”。
第三類是二次復雜度任務,比如 OOLONG?Pairs。 不僅要讀完整本書,還要對每一對條目進行組合推理。 信息量呈平方級增長,模型幾乎必然崩潰。
這些任務共同揭示了一個殘酷事實,模型不是不能處理長上下文,而是不能結構化地訪問長上下文。
Transformer 的注意力機制本質上是一種“全局廣播式”機制,它沒有指針、沒有索引、沒有隨機訪問能力。 面對百萬級 token,它就像一個只能從頭讀到尾的讀者,既不能跳頁,也不能查目錄,更不能做筆記。
這就是為什么“更大的窗口”不是答案。 你可以把窗口擴到 10M,但模型依然無法有效利用它。
真正的突破必須來自一種新的思維方式, 讓模型像程序一樣訪問上下文,而不是像讀者一樣被動閱讀。
這正是 RLM 的起點。
02遞歸語言模型方法論
RLM到底是怎么做到的?
為什么它能讓 GPT?5 在百萬級上下文里依然保持清醒?為什么它能讓 Qwen3?Coder 在 OOLONG-Pairs 這種信息密度爆炸的任務里不至于直接昏厥?為什么它能把“長上下文”這個行業公認的死結,拆成一個個可控的小問題?
答案藏在一個看似樸素、但極具顛覆性的范式里,LLM × REPL ×遞歸。
RLM的基本范式,LLM × REPL ×遞歸
傳統 LLM 的工作方式很簡單,你把一大串 token 塞進去,它在一次前向推理里給你一個答案。 但當上下文長度突破幾十萬、幾百萬時,這種方式就像讓一個人一次性讀完《戰爭與和平》再回答問題——不崩潰才怪。
RLM 的做法完全不同。
它把整個長上下文加載進一個 Python REPL 環境,作為一個變量,比如 context。 模型不再直接“吃掉”這些 token,而是像一個程序員一樣,寫代碼去訪問它們。
這意味著模型第一次擁有了“工具”。 它可以:
查看局部片段:print(context[:500])
搜索關鍵詞:re.findall("festival", context)
按章節切分:part1, part2 = context.split("Chapter 2")
構造子任務:sub_answer = llm_query(f"請總結{part1}")
甚至遞歸調用自身:result = rlm_query(sub_prompt)
這就像給模型裝上了“手”和“眼睛”。 它不再是一個被動的語言生成器,而是一個能主動探索、主動拆解、主動規劃的智能體。
研究里的示例非常形象, 模型會先打印前 100 行看看結構,再決定怎么切片; 會用關鍵詞過濾出可能相關的段落; 會把任務拆成多個子問題,再遞歸調用自己去解決。
這不是 prompt engineering,這是program engineering。
![]()
圖2:遞歸語言模型(RLM)將提示視為環境的一部分。它將輸入提示符作為變量加載到Python REPL環境E中,并編寫代碼,在變量的編程片段上遞歸地窺視、分解和調用自己。
程序化上下文訪問,從“序列輸入”到“隨機訪問”
Transformer 的最大弱點之一,就是它只能“順序讀”。 即使注意力機制允許它“看全局”,但在百萬級 token 面前,這種注意力會迅速稀釋,位置編碼也會失效,導致模型根本無法保持對遠距離信息的敏感度。
RLM 直接繞開了這個結構性限制。
它讓模型通過 Python 代碼實現真正意義上的“隨機訪問”,
想看第 200 萬個字符?context[2000000:2000100]
想找所有包含 “La Union” 的段落?re.finditer("La Union", context)
想把 1000 行文本按行切開?lines = context.split("\n")
這就像從“只能從頭翻到尾的紙質書”,變成了“可以任意跳轉的電子書”。 模型不再受限于注意力機制,而是擁有了一個真正的“外部記憶系統”。
更重要的是,這種程序化訪問讓模型具備了“工具化推理”的能力。 它可以,
用代碼過濾噪聲 用代碼定位關鍵段落 用代碼構建結構化數據 用代碼把任務拆成可控的小塊
這讓模型第一次擁有了“操作上下文”的能力,而不是“被上下文淹沒”。
遞歸子調用,構建可擴展的推理樹
RLM 的第三個關鍵,是遞歸。
當模型把上下文切成小片段后,它不會試圖自己在 REPL 里完成所有推理,而是會把這些片段重新包裝成子任務,再調用一個“子模型”去處理。
這個子模型可以是同一個 LLM 的小版本,比如 GPT?5-mini,也可以是同一個模型的另一次調用。
每個子調用只處理一個小片段,確保不會超過模型的上下文窗口。
這就像把一本百萬字的書拆成幾十章、幾百節、幾千段,讓多個“自己”并行處理,再把結果匯總。
遞歸結構讓模型能夠處理,
高信息密度任務 比如 OOLONG,每一行都要處理。
長鏈條推理 比如多跳問答、復雜邏輯推理。
大規模聚合任務 比如 OOLONG-Pairs,需要處理所有 pair 的組合。
最終,模型會把所有子結果存進變量,再通過代碼拼接成一個超長輸出。 這讓 RLM 能突破 LLM 的輸出長度限制,生成遠超模型最大輸出 token 的內容。
這不是簡單的“分塊處理”,而是一棵真正的“推理樹”。 模型在樹的每個節點上做決策、做過濾、做推理,最終在根節點上匯總答案。
這就是 RLM 的力量所在,它讓LLM從一次性推理,變成了多步、可控、可擴展的遞歸推理系統。
03實驗設計:任務、模型與對照基線
MIT 團隊沒有選擇那些“模型隨便猜也能過”的輕量任務,而是直接把 RLM 扔進了長上下文推理的修羅場,用最殘酷的方式驗證它到底是不是下一代智能框架的雛形。
實驗使用了兩類當下最具代表性的前沿模型, 一類是 OpenAI 的 GPT?5 系列,代表閉源商業模型的巔峰; 另一類是 Qwen3?Coder?480B,代表開源陣營的旗艦級推理模型。
![]()
表1:不同復雜度的長上下文基準測試中不同方法的性能比較。灰色為API平均成本±每項任務中每種方法的標準偏差。 ?指示方法遇到輸入上下文限制的運行。
這兩者的組合,讓實驗既有“頂級能力上限”的參考,也有“開源可復現性”的對照。
為了全面覆蓋不同信息密度、不同推理結構、不同規模的任務,研究選用了五大類 benchmark,從簡單到復雜,從線性到二次,從檢索到聚合,幾乎把長上下文推理的所有難點都囊括進來。
S?NIAH 測試模型在海量噪聲中找 needle 的能力 BrowseComp+ 測試模型在百萬級文檔中進行多跳推理 OOLONG 測試模型對每一行都必須處理的線性復雜度任務 OOLONG?Pairs 測試模型對所有 pair 組合進行推理的二次復雜度任務 CodeQA 測試模型對大型代碼庫進行跨文件理解
這五類任務構成了一個“長上下文地獄難度矩陣”,任何一個環節崩掉,模型的真實能力都會原形畢露。
為了讓對比更公平,團隊設置了四類對照方法。
Base LLM,最樸素的直接輸入方式,看看模型在原生上下文窗口內能走多遠。 Summary agent,行業常用的壓縮式長上下文方案,代表“摘要派”的極限。 CodeAct,代碼代理 +檢索的組合拳,代表“工具派”的最強 baseline。 RLM(含無子調用版本),分別測試“REPL + 程序化訪問”與“REPL + 遞歸推理”的差異。
評估維度也非常全面,既看準確率,也看成本,既看可擴展性,也看長上下文退化速度。 換句話說,這不是一場“模型比拼”,而是一場“推理范式的生死對決”。
04實驗結果:RLM 的能力躍遷
當實驗結果擺在眼前時,你幾乎能感受到一種“范式切換正在發生”的震動感。RLM 的表現不僅僅是“比 baseline 好一點”,而是呈現出一種跨越式的能力躍遷。
研究團隊將結果總結為四個關鍵觀察,每一個都足以讓人重新思考 LLM 的未來。
![]()
圖3:在API總成本的第25、第50、第75和第95百分位繪制的RLM成本和§2.2中描述的基線。我們觀察到,在第50百分位,RLM的成本相當甚至更低,但由于潛在的長RLM軌跡,尾端的成本急劇增加。
觀察一:RLM 在 10M+ token 任務上全面勝出
BrowseComp+ 是整個實驗中最殘酷的任務之一。 輸入規模高達 6–11M tokens,遠遠超過任何模型的物理上下文窗口。
在這種規模下,Base LLM 直接罷工; Summary agent 雖然能跑,但性能慘不忍睹; CodeAct 依靠檢索勉強維持,但仍然力不從心。
而 RLM 的表現堪稱“降維打擊”。
RLM(GPT?5) 的準確率達到 91.33%, 不僅遠超所有 baseline, 甚至比直接讓 GPT?5-mini 吃掉全部輸入還便宜。
這意味著什么? 意味著 RLM 不僅能處理超長上下文, 還能以更低成本、更高質量完成任務。
這是第一次有方法在百萬級上下文任務上實現“性能 + 成本”雙重優勢。
觀察二:REPL 是基礎,遞歸子調用是關鍵
研究的 ablation 實驗非常精彩。
當 RLM 禁用遞歸子調用,只保留 REPL + 程序化訪問時,它依然能突破上下文限制,依然能在長上下文任務上擊敗 Base LLM 和 Summary agent。
但當任務信息密度上升,比如 OOLONG 或 OOLONG?Pairs, 無子調用版本的性能會下降 10–59%。
這說明,
REPL 讓模型能“讀上下文”, 遞歸子調用讓模型能“理解上下文”。
尤其在 OOLONG?Pairs 這種二次復雜度任務中, 沒有遞歸子調用,模型幾乎無法完成語義聚合。
換句話說,RLM 的靈魂不是 REPL, 而是“程序化訪問 + 遞歸推理”的組合。
觀察三:RLM 的性能隨任務復雜度更穩定
研究中最震撼的圖之一,是 GPT?5 與 RLM 在不同上下文長度下的性能曲線。
GPT?5 的表現像是“高空墜落”, 上下文越長,性能越快崩塌, 尤其在 OOLONG 和 OOLONG?Pairs 中,退化速度幾乎呈指數級。
而 RLM 的曲線則像是“緩坡下降”, 性能會下降,但速度極慢, 在 21? tokens(約 16K)以上全面反超 GPT?5。
這說明 RLM 不僅能處理長上下文, 還能抵抗“上下文腐爛”的結構性問題。
這不是模型能力的提升, 而是推理范式的升級。
觀察四:成本可控但方差大
RLM 的成本表現非常有意思。
在中位數上,它比 Summary agent 更便宜, 比 Base LLM 更穩定, 比 CodeAct 更高效。
但在尾部,成本會突然飆升。 原因很簡單, RLM 的推理鏈條是“自主的”。 模型會根據任務難度決定是否繼續遞歸、是否繼續驗證、是否繼續探索。
這導致成本呈現出一種“智能體式”的方差, 簡單任務快速結束, 復雜任務會進入深度遞歸。
這不是缺點,而是一個信號, RLM 已經開始表現出“策略多樣性”與“自主推理路徑”的特征。
換句話說, 它不像一個模型, 更像一個“會自己規劃的智能體”。
05遞歸語言模型的涌現行為
我們正在觀察一種新型智能的行為模式——它不是被訓練出來的,而是在系統結構允許的前提下,自發涌現的。
MIT 團隊在大量實驗軌跡中發現,RLM 在 REPL 環境里表現出的行為,已經遠遠超出了“執行指令”的范疇,更像是一種“主動的信息管理策略”。 它會探測、會過濾、會規劃、會驗證、會遞歸,甚至會構建超長輸出。 這不是傳統 LLM的行為方式,而是一種更接近“智能體”的推理風格。
![]()
圖4:RLM在解決任務時的軌跡有共同的模式。(a)我們經常觀察到RLM通過類似代碼的正則表達式查詢過濾和與上下文交互。(b)我們發現RLM可以通過遞歸子調用有效地分解其上下文(c)在長輸出任務上,RLM能夠使用遞歸子LM調用解決子問題,并將其輸出拼接成最終輸出。
以下四種涌現行為,是研究中最令人震撼的觀察。
基于先驗的上下文過濾,模型開始“自己找重點”
當 RLM 面對百萬級上下文時,它不會盲目地從頭讀到尾,而是會像一個經驗豐富的研究員一樣,先“探探路”。
它會打印前幾百行,看看文本結構; 會用 regex 搜索關鍵詞,快速定位可能相關的段落; 會根據任務類型選擇不同的過濾策略。
例如在 OOLONG 的任務中,模型會自動搜索諸如 “festival”“La Union” 這樣的關鍵詞,然后把命中的上下文片段打印出來,觀察語義結構,再決定下一步怎么切片。
這是一種非常典型的“基于先驗的啟發式搜索”。 模型不是被動地等待輸入,而是在主動構建自己的“上下文地圖”。
這意味著 RLM 已經具備了某種“信息嗅覺”。
遞歸式語義轉換,模型開始“自己拆任務”
在處理信息密度極高的任務時,RLM 會自動把任務拆成更小的語義單元,再遞歸調用子模型進行處理。
更有趣的是,不同模型展現出了不同的“性格”。
Qwen3?Coder 的風格更像“逐行工匠”, 它會把每一行都丟給子模型處理,形成一種“細粒度遞歸”。
GPT?5 的風格則更像“整體規劃者”, 它會先批量處理,再在必要時進行局部遞歸。
這種差異不是人為設計的,而是模型在 RLM 框架下自然形成的策略偏好。 這說明遞歸推理不僅是結構性的,更是“模型個性化”的。
程序化驗證答案,模型開始“自己檢查作業”
RLM 的另一個驚人之處,是它會主動驗證自己的答案。
它會用子模型驗證,用代碼驗證,用多輪自檢驗證,有些軌跡中,模型甚至會重復驗證五次以上,直到它確信答案正確為止。
這種行為非常接近人類的“元認知”—— 不是簡單地生成答案,而是對答案進行反思、校驗、修正。
這也是為什么 RLM 在高復雜度任務中表現遠超 Base LLM, 它不是一次性推理,而是多輪迭代式推理。
構建超長輸出,模型開始“自己拼答案”
傳統 LLM 的輸出長度受限于最大生成 token 數。 但 RLM 通過 REPL 環境中的變量,可以構建幾乎無限長的輸出。
在 OOLONG?Pairs 中,模型會把每個子任務的結果存入變量,再通過 Python 拼接成一個超長列表,最終返回給用戶。
這意味著 RLM 不僅突破了輸入長度限制,也突破了輸出長度限制。
模型第一次擁有了“構建結構化長輸出”的能力。
06遞歸語言模型的意義:從長上下文到“遞歸智能”
看到這里,你可能已經意識到, RLM 不是一個“長上下文技巧”,也不是一個“工程優化方案”。 它更像是一種推理范式的轉變。
它讓模型第一次具備了外部記憶、程序化推理、遞歸結構、自主任務分解。
這些能力組合在一起,構成了一種非常接近“遞歸智能(Recursive Intelligence)”的雛形。
這與最近硅谷三家實驗室報告的“模型出現未經編程的能力”高度契合。 當模型能夠主動訪問上下文、主動拆解任務、主動驗證答案、主動構建輸出時,它已經不再是一個“語言模型”,而是一個“具備工具鏈的推理系統”。
RLM 的出現,讓我們第一次看到一種可能性,智能不是來自更大的模型,而是來自更好的結構。
這也解釋了為什么越來越多的研究者認為,AGI 的突破點可能不是參數規模,而是“遞歸 × 工具 × 外部記憶”的組合。
RLM 正是這種組合的第一個系統級實現。
它讓模型從“被動回答”變成“主動思考”。 讓模型從“一次性推理”變成“多步遞歸推理”。 讓模型從“吃上下文”變成“讀上下文”。 讓模型從“語言生成器”變成“任務執行者”。
這不僅是長上下文的突破, 更是智能形態的突破。
如果未來真的出現 AGI, 遞歸語言模型很可能會被寫進那段歷史的開篇。(END)
參考資料:https://arxiv.org/abs/2512.24601
![]()
關于波動智能——
波動智能旨在建立一個基于人類意圖與反應的真實需求洞察及滿足的價值體系,融合人工智能與意識科學,構建覆蓋情緒識別、建模與推薦的智能引擎,自主研發面向社交、電商等場景的多模態意圖識別引擎、意圖標簽系統及意圖智能推薦算法,形成從情緒采集、意圖建模到商業轉化的完整解決方案。波動智能提出“意圖是連接人、物與內容的新型接口”,其產品廣泛應用于AI社交、個性化內容推薦、虛擬陪伴、電商體驗優化等領域。波動智能正在探索“EMO-as-a-Service”技術服務架構,賦能企業實現更高效的用戶洞察與精準情緒交互,推動從功能驅動到意圖驅動的產業范式升級。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.