聞樂 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
讓大模型輕松處理比自身上下文窗口長(zhǎng)兩個(gè)數(shù)量級(jí)的超長(zhǎng)文本!
MIT CSAIL研究團(tuán)隊(duì)提出了一種叫做遞歸語言模型RLM的長(zhǎng)文本處理新方法,來解決上下文腐爛問題。
不修改模型架構(gòu)、不升級(jí)模塊設(shè)計(jì),但能讓GPT-5、Qwen-3這類頂尖模型推理層具備千萬級(jí)token的超長(zhǎng)文本處理能力。
![]()
核心思路是不把提示詞直接塞進(jìn)大模型的上下文窗口,而把它“外包”給可交互的Python環(huán)境,讓模型主動(dòng)通過自動(dòng)編程和遞歸調(diào)用拆解任務(wù)、按需處理。
啊?大模型讀上下文也能遞歸操作?
上下文窗口不夠,仍能推理
先說上下文腐爛這個(gè)扎心的問題。
不管大模型宣稱自己的上下文窗口有多大,它們處理超長(zhǎng)文本時(shí),都會(huì)遇到文本越長(zhǎng),模型對(duì)早期信息的記憶越模糊,推理性能直線下滑的問題。
這就像我們讀百萬字小說,讀到后半段,早就忘了前半段的關(guān)鍵情節(jié)。
![]()
現(xiàn)在主流的解決辦法有上下文壓縮、檢索增強(qiáng)生成RAG,或者對(duì)模型進(jìn)行架構(gòu)級(jí)優(yōu)化
比如,GPT-5.2-Codex采用的就是窗口內(nèi)的原生上下文壓縮技術(shù),在持續(xù)數(shù)周的大型代碼倉庫協(xié)助任務(wù)中保持全上下文信息。
同時(shí),GPT系列、Claude、Qwen等企業(yè)級(jí)版本原生集成RAG功能也是行業(yè)共識(shí)。
而架構(gòu)級(jí)優(yōu)化的例子,有社區(qū)普遍猜測(cè)的Gemini 3的環(huán)形注意力等。
現(xiàn)在的RLM和這些直接在模型上“硬磕”的方法不同,它把上下文處理給“外包”了
![]()
RLM給模型搭了一個(gè)可交互的Python編程環(huán)境REPL
開始處理上下文前,它先啟動(dòng)Python REPL交互式編程環(huán)境,將超長(zhǎng)提示詞作為字符串變量存入環(huán)境;
接著模型像程序員一樣編寫代碼,對(duì)文本變量進(jìn)行關(guān)鍵詞篩選、局部探查、邏輯拆分等操作,通過「編寫代碼-觀察結(jié)果」的交互循環(huán)減少無效信息攝入;
隨后模型將復(fù)雜任務(wù)拆解為若干子任務(wù),遞歸調(diào)用自身或輕量化子模型處理拆分后的文本片段,所有子任務(wù)輸出均存儲(chǔ)為新變量回流到REPL環(huán)境;
最后主模型編寫代碼讀取并整合所有子任務(wù)結(jié)果變量,進(jìn)行邏輯拼接或語義處理,形成最終輸出。
全程由模型自主決策,實(shí)現(xiàn)按需處理,徹底解耦輸入文本長(zhǎng)度與模型上下文窗口的綁定。
![]()
實(shí)驗(yàn)顯示,RLM有效處理規(guī)模已突破千萬級(jí)Token,超過GPT-5等前沿模型原生上下文窗口的兩個(gè)數(shù)量級(jí)。
在復(fù)雜長(zhǎng)文本任務(wù)中,RLM的優(yōu)勢(shì)也比較顯著。面對(duì)要求聚合成對(duì)信息、復(fù)雜度呈二次方增長(zhǎng)的OOLONG-Pairs任務(wù),基礎(chǔ)GPT-5和Qwen3-Coder的 F1分?jǐn)?shù)不足0.1%;
采用RLM方案后,兩款模型分別取得58.00%和23.11%的F1分?jǐn)?shù)。
在600萬至1100萬Token規(guī)模的BrowseComp-Plus(1K)多文檔推理任務(wù)中,RLM(GPT-5)的正確率高達(dá)91.33%,大幅超越其他長(zhǎng)文本處理方案;
即便在要求線性掃描并處理幾乎所有信息的OOLONG任務(wù)中,RLM也實(shí)現(xiàn)了雙位數(shù)的性能提升。
![]()
從調(diào)用成本上看,在50分位數(shù)這個(gè)指標(biāo)上,RLM的成本和其他長(zhǎng)文本處理方案處于同一水平,甚至更低。
這說明在大多數(shù)常規(guī)任務(wù)場(chǎng)景中,RLM的性價(jià)比是很有優(yōu)勢(shì)的。
但到了95分位數(shù)這類高百分位區(qū)間時(shí),RLM的成本會(huì)出現(xiàn)明顯飆升。
主要是因?yàn)镽LM的推理過程是動(dòng)態(tài)的,會(huì)根據(jù)任務(wù)復(fù)雜度自主決定代碼編寫、文本拆分和遞歸調(diào)用的次數(shù),額外的步驟會(huì)增加API調(diào)用次數(shù)。
![]()
最后再劃個(gè)小重點(diǎn),RLM是一種不碰模型架構(gòu)的通用推理策略,也就是說,理論上任何模型都能直接上車。
論文地址:https://arxiv.org/abs/2512.24601
參考鏈接:https://x.com/MatthewBerman/status/2012701592756383893
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.