<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      MIT團隊推出遞歸語言模型!不改架構,上下文處理能力擴展百倍

      0
      分享至

      新年伊始,MIT CSAIL 的一紙論文在學術圈引發了不小的討論。Alex L. Zhang 、 Tim Kraska 與 Omar Khattab 三位研究者在 arXiv 上發布了一篇題為《Recursive Language Models》的論文,提出了所謂“遞歸語言模型”(Recursive Language Models,簡稱 RLM)的推理策略。


      圖丨相關論文(來源:arXiv)

      早在 2025 年 10 月,Zhang 和他的導師 Omar Khattab 就在博客上公開了初步想法,引發了一些關注。如今這篇正式論文帶來了更系統的實驗和更扎實的數據,論證了通過讓語言模型把長文本當作“外部環境中的變量”來處理,可以讓模型有效處理超出其上下文窗口 2 個數量級的輸入。

      Zhang 在推文中寫道:“正如 2025 年是從語言模型到推理模型的轉換之年,我們認為 2026 年將是遞歸語言模型的時代?!彼€特別提到,RLM 是他們對推理時算力擴展(inference-time scaling)的“bitter lesson 式”解法,即與其精心設計復雜的人工規則,不如讓系統自己去學、去算。RLM 的設計哲學與此一脈相承,它不試圖從模型架構層面“修復”長文本處理的問題,而是提供一套通用的推理時框架,讓模型自己決定如何與超長輸入交互。

      過去兩年,幾乎所有主流大模型都在競相擴展上下文窗口。Gemini 把窗口拉到了百萬級別,GPT 系列持續加碼,Llama 更是喊出了千萬 token 的口號。表面上看,這是一場“誰更能裝”的軍備競賽。但問題在于,上下文窗口變大并不意味著模型就真的能把所有內容都“讀進去、記得住”。

      2025 年年中,向量數據庫公司 Chroma 發布了一份技術報告,正式為這種現象命名,“context rot”(上下文腐爛)。Chroma 的研究團隊測試了包括 GPT-4.1 、 Claude 4 、 Gemini 2.5 、 Qwen3 在內的 18 款主流模型,發現即便是在最簡單的“大海撈針”(Needle in a Haystack,NIAH)任務上,模型的準確率也會隨著輸入長度的增加而顯著下降。

      更值得注意的是,當任務本身變得復雜,比如需要語義推理而非簡單的字面匹配,性能下滑會來得更早、更陡峭。所謂百萬 token 的上下文窗口,實際有效利用的可能只有一小部分。


      (來源:Chroma Research)

      針對長上下文的解決方案目前業界已經發展出幾種主流策略。最常見的是“上下文壓縮”(context condensation),也就是當上下文超出一定長度時,讓模型先對前面的內容做摘要,再繼續處理新內容。這種方法簡單直接,但摘要本身是有損的,早期出現的細節可能在壓縮過程中丟失。

      另一種流行方案是檢索增強生成(Retrieval-Augmented Generation,RAG),先把長文檔切塊存入向量數據庫,根據問題檢索相關片段再喂給模型。這避免了讓模型一次性吞下整篇長文,但效果高度依賴檢索質量,對于需要綜合全文信息的問題往往力不從心。

      還有一類是遞歸任務分解框架,允許模型把復雜任務拆解成子任務再遞歸調用。但這些方法的共同局限在于:它們要么損失信息,要么無法真正突破模型本身的上下文窗口限制。

      RLM 的核心思路在于換了一個角度來思考問題。與其絞盡腦汁讓 Transformer 直接消化長文本,不如把長文本“外包”到一個獨立的運行環境中,讓模型通過編程的方式按需訪問。具體來說,RLM 會啟動一個 Python 的 REPL(Read-Eval-Print Loop,讀取-求值-打印循環)環境,把用戶的長文本作為一個字符串變量存進去。

      然后模型不再直接閱讀全文,而是編寫代碼來“窺探”這個變量,打印一小段看看、用正則表達式搜索關鍵詞、按章節拆分等等。更關鍵的是,模型還可以在代碼里調用另一個語言模型來處理子任務,并把結果存回變量中。整個過程是迭代式的:模型執行一段代碼,觀察輸出,決定下一步怎么做,直到最終拼湊出答案。


      圖丨遞歸語言模型將提示視為環境的一部分(來源:arXiv)

      這種設計的靈感據稱來自“外存算法”(out-of-core algorithms)。在傳統計算機科學中,當數據量超出內存容量時,系統會把數據存在硬盤上,通過精心設計的調度策略來回讀取需要的部分。RLM 本質上是在給語言模型搭建一個類似的“內存管理層”。對外部用戶而言,RLM 的接口與普通語言模型完全一樣:輸入一個字符串,輸出一個字符串。但內部的處理方式已經不同。

      論文中的實驗設計了 4 組不同復雜度的任務。S-NIAH 是最簡單的大海撈針任務,答案固定,不隨輸入長度變化。OOLONG 要求模型對輸入中的每一行進行語義分類并匯總,處理量與輸入長度成正比。OOLONG-Pairs 更極端,要求找出滿足特定條件的所有“用戶對”,處理復雜度與輸入長度的平方成正比。還有一組 BrowseComp-Plus,給模型 1,000 篇文檔(總計約 600-1,100 萬 token),要求回答需要跨文檔推理的問題。

      實驗結果顯示,裸跑 GPT-5 的表現隨著輸入長度和任務復雜度的增加而急劇下滑。在 OOLONG-Pairs 上,GPT-5 和 Qwen3-Coder 的 F1 分數都不到 0.1%。但套上 RLM 框架之后,GPT-5 的 F1 分數躍升至 58%,Qwen3-Coder 也達到了約 23%。

      在 BrowseComp-Plus 的千文檔場景下,RLM(GPT-5)取得了 91.33% 的準確率,而上下文壓縮方案只有約 70%,檢索工具代理是 51%。研究者還強調,RLM 的成本并不比直接調用基礎模型貴多少,在某些任務上甚至更便宜,因為模型可以選擇性地只查看需要的片段,而非一股腦把所有內容都送進 Transformer。


      (來源:arXiv)

      當然,任何新方法都有其適用邊界。論文坦承,當輸入較短、任務較簡單時,直接使用基礎模型可能比 RLM 更高效。畢竟 RLM 需要多次與環境交互,開銷不可忽視。當前實現使用同步的、阻塞式子模型調用,端到端延遲較高,研究者認為通過異步調用和并行化還有優化空間。

      此外,論文中的系統提示詞是固定的,并未針對不同任務調優。另一個值得關注的問題是,讓模型在 REPL 環境中自主編寫和執行代碼,在安全隔離和行為可預測性方面帶來了新的工程挑戰。

      論文作者在文末提到,未來可能會出現專門針對 RLM 范式進行訓練的模型,就像今天有專門針對推理任務訓練的模型一樣。他們認為 RLM 的軌跡本身可以被視為一種推理形式,理論上可以通過強化學習或蒸餾來優化。這個方向是否能走通,還需要更多后續工作來驗證。

      參考資料:

      1.https://arxiv.org/pdf/2512.24601

      2.https://research.trychroma.com/context-rot

      3.https://x.com/a1zhang/status/2007198916073136152

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      6天賠光90萬?蜜雪冰城也不掙錢?中年人的“老板夢”竟是騙局

      6天賠光90萬?蜜雪冰城也不掙錢?中年人的“老板夢”竟是騙局

      現代小青青慕慕
      2026-01-12 16:42:00
      丹麥首相:通過外交和政治途徑解決格陵蘭島問題

      丹麥首相:通過外交和政治途徑解決格陵蘭島問題

      財聯社
      2026-01-24 02:10:19
      閆學晶又迎噩耗,最擔心的事還是發生了,兒媳體制內工作恐難保

      閆學晶又迎噩耗,最擔心的事還是發生了,兒媳體制內工作恐難保

      離離言幾許
      2026-01-23 00:04:19
      瓜帥:對比賽感到滿意;格伊是水晶宮的隊長肯定有特別之處

      瓜帥:對比賽感到滿意;格伊是水晶宮的隊長肯定有特別之處

      懂球帝
      2026-01-25 01:51:15
      《紅樓夢》賈元春到底犯了什么錯?省親后就被太監用弓弦勒死了

      《紅樓夢》賈元春到底犯了什么錯?省親后就被太監用弓弦勒死了

      談史論天地
      2026-01-24 10:27:41
      咸魚還是太全面了,怪不得人稱國內黑市

      咸魚還是太全面了,怪不得人稱國內黑市

      另子維愛讀史
      2025-12-20 17:07:20
      章含之喬冠華相愛10年,去世前:不要和喬冠華葬在一起,女兒不解

      章含之喬冠華相愛10年,去世前:不要和喬冠華葬在一起,女兒不解

      輿圖看世界
      2026-01-25 06:35:03
      特朗普批準美國南卡羅來納州和弗吉尼亞州進入緊急狀態

      特朗普批準美國南卡羅來納州和弗吉尼亞州進入緊急狀態

      界面新聞
      2026-01-25 06:53:45
      國米戰阿森納馬競的短板引爆爭議 齊沃變革是不是真的愚蠢

      國米戰阿森納馬競的短板引爆爭議 齊沃變革是不是真的愚蠢

      國際足球冷雪
      2026-01-25 06:30:13
      記住這兩兄弟,他們犯了互聯網歷史上最大的錯誤!

      記住這兩兄弟,他們犯了互聯網歷史上最大的錯誤!

      碼農翻身
      2025-12-10 09:04:46
      中國老年癡呆人數全球第一:茶喝的越多,癡呆的就越多,真的嗎?

      中國老年癡呆人數全球第一:茶喝的越多,癡呆的就越多,真的嗎?

      蜉蝣說
      2026-01-22 11:57:36
      卡里克:上任后和索爾斯克亞聊過,他很支持我并祝我一切順利

      卡里克:上任后和索爾斯克亞聊過,他很支持我并祝我一切順利

      懂球帝
      2026-01-25 06:48:07
      5支球隊晉級季后賽!女排升降級名額明朗,津蘇兩隊主帥一言難盡

      5支球隊晉級季后賽!女排升降級名額明朗,津蘇兩隊主帥一言難盡

      排球黃金眼
      2026-01-25 00:56:58
      美國公布最新國防戰略,未提及臺灣

      美國公布最新國防戰略,未提及臺灣

      揚子晚報
      2026-01-24 12:13:39
      楊瀚森剛猛一節又垮!首節完美輔助,次節1分鐘被轟8-0,太被動了

      楊瀚森剛猛一節又垮!首節完美輔助,次節1分鐘被轟8-0,太被動了

      籃球資訊達人
      2026-01-24 12:19:13
      湖北荊州市原住房和城鄉建設局黨組副書記接受紀律審查和監察調查

      湖北荊州市原住房和城鄉建設局黨組副書記接受紀律審查和監察調查

      瀟湘晨報
      2026-01-24 16:48:12
      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      劉姚堯的文字城堡
      2026-01-24 14:43:42
      男單頒獎禮:亞軍弗朗西斯卡露出開心笑容,冠軍溫瑞博非常淡定

      男單頒獎禮:亞軍弗朗西斯卡露出開心笑容,冠軍溫瑞博非常淡定

      湘楚風云
      2026-01-25 03:36:52
      湖人消息:裁判報告公布,老詹離隊倒計時,戰獨行俠出場更新

      湖人消息:裁判報告公布,老詹離隊倒計時,戰獨行俠出場更新

      冷月小風風
      2026-01-24 10:40:01
      分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養不起娃

      分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養不起娃

      查爾菲的筆記
      2026-01-09 22:17:44
      2026-01-25 07:36:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16172文章數 514538關注度
      往期回顧 全部

      科技要聞

      黃仁勛現身上海菜市場

      頭條要聞

      媒體:馮德萊恩遭遇三連擊 她的麻煩才剛剛開始

      頭條要聞

      媒體:馮德萊恩遭遇三連擊 她的麻煩才剛剛開始

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      房產
      數碼
      本地
      家居
      公開課

      房產要聞

      正式官宣!三亞又一所名校要來了!

      數碼要聞

      UnifyDrive UC250/450 Pro家庭存儲NAS發布,配置與價格曝光

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      家居要聞

      在家度假 160平南洋混搭宅

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: jizzjizz亚洲| 91成人无码| 久久99日韩国产精品久久99| 在线播放国产一区二区三区 | 斗六市| 亚洲无线观看国产精品| 国产超碰在线| 亚洲第一视频网站| 久久精品国产99久久6| 中文字幕国产精品av| 少妇特黄a一区二区三区| 国产传媒av| 亚洲一区av无码专区在线观看| 亚洲激情偷拍| 自拍视频亚洲精品在线| 国产精品亚欧美一区二区三区| 中文字字幕乱码视频高清| 婷婷五月综合色视频| 朝阳区| 成人做爰69片免费看网站野花| 草草地址线路①屁屁影院成人| 日本爽爽爽爽爽爽在线观看免| 欧美老妇熟妇???亚洲日韩| 久久国产精品老人性| 久久人妻无码一区二区三区av| 人妻丰满av无码中文字幕| 毛片无遮挡高清免费| 国产不卡精品一区二区三区| 亚洲 欧美 综合 另类 中字| 亚洲熟女av中文字幕| 国产亚洲色婷婷久久99精品| yellow网站在线观看| 中文字幕无码人妻| 尤物一区| 国产成人三级三级三级97| 91乱子伦国产乱子伦| 成年女人免费毛片视频永久| 久久日韩在线观看视频| 蜜桃视频在线观看网站免费| 久热中文字幕在线| 日本午夜精品理论片a级app发布|