網易首頁 > 網易號 > 正文申請入駐

Meta AI 推理新論文：模型記住套路，推理 token 砍半

2025-10-14 18:48:23　來源: 大數據文摘

北京舉報

分享至

大數據文摘出品

Meta 又一次在 AI 推理上“開了掛”。

一份新論文顯示，Meta 的研究團隊找到一種讓大模型“用更少思維，想得更清楚”的辦法。

這篇論文名為《Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors》，發表于2025 年 9 月 17 日，來自Meta 團隊與普林斯頓大學、蒙特利爾大學聯合研究。

作者包括Aniket Didolkar、Nicolas Ballas、Anirudh Goyal 與 Sanjeev Arora。

論文地址： https://arxiv.org/abs/2509.13237

論文提出一個新機制，讓大語言模型（LLM）能在每次推理后，總結自己重復用到的步驟，并把它們存為簡短指令，稱為“行為（Behavior）”。

下一次遇到類似問題，模型不再重復推，而是直接調用這些“行為”。

效果驚人。

在數學推理任務上，Meta 團隊實測：模型在準確率不下降的前提下，推理所需的 token 數量最多減少 46%。

也就是說，同樣一道題，模型少想一半，卻答得一樣準。

研究團隊稱，這讓模型“學會記得自己怎么思考”，相當于給 LLM 裝上了“思維緩存”。

思維有手冊：AI的“行為記憶術”

“行為復用”（Metacognitive Reuse）框架

Meta 把這個機制叫做“行為手冊（Behavior Handbook）”。

當模型解決問題時，它會記錄下自己的整個推理過程。

然后再回頭反思，分析哪些步驟是常見套路，比如“容斥原理”“有理化分母”“代入后先化簡”。

模型會為這些套路起名、寫說明，變成一條條“行為指令”。

這些指令被收進一本不斷擴充的手冊里。

論文把這種機制稱為“元認知路徑（Metacognitive Pathway）”，意思是模型在“思考自己的思考”。

舉個例子：當模型遇到一道擲骰子概率題，它可能調用behavior_total_outcomes（計算所有可能結果）和behavior_inclusion_exclusion（用容斥原理避免重復計數）。

調用完就不再多說廢話，答案照出。

所以，每個行為是一段壓縮的思維過程。它把原本要幾十步才能重建的推導，濃縮成一句話。

論文展示了多個實驗結果。在MATH數據集上，行為調節推理（Behavior-conditioned Inference）讓模型的推理token平均減少近一半；在AIME–24/25高難數學題上，模型在低預算（2048–8192 tokens）下仍保持穩定精度。

自我復盤，像人一樣“省思考”

長期以來，大模型被詬病“啰嗦”：每解一道題，都要展開冗長的 chain-of-thought，把所有中間步驟重新鋪一遍。

這不僅浪費 token，也拉低了模型吞吐量。Meta 讓模型自己反思，自己提煉，自己精簡。

行為提取提示設計

論文設計了三種模式：

第一種，是“行為調節推理”（Behavior-conditioned Inference）。模型從手冊里調出相關行為提示，帶著它們去解題。
結果：少寫46%的token，準確率不降反升。

第二種，是“行為引導自我改進”（Behavior-guided Self-improvement）。模型用自己總結的行為來指導下次推理。
結果：正確率比普通“自我批改”提升10%。

第三種，是“行為調節監督微調”（Behavior-conditioned SFT）。Meta 研究者用帶有行為提示的推理數據去訓練學生模型。
結果：學生模型學會推理，比傳統微調版本更聰明、更高效。

實驗中，Meta 使用了R1-Llama-70B作為“元認知策略師”，并測試了Qwen3-32B、Llama-3.1-8B 等多個學生模型。

幾乎所有模型都出現了相同現象：推理token直線下滑，性能保持平穩。

研究者把這一現象形容為：“模型從慢推導變成快反應。”它不再每次都重寫思維，而是像人一樣，學會了用經驗來省思考。

注：頭圖AI生成

作者長期關注 AI 產業與學術，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業動態與技術趨勢！

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

近日，青海。車主自駕青海遇男子招手搭車，男子去快遞站給孩子們取過冬物資，車主好心送男子去學校，車主：

中安在線 2026-02-18 22:00:26
122 跟貼 122
內蒙古草原名場面！狼偷不著羊，就跟藏獒貼貼，網友：前狼假寐，蓋以誘敵

BRTV新聞 2026-02-19 07:15:56
148 跟貼 148

媒體：馬克龍真魔怔了在印度還暗戳戳提中國

澎湃新聞 2026-02-18 22:58:24
1733 跟貼 1733

匈牙利、斯洛伐克宣布暫停向烏克蘭出口柴油

財聯社 2026-02-18 23:58:05
2378 跟貼 2378
反向過年新潮流：老外扎堆來中國，單日飛三亞外國游客大增3倍

每日經濟新聞 2026-02-15 11:30:33
2641 跟貼 2641

印度一大學拿中國機器狗冒充自研

環球時報 2026-02-18 16:09:05
2162 跟貼 2162

“爸媽來后冰箱都變老了！”網友：原來全國都這樣

都市快報橙柿互動 2026-02-18 00:22:49
814 跟貼 814
大年初三不拜年？這些老規矩，你可要注意！

大象新聞 2026-02-19 06:12:09
241 跟貼 241

深圳花市現“反向拍賣”，蝴蝶蘭從250元喊到120元成交，店家：最便宜的時候不要錢，但要靠搶

極目新聞 2026-02-18 18:29:21
211 跟貼 211
上海市人民政府關于同意《上海崇明江南造船（集團）有限責任公司“9·4”較大中毒和窒息事故調查報告》的批復

上海市人民政府網站 2026-02-19 09:36:00
0 跟貼 0
日韓股市集體高開日經225指數漲0.57%

證券時報 2026-02-19 08:31:03
718 跟貼 718
媒體：從防守向進攻轉變日本海上自衛隊加速推進轉型

澎湃新聞 2026-02-19 14:25:23
10 跟貼 10
沒能贏得一塊金牌劉少昂：只要國家需要愿再戰四年

澎湃新聞 2026-02-19 10:06:27
2 跟貼 2
安徽一6歲女孩給5歲“小叔”拜年，男孩大方給100元壓歲錢，媽媽：女孩一磕頭，我兒子一激動，就把全部錢給她了

大象新聞 2026-02-19 15:44:27
1 跟貼 1
中國1月Swift人民幣在全球支付中占比3.13%

每日經濟新聞 2026-02-19 09:12:45
34 跟貼 34
《自然》發表中國研究成果：修復大腦里一個“錯字” 孤獨癥小鼠恢復了正常

上觀新聞 2026-02-19 06:30:08
90 跟貼 90
拿出刪帖封號的勁頭，管理煙花爆竹

薇微笑語 2026-02-19 17:52:23
2 跟貼 2
奶茶間諜，一擊必殺？

華商天下 2026-02-19 18:05:19
0 跟貼 0
中國游客稱因道路積雪被困俄羅斯“極光村” 超40小時，俄媒：滯留游客都已離開

上游新聞 2026-02-17 20:22:05
0 跟貼 0
評論區有人稱一家四口虧了4000元

上觀新聞 2026-02-19 13:01:26
0 跟貼 0

手機 / 數碼

房產 / 家居

Meta AI 推理新論文：模型記住套路，推理 token 砍半

怒燒45億，騰訊字節阿里決戰春節

媒體：高市2.0 日本政局發生了意料之中的變動

媒體：高市2.0 日本政局發生了意料之中的變動

中國隊第二金！徐夢桃贏女子空中技巧兩連冠 邵琪銅牌

明星過年百態！黃曉明等現身三亞

面條火腿香菇醬！上市公司這些年請你吃

量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

態度原創

《巫師》劇情設計師：初代結局受到了公司高層干預

頂豪搶房潮席卷全國！ 中旅馥棠公館項目395㎡大平層加推入市！

過年期間這幾樣東西，一口都不要給孩子吃！

本真棲居 愛暖伴流年

金正恩出席火箭炮贈送儀式 強調確保朝鮮安全環境

中國隊第二金！徐夢桃贏女子空中技巧兩連冠邵琪銅牌

量產甲醇插混吉利銀河星耀6甲醇插混版申報圖

頂豪搶房潮席卷全國！中旅馥棠公館項目395㎡大平層加推入市！

本真棲居愛暖伴流年

金正恩出席火箭炮贈送儀式強調確保朝鮮安全環境