![]()
大數據文摘出品
Meta 又一次在 AI 推理上“開了掛”。
一份新論文顯示,Meta 的研究團隊找到一種讓大模型“用更少思維,想得更清楚”的辦法。
這篇論文名為《Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors》,發表于2025 年 9 月 17 日,來自Meta 團隊與普林斯頓大學、蒙特利爾大學聯合研究。
![]()
作者包括Aniket Didolkar、Nicolas Ballas、Anirudh Goyal 與 Sanjeev Arora。
論文地址: https://arxiv.org/abs/2509.13237
論文提出一個新機制,讓大語言模型(LLM)能在每次推理后,總結自己重復用到的步驟,并把它們存為簡短指令,稱為“行為(Behavior)”。
下一次遇到類似問題,模型不再重復推,而是直接調用這些“行為”。
效果驚人。
在數學推理任務上,Meta 團隊實測:模型在準確率不下降的前提下,推理所需的 token 數量最多減少 46%。
也就是說,同樣一道題,模型少想一半,卻答得一樣準。
研究團隊稱,這讓模型“學會記得自己怎么思考”,相當于給 LLM 裝上了“思維緩存”。
思維有手冊:AI的“行為記憶術”
![]()
“行為復用”(Metacognitive Reuse)框架
Meta 把這個機制叫做“行為手冊(Behavior Handbook)”。
當模型解決問題時,它會記錄下自己的整個推理過程。
然后再回頭反思,分析哪些步驟是常見套路,比如“容斥原理”“有理化分母”“代入后先化簡”。
模型會為這些套路起名、寫說明,變成一條條“行為指令”。
這些指令被收進一本不斷擴充的手冊里。
論文把這種機制稱為“元認知路徑(Metacognitive Pathway)”,意思是模型在“思考自己的思考”。
舉個例子:當模型遇到一道擲骰子概率題,它可能調用behavior_total_outcomes(計算所有可能結果)和behavior_inclusion_exclusion(用容斥原理避免重復計數)。
調用完就不再多說廢話,答案照出。
所以,每個行為是一段壓縮的思維過程。它把原本要幾十步才能重建的推導,濃縮成一句話。
論文展示了多個實驗結果。在MATH數據集上,行為調節推理(Behavior-conditioned Inference)讓模型的推理token平均減少近一半;在AIME–24/25高難數學題上,模型在低預算(2048–8192 tokens)下仍保持穩定精度。
自我復盤,像人一樣“省思考”
長期以來,大模型被詬病“啰嗦”:每解一道題,都要展開冗長的 chain-of-thought,把所有中間步驟重新鋪一遍。
這不僅浪費 token,也拉低了模型吞吐量。Meta 讓模型自己反思,自己提煉,自己精簡。
![]()
行為提取提示設計
論文設計了三種模式:
第一種,是“行為調節推理”(Behavior-conditioned Inference)。模型從手冊里調出相關行為提示,帶著它們去解題。
結果:少寫46%的token,準確率不降反升。
第二種,是“行為引導自我改進”(Behavior-guided Self-improvement)。模型用自己總結的行為來指導下次推理。
結果:正確率比普通“自我批改”提升10%。
第三種,是“行為調節監督微調”(Behavior-conditioned SFT)。Meta 研究者用帶有行為提示的推理數據去訓練學生模型。
結果:學生模型學會推理,比傳統微調版本更聰明、更高效。
實驗中,Meta 使用了R1-Llama-70B作為“元認知策略師”,并測試了Qwen3-32B、Llama-3.1-8B 等多個學生模型。
幾乎所有模型都出現了相同現象:推理token直線下滑,性能保持平穩。
研究者把這一現象形容為:“模型從慢推導變成快反應。”它不再每次都重寫思維,而是像人一樣,學會了用經驗來省思考。
注:頭圖AI生成
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
![]()
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.