<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Meta AI 推理新論文:模型記住套路,推理 token 砍半

      0
      分享至


      大數據文摘出品

      Meta 又一次在 AI 推理上“開了掛”。

      一份新論文顯示,Meta 的研究團隊找到一種讓大模型“用更少思維,想得更清楚”的辦法。

      這篇論文名為《Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors》,發表于2025 年 9 月 17 日,來自Meta 團隊與普林斯頓大學、蒙特利爾大學聯合研究。


      作者包括Aniket Didolkar、Nicolas Ballas、Anirudh Goyal 與 Sanjeev Arora

      論文地址: https://arxiv.org/abs/2509.13237

      論文提出一個新機制,讓大語言模型(LLM)能在每次推理后,總結自己重復用到的步驟,并把它們存為簡短指令,稱為“行為(Behavior)”。

      下一次遇到類似問題,模型不再重復推,而是直接調用這些“行為”

      效果驚人。

      在數學推理任務上,Meta 團隊實測:模型在準確率不下降的前提下,推理所需的 token 數量最多減少 46%

      也就是說,同樣一道題,模型少想一半,卻答得一樣準。

      研究團隊稱,這讓模型“學會記得自己怎么思考”,相當于給 LLM 裝上了“思維緩存”。

      思維有手冊:AI的“行為記憶術”


      “行為復用”(Metacognitive Reuse)框架

      Meta 把這個機制叫做“行為手冊(Behavior Handbook)”。

      當模型解決問題時,它會記錄下自己的整個推理過程。

      然后再回頭反思,分析哪些步驟是常見套路,比如“容斥原理”“有理化分母”“代入后先化簡”。

      模型會為這些套路起名、寫說明,變成一條條“行為指令”。

      這些指令被收進一本不斷擴充的手冊里。

      論文把這種機制稱為“元認知路徑(Metacognitive Pathway)”,意思是模型在“思考自己的思考”。

      舉個例子:當模型遇到一道擲骰子概率題,它可能調用behavior_total_outcomes(計算所有可能結果)和behavior_inclusion_exclusion(用容斥原理避免重復計數)。

      調用完就不再多說廢話,答案照出。

      所以,每個行為是一段壓縮的思維過程。它把原本要幾十步才能重建的推導,濃縮成一句話。

      論文展示了多個實驗結果。在MATH數據集上,行為調節推理(Behavior-conditioned Inference)讓模型的推理token平均減少近一半;在AIME–24/25高難數學題上,模型在低預算(2048–8192 tokens)下仍保持穩定精度。

      自我復盤,像人一樣“省思考”

      長期以來,大模型被詬病“啰嗦”:每解一道題,都要展開冗長的 chain-of-thought,把所有中間步驟重新鋪一遍。

      這不僅浪費 token,也拉低了模型吞吐量。Meta 讓模型自己反思,自己提煉,自己精簡。


      行為提取提示設計

      論文設計了三種模式:

      第一種,是“行為調節推理”(Behavior-conditioned Inference)。模型從手冊里調出相關行為提示,帶著它們去解題。
      結果:少寫46%的token,準確率不降反升。

      第二種,是“行為引導自我改進”(Behavior-guided Self-improvement)。模型用自己總結的行為來指導下次推理。
      結果:正確率比普通“自我批改”提升10%。

      第三種,是“行為調節監督微調”(Behavior-conditioned SFT)。Meta 研究者用帶有行為提示的推理數據去訓練學生模型。
      結果:學生模型學會推理,比傳統微調版本更聰明、更高效。

      實驗中,Meta 使用了R1-Llama-70B作為“元認知策略師”,并測試了Qwen3-32B、Llama-3.1-8B 等多個學生模型

      幾乎所有模型都出現了相同現象:推理token直線下滑,性能保持平穩。

      研究者把這一現象形容為:“模型從慢推導變成快反應。”它不再每次都重寫思維,而是像人一樣,學會了用經驗來省思考。

      注:頭圖AI生成

      作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?


      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗國防部隊: 進入全面備戰狀態

      伊朗國防部隊: 進入全面備戰狀態

      每日經濟新聞
      2026-02-19 16:07:49
      意大利知名地標“愛情拱門”突然崩塌,永久消失,當地市長:曾有成千上萬的情侶來打卡,旅游業遭“毀滅性打擊”

      意大利知名地標“愛情拱門”突然崩塌,永久消失,當地市長:曾有成千上萬的情侶來打卡,旅游業遭“毀滅性打擊”

      大風新聞
      2026-02-17 19:26:03
      南京一商場晚上突發火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      南京一商場晚上突發火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      極目新聞
      2026-02-19 12:49:48
      浙江一地通知:即日起全域禁止銷售

      浙江一地通知:即日起全域禁止銷售

      都市快報橙柿互動
      2026-02-19 17:58:37
      后續,江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      后續,江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      離離言幾許
      2026-02-18 23:24:35
      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      全景體育V
      2026-02-19 10:10:31
      南方大米產量第一,為啥超市里大部分還是東北米?南方米去哪了?

      南方大米產量第一,為啥超市里大部分還是東北米?南方米去哪了?

      天下十三洲獵奇
      2026-02-18 23:53:55
      突發!美國出手封殺多家中國機構

      突發!美國出手封殺多家中國機構

      芯火相承
      2026-02-19 10:02:18
      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      翰飛觀事
      2026-02-16 11:29:39
      林丹在西班牙過年,別墅內景曝光,全家人與朋友除夕吃海鮮大餐

      林丹在西班牙過年,別墅內景曝光,全家人與朋友除夕吃海鮮大餐

      手工制作阿殲
      2026-02-19 11:58:33
      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

      軍迷戰情室
      2026-02-18 23:58:09
      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      米果說識
      2026-02-19 09:32:34
      凌晨發送恐嚇信息?桔子酒店涉事門店:已報警,非員工發送

      凌晨發送恐嚇信息?桔子酒店涉事門店:已報警,非員工發送

      大風新聞
      2026-02-19 09:46:23
      12死!湖北煙花店爆炸:店主身份被扒,大量內幕披露,知情者發聲

      12死!湖北煙花店爆炸:店主身份被扒,大量內幕披露,知情者發聲

      博士觀察
      2026-02-19 00:06:41
      2月17日俄烏最新: 2.5 年來的最大戰果

      2月17日俄烏最新: 2.5 年來的最大戰果

      西樓飲月
      2026-02-17 20:49:47
      湖北12死煙花爆燃:死者身份公布,大量內部照流出,責任人被控制

      湖北12死煙花爆燃:死者身份公布,大量內部照流出,責任人被控制

      博士觀察
      2026-02-19 11:41:09
      尹錫悅庭審細節曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      尹錫悅庭審細節曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      紅星新聞
      2026-02-19 17:28:30
      太尷尬了!大年初一,上海網友哭訴稱大門被鄰居貼兩張“大字報”

      太尷尬了!大年初一,上海網友哭訴稱大門被鄰居貼兩張“大字報”

      火山詩話
      2026-02-19 15:05:12
      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網

      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網

      火山詩話
      2026-02-19 13:50:13
      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      涵豆說娛
      2026-01-19 17:21:55
      2026-02-19 18:43:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6825文章數 94529關注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節阿里決戰春節

      頭條要聞

      媒體:高市2.0 日本政局發生了意料之中的變動

      頭條要聞

      媒體:高市2.0 日本政局發生了意料之中的變動

      體育要聞

      中國隊第二金!徐夢桃贏女子空中技巧兩連冠 邵琪銅牌

      娛樂要聞

      明星過年百態!黃曉明等現身三亞

      財經要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態度原創

      游戲
      房產
      親子
      家居
      軍事航空

      《巫師》劇情設計師:初代結局受到了公司高層干預

      房產要聞

      頂豪搶房潮席卷全國! 中旅馥棠公館項目395㎡大平層加推入市!

      親子要聞

      過年期間這幾樣東西,一口都不要給孩子吃!

      家居要聞

      本真棲居 愛暖伴流年

      軍事要聞

      金正恩出席火箭炮贈送儀式 強調確保朝鮮安全環境

      無障礙瀏覽 進入關懷版