<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      o1之后下一個范式?隱式CoT大突破,讓推理不再「碎碎念」

      0
      分享至



      魏熙林為本篇文章第一作者。魏熙林是復旦大學博士生,師從林達華教授,研究興趣主要集中在 multi-modal LLMs 和 efficient AI。目前在上海人工智能實驗室實習,指導 mentor 是臧宇航、王佳琦。

      今天推薦一個 Implicit Chain-of-Thought(隱式推理) 的最新進展 ——SIM-CoT(Supervised Implicit Chain-of-Thought)。它直擊隱式 CoT 一直「扶不起來」的核心痛點:隱式 token 一旦 scale 上去,訓練就容易塌縮到同質化的 latent 狀態,推理語義直接丟失。

      SIM-CoT 的關鍵招式是一個 plug-and-play 的 step-level 監督模塊:訓練時用輔助解碼器把每個 latent token「拉回」到可對齊的推理步驟上,既穩住優化、避免 collapse,又讓隱式推理第一次真正可解釋 —— 你甚至能把每個 latent token 解碼成人類可讀的中間推理步驟。

      更爽的是:推理階段零額外開銷(輔助解碼器訓練完就丟),但效果卻很猛:在 GPT-2 上相對 supervised CoT +2.1%、相對 Coconut +8.2%、相對 CODI +4.3%,在更大的 LLaMA(1B/3B/8B)上也能穩定帶來 +1.5%~+9.0% 的提升,并且在 8–16 個隱式 token 這種 “前人容易崩” 的設置下依然穩得住。

      目前這項研究剛剛中稿頂會 ICLR 2026,論文、代碼、模型權重均已開源,歡迎使用!



      • Paper: https://arxiv.org/pdf/2509.20317
      • Code: https://github.com/InternLM/SIM-CoT
      • Huggingface: https://huggingface.co/collections/Wiselnn/sim-cot-supervised-implicit-chain-of-thought



      圖 1:(a) 潛變量不穩定:隱式 token 增多起初能提精度,但訓練會變得不穩定,甚至塌縮。(b) 信息丟失:失敗模型(5 個隱式 token)在隱式表示中丟失關鍵運算符信息(如 +、?),導致復雜推理無法進行。(c) 距離偏移:失敗模型的 latent 間距離收縮、彼此過于相似,同時 latent 逐漸偏離詞表嵌入空間中心。(d) 語義同質化:失敗模型的 latent 表征趨同,解碼結果分布變窄,輸出多為數字;正常模型則能生成更豐富的內容。

      從顯式 CoT 到隱式 CoT:latent 穩定性與監督對齊的重大難點

      復雜推理任務(如數學、符號推理、代碼推理)長期以來都依賴顯式 Chain-of-Thought(CoT):模型把中間步驟一條條寫出來,既能提升正確率,也便于人類檢查與糾錯。

      如今,隨著推理需求不斷增長,顯式 CoT 的兩大瓶頸越來越突出:成本方面,長 CoT 會顯著拉高 token 開銷與時延;效果方面,顯式步驟容易被數據格式牽著走,出現「模板化推理」、冗長但無效的「自說自話」。

      這些局限性推動研究者轉向一種更「省 token」的新范式 —— 隱式 CoT(Implicit CoT)。它不再把推理步驟完整寫出來,而是用少量隱式 token /latent 表征在模型內部完成多步推理:理論上既能保留推理能力,又能顯著降低推理開銷。

      但把隱式 CoT 真正做穩、做強,遠比想象中難,關鍵挑戰在于:隱式 token 到底學到了什么?以及作者團隊如何保證它學到的是「可用的推理」,而不是「投機的捷徑」?

      一個典型現象是 latent instability(潛變量不穩定):當你嘗試增加隱式 token 數量來「scale 推理容量」時,模型往往不是變強,而是訓練開始抖動,甚至直接 collapse(塌縮)。塌縮后的隱式 token 會出現明顯的 信息丟失 —— 尤其是對符號推理至關重要的算子信息(+、?、×、÷ 等)被抹掉;同時 latent 之間的表示會越來越像,出現語義同質化:不同 token 學到的東西高度重合,最后解碼出來的內容范圍變窄,常常只剩下數字或非常單一的片段,復雜推理自然就做不下去。

      現有隱式 CoT 方法在監督粒度上差異很大:Coconut 基本只做答案級監督,模型被要求「最后答對」,但中間 latent 學什么幾乎不受約束;CODI 雖然引入了蒸餾信號,把顯式 CoT 的信息壓到連續 latent 里,但更多是軌跡 / 整體路徑級對齊。

      SIM-CoT 的關鍵突破正是 step-level 監督:訓練時用輔助解碼器把每個 latent 對齊到對應推理步驟,從根上穩定并豐富 latent 推理空間,同時推理階段不增加任何開銷。



      圖 2: 框架對比:Coconut(左上)、CODI(右上)與 SIM-CoT(下)。Coconut/CODI 僅在答案或軌跡層面進行粗粒度監督;SIM-CoT 引入解碼器將隱式 latent 與逐步推理對齊,在不增加推理開銷的前提下提升性能。

      監督設計新思路:好的隱式推理應當能被「逐步解碼」回顯式思維鏈

      為了解決隱式 CoT 在 scale implicit tokens 時容易出現的不穩定與塌縮(latent 語義變得同質、算子信息丟失、復雜推理失效)這一關鍵難題,作者團隊提出一個新的視角:隱式推理的質量,與其「可對齊的逐步語義」成正比。換句話說,如果每個隱式 latent 真的在做第 k 步推理,那么它就應該能被一個輕量的解碼器「翻譯」回對應的顯式步驟(比如產生關鍵算子、關系、子目標),從而讓 latent 不再是黑盒的連續向量,而是具備可控的推理結構。

      基于這一動機,作者團隊提出 SIM-CoT 的訓練框架:在訓練階段引入一個輔助 decoder,把每個隱式 latent 與對應的 step-level 推理進行對齊監督(而不是像 Coconut 只監督答案、或像 CODI 更偏軌跡級 / 整體級的粗粒度對齊)。

      這樣一來,模型在學習「如何答對」的同時,也被強約束去學習「每一步該想什么」,從根源上抑制語義坍縮;更重要的是,推理階段直接移除 decoder,保持零額外開銷,但作者團隊依然可以在分析時把隱式步驟解碼出來做中間推理可視化,同時獲得更強的性能與更穩定的 token scaling 效果。



      SIM-CoT 實驗結果

      作者團隊對 SIM-CoT 帶來的收益做了系統評估,結論非常明確:更準、更穩、還更省 token。

      (i)GPT-2 上:首次做到「隱式 CoT 反超顯式 CoT」,且 token 更省。

      在 in-domain 的 GSM8k-Aug 上,SIM-CoT(以 Coconut 為骨干)把準確率從 36.6% 提升到 44.8%(+8.2),同時也超過顯式 SFT-CoT 的 42.7%;并且保持隱式推理的低 token 開銷(平均 token 遠低于 SFT-CoT),論文總結為 2.3× token efficiency。

      (ii)Out-of-domain 泛化更穩:整體平均提升顯著。

      在 GSM-Hard / MultiArith / SVAMP 三個外推數據集上,SIM-CoT(Coconut 骨干)的 out-of-domain 平均準確率從 42.6% 提升到 46.9%(+4.3),說明它并不是「只會背訓練域步驟」,而是確實把 latent 空間推理做扎實了。

      (iii)在更強的隱式基線與更大模型上依然有增益,并顯著提升穩定性。

      在 GPT-2 上疊加到 CODI 之上也能繼續漲(in-domain +0.6,out-of-domain 平均 +0.3);擴展到 LLaMA 3.2 3B 時依然穩定帶來 +1.5(in-domain)/+0.7(out-of-domain 平均) 的提升;論文也報告在 LLaMA-3.1 8B 上對 CODI 提升 +3.0。

      (iv)效率不打折:推理階段無額外開銷,還更快。

      因為輔助 decoder 只在訓練期使用,推理期移除,所以 SIM-CoT 推理效率與其他隱式方法一致;同時在 GPT-2 上相對顯式 CoT 仍體現出明顯速度優勢。







      圖三:作者團隊在 GPT-2 以及 LLaMA 1B/3B/8B 基座上系統驗證了 SIM-CoT 的性能提升,結果表明該方法在不同模型規模下均穩定有效。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曝40歲C羅拒為勝利出戰!2大原因致其罷賽 不滿引援+金主偏心新月

      曝40歲C羅拒為勝利出戰!2大原因致其罷賽 不滿引援+金主偏心新月

      我愛英超
      2026-02-02 07:02:39
      美國評1979年中越戰爭:打了28天,中國軍隊出現了很多問題

      美國評1979年中越戰爭:打了28天,中國軍隊出現了很多問題

      小豫講故事
      2026-01-31 06:00:10
      《科學》證實:熬夜,其實是大腦在“吃屎”!

      《科學》證實:熬夜,其實是大腦在“吃屎”!

      徐德文科學頻道
      2025-12-22 20:33:40
      嬪妃侍寢有兩條鐵律:除了不能出聲,還有一條則難以啟齒

      嬪妃侍寢有兩條鐵律:除了不能出聲,還有一條則難以啟齒

      長風文史
      2026-02-01 18:54:57
      40分17板5助4帽0失誤!歷史首人!阿倫打爆大根,楊瀚森看清差距

      40分17板5助4帽0失誤!歷史首人!阿倫打爆大根,楊瀚森看清差距

      世界體育圈
      2026-02-02 14:28:41
      金·卡戴珊乘私人飛機抵達英國,與F1車手漢密爾頓秘密約會

      金·卡戴珊乘私人飛機抵達英國,與F1車手漢密爾頓秘密約會

      土澳的故事
      2026-02-02 10:22:47
      澳網決賽焦灼中,德約科維奇抽空喊話看臺上的納達爾:你想下來打嗎,拉法?

      澳網決賽焦灼中,德約科維奇抽空喊話看臺上的納達爾:你想下來打嗎,拉法?

      上觀新聞
      2026-02-01 20:09:08
      知名國酒爆雷,純酒精兌水,標注年份你說了算,成本10元賣899

      知名國酒爆雷,純酒精兌水,標注年份你說了算,成本10元賣899

      毒sir財經
      2026-01-30 16:23:01
      和領導的410次開房記錄,寫著她從臨時工到副處長的每一步努力!

      和領導的410次開房記錄,寫著她從臨時工到副處長的每一步努力!

      閑侃閑侃
      2026-01-29 08:36:50
      爺爺每年給孫子買金條,今年買了20克,目前已買8根

      爺爺每年給孫子買金條,今年買了20克,目前已買8根

      大象新聞
      2026-02-02 11:13:02
      貪財好色、薄情寡義、直播哭窮,近期這4位老戲骨翻車理由太離譜

      貪財好色、薄情寡義、直播哭窮,近期這4位老戲骨翻車理由太離譜

      說歷史的老牢
      2026-01-05 15:07:58
      吳君如很早就說過了,陳妍希私下就是這樣穿

      吳君如很早就說過了,陳妍希私下就是這樣穿

      八星人
      2026-01-21 15:14:26
      定了!山東中小學、幼兒園布局要大調整!

      定了!山東中小學、幼兒園布局要大調整!

      山東教育
      2026-02-02 08:59:39
      從豐田車看中國制造的底色:后工業時代的斷層

      從豐田車看中國制造的底色:后工業時代的斷層

      生命可以承受之輕
      2026-01-29 09:27:20
      滿載40噸黃金的日本“阿波丸”,中國打撈上岸后,所有人都愣住了

      滿載40噸黃金的日本“阿波丸”,中國打撈上岸后,所有人都愣住了

      鑒史錄
      2026-01-23 10:46:34
      趙薇也沒想到,曾和自己熱戀的上海豪門太子,如今被網紅“拿下”

      趙薇也沒想到,曾和自己熱戀的上海豪門太子,如今被網紅“拿下”

      泠泠說史
      2026-01-03 17:57:11
      全球首次!宇樹機器人-47.4℃極寒行走13萬步:走出冬奧雪面圖案

      全球首次!宇樹機器人-47.4℃極寒行走13萬步:走出冬奧雪面圖案

      快科技
      2026-02-01 15:37:05
      認知顛覆,美國移民被合法吃絕戶,十年時間,全美移民資產跌9成

      認知顛覆,美國移民被合法吃絕戶,十年時間,全美移民資產跌9成

      孤單是寂寞的毒
      2026-01-30 20:19:03
      你家領導說過最炸裂的話是啥?網友:這個社會德不配位的人太多了

      你家領導說過最炸裂的話是啥?網友:這個社會德不配位的人太多了

      帶你感受人間冷暖
      2026-02-01 06:11:49
      長江存儲三期項目極速量產,借超級周期改變全球NAND競爭格局

      長江存儲三期項目極速量產,借超級周期改變全球NAND競爭格局

      風向觀察
      2026-02-01 17:04:38
      2026-02-02 15:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12236文章數 142562關注度
      往期回顧 全部

      科技要聞

      阿里筑墻,騰訊寄生,字節偷家

      頭條要聞

      武契奇預測:48小時內伊朗遇襲

      頭條要聞

      武契奇預測:48小時內伊朗遇襲

      體育要聞

      澳網男單決賽,屬于阿爾卡拉斯的加冕儀式

      娛樂要聞

      周杰倫帶王俊凱陳奕迅聚餐 暢聊音樂

      財經要聞

      滬銀、鈀、鉑等十幾個品種集體跌停

      汽車要聞

      雷克薩斯LC500將于今年底停產 "最美雷克薩斯"謝幕

      態度原創

      時尚
      藝術
      數碼
      本地
      家居

      普通人衣服沒必要買太多,準備好這些單品,簡單實用又耐看

      藝術要聞

      馬斯克花5萬買的折疊屋,是預制住宅的未來嗎?

      數碼要聞

      Puget:AMD、英特爾新款MSDT處理器故障率相當,X3D低于平均

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      家居要聞

      現代幾何彩拼 智煥童夢居

      無障礙瀏覽 進入關懷版