網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ICLR 2026｜隱式思考模型LRT：「隱式思維鏈」推理，更快更強(qiáng)！

2026-04-13 12:37:25　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

近日，哈爾濱工業(yè)大學(xué)（深圳）聯(lián)合深圳河套學(xué)院、Independent Researcher提出了隱式思考模型 LRT（Latent Reasoning Tuning），通過(guò)一個(gè)輕量級(jí)的推理網(wǎng)絡(luò)，將大模型冗長(zhǎng)的「思維鏈」壓縮為緊湊的隱式向量表征，一次前向計(jì)算即可完成推理，無(wú)需逐 token 生成數(shù)千字的中間推理過(guò)程。

LRT 不僅實(shí)現(xiàn)了高效思考，還能作為一種全新的混合思考范式，在 Qwen3 系列模型上超越了其原生的非思考模式。

論文地址： https://openreview.net/forum?id=CbK7lYbmv8
代碼開源： https://github.com/MobiusDai/LRT

出發(fā)點(diǎn)：大模型「自言自語(yǔ)」的推理過(guò)程真的全都有用嗎？

以 OpenAI o1、DeepSeek-R1、Qwen QwQ 為代表的慢思考推理模型，通過(guò)生成詳盡的逐步推理鏈來(lái)解決復(fù)雜問(wèn)題，展現(xiàn)了強(qiáng)大的推理能力。然而，這些模型存在一個(gè)顯著痛點(diǎn) ——過(guò)度思考（Overthinking）：

即使是簡(jiǎn)單的數(shù)學(xué)題，模型也可能生成數(shù)千個(gè) token 的推理過(guò)程，其中包含大量回溯、自我驗(yàn)證和冗余步驟；
推理軌跡的長(zhǎng)度往往遠(yuǎn)超最終答案，導(dǎo)致推理延遲高、計(jì)算開銷大，嚴(yán)重制約了實(shí)時(shí)應(yīng)用。

Question：這些冗長(zhǎng)的推理鏈真的全部必要嗎？

關(guān)鍵發(fā)現(xiàn)：推理軌跡存在大量冗余

為了回答上述問(wèn)題，團(tuán)隊(duì)設(shè)計(jì)了一組實(shí)驗(yàn)：在 DeepSeek-R1-Distill-Qwen-7B 模型上，將推理軌跡進(jìn)行不同粒度的刪減 —— 隨機(jī)跳過(guò)一定比例的 token 或推理步驟，然后觀察模型能否僅憑殘缺的推理鏈給出正確答案。

核心洞察：即使隨機(jī)丟棄 50% 的推理軌跡，模型準(zhǔn)確率僅下降約 2 個(gè)百分點(diǎn)。這可以得出兩個(gè)結(jié)論：

當(dāng)前的推理軌跡中存在大量冗余信息，遠(yuǎn)超正確推理所需的信息；
推理模型具有強(qiáng)大的信息過(guò)濾能力，即使面對(duì)殘缺、高困惑度的推理鏈，依然能從中提取關(guān)鍵信息并總結(jié)得出正確答案。

這一發(fā)現(xiàn)直接啟發(fā)了團(tuán)隊(duì)的核心思路：既然完整的逐步推理鏈并非必要，能否用一種更緊湊的隱式表征來(lái)替代它？

方法：隱式思考模型 LRT

基于上述洞察，團(tuán)隊(duì)提出了 Latent Reasoning Tuning（LRT）框架。其核心思想可以概括為：用一個(gè)輕量級(jí)推理網(wǎng)絡(luò)，將顯式的推理鏈「編碼」為固定長(zhǎng)度的隱式向量，直接注入大模型即可生成最終答案。

技術(shù)架構(gòu)

如上圖所示，傳統(tǒng)推理模型需要逐 token 自回歸生成整條推理鏈（Decode → Decode → ... → Decode），而 LRT 的流程為：

具體方法

模型的推理生成過(guò)程可分為兩個(gè)階段：

Prefill 階段：模型一次性處理輸入提示 X 中的全部 token，初始化注意力狀態(tài)（KV 緩存）。這一階段是并行的，計(jì)算效率較高；
Decode 階段：模型逐 token 自回歸地生成輸出，每一步僅基于前序 token 與緩存狀態(tài)進(jìn)行推理。這一階段是串行的，也是推理延遲的主要瓶頸。

在 Decode 階段，思維鏈的生成過(guò)程可以形式化為：

既然推理軌跡是輸入的函數(shù)，而已經(jīng)證明了它存在大量冗余，那么一個(gè)自然的想法是：使用一個(gè)更高效的函數(shù)來(lái)替代它？

實(shí)驗(yàn)結(jié)果

1. 高效思考 —— 在不同 Token Budget 下表現(xiàn)最優(yōu)

在 DeepSeek-R1-Distill-Qwen-1.5B 上，與多種高效推理方法進(jìn)行對(duì)比：

在不同的 Token 預(yù)算下，LRT 在域內(nèi)和域外任務(wù)上全面領(lǐng)先。在 512-Token 下，其平均準(zhǔn)確率比 NoThinking 高 2.66%，比 RL 類方法 ShorterBetter、LC-R1 分別高 5.90% 和 4.74%。

2. 混合思考 —— 超越 Qwen3 原生混合思考模式

LRT 的模塊化設(shè)計(jì)天然適合作為混合推理的新范式：面對(duì)簡(jiǎn)單問(wèn)題使用隱式思考快速作答，面對(duì)困難問(wèn)題切換回顯式慢思考深入推理。在 Qwen3 系列模型上驗(yàn)證了這一能力：

在 Qwen3-4B 上，LRT 的 pass@4 平均準(zhǔn)確率達(dá)到 71.60%，比 Qwen3 原生非思考模式高出 5.82 個(gè)百分點(diǎn)！在 GSM8K 上提升近 7%，在 LSAT 上提升超過(guò) 14%。這表明隱式推理向量能有效引導(dǎo)模型產(chǎn)生更多樣、更高質(zhì)量的解題路徑。

3. 推理效率對(duì)比

LRT 的推理延遲顯著低于 Qwen3 的混合思考模式，甚至比非思考模式還快 —— 因?yàn)殡[式推理向量引導(dǎo)模型生成更簡(jiǎn)潔的答案，減少了解碼步數(shù)。

4. 消融實(shí)驗(yàn)分析

隱式推理 token 數(shù)量的影響：隨著隱式 token 數(shù)從 64 增加到 256，性能穩(wěn)步提升（42.53% → 48.42%）。

兩階段訓(xùn)練：加入 RL 階段后，域內(nèi)任務(wù)平均提升約 9%，域外任務(wù)平均提升約 4.3%，驗(yàn)證了強(qiáng)化學(xué)習(xí)對(duì)隱式推理優(yōu)化的關(guān)鍵作用。

更大的基礎(chǔ)模型（如 Qwen3-8B）則能充分利用更多的隱式 token（使用 512 個(gè)隱式 token 時(shí)結(jié)果仍能提高），說(shuō)明隱式推理的「容量」與基礎(chǔ)模型能力正相關(guān)。

總結(jié)

隱式思考模型 LRT 開辟了一條全新的高效推理路徑：

理論洞察：系統(tǒng)性地揭示了推理軌跡的高度冗余性，證明完整的逐步推理鏈并非正確推理的前提；
高效思考：通過(guò)將顯式推理鏈壓縮為隱式向量表征，用單次前向計(jì)算替代數(shù)千步自回歸解碼，大幅降低推理成本；
混合思考：模塊化的即插即用設(shè)計(jì)，無(wú)需修改大模型參數(shù)，可在隱式推理與顯式推理之間無(wú)縫切換，為混合推理系統(tǒng)提供了更優(yōu)的替代方案；
效果優(yōu)異：在數(shù)學(xué)、邏輯、科學(xué)等多類基準(zhǔn)上全面超越現(xiàn)有高效推理方法，并在 Qwen3 系列模型上超越其原生非思考模式。

作者信息

本文第一作者姜聰，哈爾濱工業(yè)大學(xué)（深圳）博士生，研究方向?yàn)楦咝伎寂c推理模型。通訊作者張正，哈爾濱工業(yè)大學(xué)（深圳）教授、博士生導(dǎo)師，教育部青年長(zhǎng)江學(xué)者，主要從事高效能多模態(tài)人工智能的研究，近年專注于高效與可信多模態(tài)大模型。

主要完成單位為哈爾濱工業(yè)大學(xué)（深圳）& 深圳河套學(xué)院。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.