<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      ICLR 2026|隱式思考模型LRT:「隱式思維鏈」推理,更快更強(qiáng)!

      0
      分享至



      近日,哈爾濱工業(yè)大學(xué)(深圳)聯(lián)合深圳河套學(xué)院、Independent Researcher提出了隱式思考模型 LRT(Latent Reasoning Tuning),通過(guò)一個(gè)輕量級(jí)的推理網(wǎng)絡(luò),將大模型冗長(zhǎng)的「思維鏈」壓縮為緊湊的隱式向量表征,一次前向計(jì)算即可完成推理,無(wú)需逐 token 生成數(shù)千字的中間推理過(guò)程。

      LRT 不僅實(shí)現(xiàn)了高效思考,還能作為一種全新的混合思考范式,在 Qwen3 系列模型上超越了其原生的非思考模式。



      • 論文地址: https://openreview.net/forum?id=CbK7lYbmv8
      • 代碼開源: https://github.com/MobiusDai/LRT

      出發(fā)點(diǎn):大模型「自言自語(yǔ)」的推理過(guò)程真的全都有用嗎?

      以 OpenAI o1、DeepSeek-R1、Qwen QwQ 為代表的慢思考推理模型,通過(guò)生成詳盡的逐步推理鏈來(lái)解決復(fù)雜問(wèn)題,展現(xiàn)了強(qiáng)大的推理能力。然而,這些模型存在一個(gè)顯著痛點(diǎn) ——過(guò)度思考(Overthinking):

      • 即使是簡(jiǎn)單的數(shù)學(xué)題,模型也可能生成數(shù)千個(gè) token 的推理過(guò)程,其中包含大量回溯、自我驗(yàn)證和冗余步驟;
      • 推理軌跡的長(zhǎng)度往往遠(yuǎn)超最終答案,導(dǎo)致推理延遲高、計(jì)算開銷大,嚴(yán)重制約了實(shí)時(shí)應(yīng)用。

      Question:這些冗長(zhǎng)的推理鏈真的全部必要嗎?

      關(guān)鍵發(fā)現(xiàn):推理軌跡存在大量冗余

      為了回答上述問(wèn)題,團(tuán)隊(duì)設(shè)計(jì)了一組實(shí)驗(yàn):在 DeepSeek-R1-Distill-Qwen-7B 模型上,將推理軌跡進(jìn)行不同粒度的刪減 —— 隨機(jī)跳過(guò)一定比例的 token 或推理步驟,然后觀察模型能否僅憑殘缺的推理鏈給出正確答案。



      核心洞察: 即使隨機(jī)丟棄 50% 的推理軌跡,模型準(zhǔn)確率僅下降約 2 個(gè)百分點(diǎn)。這可以得出兩個(gè)結(jié)論:

      1. 當(dāng)前的推理軌跡中存在大量冗余信息,遠(yuǎn)超正確推理所需的信息;
      2. 推理模型具有強(qiáng)大的信息過(guò)濾能力,即使面對(duì)殘缺、高困惑度的推理鏈,依然能從中提取關(guān)鍵信息并總結(jié)得出正確答案。

      這一發(fā)現(xiàn)直接啟發(fā)了團(tuán)隊(duì)的核心思路:既然完整的逐步推理鏈并非必要,能否用一種更緊湊的隱式表征來(lái)替代它?

      方法:隱式思考模型 LRT

      基于上述洞察,團(tuán)隊(duì)提出了 Latent Reasoning Tuning(LRT) 框架。其核心思想可以概括為:用一個(gè)輕量級(jí)推理網(wǎng)絡(luò),將顯式的推理鏈「編碼」為固定長(zhǎng)度的隱式向量,直接注入大模型即可生成最終答案。

      技術(shù)架構(gòu)



      如上圖所示,傳統(tǒng)推理模型需要逐 token 自回歸生成整條推理鏈(Decode → Decode → ... → Decode),而 LRT 的流程為:



      具體方法





      模型的推理生成過(guò)程可分為兩個(gè)階段:

      • Prefill 階段:模型一次性處理輸入提示 X 中的全部 token,初始化注意力狀態(tài)(KV 緩存)。這一階段是并行的,計(jì)算效率較高;
      • Decode 階段:模型逐 token 自回歸地生成輸出,每一步僅基于前序 token 與緩存狀態(tài)進(jìn)行推理。這一階段是串行的,也是推理延遲的主要瓶頸。

      在 Decode 階段,思維鏈的生成過(guò)程可以形式化為:









      既然推理軌跡是輸入的函數(shù),而已經(jīng)證明了它存在大量冗余,那么一個(gè)自然的想法是:使用一個(gè)更高效的函數(shù)來(lái)替代它?











      實(shí)驗(yàn)結(jié)果

      1. 高效思考 —— 在不同 Token Budget 下表現(xiàn)最優(yōu)



      在 DeepSeek-R1-Distill-Qwen-1.5B 上,與多種高效推理方法進(jìn)行對(duì)比:

      • 在不同的 Token 預(yù)算下,LRT 在域內(nèi)和域外任務(wù)上全面領(lǐng)先。在 512-Token 下,其平均準(zhǔn)確率比 NoThinking 高 2.66%,比 RL 類方法 ShorterBetter、LC-R1 分別高 5.90% 和 4.74%。

      2. 混合思考 —— 超越 Qwen3 原生混合思考模式



      LRT 的模塊化設(shè)計(jì)天然適合作為混合推理的新范式:面對(duì)簡(jiǎn)單問(wèn)題使用隱式思考快速作答,面對(duì)困難問(wèn)題切換回顯式慢思考深入推理。在 Qwen3 系列模型上驗(yàn)證了這一能力:

      • 在 Qwen3-4B 上,LRT 的 pass@4 平均準(zhǔn)確率達(dá)到 71.60%,比 Qwen3 原生非思考模式高出 5.82 個(gè)百分點(diǎn)!在 GSM8K 上提升近 7%,在 LSAT 上提升超過(guò) 14%。這表明隱式推理向量能有效引導(dǎo)模型產(chǎn)生更多樣、更高質(zhì)量的解題路徑。

      3. 推理效率對(duì)比



      • LRT 的推理延遲顯著低于 Qwen3 的混合思考模式,甚至比非思考模式還快 —— 因?yàn)殡[式推理向量引導(dǎo)模型生成更簡(jiǎn)潔的答案,減少了解碼步數(shù)。

      4. 消融實(shí)驗(yàn)分析



      隱式推理 token 數(shù)量的影響:隨著隱式 token 數(shù)從 64 增加到 256,性能穩(wěn)步提升(42.53% → 48.42%)。



      兩階段訓(xùn)練:加入 RL 階段后,域內(nèi)任務(wù)平均提升約 9%,域外任務(wù)平均提升約 4.3%,驗(yàn)證了強(qiáng)化學(xué)習(xí)對(duì)隱式推理優(yōu)化的關(guān)鍵作用。



      更大的基礎(chǔ)模型(如 Qwen3-8B)則能充分利用更多的隱式 token(使用 512 個(gè)隱式 token 時(shí)結(jié)果仍能提高),說(shuō)明隱式推理的「容量」與基礎(chǔ)模型能力正相關(guān)。

      總結(jié)

      隱式思考模型 LRT 開辟了一條全新的高效推理路徑:

      • 理論洞察:系統(tǒng)性地揭示了推理軌跡的高度冗余性,證明完整的逐步推理鏈并非正確推理的前提;
      • 高效思考:通過(guò)將顯式推理鏈壓縮為隱式向量表征,用單次前向計(jì)算替代數(shù)千步自回歸解碼,大幅降低推理成本;
      • 混合思考:模塊化的即插即用設(shè)計(jì),無(wú)需修改大模型參數(shù),可在隱式推理與顯式推理之間無(wú)縫切換,為混合推理系統(tǒng)提供了更優(yōu)的替代方案;
      • 效果優(yōu)異:在數(shù)學(xué)、邏輯、科學(xué)等多類基準(zhǔn)上全面超越現(xiàn)有高效推理方法,并在 Qwen3 系列模型上超越其原生非思考模式。

      作者信息

      本文第一作者姜聰,哈爾濱工業(yè)大學(xué)(深圳)博士生,研究方向?yàn)楦咝伎寂c推理模型。通訊作者張正,哈爾濱工業(yè)大學(xué)(深圳)教授、博士生導(dǎo)師,教育部青年長(zhǎng)江學(xué)者,主要從事高效能多模態(tài)人工智能的研究,近年專注于高效與可信多模態(tài)大模型。

      主要完成單位為哈爾濱工業(yè)大學(xué)(深圳)& 深圳河套學(xué)院。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      英國(guó)暗度陳倉(cāng),悄悄往以色列運(yùn)軍事裝備,不料被比利時(shí)全部扣押

      英國(guó)暗度陳倉(cāng),悄悄往以色列運(yùn)軍事裝備,不料被比利時(shí)全部扣押

      古事尋蹤記
      2026-04-20 07:11:42
      張雪拒絕聽(tīng)天由命!

      張雪拒絕聽(tīng)天由命!

      老方
      2026-04-19 20:43:44
      局勢(shì)生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國(guó)接管

      局勢(shì)生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國(guó)接管

      曉鰀愛(ài)八卦
      2026-04-20 04:58:27
      日本突襲!28萬(wàn)億市場(chǎng),中國(guó)被踢出局,高市早苗亮出3張底牌

      日本突襲!28萬(wàn)億市場(chǎng),中國(guó)被踢出局,高市早苗亮出3張底牌

      阿甘天天傳
      2026-04-20 02:26:43
      我敢說(shuō),大部分會(huì)跟我一樣,選擇黑色衣服那個(gè)女孩!

      我敢說(shuō),大部分會(huì)跟我一樣,選擇黑色衣服那個(gè)女孩!

      草莓解說(shuō)體育
      2026-04-12 17:05:01
      中國(guó)“撿錢”時(shí)代可能要來(lái)了:若手中只有10萬(wàn),試試死啃這兩條線

      中國(guó)“撿錢”時(shí)代可能要來(lái)了:若手中只有10萬(wàn),試試死啃這兩條線

      奇思妙想生活家
      2026-04-09 07:49:40
      為什么沒(méi)有人賣給印度化肥?看看它的騷操作就明白了!

      為什么沒(méi)有人賣給印度化肥?看看它的騷操作就明白了!

      步論天下事
      2026-04-18 10:00:20
      天文學(xué)家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結(jié)的

      天文學(xué)家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結(jié)的

      心中的麥田
      2026-03-06 19:27:32
      一夜暴跌25%!小馬哥最怕的事還是發(fā)生了:年輕人正在從騰訊溜走

      一夜暴跌25%!小馬哥最怕的事還是發(fā)生了:年輕人正在從騰訊溜走

      潮鹿逐夢(mèng)
      2026-03-21 11:54:42
      任重為孫驍驍慶生,倆人同吃一碗面,重慶住獨(dú)棟大別墅,院子好大

      任重為孫驍驍慶生,倆人同吃一碗面,重慶住獨(dú)棟大別墅,院子好大

      柒佰娛
      2026-04-19 15:28:22
      爆冷!終結(jié)15連勝,郭士強(qiáng)見(jiàn)證:山東男籃止5連敗,高詩(shī)巖太尷尬

      爆冷!終結(jié)15連勝,郭士強(qiáng)見(jiàn)證:山東男籃止5連敗,高詩(shī)巖太尷尬

      話體壇
      2026-04-19 22:20:17
      安以軒老公被抓3年后首露臉!素顏聚餐像大媽,模樣大變老到認(rèn)不出

      安以軒老公被抓3年后首露臉!素顏聚餐像大媽,模樣大變老到認(rèn)不出

      八卦王者
      2026-04-19 11:54:16
      會(huì)稽山“以投入換增長(zhǎng)”:三年花掉5.1億廣告費(fèi),爽酒成億級(jí)大單品,但仍困于江浙滬

      會(huì)稽山“以投入換增長(zhǎng)”:三年花掉5.1億廣告費(fèi),爽酒成億級(jí)大單品,但仍困于江浙滬

      紅星新聞
      2026-04-19 20:21:16
      湖人頭號(hào)奇兵:肯納德27分三分5中5 全場(chǎng)最高分成詹皇最佳幫手

      湖人頭號(hào)奇兵:肯納德27分三分5中5 全場(chǎng)最高分成詹皇最佳幫手

      醉臥浮生
      2026-04-19 11:25:33
      上海今天15-22℃ 下午轉(zhuǎn)陰到多云局部地區(qū)有短時(shí)小雨

      上海今天15-22℃ 下午轉(zhuǎn)陰到多云局部地區(qū)有短時(shí)小雨

      新民晚報(bào)
      2026-04-20 06:30:09
      朝陽(yáng)公園二月蘭正值盛花期,市民漫步紫色花海感受春色

      朝陽(yáng)公園二月蘭正值盛花期,市民漫步紫色花海感受春色

      新京報(bào)
      2026-04-18 22:47:15
      研究表明,中學(xué)生的抑郁率已高達(dá)36%!

      研究表明,中學(xué)生的抑郁率已高達(dá)36%!

      黯泉
      2026-04-18 18:06:01
      中國(guó)永遠(yuǎn)的校長(zhǎng),死于1962年

      中國(guó)永遠(yuǎn)的校長(zhǎng),死于1962年

      最愛(ài)歷史
      2024-05-20 13:30:17
      美國(guó)威脅:要對(duì)伊朗實(shí)施“金融轟炸”! 伊朗:美已成以色列“第七個(gè)行政區(qū)”

      美國(guó)威脅:要對(duì)伊朗實(shí)施“金融轟炸”! 伊朗:美已成以色列“第七個(gè)行政區(qū)”

      每日經(jīng)濟(jì)新聞
      2026-04-17 18:36:38
      馬斯克來(lái)抖音賣老干媽了??

      馬斯克來(lái)抖音賣老干媽了??

      量子位
      2026-04-19 12:48:21
      2026-04-20 07:55:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12795文章數(shù) 142632關(guān)注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

      頭條要聞

      特朗普:美伊20日將舉行談判 再不接受協(xié)議就轟炸伊朗

      頭條要聞

      特朗普:美伊20日將舉行談判 再不接受協(xié)議就轟炸伊朗

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂(lè)要聞

      何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

      財(cái)經(jīng)要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

      態(tài)度原創(chuàng)

      藝術(shù)
      健康
      教育
      游戲
      房產(chǎn)

      藝術(shù)要聞

      蒲華寫水仙,清健嫵媚

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      教育要聞

      孩子走到學(xué)校門口死活不進(jìn)去,媽媽硬把他推進(jìn)去

      PS必吃榜!5月陣容前瞻 007新游終于來(lái)了

      房產(chǎn)要聞

      官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版