<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      人大&騰訊團隊用信息論揭示:什么時候該想、什么時候別想

      0
      分享至



      本文的第一作者雍希賢是來中國人民大學的博士生,研究方向聚焦于 Humanoid AI,LLM Coginition & Reasoning。通訊作者為中國人民大學的周驍副教授以及騰訊天衍實驗室的吳賢。

      當前,大模型的「推理能力」幾乎成為行業最熱詞。o1、R1、QwQ 類強化學習(RL)推理模型,讓模型會「想」、會解析復雜問題,甚至能像人一樣寫長長的推理過程(Chain-of-Thought,CoT),在數學、邏輯與常識等領域任務中展現出強大的多步推理能力。

      看上去很強,但問題也隨之出現:

      • 這些模型真的需要思考那么久嗎?
      • 長推理鏈條,是幫助模型正確,還是讓它越繞越遠?

      如果你用過這些模型,就會感受到:

      很多題模型似乎「一眼就能猜中八成」,但它還是堅持把推理寫到幾百、幾千 token,有時甚至越寫越亂、越想越錯。

      來自中國人民大學、騰訊 Jarvis Lab、西湖大學的研究團隊,看到了這背后的核心:

      當前大模型的「推理機制」其實非常低效,甚至常常在自我制造噪聲。

      于是研究團隊從另一個視角切入 ——信息論

      通過「熵(entropy)」與「互信息(mutual information)」等底層信息指標,重新衡量模型思考的價值。

      最終,他們提出了一個極其實用的機制:Adaptive Think——讓模型在「自信夠了」時自動停止推理

      不用訓練,用現有模型就能直接部署。

      這項工作已被 NeurIPS 2025 選為 Spotlight。



      • 論文標題: Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens
      • 論文鏈接:https://arxiv.org/abs/2505.18237
      • 代碼地址:https://github.com/chicosirius/think-or-not

      首先,研究團隊借鑒了香農提出的通信三層模型,從技術、語義和實踐三個維度觀察大模型「過度思考」的本質。



      圖 1:基于 Shannon & Weaver 通信模型,研究發現推理過長不僅信息增益逐漸減弱,還可能帶來偏差并降低最終準確率。

      • 在技術層面(Technical Level),長推理鏈就像在一個噪聲信道里不斷添加冗余比特。適度的冗余可以增強魯棒性,但一旦超過模型的「推理容量」,額外的推理反而可能會帶來錯誤的積累和偏差。
      • 在語義層面(Semantic Level),每一步推理應該減少答案的不確定性。但結果顯示,隨著推理鏈延長,單步推理帶來的信息增益迅速遞減,冗余步驟更多地在制造噪聲,而不是幫助模型更接近正確答案。
      • 在實踐層面(Pragmatic Level),更長的推理鏈并不一定帶來更好的結果。跨多個任務和模型,推理長度的增加常常導致邊際收益下降,甚至出現「思考越久、答得越差」的情況。同時,冗長的推理鏈帶來更多 token 消耗、更高延遲和更大算力開銷,使得長推理在實際應用中既昂貴又不可靠。

      模型推理為什么會「越想越偏」?

      為了進一步量化模型「思考效率」,研究團隊從兩個層面構建了一個系統評價框架。

      1. 全局視角:InfoBias(信息偏差)

      將模型的推理鏈與理想推理路徑比對,使用互信息估計偏差:

      偏差越大,說明模型「越想越偏」。

      在 GSM8K 數據集上的實驗清晰地展示了這一規律:錯誤答案往往伴隨更長的推理鏈和更高的 InfoBias。越是錯誤的答案,模型往往輸出更多的 token。



      圖 2:在 GSM8K 數據集上,不同模型的平均推理長度與歸一化后的每個 token 信息偏差關系。

      2. 局部視角:InfoGain(信息增益)

      定義每個推理步驟降低答案空間熵的量:



      如果某一步沒降低不確定性,說明它提供的不是「有效推理」,而是「填充字數」。

      實驗分析表明,模型在推理過程中表現出逐步降低不確定性和提高對正確答案的信心的趨勢,即有效推理可以逐步過濾不確定性并增強預測。

      即使在推理開始前,模型在知識密集型任務上也顯示出初始直覺偏向正確答案,而不同任務的推理動態存在差異



      圖 3:QwQ-32B 在不同推理基準下的不確定性動態

      Adaptive Think

      讓模型「有必要才深思,無必要就直答」

      在發現過度思考可能降低推理效率后,研究團隊提出了Adaptive Think策略。其核心理念是通過熵來衡量模型在推理過程中的不確定性,并在模型達到足夠置信度時主動終止推理。

      讓模型進行「自我監控式推理」

      在這一框架下,每完成一步推理,模型都會計算答案分布的平均熵。當熵低于預設閾值 α 時,表明模型已經具備較高的自信,此時即可停止推理并輸出答案。該機制使模型能夠根據任務難度靈活調整思考深度:

      • 對于簡單的常識類問題,僅需少量推理步驟即可得到答案,從而節省計算資源;
      • 對于復雜的數學或邏輯問題,則會繼續深入推理,直至置信度達到足夠高的水平才終止。



      圖 4:四種思考方式的示意圖

      該策略體現了模型對自身信心的動態感知能力,使其能夠在不同任務類型間自適應調整推理深度,從而兼顧速度與可靠性。

      實驗結果

      更準、更省、更快

      最后,研究團隊在 8 個大模型(包括 5 個非推理和 3 個推理模型)、6 個不同推理類型的 benchmark 上進行了完整評估。

      在數學任務 GSM8K 與 AIME2025 上,Adaptive Think 在保持準確率的同時,將平均 Token 消耗減少了一半以上(40.01%-68.25)。例如,在 QwQ-32B 模型上,相比傳統的 Vanilla Think 模式,Adaptive Think 在 AIME2025 上將 Token 使用量減少了 68.25%,而準確率還提高了 0.93%。這說明模型本身早早就「知道正確答案」,冗余的只是大量驗證性推理。



      表 1:在兩個數學推理基準上的性能與效率對比

      在知識、邏輯、常識等任務上,Adaptive Think 同樣表現優異。在 MMLU-Pro、CommonsenseQA、ProntoQA、MuSR 等多個數據集上觀察到:QwQ-32B 的平均準確率提升 1.23%,平均 token 減少 42.52%。

      在 CommonsenseQA 這種靠直覺的任務最顯著,DeepSeek-R1-32B 模型采用 Adaptive Think 后,準確率幾乎不變,但 Token 消耗減少了超過 80%。這表明對于依賴常識直覺的問題,Adaptive Think 能夠快速終止冗余推理,極大地提升效率



      表 2:在知識、邏輯、常識推理基準上的性能與效率對比

      這些實驗驗證了一個關鍵結論:大模型的長推理鏈并非必要,很多時候它們只需要「少想幾步」

      什么時候應該「多想」,

      什么時候應該「少想」?

      研究團隊進一步分析不同任務的「推理需求」,例如:

      • 數學題(AIME2025)→ 需要更深的推理鏈
      • 常識題(CQA)→ 模型幾乎一開始就知道正確答案
      • 多步軟推理(MuSR)→ 有效推理集中在前半段



      圖 5&6:Adaptive Think 輸出 token 數量與題目難度的關系(左);閾值 α 對準確率和 token 數量的影響,揭示了 推理性能與計算效率之間的權衡(右)。

      這意味著:

      真正成熟的推理大模型,不是輸出固定長度的推理,而是能夠「自動匹配任務難度」。

      總結

      這篇論文給我們帶來一個很重要的理念:AI 推理的未來不在「更長」,而在「更聰明」

      未來的大模型應該:1)在需要深度邏輯時能推理得足夠嚴謹;2)在只需直覺判斷時不浪費 token;3)能動態適應任務難度;4)在推理過程中實時自我評估,隨時剎車。

      這項工作既解釋了「為什么模型會過度推理」,也告訴我們「如何簡單有效地解決」。

      如果說強化學習讓模型學會了「怎么想」,那么 Adaptive Think 讓模型學會了 「想多久」。

      這是推理大模型走向成熟的關鍵一步。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      被認定為贗品的《江南春》圖卷2001年以6800元價格賣出!多部門調查最新進展

      被認定為贗品的《江南春》圖卷2001年以6800元價格賣出!多部門調查最新進展

      海峽網
      2025-12-19 09:42:23
      新起點 新機遇——海南自貿港啟動全島封關首日見聞

      新起點 新機遇——海南自貿港啟動全島封關首日見聞

      新華社
      2025-12-18 21:42:38
      “這樣廉價的母愛,還是別曬了”,家長給女兒補襪子,被網友群嘲

      “這樣廉價的母愛,還是別曬了”,家長給女兒補襪子,被網友群嘲

      妍妍教育日記
      2025-12-18 18:55:22
      外交部:敦促美方不得實施2026財年國防授權法案涉華消極條款

      外交部:敦促美方不得實施2026財年國防授權法案涉華消極條款

      界面新聞
      2025-12-19 15:41:49
      高市暴露核獠牙,槍口對準中俄朝,這話一出,特朗普也保不住日本

      高市暴露核獠牙,槍口對準中俄朝,這話一出,特朗普也保不住日本

      桑啟紅原
      2025-12-19 14:44:15
      西藥見效快!中國三大運營商為美國解決詐騙電話,攔截率達99%

      西藥見效快!中國三大運營商為美國解決詐騙電話,攔截率達99%

      垛垛糖
      2025-12-18 12:16:13
      日本迫使蘋果調整iOS規則大幅降低蘋果稅,中國繼續人傻錢多?

      日本迫使蘋果調整iOS規則大幅降低蘋果稅,中國繼續人傻錢多?

      風向觀察
      2025-12-18 16:40:37
      600多元天津飛北京,中轉30多個小時“特種兵”游成都,無錫飛常州中轉重慶跨年省錢近一半,“回旋鏢”機票火出圈

      600多元天津飛北京,中轉30多個小時“特種兵”游成都,無錫飛常州中轉重慶跨年省錢近一半,“回旋鏢”機票火出圈

      極目新聞
      2025-12-19 07:21:26
      美國海軍F-18戰斗機出現在委內瑞拉首都附近空域,最近距離不足100公里,馬杜羅總統曾向聯合國求援

      美國海軍F-18戰斗機出現在委內瑞拉首都附近空域,最近距離不足100公里,馬杜羅總統曾向聯合國求援

      極目新聞
      2025-12-19 15:53:56
      俄羅斯正為戰爭付出高昂代價,即使戰爭結束,也要還債很多年

      俄羅斯正為戰爭付出高昂代價,即使戰爭結束,也要還債很多年

      山河路口
      2025-12-18 22:29:20
      女子因桃花眼走紅,訂婚兩年熱度依舊,網友喊話:88號快回來上班

      女子因桃花眼走紅,訂婚兩年熱度依舊,網友喊話:88號快回來上班

      梅子的小情緒
      2025-12-19 14:04:18
      22.13公里!世界最長高速公路隧道將于月底通車

      22.13公里!世界最長高速公路隧道將于月底通車

      每日經濟新聞
      2025-12-18 23:55:06
      停播7年,那個挽救無數司機的“網紅交警”譚喬,卻挽救不了自己

      停播7年,那個挽救無數司機的“網紅交警”譚喬,卻挽救不了自己

      以茶帶書
      2025-12-18 17:14:01
      海南封關次日實探三亞免稅店:蘭蔻等護膚品牌有免稅臨期產品5折銷售,此前甚至有口紅打1折

      海南封關次日實探三亞免稅店:蘭蔻等護膚品牌有免稅臨期產品5折銷售,此前甚至有口紅打1折

      極目新聞
      2025-12-19 13:22:22
      炸裂!26歲女子猥褻12歲侄子,丈夫披露事發細節,鑒定結果引質疑

      炸裂!26歲女子猥褻12歲侄子,丈夫披露事發細節,鑒定結果引質疑

      派大星紀錄片
      2025-12-19 11:47:05
      我替首長擋了5槍,他連電話都沒打,我退伍后,剛到火車站就被人攔住

      我替首長擋了5槍,他連電話都沒打,我退伍后,剛到火車站就被人攔住

      張道陵秘話
      2025-12-17 10:20:09
      突發重磅:歐盟達成協議,為烏克蘭提供900億歐元援助!

      突發重磅:歐盟達成協議,為烏克蘭提供900億歐元援助!

      近距離
      2025-12-19 12:53:57
      不是迷信!明日十一月初一,記得:1不起、2要做、3不問、4要看

      不是迷信!明日十一月初一,記得:1不起、2要做、3不問、4要看

      阿龍美食記
      2025-12-19 05:39:50
      中央戲劇學院院長郝戎被查,劉燁、章子怡、靳東等為其學生,曾搭檔王志文、李冰冰演電視劇,被稱"明星導師"

      中央戲劇學院院長郝戎被查,劉燁、章子怡、靳東等為其學生,曾搭檔王志文、李冰冰演電視劇,被稱"明星導師"

      大風新聞
      2025-12-19 11:54:20
      海南封關,iPhone 17 全系猛降價!

      海南封關,iPhone 17 全系猛降價!

      花果科技
      2025-12-19 12:42:01
      2025-12-19 18:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11957文章數 142513關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      日媒披露:日本請求派代表團訪華 未獲中方回復

      頭條要聞

      日媒披露:日本請求派代表團訪華 未獲中方回復

      體育要聞

      “惡龍”埃托奧,正在毀滅喀麥隆足球

      娛樂要聞

      曲協表態僅6天,郭德綱擔心的事還是發生

      財經要聞

      非法集資911億!"金融大鱷"終審被判無期

      汽車要聞

      “一體壓鑄”再引熱議 一旦受損真的修不起嗎?

      態度原創

      房產
      親子
      手機
      旅游
      公開課

      房產要聞

      猛降1.65億!大唐集團,再次出售三亞核心資產!

      親子要聞

      7歲的丁玉杺小朋友三顧戲樓,成功拜師!

      手機要聞

      榮耀MagicOS十二月功能上新:一句話P圖、全品牌互聯等

      旅游要聞

      景區外文標識的“小錯誤”是一個“放大鏡”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 3pAV在线播放| 天天澡日日澡狠狠澡欧美老妇| 久久久这里只有精品10| 国产欧美日韩另类在线专区 | 亚洲成a人无码av波多野| 亚洲精品久久中文字幕| 日韩av第一页在线播放| 亚洲欲妇| 无码人妻一区二区三区AV| 性欧美高清| 国产tsAV| 久久天天躁狠狠躁夜夜躁2o2o | 波多野结衣中文在线| 伊人高清在线视频| 骚虎视频在线观看| 久久久性色精品国产免费观看| 精品乱人伦一区二区三区| 亚洲精品成人A在线观看| 国产精品免费麻豆入口| 中文字幕有码无码av| 无码精品国产一区二区三区免费| 欧美疯狂xxxxbbbb喷潮| 日本高清va在线播放| 77777色| a∨变态另类天堂无码专区| 大新县| 国产精品爽爽久久久久久蜜臀 | 91在线公开视频| 免费无码又爽又刺激高潮的视频 | 国产做a爱片久久毛片a片| 国产偷人爽久久久久久老妇app| 亚洲暴爽av天天爽日日碰| 放荡的少妇2欧美版| 99热色| 隆子县| 永久免费无码| 色婷婷Av| 久久亚洲视频| 鲁丝一区鲁丝二区鲁丝三区| 永久免费看mv亚洲| 日本精品网|