<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      無需訓練、即插即用,這個解碼方法讓模型學會謹慎思考

      0
      分享至

      你有沒有發現這樣一種現象:面對同一個問題,大模型可能在每次回答時都給出不同答案。一個不容忽視的問題是,這種不確定性,是否意味著推理仍不穩定?

      隨著技術的發展,大模型在自然語言處理和多模態任務中已經表現出越來越強的性能。傳統解碼策略主要包括隨機采樣(random sample)和貪婪解碼(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默認的是隨機采樣(random sample),即便是回答相同的問題,它們可能每次都會給出不同的答案。

      而貪婪解碼(greedy decoding)在一般的基準測試(benchmark)上表現會有所提升,特別是在推理性任務上。但是,模型在不確定情況下的表現仍不理想。

      為解決上述問題,美國東北大學與 Adobe、美國凱斯西儲大學聯合團隊提出了一種無需訓練的新型解碼策略,名為“謹慎下一步預測(CNTP,Cautious Next Token Prediction)”。

      該策略旨在通過在模型不確定性高的步驟采樣多個候選路徑,并選擇困惑度最低的路徑。相較于隨機采樣和貪婪解碼等傳統策略,CNTP 顯著提升了大模型在多種任務上的推理準確度,可應用場景包括語音助手、視覺助手、聊天機器人等。


      圖丨相關論文(來源:arXiv)

      “我們的研究證明了 Transformer 模型下一個詞元預測(next token prediction)的范式,有可能實現真正的智能?!痹撜撐牡谝蛔髡咄跻嘀軐?DeepTech 表示。他目前正在東北大學攻讀博士學位,主要研究方向包括大模型、多模態模型和計算機視覺,即將加入 Adobe 擔任研究科學家/工程師。


      圖丨王亦周(來源:王亦周)

      Safe Superintelligence 公司創始人、前 OpenAI 首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)曾公開表示,如果模型足夠強大,對下一個 token 的預測能力可能反映對世界的某種理解,這可能是實現更深層智能的關鍵路徑。

      也就是說,next token prediction 是智能的核心。要實現這一點,需要在模型內部進行強推理,再通過一系列計算預測下一個 token。

      受此啟發,研究團隊從人類認知行為中尋找靈感:人在思考時,往往越謹慎回答,結果的準確率越高,那么大模型會不會也和人腦有類似的機制?

      王亦周解釋道:“這種過程類似于我們在參加考試時的解題過程,我們可能會先想下有哪些解法,然后從中挑選一種認為最有把握的方法,確認無誤后再進行下一步,直到得到完整的證明。”


      圖丨 CNTP 方法概述(來源:arXiv)

      這里的謹慎指的是,當面對不確定性的情況,需要多嘗試幾條不同的路徑,然后選擇一條最穩妥、最可信的路徑。

      研究團隊用熵作為模型不確定性的衡量標準:熵越高越不可信。在自然語言處理(NLP)中,困惑度(perplexity)越低代表對答案越可信。因此在 CNTP 策略下,一旦熵值較高,模型會采樣多個候選路徑,并選擇其中困惑度最低的一條,再一步步迭代。

      研究人員通過消融研究證明,由于思維鏈推理的回答往往較長,每條路徑長度也不同,如果算完整評估的困惑度無法很好地衡量答案的可靠性?;诖?,他們采取了每到一句話的標點符號截止的方式來計算困惑度。相當于每句話、每個小的推理單元,即每個局部自洽能夠實現較理想的效果。

      為控制采樣次數,研究團隊通過設置最小熵 Hmin 和最大熵 Hmax 兩個閾值和最大試驗次數 Nmax。該方法在提高解碼準確性的同時,還有效地限制了計算成本,避免了在每個步驟大量采樣而帶來的高計算開銷。


      (來源:arXiv)

      在實驗驗證方面,該團隊在數學推理(GSM8K、MATH)、常識推理(StrategyQA)和開放問答(TruthfulQA)等任務中證明,與包括貪婪解碼、隨機解碼和束搜索在內的傳統方法相比,CNTP 策略的結果更具優勢。

      例如,在 TruthfulQA 任務中,Llama-2-7B 在使用 CNTP 方法后,真實性準確率提升到了 84.8%,相較于隨機解碼提升 6.8%。

      值得關注的是,CNTP 策略無需訓練,僅解碼即可直接實現提升性能。王亦周解釋道:這種方法在某種程度上像“免費午餐”,盡管可能會帶來更多的 token 消耗,但在實際應用中有很多優化的方法可解決該問題。


      (來源:arXiv)

      此外,該方法搭配自一致性(self-consistency)后,可進一步提升性能(注:自一致性是取多個樣本,然后選一個出現頻率最高的答案),且計算成本遠低于后者。原因在于,利用多樣性和隨機性集思廣益后,選取多數投票。

      研究團隊證明,每個樣本也是越謹慎越好?!拔覀兊姆椒〞谝欢ǔ潭壬舷拗扑亩鄻有?,但通過調高溫度可以解決這一點,所以它能進一步提升。”王亦周說。

      此外,CNTP 策略具有較好的普適性,可用于廣泛的對話任務。除了有固定答案的數學題或代碼題,它也可以用于開放式問題,研究團隊未來將嘗試將該策略用于圖像或視頻生成。

      該研究為大模型的推理優化提供了一種新思路,有望成為下一代解碼策略的重要候選方案。

      參考資料:

      1.相關論文:https://arxiv.org/abs/2507.03038v2

      2.code link:https://github.com/wyzjack/CNTP

      排版:劉雅坤

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      世界上最燒錢的十項運動,沒錢你真玩不起!

      世界上最燒錢的十項運動,沒錢你真玩不起!

      馬拉松跑步健身
      2026-02-28 11:37:18
      這么看侯佩岑挺慘,還在等周杰倫求復合呢,周杰倫跑去追田馥甄了

      這么看侯佩岑挺慘,還在等周杰倫求復合呢,周杰倫跑去追田馥甄了

      一盅情懷
      2026-03-06 16:27:03
      這家船廠宣布:史上最大幅度加薪協議達成

      這家船廠宣布:史上最大幅度加薪協議達成

      龍de船人
      2026-03-07 20:07:13
      隨著蘭帕德率隊2-0,萊斯特城1-1,赫爾城1-3,英冠最新積分榜出爐

      隨著蘭帕德率隊2-0,萊斯特城1-1,赫爾城1-3,英冠最新積分榜出爐

      側身凌空斬
      2026-03-08 07:03:56
      王曼昱退賽,太原賽8人名單公布,4男4女,陳熠無緣

      王曼昱退賽,太原賽8人名單公布,4男4女,陳熠無緣

      東球貓貓
      2026-03-08 10:01:42
      江西母女喝了3瓶牛奶,被老公數落2小時,眼神太嚇人,網友炸鍋

      江西母女喝了3瓶牛奶,被老公數落2小時,眼神太嚇人,網友炸鍋

      青梅侃史啊
      2026-03-08 07:18:01
      霍爾木茲海峽如果斷供,中國的石油能撐多久?我查完數據算了一遍

      霍爾木茲海峽如果斷供,中國的石油能撐多久?我查完數據算了一遍

      何毅商業財經
      2026-03-08 09:07:44
      蘋果在美升級地理封鎖:字節跳動中文應用遭全面限制,跨區下載已成歷史

      蘋果在美升級地理封鎖:字節跳動中文應用遭全面限制,跨區下載已成歷史

      驅動中國
      2026-03-06 11:12:05
      美軍或用對付伊拉克的方法,對付中國?一旦開戰,衛星必然不保!

      美軍或用對付伊拉克的方法,對付中國?一旦開戰,衛星必然不保!

      阿籫你好
      2026-03-08 10:28:25
      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      南權先生
      2026-01-26 15:41:26
      難辨真偽,但確實有可能,美媒:中國用殲16的舊雷達來升級殲11B

      難辨真偽,但確實有可能,美媒:中國用殲16的舊雷達來升級殲11B

      嘯鷹評
      2026-03-07 23:24:42
      葛薈婕的男友吳海峰,32歲,廣西農村初中學歷,曾是薇婭公司司機

      葛薈婕的男友吳海峰,32歲,廣西農村初中學歷,曾是薇婭公司司機

      靜若梨花
      2026-03-08 11:15:50
      政府工作報告:加強初婚初育家庭住房保障;落實職工帶薪錯峰休假制度

      政府工作報告:加強初婚初育家庭住房保障;落實職工帶薪錯峰休假制度

      每日經濟新聞
      2026-03-07 20:19:10
      全國人大代表、北京協和醫院院長張抒揚建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      全國人大代表、北京協和醫院院長張抒揚建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      觀威海
      2026-03-07 12:07:22
      地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

      地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

      甜檸聊史
      2026-03-08 01:56:33
      全新一代雷克薩斯ES美國售價揭曉:48795美元起,下月登陸國內

      全新一代雷克薩斯ES美國售價揭曉:48795美元起,下月登陸國內

      IT之家
      2026-03-06 18:19:38
      朝鮮戰爭期間:美軍原本已接近擊敗中國,卻碰上中國決死的指揮官

      朝鮮戰爭期間:美軍原本已接近擊敗中國,卻碰上中國決死的指揮官

      別人都叫我阿腈
      2026-02-13 21:25:33
      中央定調!15年最低繳費成歷史,2030年15年繳費還能正常退休嗎?

      中央定調!15年最低繳費成歷史,2030年15年繳費還能正常退休嗎?

      另子維愛讀史
      2026-03-03 21:58:41
      羅永浩怒懟算命大V!稱沒了膽也不慣著,網友:踢到鋼板了

      羅永浩怒懟算命大V!稱沒了膽也不慣著,網友:踢到鋼板了

      雷科技
      2026-03-07 23:58:00
      請12人吃飯結賬變四桌,我悄悄結賬走人,半小時飯店來電:人被扣了,我直接回答:和我沒關系

      請12人吃飯結賬變四桌,我悄悄結賬走人,半小時飯店來電:人被扣了,我直接回答:和我沒關系

      奶茶麥子
      2026-03-08 00:01:07
      2026-03-08 12:07:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16376文章數 514725關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      體育要聞

      大傷后被交易,他說:22歲的我已經死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財經要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

      態度原創

      教育
      親子
      健康
      藝術
      數碼

      教育要聞

      給孩子減負重磅消息

      親子要聞

      孩子總生病沒胃口多半是脾胃弱

      轉頭就暈的耳石癥,能開車上班嗎?

      藝術要聞

      他是二王書法的化身?米芾的秘密揭曉!

      數碼要聞

      華為PC加速鴻蒙化 上半年或推出兩款鴻蒙PC新品!

      無障礙瀏覽 進入關懷版