<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      無需訓(xùn)練、即插即用,這個(gè)解碼方法讓模型學(xué)會(huì)謹(jǐn)慎思考

      0
      分享至

      你有沒有發(fā)現(xiàn)這樣一種現(xiàn)象:面對(duì)同一個(gè)問題,大模型可能在每次回答時(shí)都給出不同答案。一個(gè)不容忽視的問題是,這種不確定性,是否意味著推理仍不穩(wěn)定?

      隨著技術(shù)的發(fā)展,大模型在自然語言處理和多模態(tài)任務(wù)中已經(jīng)表現(xiàn)出越來越強(qiáng)的性能。傳統(tǒng)解碼策略主要包括隨機(jī)采樣(random sample)和貪婪解碼(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默認(rèn)的是隨機(jī)采樣(random sample),即便是回答相同的問題,它們可能每次都會(huì)給出不同的答案。

      而貪婪解碼(greedy decoding)在一般的基準(zhǔn)測(cè)試(benchmark)上表現(xiàn)會(huì)有所提升,特別是在推理性任務(wù)上。但是,模型在不確定情況下的表現(xiàn)仍不理想。

      為解決上述問題,美國東北大學(xué)與 Adobe、美國凱斯西儲(chǔ)大學(xué)聯(lián)合團(tuán)隊(duì)提出了一種無需訓(xùn)練的新型解碼策略,名為“謹(jǐn)慎下一步預(yù)測(cè)(CNTP,Cautious Next Token Prediction)”。

      該策略旨在通過在模型不確定性高的步驟采樣多個(gè)候選路徑,并選擇困惑度最低的路徑。相較于隨機(jī)采樣和貪婪解碼等傳統(tǒng)策略,CNTP 顯著提升了大模型在多種任務(wù)上的推理準(zhǔn)確度,可應(yīng)用場(chǎng)景包括語音助手、視覺助手、聊天機(jī)器人等。


      圖丨相關(guān)論文(來源:arXiv)

      “我們的研究證明了 Transformer 模型下一個(gè)詞元預(yù)測(cè)(next token prediction)的范式,有可能實(shí)現(xiàn)真正的智能?!痹撜撐牡谝蛔髡咄跻嘀軐?duì) DeepTech 表示。他目前正在東北大學(xué)攻讀博士學(xué)位,主要研究方向包括大模型、多模態(tài)模型和計(jì)算機(jī)視覺,即將加入 Adobe 擔(dān)任研究科學(xué)家/工程師。


      圖丨王亦周(來源:王亦周)

      Safe Superintelligence 公司創(chuàng)始人、前 OpenAI 首席科學(xué)家伊爾亞·蘇茨克維(Ilya Sutskever)曾公開表示,如果模型足夠強(qiáng)大,對(duì)下一個(gè) token 的預(yù)測(cè)能力可能反映對(duì)世界的某種理解,這可能是實(shí)現(xiàn)更深層智能的關(guān)鍵路徑。

      也就是說,next token prediction 是智能的核心。要實(shí)現(xiàn)這一點(diǎn),需要在模型內(nèi)部進(jìn)行強(qiáng)推理,再通過一系列計(jì)算預(yù)測(cè)下一個(gè) token。

      受此啟發(fā),研究團(tuán)隊(duì)從人類認(rèn)知行為中尋找靈感:人在思考時(shí),往往越謹(jǐn)慎回答,結(jié)果的準(zhǔn)確率越高,那么大模型會(huì)不會(huì)也和人腦有類似的機(jī)制?

      王亦周解釋道:“這種過程類似于我們?cè)趨⒓涌荚嚂r(shí)的解題過程,我們可能會(huì)先想下有哪些解法,然后從中挑選一種認(rèn)為最有把握的方法,確認(rèn)無誤后再進(jìn)行下一步,直到得到完整的證明。”


      圖丨 CNTP 方法概述(來源:arXiv)

      這里的謹(jǐn)慎指的是,當(dāng)面對(duì)不確定性的情況,需要多嘗試幾條不同的路徑,然后選擇一條最穩(wěn)妥、最可信的路徑。

      研究團(tuán)隊(duì)用熵作為模型不確定性的衡量標(biāo)準(zhǔn):熵越高越不可信。在自然語言處理(NLP)中,困惑度(perplexity)越低代表對(duì)答案越可信。因此在 CNTP 策略下,一旦熵值較高,模型會(huì)采樣多個(gè)候選路徑,并選擇其中困惑度最低的一條,再一步步迭代。

      研究人員通過消融研究證明,由于思維鏈推理的回答往往較長,每條路徑長度也不同,如果算完整評(píng)估的困惑度無法很好地衡量答案的可靠性。基于此,他們采取了每到一句話的標(biāo)點(diǎn)符號(hào)截止的方式來計(jì)算困惑度。相當(dāng)于每句話、每個(gè)小的推理單元,即每個(gè)局部自洽能夠?qū)崿F(xiàn)較理想的效果。

      為控制采樣次數(shù),研究團(tuán)隊(duì)通過設(shè)置最小熵 Hmin 和最大熵 Hmax 兩個(gè)閾值和最大試驗(yàn)次數(shù) Nmax。該方法在提高解碼準(zhǔn)確性的同時(shí),還有效地限制了計(jì)算成本,避免了在每個(gè)步驟大量采樣而帶來的高計(jì)算開銷。


      (來源:arXiv)

      在實(shí)驗(yàn)驗(yàn)證方面,該團(tuán)隊(duì)在數(shù)學(xué)推理(GSM8K、MATH)、常識(shí)推理(StrategyQA)和開放問答(TruthfulQA)等任務(wù)中證明,與包括貪婪解碼、隨機(jī)解碼和束搜索在內(nèi)的傳統(tǒng)方法相比,CNTP 策略的結(jié)果更具優(yōu)勢(shì)。

      例如,在 TruthfulQA 任務(wù)中,Llama-2-7B 在使用 CNTP 方法后,真實(shí)性準(zhǔn)確率提升到了 84.8%,相較于隨機(jī)解碼提升 6.8%。

      值得關(guān)注的是,CNTP 策略無需訓(xùn)練,僅解碼即可直接實(shí)現(xiàn)提升性能。王亦周解釋道:這種方法在某種程度上像“免費(fèi)午餐”,盡管可能會(huì)帶來更多的 token 消耗,但在實(shí)際應(yīng)用中有很多優(yōu)化的方法可解決該問題。


      (來源:arXiv)

      此外,該方法搭配自一致性(self-consistency)后,可進(jìn)一步提升性能(注:自一致性是取多個(gè)樣本,然后選一個(gè)出現(xiàn)頻率最高的答案),且計(jì)算成本遠(yuǎn)低于后者。原因在于,利用多樣性和隨機(jī)性集思廣益后,選取多數(shù)投票。

      研究團(tuán)隊(duì)證明,每個(gè)樣本也是越謹(jǐn)慎越好。“我們的方法會(huì)在一定程度上限制它的多樣性,但通過調(diào)高溫度可以解決這一點(diǎn),所以它能進(jìn)一步提升。”王亦周說。

      此外,CNTP 策略具有較好的普適性,可用于廣泛的對(duì)話任務(wù)。除了有固定答案的數(shù)學(xué)題或代碼題,它也可以用于開放式問題,研究團(tuán)隊(duì)未來將嘗試將該策略用于圖像或視頻生成。

      該研究為大模型的推理優(yōu)化提供了一種新思路,有望成為下一代解碼策略的重要候選方案。

      參考資料:

      1.相關(guān)論文:https://arxiv.org/abs/2507.03038v2

      2.code link:https://github.com/wyzjack/CNTP

      排版:劉雅坤

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      1998年數(shù)萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      1998年數(shù)萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      哄動(dòng)一時(shí)啊
      2026-02-17 22:21:25
      72萬個(gè)充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

      72萬個(gè)充電樁,年入40億,常州夫婦邊賺錢邊收割,如今要上市了

      毒sir財(cái)經(jīng)
      2026-02-22 10:38:14
      媽祖交待的話,唯有阿童敢傳!十幾歲的她,藏著眾人的敬畏

      媽祖交待的話,唯有阿童敢傳!十幾歲的她,藏著眾人的敬畏

      小陸搞笑日常
      2026-02-23 18:27:55
      迅策午后漲幅一度擴(kuò)大近20%

      迅策午后漲幅一度擴(kuò)大近20%

      每日經(jīng)濟(jì)新聞
      2026-02-23 15:14:05
      破25億,張藝謀甘拜下風(fēng),吳京也攔不住,春節(jié)檔最強(qiáng)電影誕生了

      破25億,張藝謀甘拜下風(fēng),吳京也攔不住,春節(jié)檔最強(qiáng)電影誕生了

      小丸子的娛樂圈
      2026-02-22 18:28:03
      最近的電車起火,辯解很有趣,都不是電池起火,是外因?qū)е?>
    </a>
        <h3>
      <a href=柏銘銳談
      2026-02-23 07:56:14
      北宋最“?!彪[士:朝廷八次征召不出山,卻用一本書影響中國千年

      北宋最“?!彪[士:朝廷八次征召不出山,卻用一本書影響中國千年

      通文知史
      2026-02-22 22:55:05
      白發(fā)長哪里,病就藏哪里!別不信,你的身體早已通過白發(fā)向你“報(bào)警”!

      白發(fā)長哪里,病就藏哪里!別不信,你的身體早已通過白發(fā)向你“報(bào)警”!

      環(huán)球網(wǎng)資訊
      2026-02-01 08:57:23
      春節(jié)假期發(fā)現(xiàn):越是有錢的親戚,越是冷漠

      春節(jié)假期發(fā)現(xiàn):越是有錢的親戚,越是冷漠

      洞見
      2026-02-23 20:35:42
      五周暴跌42%!Reddit股價(jià)為何突然崩盤

      五周暴跌42%!Reddit股價(jià)為何突然崩盤

      新浪財(cái)經(jīng)
      2026-02-23 16:56:23
      伊朗總統(tǒng):伊朗人民絕不會(huì)向霸凌屈服

      伊朗總統(tǒng):伊朗人民絕不會(huì)向霸凌屈服

      新華社
      2026-02-23 09:06:41
      新加坡大滿貫賽:大捷報(bào)!國乒蒯曼3:0大獲全勝,石洵瑤3:0晉級(jí)

      新加坡大滿貫賽:大捷報(bào)!國乒蒯曼3:0大獲全勝,石洵瑤3:0晉級(jí)

      國乒二三事
      2026-02-23 19:24:08
      定居美國13年回國撈金遭驅(qū)逐,52歲活成笑話

      定居美國13年回國撈金遭驅(qū)逐,52歲活成笑話

      絢麗的畫卷
      2026-02-22 21:36:26
      笑裂了,山航起飛心驟停,網(wǎng)友:謝謝機(jī)長不殺之恩!

      笑裂了,山航起飛心驟停,網(wǎng)友:謝謝機(jī)長不殺之恩!

      夜深愛雜談
      2025-12-09 20:24:32
      江蘇男子帶著一家人去俄羅斯旅游,結(jié)果老婆孩子葬身貝加爾湖

      江蘇男子帶著一家人去俄羅斯旅游,結(jié)果老婆孩子葬身貝加爾湖

      霹靂炮
      2026-02-22 22:56:18
      大仇得報(bào)!白鹿王星越《唐宮奇案》大結(jié)局,是今年看過最解氣結(jié)尾

      大仇得報(bào)!白鹿王星越《唐宮奇案》大結(jié)局,是今年看過最解氣結(jié)尾

      可樂談情感
      2026-02-23 20:09:49
      內(nèi)蒙古一200斤男子欠5000萬不還,被債主裝進(jìn)鐵籠沉入80米水庫,誰料,2年后才被撈出...

      內(nèi)蒙古一200斤男子欠5000萬不還,被債主裝進(jìn)鐵籠沉入80米水庫,誰料,2年后才被撈出...

      品讀時(shí)刻
      2026-02-11 17:18:30
      美媒:中國首艘09V型核動(dòng)力攻擊潛艇現(xiàn)身渤海,搭載全新X型尾舵

      美媒:中國首艘09V型核動(dòng)力攻擊潛艇現(xiàn)身渤海,搭載全新X型尾舵

      百科密碼
      2026-02-23 16:23:49
      貝加爾湖墜車事件:活下來的江蘇爸爸,往后的每一天都是煎熬

      貝加爾湖墜車事件:活下來的江蘇爸爸,往后的每一天都是煎熬

      放開他讓wo來
      2026-02-23 16:20:16
      6進(jìn)決賽全勝!趙心童奪冠獎(jiǎng)金1270萬,下一站比賽時(shí)間+對(duì)手確定了

      6進(jìn)決賽全勝!趙心童奪冠獎(jiǎng)金1270萬,下一站比賽時(shí)間+對(duì)手確定了

      小火箭愛體育
      2026-02-23 08:09:06
      2026-02-24 01:04:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評(píng)論獨(dú)家合作
      16308文章數(shù) 514642關(guān)注度
      往期回顧 全部

      科技要聞

      智譜、MiniMax合計(jì)蒸發(fā)近千億市值,為何?

      頭條要聞

      特朗普2年遭4次刺殺威脅 持槍闖海湖莊園男子身份確認(rèn)

      頭條要聞

      特朗普2年遭4次刺殺威脅 持槍闖海湖莊園男子身份確認(rèn)

      體育要聞

      哈登版騎士首敗:雷霆的冠軍課

      娛樂要聞

      那藝娜賬號(hào)被禁止關(guān)注,視頻已清空!

      財(cái)經(jīng)要聞

      美國海關(guān)將停止征收被裁定違法的關(guān)稅

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級(jí)電混2026年上市

      態(tài)度原創(chuàng)

      藝術(shù)
      游戲
      手機(jī)
      數(shù)碼
      公開課

      藝術(shù)要聞

      十大名家畫春,送給春天的你!

      海盜PvE生存冒險(xiǎn)《風(fēng)啟之旅》Steam愿望單破100萬

      手機(jī)要聞

      iPhone 18 Pro進(jìn)入量產(chǎn)測(cè)試階段 今年秋季發(fā)布

      數(shù)碼要聞

      PC鮮辣報(bào):顯卡顯存回歸8GB配置,微星推芙麗蓮聯(lián)名顯卡

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版