<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      浙大團(tuán)隊(duì)破解多模態(tài)模型「盲目自信」:先校準(zhǔn)置信度,再分配算力

      0
      分享至

      多模態(tài)大模型,到底有多“嘴硬”?

      浙江大學(xué)聯(lián)合阿里巴巴、香港城市大學(xué)、密歇根大學(xué)的研究團(tuán)隊(duì)做了一個(gè)很直接的實(shí)驗(yàn):

      把輸入圖像從清晰狀態(tài)一路加噪到接近不可辨認(rèn),同時(shí)持續(xù)監(jiān)測模型的準(zhǔn)確率與置信度。

      結(jié)果是,準(zhǔn)確率斷崖式下跌,但置信度幾乎不動。也就是說,圖像已經(jīng)看不清了,模型仍然會高置信度地給出答案。



      這類“盲目自信”,正是多模態(tài)大模型在復(fù)雜視覺推理中產(chǎn)生幻覺和誤判的重要根源。針對這一問題,研究團(tuán)隊(duì)提出了CA-TTS(Confidence-Aware Test-Time Scaling)框架:先通過置信度驅(qū)動的強(qiáng)化學(xué)習(xí)校準(zhǔn)模型的自我評估能力,再把校準(zhǔn)后的置信度轉(zhuǎn)化為推理階段的資源分配信號。

      效果也很直接:在四個(gè)主流視覺推理基準(zhǔn)上,CA-TTS全面達(dá)到SOTA,平均超越現(xiàn)有最優(yōu)方法8.8%。其中,在Math-Vision上,準(zhǔn)確率從基線的23.0%提升到42.4%。論文已被CVPR 2026接收。



      達(dá)爾文早就說過:無知比知識更容易產(chǎn)生自信

      這項(xiàng)工作的出發(fā)點(diǎn),其實(shí)是一個(gè)長期被忽視的問題:模型是否真的知道自己“不知道”?

      研究團(tuán)隊(duì)將上述現(xiàn)象定義為“感知鈍化”(Perceptual Bluntness)。也就是,模型對視覺信息質(zhì)量的變化缺乏敏感性,視覺證據(jù)已經(jīng)明顯退化,但置信度仍維持在高位。放在人類語境里,這很像一個(gè)人在看不清題目的情況下,仍然非常篤定地報(bào)出答案。

      為了在多模態(tài)場景下更穩(wěn)定地度量這種問題,研究團(tuán)隊(duì)沒有沿用文本模型里常見的token級校準(zhǔn)方式,而是將置信度定義為整個(gè)輸出序列的平均負(fù)對數(shù)概率(NMLP),建立響應(yīng)級別的置信度度量。基于這一度量,整套方法分成兩個(gè)階段:訓(xùn)練階段的置信度校準(zhǔn),以及推理階段的置信度感知擴(kuò)展。



      第一步:CDRL讓視覺感知與置信度重新對齊

      訓(xùn)練階段的核心模塊是CDRL(Confidence-Driven Reinforcement Learning)。它的目標(biāo)不是單純提升答題準(zhǔn)確率,而是讓模型在“看得清”和“看不清”兩種情況下,給出與視覺證據(jù)相匹配的置信度。

      具體做法是,讓模型同時(shí)處理同一問題的原始圖像與加噪圖像,并通過強(qiáng)化學(xué)習(xí)優(yōu)化一個(gè)雙重獎勵機(jī)制:

      1. 感知敏感性獎勵:鼓勵模型在原始圖像與噪聲圖像之間產(chǎn)生合理的置信度差異。差異越大,說明模型越能感知視覺退化。

      2. 校準(zhǔn)一致性獎勵:當(dāng)模型預(yù)測正確且置信度高時(shí)給予正向獎勵;當(dāng)模型預(yù)測錯誤但置信度仍高時(shí)施加懲罰。

      這兩個(gè)獎勵共同約束模型學(xué)會兩件事:一是對視覺退化保持敏感,二是對自身判斷保持誠實(shí)

      在訓(xùn)練數(shù)據(jù)上,研究團(tuán)隊(duì)從6個(gè)公開基準(zhǔn)中篩選出1936個(gè)高質(zhì)量樣本,并使用CLIP注意力圖定位關(guān)鍵視覺區(qū)域,生成更具針對性的擾動,使噪聲集中施加在真正影響推理的局部區(qū)域。



      從結(jié)果看,CDRL的效果并不只是“置信度變低”這么簡單,而是“置信度終于跟視覺證據(jù)對上了”。面對噪聲圖像時(shí),訓(xùn)練后的模型置信度下降幅度是訓(xùn)練前的4.3倍;面對遮擋條件時(shí),這一比值達(dá)到4.7倍。

      更值得注意的是,訓(xùn)練前模型在視角變換和馬賽克干擾下,置信度甚至還會反向上升,而CDRL訓(xùn)練后,所有視覺擾動條件下的置信度都轉(zhuǎn)為顯著下降,ECE與AUC指標(biāo)也同步改善。

      第二步:CA-TTS把校準(zhǔn)后的置信度變成推理信號

      有了更可信的置信度之后,研究團(tuán)隊(duì)進(jìn)一步提出CA-TTS,把“模型對自己有多確定”轉(zhuǎn)化為推理階段的調(diào)度信號。它包含三個(gè)協(xié)同工作的模塊,并由專家模型動態(tài)決定何時(shí)介入:

      Self-Consistency:不再使用簡單多數(shù)投票,而是采用置信度加權(quán)投票。模型生成多個(gè)候選答案后,先由內(nèi)部置信度進(jìn)行聚合,再引入專家模型作為外部校準(zhǔn)器,對候選答案進(jìn)行二次評估。

      Self-Reflection:當(dāng)初步結(jié)果的置信度不足時(shí),專家模型以Critic角色生成批評意見,引導(dǎo)基礎(chǔ)模型重新推理,避免它在原有錯誤路徑上反復(fù)自洽。

      Self-Check:在視覺層面對答案做進(jìn)一步驗(yàn)證。通過對比解碼,比較原始圖像與噪聲圖像下的輸出概率分布;如果答案確實(shí)依賴視覺證據(jù),那么在噪聲圖像下其支持度應(yīng)當(dāng)下降。



      與常見的Tree-of-Thoughts不同,CA-TTS的關(guān)鍵不只是“多想幾步”,而是建立了一個(gè)多階段驗(yàn)證閉環(huán)。前一階段即使給出錯誤候選,后續(xù)模塊仍有機(jī)會糾正它。論文中的“墻上缺了多少塊磚”案例就體現(xiàn)了這一點(diǎn):Tree-of-Thoughts在最終單點(diǎn)評估上失手,而CA-TTS通過加權(quán)投票、反思和視覺自檢三步糾偏,最終恢復(fù)出正確答案。

      實(shí)驗(yàn)結(jié)果:四大基準(zhǔn)全面領(lǐng)先



      在四個(gè)主流視覺推理基準(zhǔn)上,CA-TTS的表現(xiàn)如下。需要強(qiáng)調(diào)的是,這里的基座模型統(tǒng)一為Qwen2.5-VL-7B,因此提升主要來自方法本身,而不是底座差異。

      幾組數(shù)字尤其有代表性。Math-Vision上,CA-TTS從基線的23.0%直接提升到42.4%,幾乎翻倍;MMMU上達(dá)到66.3%,相較基線提升17.5個(gè)百分點(diǎn)。這說明它帶來的不是單點(diǎn)收益,而是在不同類型視覺推理任務(wù)上的一致性改進(jìn)。

      消融實(shí)驗(yàn)進(jìn)一步揭示了CDRL與CA-TTS的分工關(guān)系:



      單獨(dú)使用CDRL,提升3.4個(gè)百分點(diǎn),說明置信度校準(zhǔn)本身就有獨(dú)立價(jià)值;單獨(dú)使用CA-TTS,提升15.0個(gè)百分點(diǎn),說明推理框架已經(jīng)能夠顯著改善決策質(zhì)量;兩者結(jié)合后總提升達(dá)到19.4個(gè)百分點(diǎn),表明CDRL為CA-TTS提供了更可靠的策略基礎(chǔ),二者存在明顯協(xié)同效應(yīng)。



      研究團(tuán)隊(duì)還檢驗(yàn)了專家模型的依賴程度。即使讓Qwen2.5-VL-7B自身充當(dāng)“專家”,性能也仍比純Majority Voting高出接近5個(gè)百分點(diǎn)(32.57% vs. 27.65%)。換句話說,強(qiáng)專家模型確實(shí)能進(jìn)一步放大收益,但框架本身并不是靠“抱大腿”成立的。

      Test-Time Scaling:斜率拉開,才是更關(guān)鍵的結(jié)果

      如果說四個(gè)基準(zhǔn)上的SOTA說明方法“更準(zhǔn)”,那么test-time scaling曲線揭示的是它“為什么更值”。



      在Math-Vision上,研究團(tuán)隊(duì)比較了采樣數(shù)量從1增加到32時(shí),不同方法的準(zhǔn)確率增長趨勢。結(jié)果顯示,CA-TTS的擴(kuò)展斜率β = 3.65,而Majority Voting為1.64,DeepConf為1.19。也就是說,CA-TTS的擴(kuò)展效率分別是后兩者的2.2倍和3.1倍。

      這意味著,同樣是增加采樣次數(shù),CA-TTS并不是“更頻繁地碰運(yùn)氣”,而是更有效地把額外算力投向真正不確定的問題上。當(dāng)Majority Voting和DeepConf在35%左右逐漸趨于飽和時(shí),CA-TTS仍能繼續(xù)爬升,并最終突破45%。

      從這個(gè)角度看,置信度校準(zhǔn)并不是一個(gè)附屬優(yōu)化項(xiàng),而是在重新定義test-time scaling的效率上限。它讓“多算一點(diǎn)”這件事第一次變得更有方向感。

      從“先推理后感知”到“先感知后推理”

      這項(xiàng)工作最值得關(guān)注的地方,可能并不只是又一個(gè)更高的benchmark分?jǐn)?shù),而是它提出了一種新的問題順序。

      過去,多模態(tài)推理研究默認(rèn)的前提是:模型已經(jīng)在充分利用視覺信息,接下來只需要把推理能力做強(qiáng)。但這篇論文提醒我們,一個(gè)模型可能根本沒有真正“看懂”圖像,卻依然能給出高度自信的回答。若這個(gè)前提沒有被修正,后續(xù)再復(fù)雜的推理鏈條,也可能建立在不可靠的感知基礎(chǔ)上。

      CA-TTS的思路正好反過來:先通過CDRL建立對視覺證據(jù)變化敏感、且與準(zhǔn)確性一致的置信度,再讓這種置信度去指導(dǎo)推理資源的分配。這是一種明確的Perceive-then-Reason范式,也就是從“先推理后感知”轉(zhuǎn)向“先感知后推理”。

      當(dāng)然,這一方向也并非沒有代價(jià)。多次采樣與專家模型調(diào)用會帶來額外推理成本,當(dāng)前實(shí)驗(yàn)也主要集中在數(shù)學(xué)推理和通用VQA任務(wù)上。但如果目標(biāo)是讓多模態(tài)大模型在高風(fēng)險(xiǎn)場景中真正做到“知道自己什么時(shí)候不該太自信”,那么這條路線已經(jīng)給出了一個(gè)很有說服力的起點(diǎn)。

      論文標(biāo)題:
      Linking Perception, Confidence and Accuracy in MLLMs
      作者:
      Yuetian Du*, Yucheng Wang*, Rongyu Zhang, Zhijie Xu, Boyu Yang, Ming Kong, Jie Liu#, Qiang Zhu#
      單位:
      浙江大學(xué)、阿里巴巴集團(tuán)、香港城市大學(xué)、密歇根大學(xué)
      發(fā)表:
      CVPR 2026
      項(xiàng)目鏈接:
      https://github.com/anotherbricki/CA-TTS

      作者簡介:
      本文第一作者為杜越天,浙江大學(xué)博士生,研究方向?yàn)槎嗄B(tài)大模型的置信度校準(zhǔn)與test-time scaling,導(dǎo)師為朱強(qiáng)教授。本文在朱強(qiáng)教授和劉潔博士的指導(dǎo)下完成。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      特朗普:臺灣屬于中國,武統(tǒng)是中方的自由,但一動手美國會不高興

      特朗普:臺灣屬于中國,武統(tǒng)是中方的自由,但一動手美國會不高興

      共工之錨
      2026-03-22 00:48:09
      Seedance2.0短劇Agent上線 十萬字劇本一鍵成片

      Seedance2.0短劇Agent上線 十萬字劇本一鍵成片

      齊魯壹點(diǎn)
      2026-03-20 17:46:50
      央企“最牛女副處長”落馬:兩年與上司開房410次,細(xì)節(jié)曝光

      央企“最牛女副處長”落馬:兩年與上司開房410次,細(xì)節(jié)曝光

      西門老爹
      2025-12-16 15:35:31
      楊紫真的已經(jīng)瘦到天賦上限了,這也太牛了…

      楊紫真的已經(jīng)瘦到天賦上限了,這也太牛了…

      手工制作阿殲
      2026-02-22 13:25:34
      我今年55了,想用血淚教訓(xùn)告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這三件事

      我今年55了,想用血淚教訓(xùn)告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這三件事

      東林夕亭
      2026-03-19 09:04:30
      這輩子大概率孤獨(dú)終老!00后江西小伙直言,讓母親發(fā)帖稱滿心冰涼

      這輩子大概率孤獨(dú)終老!00后江西小伙直言,讓母親發(fā)帖稱滿心冰涼

      火山詩話
      2026-03-22 10:17:08
      看不懂,在俱樂部踢不上球卻能進(jìn)國足,球迷:邵佳一看上他啥了?

      看不懂,在俱樂部踢不上球卻能進(jìn)國足,球迷:邵佳一看上他啥了?

      我就是一個(gè)說球的
      2026-03-22 20:51:18
      香港再無董建華

      香港再無董建華

      華人星光
      2025-11-25 12:01:27
      麻煩大了!馬筱梅區(qū)別對待大S孩子,張?zhí)m哽咽落淚 律師曝筱梅猛料

      麻煩大了!馬筱梅區(qū)別對待大S孩子,張?zhí)m哽咽落淚 律師曝筱梅猛料

      科普100克克
      2026-03-23 00:18:55
      中國隱忍40年終于等到現(xiàn)在,只用8天,打贏了一場沒有硝煙的戰(zhàn)爭

      中國隱忍40年終于等到現(xiàn)在,只用8天,打贏了一場沒有硝煙的戰(zhàn)爭

      小蘭聊歷史
      2026-03-23 06:22:28
      白云山“國產(chǎn)偉哥”金戈銷量、收入連續(xù)兩年下滑,2025年賣出約7987萬片

      白云山“國產(chǎn)偉哥”金戈銷量、收入連續(xù)兩年下滑,2025年賣出約7987萬片

      紅星新聞
      2026-03-22 19:13:15
      父母最大的失敗,是把孩子養(yǎng)成這4種性格,占一種,未來舉步維艱

      父母最大的失敗,是把孩子養(yǎng)成這4種性格,占一種,未來舉步維艱

      戶外阿毽
      2026-03-22 12:44:31
      95后女教師自拍淫穢視頻售賣獲利24萬 獲刑三年、緩刑三年

      95后女教師自拍淫穢視頻售賣獲利24萬 獲刑三年、緩刑三年

      閃電新聞
      2026-03-22 12:06:17
      日本臺灣油價(jià)接連下跌,大陸油價(jià)卻瘋漲至9元,差異原因一目了然

      日本臺灣油價(jià)接連下跌,大陸油價(jià)卻瘋漲至9元,差異原因一目了然

      風(fēng)笛悠揚(yáng)聲
      2026-03-23 02:47:50
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      0-3慘敗森林后熱刺主場響起漫天噓聲,圖多爾徑直走回更衣室

      0-3慘敗森林后熱刺主場響起漫天噓聲,圖多爾徑直走回更衣室

      懂球帝
      2026-03-23 00:51:06
      凱帕失誤致阿森納痛失聯(lián)賽杯,曼城第九次奪冠

      凱帕失誤致阿森納痛失聯(lián)賽杯,曼城第九次奪冠

      徐扙老表哥
      2026-03-23 06:09:04
      比白發(fā)更可怕的是“中國式大爺發(fā)型”,自以為時(shí)髦,實(shí)際油膩土氣

      比白發(fā)更可怕的是“中國式大爺發(fā)型”,自以為時(shí)髦,實(shí)際油膩土氣

      淡淡稻花香s
      2026-03-19 03:53:49
      等我老了,也學(xué)日本主婦:少穿衛(wèi)衣、毛衣,換成這樣穿更優(yōu)雅減齡

      等我老了,也學(xué)日本主婦:少穿衛(wèi)衣、毛衣,換成這樣穿更優(yōu)雅減齡

      冒泡泡的魚兒
      2026-03-18 14:40:23
      國安部鄭重提醒:手機(jī)這些功能別常開,及時(shí)關(guān)閉更安全

      國安部鄭重提醒:手機(jī)這些功能別常開,及時(shí)關(guān)閉更安全

      Thurman在昆明
      2026-03-22 21:15:07
      2026-03-23 07:08:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12323文章數(shù) 176418關(guān)注度
      往期回顧 全部

      科技要聞

      嫌臺積電太慢 馬斯克要把芯片產(chǎn)能飆升50倍

      頭條要聞

      媒體:特朗普48小時(shí)通牒砸向伊朗 不排除美國鋌而走險(xiǎn)

      頭條要聞

      媒體:特朗普48小時(shí)通牒砸向伊朗 不排除美國鋌而走險(xiǎn)

      體育要聞

      46歲生日快樂!巴薩全隊(duì)穿10號致敬小羅

      娛樂要聞

      47歲“國際章”身材走樣?讓嘲笑她的人閉嘴

      財(cái)經(jīng)要聞

      睡夢中欠債1.2萬?這只“蝦”殺瘋了

      汽車要聞

      14.28萬元起 吉利銀河星耀8遠(yuǎn)航家開啟預(yù)售

      態(tài)度原創(chuàng)

      健康
      親子
      房產(chǎn)
      數(shù)碼
      公開課

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      親子要聞

      孩子無意中說這樣的話,可能隱藏求救信號,寶媽們要警惕!

      房產(chǎn)要聞

      全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計(jì)劃】,即刻啟動!

      數(shù)碼要聞

      古爾曼:蘋果Apple TV、HomePod和HomePod mini庫存告急

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版