<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      浙大團隊破解多模態模型「盲目自信」:先校準置信度,再分配算力

      0
      分享至

      多模態大模型,到底有多“嘴硬”?

      浙江大學聯合阿里巴巴、香港城市大學、密歇根大學的研究團隊做了一個很直接的實驗:

      把輸入圖像從清晰狀態一路加噪到接近不可辨認,同時持續監測模型的準確率與置信度。

      結果是,準確率斷崖式下跌,但置信度幾乎不動。也就是說,圖像已經看不清了,模型仍然會高置信度地給出答案。



      這類“盲目自信”,正是多模態大模型在復雜視覺推理中產生幻覺和誤判的重要根源。針對這一問題,研究團隊提出了CA-TTS(Confidence-Aware Test-Time Scaling)框架:先通過置信度驅動的強化學習校準模型的自我評估能力,再把校準后的置信度轉化為推理階段的資源分配信號。

      效果也很直接:在四個主流視覺推理基準上,CA-TTS全面達到SOTA,平均超越現有最優方法8.8%。其中,在Math-Vision上,準確率從基線的23.0%提升到42.4%。論文已被CVPR 2026接收。



      達爾文早就說過:無知比知識更容易產生自信

      這項工作的出發點,其實是一個長期被忽視的問題:模型是否真的知道自己“不知道”?

      研究團隊將上述現象定義為“感知鈍化”(Perceptual Bluntness)。也就是,模型對視覺信息質量的變化缺乏敏感性,視覺證據已經明顯退化,但置信度仍維持在高位。放在人類語境里,這很像一個人在看不清題目的情況下,仍然非常篤定地報出答案。

      為了在多模態場景下更穩定地度量這種問題,研究團隊沒有沿用文本模型里常見的token級校準方式,而是將置信度定義為整個輸出序列的平均負對數概率(NMLP),建立響應級別的置信度度量。基于這一度量,整套方法分成兩個階段:訓練階段的置信度校準,以及推理階段的置信度感知擴展。



      第一步:CDRL讓視覺感知與置信度重新對齊

      訓練階段的核心模塊是CDRL(Confidence-Driven Reinforcement Learning)。它的目標不是單純提升答題準確率,而是讓模型在“看得清”和“看不清”兩種情況下,給出與視覺證據相匹配的置信度。

      具體做法是,讓模型同時處理同一問題的原始圖像與加噪圖像,并通過強化學習優化一個雙重獎勵機制:

      1. 感知敏感性獎勵:鼓勵模型在原始圖像與噪聲圖像之間產生合理的置信度差異。差異越大,說明模型越能感知視覺退化。

      2. 校準一致性獎勵:當模型預測正確且置信度高時給予正向獎勵;當模型預測錯誤但置信度仍高時施加懲罰。

      這兩個獎勵共同約束模型學會兩件事:一是對視覺退化保持敏感,二是對自身判斷保持誠實

      在訓練數據上,研究團隊從6個公開基準中篩選出1936個高質量樣本,并使用CLIP注意力圖定位關鍵視覺區域,生成更具針對性的擾動,使噪聲集中施加在真正影響推理的局部區域。



      從結果看,CDRL的效果并不只是“置信度變低”這么簡單,而是“置信度終于跟視覺證據對上了”。面對噪聲圖像時,訓練后的模型置信度下降幅度是訓練前的4.3倍;面對遮擋條件時,這一比值達到4.7倍。

      更值得注意的是,訓練前模型在視角變換和馬賽克干擾下,置信度甚至還會反向上升,而CDRL訓練后,所有視覺擾動條件下的置信度都轉為顯著下降,ECE與AUC指標也同步改善。

      第二步:CA-TTS把校準后的置信度變成推理信號

      有了更可信的置信度之后,研究團隊進一步提出CA-TTS,把“模型對自己有多確定”轉化為推理階段的調度信號。它包含三個協同工作的模塊,并由專家模型動態決定何時介入:

      Self-Consistency:不再使用簡單多數投票,而是采用置信度加權投票。模型生成多個候選答案后,先由內部置信度進行聚合,再引入專家模型作為外部校準器,對候選答案進行二次評估。

      Self-Reflection:當初步結果的置信度不足時,專家模型以Critic角色生成批評意見,引導基礎模型重新推理,避免它在原有錯誤路徑上反復自洽。

      Self-Check:在視覺層面對答案做進一步驗證。通過對比解碼,比較原始圖像與噪聲圖像下的輸出概率分布;如果答案確實依賴視覺證據,那么在噪聲圖像下其支持度應當下降。



      與常見的Tree-of-Thoughts不同,CA-TTS的關鍵不只是“多想幾步”,而是建立了一個多階段驗證閉環。前一階段即使給出錯誤候選,后續模塊仍有機會糾正它。論文中的“墻上缺了多少塊磚”案例就體現了這一點:Tree-of-Thoughts在最終單點評估上失手,而CA-TTS通過加權投票、反思和視覺自檢三步糾偏,最終恢復出正確答案。

      實驗結果:四大基準全面領先



      在四個主流視覺推理基準上,CA-TTS的表現如下。需要強調的是,這里的基座模型統一為Qwen2.5-VL-7B,因此提升主要來自方法本身,而不是底座差異。

      幾組數字尤其有代表性。Math-Vision上,CA-TTS從基線的23.0%直接提升到42.4%,幾乎翻倍;MMMU上達到66.3%,相較基線提升17.5個百分點。這說明它帶來的不是單點收益,而是在不同類型視覺推理任務上的一致性改進。

      消融實驗進一步揭示了CDRL與CA-TTS的分工關系:



      單獨使用CDRL,提升3.4個百分點,說明置信度校準本身就有獨立價值;單獨使用CA-TTS,提升15.0個百分點,說明推理框架已經能夠顯著改善決策質量;兩者結合后總提升達到19.4個百分點,表明CDRL為CA-TTS提供了更可靠的策略基礎,二者存在明顯協同效應。



      研究團隊還檢驗了專家模型的依賴程度。即使讓Qwen2.5-VL-7B自身充當“專家”,性能也仍比純Majority Voting高出接近5個百分點(32.57% vs. 27.65%)。換句話說,強專家模型確實能進一步放大收益,但框架本身并不是靠“抱大腿”成立的。

      Test-Time Scaling:斜率拉開,才是更關鍵的結果

      如果說四個基準上的SOTA說明方法“更準”,那么test-time scaling曲線揭示的是它“為什么更值”。



      在Math-Vision上,研究團隊比較了采樣數量從1增加到32時,不同方法的準確率增長趨勢。結果顯示,CA-TTS的擴展斜率β = 3.65,而Majority Voting為1.64,DeepConf為1.19。也就是說,CA-TTS的擴展效率分別是后兩者的2.2倍和3.1倍。

      這意味著,同樣是增加采樣次數,CA-TTS并不是“更頻繁地碰運氣”,而是更有效地把額外算力投向真正不確定的問題上。當Majority Voting和DeepConf在35%左右逐漸趨于飽和時,CA-TTS仍能繼續爬升,并最終突破45%。

      從這個角度看,置信度校準并不是一個附屬優化項,而是在重新定義test-time scaling的效率上限。它讓“多算一點”這件事第一次變得更有方向感。

      從“先推理后感知”到“先感知后推理”

      這項工作最值得關注的地方,可能并不只是又一個更高的benchmark分數,而是它提出了一種新的問題順序。

      過去,多模態推理研究默認的前提是:模型已經在充分利用視覺信息,接下來只需要把推理能力做強。但這篇論文提醒我們,一個模型可能根本沒有真正“看懂”圖像,卻依然能給出高度自信的回答。若這個前提沒有被修正,后續再復雜的推理鏈條,也可能建立在不可靠的感知基礎上。

      CA-TTS的思路正好反過來:先通過CDRL建立對視覺證據變化敏感、且與準確性一致的置信度,再讓這種置信度去指導推理資源的分配。這是一種明確的Perceive-then-Reason范式,也就是從“先推理后感知”轉向“先感知后推理”。

      當然,這一方向也并非沒有代價。多次采樣與專家模型調用會帶來額外推理成本,當前實驗也主要集中在數學推理和通用VQA任務上。但如果目標是讓多模態大模型在高風險場景中真正做到“知道自己什么時候不該太自信”,那么這條路線已經給出了一個很有說服力的起點。

      論文標題:
      Linking Perception, Confidence and Accuracy in MLLMs
      作者:
      Yuetian Du*, Yucheng Wang*, Rongyu Zhang, Zhijie Xu, Boyu Yang, Ming Kong, Jie Liu#, Qiang Zhu#
      單位:
      浙江大學、阿里巴巴集團、香港城市大學、密歇根大學
      發表:
      CVPR 2026
      項目鏈接:
      https://github.com/anotherbricki/CA-TTS

      作者簡介:
      本文第一作者為杜越天,浙江大學博士生,研究方向為多模態大模型的置信度校準與test-time scaling,導師為朱強教授。本文在朱強教授和劉潔博士的指導下完成。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      鄭州一公司使用AI后立馬大規模裁員,只留下前臺和銷售

      鄭州一公司使用AI后立馬大規模裁員,只留下前臺和銷售

      映射生活的身影
      2026-03-21 20:36:56
      95后女教師自拍淫穢視頻售賣獲利24萬 獲刑三年、緩刑三年

      95后女教師自拍淫穢視頻售賣獲利24萬 獲刑三年、緩刑三年

      閃電新聞
      2026-03-22 12:06:17
      美國聯邦調查局前局長羅伯特·米勒去世,曾負責“通俄門”調查

      美國聯邦調查局前局長羅伯特·米勒去世,曾負責“通俄門”調查

      界面新聞
      2026-03-22 10:50:34
      強烈呼吁日本:給卸任首相漲點退休金,太丟人了,連保姆都雇不起

      強烈呼吁日本:給卸任首相漲點退休金,太丟人了,連保姆都雇不起

      雪中風車
      2026-03-22 08:51:54
      利息已高達2.5億鎊!阿布出售切爾西的25億鎊仍遭凍結 英政府暴怒

      利息已高達2.5億鎊!阿布出售切爾西的25億鎊仍遭凍結 英政府暴怒

      風過鄉
      2026-03-22 08:07:38
      開戰以來首次,以色列承認被打痛了,內塔尼亞胡度過最痛苦的一夜

      開戰以來首次,以色列承認被打痛了,內塔尼亞胡度過最痛苦的一夜

      壹只灰鴿子
      2026-03-22 11:44:23
      Netflix權謀歷史劇,這尺度也太大了!

      Netflix權謀歷史劇,這尺度也太大了!

      追劇九號廳
      2026-03-22 13:47:46
      德云社進軍上海僅2天,反常的一幕發生了,郭德綱于謙押錯寶了?

      德云社進軍上海僅2天,反常的一幕發生了,郭德綱于謙押錯寶了?

      老羴學科普
      2026-03-22 04:08:23
      中國海關總署:今年前兩月俄對華石油出口量增加40.9%,液化天然氣供應減少

      中國海關總署:今年前兩月俄對華石油出口量增加40.9%,液化天然氣供應減少

      俄羅斯衛星通訊社
      2026-03-22 16:05:30
      古巴:古政治制度不容談判

      古巴:古政治制度不容談判

      財聯社
      2026-03-21 22:48:05
      杜蘭特生涯總得分超越喬丹 比喬丹少用2357次出手

      杜蘭特生涯總得分超越喬丹 比喬丹少用2357次出手

      體壇周報
      2026-03-22 12:35:17
      銷售幫男子搖中“貴A·A88888”頂級“豹子號”車牌,兩人激動到當場大喊,網友直呼:黃金右手

      銷售幫男子搖中“貴A·A88888”頂級“豹子號”車牌,兩人激動到當場大喊,網友直呼:黃金右手

      極目新聞
      2026-03-21 19:30:27
      伊朗:不接受臨時停火,而是要求全面結束戰爭;伊朗武裝部隊稱正在霍爾木茲海峽采取重大行動,伊朗將以“自身實力”應對相關威脅

      伊朗:不接受臨時停火,而是要求全面結束戰爭;伊朗武裝部隊稱正在霍爾木茲海峽采取重大行動,伊朗將以“自身實力”應對相關威脅

      大風新聞
      2026-03-22 14:39:02
      幾十個家庭壟斷一座城:縣城婆羅門的閉環游戲,正在逼走年輕人

      幾十個家庭壟斷一座城:縣城婆羅門的閉環游戲,正在逼走年輕人

      黑噪音
      2026-03-21 19:33:08
      “金價是把我們當猴耍嗎”,黃金大跌,投資者被折磨得心力交瘁:“每天睜眼第一件事就是看金價臉色”

      “金價是把我們當猴耍嗎”,黃金大跌,投資者被折磨得心力交瘁:“每天睜眼第一件事就是看金價臉色”

      觀威海
      2026-03-22 11:23:03
      路虎別停奔馳后續:曝更多內幕,路虎哥“底褲”被扒,果然不一般

      路虎別停奔馳后續:曝更多內幕,路虎哥“底褲”被扒,果然不一般

      社會日日鮮
      2026-03-21 21:43:51
      蘋果2TB 產品僅1498 元,真的離譜啊

      蘋果2TB 產品僅1498 元,真的離譜啊

      科技堡壘
      2026-03-22 11:21:01
      丹麥男友去世后,東北姑娘仍為他生下遺腹子,還為了公婆定居丹麥

      丹麥男友去世后,東北姑娘仍為他生下遺腹子,還為了公婆定居丹麥

      星星沒有你亮
      2026-03-22 08:48:35
      500萬粉絲網紅被封殺,宣揚元清非中國論,多次跨越紅線被懲戒

      500萬粉絲網紅被封殺,宣揚元清非中國論,多次跨越紅線被懲戒

      新游戲大妹子
      2026-03-22 12:51:20
      商人沒有祖國,TP-Link創始人申請美國籍,中美市場恐都要失去

      商人沒有祖國,TP-Link創始人申請美國籍,中美市場恐都要失去

      阿鳧愛吐槽
      2026-03-22 03:27:17
      2026-03-22 17:59:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12323文章數 176418關注度
      往期回顧 全部

      科技要聞

      嫌臺積電太慢 馬斯克要把芯片產能飆升50倍

      頭條要聞

      以色列攔截伊朗導彈失敗 內塔尼亞胡:非常艱難的一晚

      頭條要聞

      以色列攔截伊朗導彈失敗 內塔尼亞胡:非常艱難的一晚

      體育要聞

      鄭欽文連續迎戰大滿貫冠軍 “雙教練”團隊正式亮相

      娛樂要聞

      今晚首播!央視年代劇《冬去春來》來了

      財經要聞

      睡夢中欠債1.2萬?這只“蝦”殺瘋了

      汽車要聞

      14.28萬元起 吉利銀河星耀8遠航家開啟預售

      態度原創

      教育
      房產
      本地
      公開課
      軍事航空

      教育要聞

      不補課還成績拔尖的孩子,靠的不是智商,而是贏在了這一點

      房產要聞

      全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

      本地新聞

      春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊導彈擊中以核設施附近 爆炸視頻公布

      無障礙瀏覽 進入關懷版