<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      上科大何旭明團隊新作:克服簡單樣本偏置,讓多模態模型學會「難題優先」

      0
      分享至

      多模態模型在感知、理解與生成等方面的能力持續提升,但其輸出中仍普遍存在與客觀事實不一致的內容,即多模態幻覺現象。

      當模型面對信息缺失、語義含混或視覺細節復雜的場景時,往往會通過臆測進行補全,從而捏造并不存在的病灶、物體或情節。這類問題并非偶發失誤,而是偏好優化訓練過程中逐漸積累的結構性偏差所致:模型更容易從數量龐大、差異明顯的簡單樣本中獲得學習收益,卻對真正困難、歧義性強的樣本關注不足,結果是在復雜真實場景中的可靠性受到限制。

      圍繞這一問題,上海科技大學信息科學與技術學院何旭明教授帶領團隊在論文《DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations》中開展了系統研究。這項工作指出,現有偏好優化方法的核心癥結不在于數據規模的不足,而在于樣本難度分布失衡。

      為此,團隊提出了 DA-DPO 框架,通過預訓練模型對樣本難度進行估計,并在訓練過程中動態調整樣本權重,使模型的學習重點自適應地轉向復雜且更易出錯的樣本,從而緩解簡單樣本主導訓練所帶來的偏置。

      值得注意的是,DA-DPO 不依賴額外人工標注,也無需訓練獨立的獎勵模型或引入復雜的強化學習流程,因而具有顯著的成本效率。在多項多模態評測基準上,該方法不僅顯著降低了幻覺發生頻率,同時在很大程度上保持甚至提升了模型的整體理解與推理能力。


      論文地址:https://arxiv.org/pdf/2601.00623v1

      抑制幻覺,但不抑制能力

      最終的實驗結果表明,研究團隊提出的 DA-DPO 方法在降低多模態大語言模型幻覺現象方面實現了穩定而顯著的改進,同時在保持甚至提升模型綜合能力方面也展現出明顯優勢。

      研究人員首先在多個幻覺評測基準上開展了充分實驗,包括 AMBER、MMHalBench、Object HalBench 和 POPE 等,這些基準覆蓋圖像描述、開放式視覺問答以及目標級別幻覺識別等不同任務類型,所采用的評價指標涵蓋幻覺率、覆蓋率、F1 分數及一致性得分等多個維度。

      在這些評測中,與原始模型和傳統 DPO 方法相比,DA-DPO 在降低幻覺率和提升事實一致性兩方面均表現出顯著提升。例如,在針對物體幻覺的測試中,模型明顯減少了對圖像中并不存在物體或屬性的臆造描述,尤其在復雜場景和存在遮擋的情況下,DA-DPO 對隨意性、想象式回答的抑制效果更加突出。

      同時,在綜合能力評估方面,包括 LLaVA-Bench、SeedBench、GQA 和 MME 等基準測試顯示,傳統 DPO 方法雖然能夠一定程度上抑制幻覺,但往往伴隨總體推理與理解能力的下降,相比之下,DA-DPO 在減少幻覺的同時,能夠基本保持甚至提升模型的通用多模態能力,尤其在多輪對話、復雜視覺推理以及多選視覺問答等任務上表現更為穩健。雷峰網

      這表明,DA-DPO 并非以保守輸出或減少表達為代價來控制幻覺,而是通過改進偏好學習機制,使模型在忠實性與綜合能力之間達成更合理的平衡。


      此外,實驗還通過訓練過程中的獎勵信號動態分析進一步揭示了上述結果背后的機制。研究團隊將驗證集樣本按照難度劃分為四個等級后發現,在普通 DPO 訓練中,簡單樣本的獎勵提升速度明顯快于困難樣本,并在訓練后期形成較大差距。

      而 DA-DPO 的訓練曲線則顯示困難樣本的獎勵提升更加顯著,簡單樣本的增長趨緩,從而有效縮小不同難度樣本之間的獎勵差距。通過對最簡單與最困難樣本獎勵差距進行積分所得到的 AUG 指標,研究人員定量證明 DA-DPO 在整個訓練過程中維持了更小的難易差異,這表明訓練權重確實由簡單樣本向困難樣本轉移,最終轉化為對細粒度幻覺的顯著抑制以及綜合能力的穩定保持。


      把權重交給難樣本

      實驗設計圍繞一個核心出發點展開:在多模態偏好數據中,大量樣本屬于簡單偏好對,而傳統 DPO 在訓練過程中更容易擬合這類易于區分的樣本,從而削弱了對困難樣本的學習力度,導致模型在真實而復雜的應用場景中仍然容易產生幻覺。

      為驗證這一判斷并提出相應改進方案,研究團隊從模型選擇、數據構建、難度估計方法、訓練策略以及消融實驗五個方面開展了系統而嚴密的實驗布局。


      在模型選擇方面,研究人員采用了 LLaVA v1.5 7B、LLaVA v1.5 13B 以及 LLaVA-OneVision 7B 等多種具有代表性的多模態大語言模型,覆蓋不同參數規模和感知能力,以避免方法僅對特定模型結構有效。


      在數據層面,團隊并未依賴單一偏好數據集,而是綜合使用了三類來源不同的數據:BPO 自動構造數據(通過弱化圖像與注入錯誤生成負樣本)、VLFeedback 自動偏好數據(由多模型生成回答并經 GPT-4V 評分篩選)以及 LLaVA-RLHF 人工標注數據。跨數據源的實驗設計旨在驗證樣本難度不平衡是偏好數據中的普遍現象,而非個別數據集的偶然結果。


      在此基礎上,實驗提出了一種無需額外訓練的難度估計機制。研究人員同時引入兩類預訓練視覺語言模型:以 CLIP 為代表的對比式模型,從圖像與文本相關性的角度評估樣本,以及以 LLaVA 為代表的生成式模型,從問題與回答語義一致性的角度衡量樣本。雷峰網

      針對每一對偏好數據,分別計算被選回答與被拒回答的得分,并以分數差值作為難易程度的依據:差值較大表示樣本容易區分,差值較小則表明樣本更為困難。隨后,研究團隊通過高斯歸一化與分布感知投票策略對兩類模型的輸出進行融合,使難度估計在穩定性與魯棒性方面得到兼顧。


      而在訓練階段,團隊將難度評分引入 DPO 框架中的 β 參數,使該參數不再固定,而是隨樣本難度自適應變化,從而形成難度感知訓練機制:困難樣本被賦予更高的優化權重,而簡單樣本的過擬合趨勢則受到抑制。

      為驗證方法的真實有效性而非偶然現象,研究人員開展了大規模消融實驗。例如,他們分別考察僅使用對比式模型、僅使用生成式模型以及兩者聯合進行難度估計的效果,結果表明聯合方式明顯優于單一來源,同時還構建了直接刪除簡單樣本的過濾策略進行對照,發現這一做法破壞數據多樣性并導致結果波動,而 DA-DPO 的軟加權方式則能夠持續帶來穩定提升。


      此外,研究團隊還通過難度分桶訓練進一步表明,當訓練數據集中以中等難度樣本為主時,幻覺抑制效果最為顯著,從而進一步支持了這樣一個關鍵觀點:相較于單純擴大數據規模,樣本難度結構的合理性對模型性能提升具有更為關鍵的作用。


      從「數據更多」到「難度更準」

      整體來看,這項研究具有重要的學術意義和實際應用價值。首先,從理論層面看,研究團隊通過對訓練動態、獎勵變化軌跡以及樣本難度分布的系統分析,揭示了一個此前在多模態偏好優化領域未被充分重視的問題:傳統 DPO 雖然在形式上實現了偏好對的優化,但在訓練過程中存在明顯的難度偏置,模型更傾向于學習簡單、差異明顯的樣本,而對語義復雜、區分細微、貼近真實應用情境的困難樣本學習不足。

      正是這種偏置,使得即便在大量偏好數據訓練之后,幻覺問題仍然難以得到有效抑制。DA-DPO 的提出并非單純的工程技巧,而是將樣本難度作為顯式因素引入偏好優化目標之中,從根本上重構了偏好學習問題的視角,強調提升模型對齊能力的關鍵不在于一味擴大數據規模,而在于合理設計樣本難度結構與權重分配。

      這一理念對后續研究具有明顯啟發意義,自適應采樣、困難樣本挖掘以及在線難度建模等方向都可在此基礎上進一步發展。

      其次,從方法和工程實現角度看,DA-DPO 具有成本低、效率高、可落地性強的特點。該方法不依賴新增人工標注,也無需額外訓練完整的獎勵模型,更不需要引入復雜的強化學習流程,而是利用現有預訓練模型對樣本難度進行評估,并在原有 DPO 框架中加入簡潔有效的 β 動態調節機制,即可獲得穩定的性能提升。這種低成本與高收益并存的特點,使其非常適合在工業級多模態系統中部署與推廣。

      最后,從應用層面來看,多模態模型的幻覺問題直接影響其在安全關鍵任務中的實用性與可靠性。例如,醫療影像描述中若憑空捏造病灶,自動駕駛系統若誤判道路要素,或法律輔助系統若臆測事實細節,都可能帶來嚴重后果。

      DA-DPO 在不顯著削弱模型能力的前提下有效降低幻覺發生頻率,從而顯著提升模型在此類高風險領域中的可信度與安全性。當然,研究團隊也指出該方法的局限性:難度評估依賴于當前預訓練模型的判斷能力,當目標領域與預訓練語料存在較大差異時,難度評估可能不夠準確。因此,未來工作有必要探索領域自適應的難度估計方法以及自監督式難度建模機制。

      總體而言,這項研究不僅提供了一條切實可行的技術路線,更提出了一個對多模態偏好學習方式產生重要影響的核心觀點,這也是其最為關鍵的學術意義所在。

      在多模態世界里尋找答案的人

      本文的第一作者是 Longtian Qiu。他是上海科技大學信息科學與技術學院 PLUS Group 的碩士研究生,師從何旭明教授,目前攻讀人工智能方向的碩士學位。

      本科階段同樣就讀于上海科技大學計算機科學專業,Longtian Qiu 的主要研究興趣涵蓋少樣本/低樣本學習、視覺—語言預訓練以及提示學習等領域,而這些方向也是當前多模態學習與視覺語言理解研究中的重要議題。


      參考鏈接:https://faculty.sist.shanghaitech.edu.cn/plus/author/longtian-qiu/

      這篇文章的通訊作者是何旭明。他是上海科技大學信息科學與技術學院的副教授、研究員和博士生導師,同時擔任學院副院長和學位委員會主任。

      他于 2008 年在加拿大多倫多大學獲得計算機科學博士學位,隨后在加州大學洛杉磯分校(UCLA)從事博士后研究。此后,他先后在澳大利亞國家信息通信技術研究院(NICTA)和澳大利亞國立大學擔任研究員及高級研究員,積累了豐富的國際科研與合作經驗。自 2016 年起加入上海科技大學,并于 2017 年起任副教授,長期在 PLUS Lab 領銜團隊開展前沿研究工作。

      何旭明教授的研究興趣主要集中在計算機視覺、機器學習與科學智能等領域,尤其關注開放世界場景理解、多模態數據的理解與生成、少樣本與非均衡數據學習、終身學習以及新類別發現等具有挑戰性的科學問題。在這些方向上,他已發表一百余篇學術論文,涵蓋 Nature Communications、IEEE TPAMI、Nano Letters、NeurIPS、ICLR、CVPR、ICCV 等國際頂級期刊與會議,在學術界產生了廣泛影響。

      其科研成果被廣泛引用,并指導學生多次獲得重要學術獎勵,包括 IEEE CVPR Workshop 最佳論文獎、IEEE FG 最佳學生論文獎及 ICCV OOD-CV 競賽冠軍等。除此之外,何旭明教授還曾獲上海市優秀教學成果一等獎,多次擔任 ICCV、ECCV、CVPR、NeurIPS 等國際頂級會議的領域主席,并擔任國際期刊 TMLR 副主編,現任上海市智能視覺與影像工程技術研究中心主任。


      參考鏈接:https://faculty.sist.shanghaitech.edu.cn/faculty/hexm/index.html

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      連贏世界四大名將,18歲國乒新星橫空出世!

      連贏世界四大名將,18歲國乒新星橫空出世!

      曾蠃愛旅行
      2026-01-24 21:54:45
      趙本山擔心的事情發生了!何家是個無底洞,第三代人也來要錢了

      趙本山擔心的事情發生了!何家是個無底洞,第三代人也來要錢了

      琴聲飛揚
      2026-01-23 09:33:04
      官網4大專家預測全明星替補:8人獲全票被看好 詹姆斯3票哈登1票

      官網4大專家預測全明星替補:8人獲全票被看好 詹姆斯3票哈登1票

      羅說NBA
      2026-01-24 20:56:47
      我媽把85%股份給我姐,我辭職出國,我媽:你姐給你包8000塊紅包

      我媽把85%股份給我姐,我辭職出國,我媽:你姐給你包8000塊紅包

      星宇共鳴
      2026-01-21 09:34:05
      湖人消息:裁判報告公布,老詹離隊倒計時,戰獨行俠出場更新

      湖人消息:裁判報告公布,老詹離隊倒計時,戰獨行俠出場更新

      冷月小風風
      2026-01-24 10:40:01
      周媛被封殺:警惕那些教你“彎腰”的邏輯,正把女性變成待價而沽

      周媛被封殺:警惕那些教你“彎腰”的邏輯,正把女性變成待價而沽

      克網中國
      2026-01-24 22:13:50
      300億大案!公安部出手,這幫吃人不吐骨頭的“吸血鬼”終于涼了

      300億大案!公安部出手,這幫吃人不吐骨頭的“吸血鬼”終于涼了

      泠泠說史
      2026-01-06 18:56:19
      曝鐘漢良已低調離婚!前妻凈身出戶,雙方關系鬧僵,導致事業受阻

      曝鐘漢良已低調離婚!前妻凈身出戶,雙方關系鬧僵,導致事業受阻

      八卦王者
      2026-01-24 16:52:28
      知名央企迎來最終審判!全爛透了,9個董監高無一清白,強制清退

      知名央企迎來最終審判!全爛透了,9個董監高無一清白,強制清退

      慕名而來只為你
      2026-01-20 05:59:04
      大寒時節,無論有錢沒錢,都記得吃“大寒3寶”,老傳統要傳承!

      大寒時節,無論有錢沒錢,都記得吃“大寒3寶”,老傳統要傳承!

      江江食研社
      2026-01-23 20:30:03
      2射1傳,迪馬爾科成有統計以來國米首位意甲單場造3球的后衛

      2射1傳,迪馬爾科成有統計以來國米首位意甲單場造3球的后衛

      懂球帝
      2026-01-24 06:05:33
      兩大網壇傳奇譴責大坂直美:粗魯!

      兩大網壇傳奇譴責大坂直美:粗魯!

      體育妞世界
      2026-01-24 10:23:28
      《波斯王子》被取消真正原因 90%由育碧印度開發

      《波斯王子》被取消真正原因 90%由育碧印度開發

      3DM游戲
      2026-01-24 10:50:05
      童錦程不配合,孩子還沒辦出生證明,女方自曝美照后,輿論反轉了

      童錦程不配合,孩子還沒辦出生證明,女方自曝美照后,輿論反轉了

      非常先生看娛樂
      2026-01-23 17:54:48
      孔子第76代孫在美國結婚,妻子厚唇大眼是大馬名媛,兩人網上認識

      孔子第76代孫在美國結婚,妻子厚唇大眼是大馬名媛,兩人網上認識

      老范談史
      2026-01-22 18:11:28
      楊瀚森首節驚艷!開拓者惜敗黑馬,這一戰,我不得不承認4個現實

      楊瀚森首節驚艷!開拓者惜敗黑馬,這一戰,我不得不承認4個現實

      籃球掃地僧
      2026-01-24 20:02:35
      浙江18歲小伙愛上40歲女上司,并認作干媽,去其家中借宿釀成慘劇

      浙江18歲小伙愛上40歲女上司,并認作干媽,去其家中借宿釀成慘劇

      澤澤先生
      2025-04-07 17:41:46
      醫生發現:那些常年吃降脂藥的人,到65歲后,很多都變成了這樣!

      醫生發現:那些常年吃降脂藥的人,到65歲后,很多都變成了這樣!

      健康科普365
      2026-01-22 07:10:09
      6-2!國米連扳6球大逆轉 10輪不敗+6分領跑 5000萬后衛替補造3球

      6-2!國米連扳6球大逆轉 10輪不敗+6分領跑 5000萬后衛替補造3球

      我愛英超
      2026-01-24 06:41:10
      再次聯手庫里?勇士有意用庫明加換回維金斯 承諾不會交易巴特勒

      再次聯手庫里?勇士有意用庫明加換回維金斯 承諾不會交易巴特勒

      羅說NBA
      2026-01-24 06:02:24
      2026-01-25 00:31:00
      雷峰網 incentive-icons
      雷峰網
      關注智能與未來!
      68407文章數 656059關注度
      往期回顧 全部

      科技要聞

      黃仁勛現身上海菜市場

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      房產
      本地
      游戲
      數碼
      公開課

      房產要聞

      正式官宣!三亞又一所名校要來了!

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      LOL世界冠軍轉型刀塔,大主播迎直播第二春,人氣比玩LOL還高!

      數碼要聞

      酷態科6號Ultra充電器曝光:雙Type-C接口均支持100W快充

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产小精品| 7777久久亚洲中文字幕| 亚洲人成色7777在线观看不卡| 国产精品日韩欧美一区二区三区 | 国产高清在线A免费视频观看| 国产v综合v亚洲欧美大天堂| 丁香五月缴情在线| 国内精品久久久久久99蜜桃| 江源县| 国产精品无码制服丝袜| 尤物福利导航| 国产亚洲欧美日韩亚洲中文色| 白嫩少妇丰满一区二区| 国产精品无码成人午夜电影| 无遮高潮国产免费观看| 少妇人妻挤奶水中文视频毛片| 欧美色色网| 福利国产微拍广场一区视频在线| 粗壮挺进人妻水蜜桃成熟 | 97亚洲色欲色欲综合网| 亚洲熟妇AV乱码在线观看| 国产精品18久久久久久麻辣| 国产亚洲欧洲AⅤ综合一区| 久久久亚洲欧洲日产国码aⅴ| 男女啪啪免费观看网站| a在线视频v视频| 国产av影院| 中文字幕网红自拍偷拍视频| www.狠狠干| 又大又粗又爽免费视频a片| 亚洲精品自拍| 国内综合精品午夜久久资源| 伊人久久大香线蕉av色婷婷色| 无码国产一区二区三区四区| 成人午夜福利| 无码精品人妻| 丁香五月亚洲综合在线国内自拍| 艳妇臀荡乳欲伦交换在线播放| 720lu国产刺激无码| 四房播色综合久久婷婷| 贵南县|