![]()
DA-DPO 不依賴額外標注,通過難度感知訓練提升模型可靠性。
作者丨鄭佳美
編輯丨岑峰
![]()
多模態(tài)模型在感知、理解與生成等方面的能力持續(xù)提升,但其輸出中仍普遍存在與客觀事實不一致的內(nèi)容,即多模態(tài)幻覺現(xiàn)象。
當模型面對信息缺失、語義含混或視覺細節(jié)復雜的場景時,往往會通過臆測進行補全,從而捏造并不存在的病灶、物體或情節(jié)。這類問題并非偶發(fā)失誤,而是偏好優(yōu)化訓練過程中逐漸積累的結(jié)構(gòu)性偏差所致:模型更容易從數(shù)量龐大、差異明顯的簡單樣本中獲得學習收益,卻對真正困難、歧義性強的樣本關(guān)注不足,結(jié)果是在復雜真實場景中的可靠性受到限制。
圍繞這一問題,上海科技大學信息科學與技術(shù)學院何旭明教授帶領(lǐng)團隊在論文《DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations》中開展了系統(tǒng)研究。這項工作指出,現(xiàn)有偏好優(yōu)化方法的核心癥結(jié)不在于數(shù)據(jù)規(guī)模的不足,而在于樣本難度分布失衡。
為此,團隊提出了DA-DPO 框架,通過預訓練模型對樣本難度進行估計,并在訓練過程中動態(tài)調(diào)整樣本權(quán)重,使模型的學習重點自適應(yīng)地轉(zhuǎn)向復雜且更易出錯的樣本,從而緩解簡單樣本主導訓練所帶來的偏置。
值得注意的是,DA-DPO 不依賴額外人工標注,也無需訓練獨立的獎勵模型或引入復雜的強化學習流程,因而具有顯著的成本效率。在多項多模態(tài)評測基準上,該方法不僅顯著降低了幻覺發(fā)生頻率,同時在很大程度上保持甚至提升了模型的整體理解與推理能力。
![]()
論文地址:https://arxiv.org/pdf/2601.00623v1
01
抑制幻覺,但不抑制能力
最終的實驗結(jié)果表明,研究團隊提出的DA-DPO 方法在降低多模態(tài)大語言模型幻覺現(xiàn)象方面實現(xiàn)了穩(wěn)定而顯著的改進,同時在保持甚至提升模型綜合能力方面也展現(xiàn)出明顯優(yōu)勢。
研究人員首先在多個幻覺評測基準上開展了充分實驗,包括 AMBER、MMHalBench、Object HalBench 和 POPE 等,這些基準覆蓋圖像描述、開放式視覺問答以及目標級別幻覺識別等不同任務(wù)類型,所采用的評價指標涵蓋幻覺率、覆蓋率、F1 分數(shù)及一致性得分等多個維度。
在這些評測中,與原始模型和傳統(tǒng) DPO 方法相比,DA-DPO 在降低幻覺率和提升事實一致性兩方面均表現(xiàn)出顯著提升。例如,在針對物體幻覺的測試中,模型明顯減少了對圖像中并不存在物體或?qū)傩缘囊茉烀枋觯绕湓趶碗s場景和存在遮擋的情況下,DA-DPO 對隨意性、想象式回答的抑制效果更加突出。
同時,在綜合能力評估方面,包括 LLaVA-Bench、SeedBench、GQA 和 MME 等基準測試顯示,傳統(tǒng) DPO 方法雖然能夠一定程度上抑制幻覺,但往往伴隨總體推理與理解能力的下降,相比之下,DA-DPO 在減少幻覺的同時,能夠基本保持甚至提升模型的通用多模態(tài)能力,尤其在多輪對話、復雜視覺推理以及多選視覺問答等任務(wù)上表現(xiàn)更為穩(wěn)健。
這表明,DA-DPO 并非以保守輸出或減少表達為代價來控制幻覺,而是通過改進偏好學習機制,使模型在忠實性與綜合能力之間達成更合理的平衡。
![]()
此外,實驗還通過訓練過程中的獎勵信號動態(tài)分析進一步揭示了上述結(jié)果背后的機制。研究團隊將驗證集樣本按照難度劃分為四個等級后發(fā)現(xiàn),在普通 DPO 訓練中,簡單樣本的獎勵提升速度明顯快于困難樣本,并在訓練后期形成較大差距。
而 DA-DPO 的訓練曲線則顯示困難樣本的獎勵提升更加顯著,簡單樣本的增長趨緩,從而有效縮小不同難度樣本之間的獎勵差距。通過對最簡單與最困難樣本獎勵差距進行積分所得到的 AUG 指標,研究人員定量證明 DA-DPO 在整個訓練過程中維持了更小的難易差異,這表明訓練權(quán)重確實由簡單樣本向困難樣本轉(zhuǎn)移,最終轉(zhuǎn)化為對細粒度幻覺的顯著抑制以及綜合能力的穩(wěn)定保持。
![]()
02
把權(quán)重交給難樣本
實驗設(shè)計圍繞一個核心出發(fā)點展開:在多模態(tài)偏好數(shù)據(jù)中,大量樣本屬于簡單偏好對,而傳統(tǒng) DPO 在訓練過程中更容易擬合這類易于區(qū)分的樣本,從而削弱了對困難樣本的學習力度,導致模型在真實而復雜的應(yīng)用場景中仍然容易產(chǎn)生幻覺。
為驗證這一判斷并提出相應(yīng)改進方案,研究團隊從模型選擇、數(shù)據(jù)構(gòu)建、難度估計方法、訓練策略以及消融實驗五個方面開展了系統(tǒng)而嚴密的實驗布局。
![]()
在模型選擇方面,研究人員采用了 LLaVA v1.5 7B、LLaVA v1.5 13B 以及 LLaVA-OneVision 7B 等多種具有代表性的多模態(tài)大語言模型,覆蓋不同參數(shù)規(guī)模和感知能力,以避免方法僅對特定模型結(jié)構(gòu)有效。
![]()
在數(shù)據(jù)層面,團隊并未依賴單一偏好數(shù)據(jù)集,而是綜合使用了三類來源不同的數(shù)據(jù):BPO 自動構(gòu)造數(shù)據(jù)(通過弱化圖像與注入錯誤生成負樣本)、VLFeedback 自動偏好數(shù)據(jù)(由多模型生成回答并經(jīng) GPT-4V 評分篩選)以及 LLaVA-RLHF 人工標注數(shù)據(jù)。跨數(shù)據(jù)源的實驗設(shè)計旨在驗證樣本難度不平衡是偏好數(shù)據(jù)中的普遍現(xiàn)象,而非個別數(shù)據(jù)集的偶然結(jié)果。
![]()
在此基礎(chǔ)上,實驗提出了一種無需額外訓練的難度估計機制。研究人員同時引入兩類預訓練視覺語言模型:以 CLIP 為代表的對比式模型,從圖像與文本相關(guān)性的角度評估樣本,以及以 LLaVA 為代表的生成式模型,從問題與回答語義一致性的角度衡量樣本。
針對每一對偏好數(shù)據(jù),分別計算被選回答與被拒回答的得分,并以分數(shù)差值作為難易程度的依據(jù):差值較大表示樣本容易區(qū)分,差值較小則表明樣本更為困難。隨后,研究團隊通過高斯歸一化與分布感知投票策略對兩類模型的輸出進行融合,使難度估計在穩(wěn)定性與魯棒性方面得到兼顧。
![]()
而在訓練階段,團隊將難度評分引入 DPO 框架中的 β 參數(shù),使該參數(shù)不再固定,而是隨樣本難度自適應(yīng)變化,從而形成難度感知訓練機制:困難樣本被賦予更高的優(yōu)化權(quán)重,而簡單樣本的過擬合趨勢則受到抑制。
![]()
為驗證方法的真實有效性而非偶然現(xiàn)象,研究人員開展了大規(guī)模消融實驗。例如,他們分別考察僅使用對比式模型、僅使用生成式模型以及兩者聯(lián)合進行難度估計的效果,結(jié)果表明聯(lián)合方式明顯優(yōu)于單一來源,同時還構(gòu)建了直接刪除簡單樣本的過濾策略進行對照,發(fā)現(xiàn)這一做法破壞數(shù)據(jù)多樣性并導致結(jié)果波動,而 DA-DPO 的軟加權(quán)方式則能夠持續(xù)帶來穩(wěn)定提升。
![]()
此外,研究團隊還通過難度分桶訓練進一步表明,當訓練數(shù)據(jù)集中以中等難度樣本為主時,幻覺抑制效果最為顯著,從而進一步支持了這樣一個關(guān)鍵觀點:相較于單純擴大數(shù)據(jù)規(guī)模,樣本難度結(jié)構(gòu)的合理性對模型性能提升具有更為關(guān)鍵的作用。
![]()
03
從「數(shù)據(jù)更多」到「難度更準」
整體來看,這項研究具有重要的學術(shù)意義和實際應(yīng)用價值。首先,從理論層面看,研究團隊通過對訓練動態(tài)、獎勵變化軌跡以及樣本難度分布的系統(tǒng)分析,揭示了一個此前在多模態(tài)偏好優(yōu)化領(lǐng)域未被充分重視的問題:傳統(tǒng) DPO 雖然在形式上實現(xiàn)了偏好對的優(yōu)化,但在訓練過程中存在明顯的難度偏置,模型更傾向于學習簡單、差異明顯的樣本,而對語義復雜、區(qū)分細微、貼近真實應(yīng)用情境的困難樣本學習不足。
正是這種偏置,使得即便在大量偏好數(shù)據(jù)訓練之后,幻覺問題仍然難以得到有效抑制。DA-DPO 的提出并非單純的工程技巧,而是將樣本難度作為顯式因素引入偏好優(yōu)化目標之中,從根本上重構(gòu)了偏好學習問題的視角,強調(diào)提升模型對齊能力的關(guān)鍵不在于一味擴大數(shù)據(jù)規(guī)模,而在于合理設(shè)計樣本難度結(jié)構(gòu)與權(quán)重分配。
這一理念對后續(xù)研究具有明顯啟發(fā)意義,自適應(yīng)采樣、困難樣本挖掘以及在線難度建模等方向都可在此基礎(chǔ)上進一步發(fā)展。
其次,從方法和工程實現(xiàn)角度看,DA-DPO 具有成本低、效率高、可落地性強的特點。該方法不依賴新增人工標注,也無需額外訓練完整的獎勵模型,更不需要引入復雜的強化學習流程,而是利用現(xiàn)有預訓練模型對樣本難度進行評估,并在原有 DPO 框架中加入簡潔有效的 β 動態(tài)調(diào)節(jié)機制,即可獲得穩(wěn)定的性能提升。這種低成本與高收益并存的特點,使其非常適合在工業(yè)級多模態(tài)系統(tǒng)中部署與推廣。
最后,從應(yīng)用層面來看,多模態(tài)模型的幻覺問題直接影響其在安全關(guān)鍵任務(wù)中的實用性與可靠性。例如,醫(yī)療影像描述中若憑空捏造病灶,自動駕駛系統(tǒng)若誤判道路要素,或法律輔助系統(tǒng)若臆測事實細節(jié),都可能帶來嚴重后果。
DA-DPO 在不顯著削弱模型能力的前提下有效降低幻覺發(fā)生頻率,從而顯著提升模型在此類高風險領(lǐng)域中的可信度與安全性。當然,研究團隊也指出該方法的局限性:難度評估依賴于當前預訓練模型的判斷能力,當目標領(lǐng)域與預訓練語料存在較大差異時,難度評估可能不夠準確。因此,未來工作有必要探索領(lǐng)域自適應(yīng)的難度估計方法以及自監(jiān)督式難度建模機制。
總體而言,這項研究不僅提供了一條切實可行的技術(shù)路線,更提出了一個對多模態(tài)偏好學習方式產(chǎn)生重要影響的核心觀點,這也是其最為關(guān)鍵的學術(shù)意義所在。
04
在多模態(tài)世界里尋找答案的人
本文的第一作者是Longtian Qiu。他是上海科技大學信息科學與技術(shù)學院 PLUS Group 的碩士研究生,師從何旭明教授,目前攻讀人工智能方向的碩士學位。
本科階段同樣就讀于上海科技大學計算機科學專業(yè),Longtian Qiu 的主要研究興趣涵蓋少樣本/低樣本學習、視覺—語言預訓練以及提示學習等領(lǐng)域,而這些方向也是當前多模態(tài)學習與視覺語言理解研究中的重要議題。
![]()
參考鏈接:https://faculty.sist.shanghaitech.edu.cn/plus/author/longtian-qiu/
這篇文章的通訊作者是何旭明。他是上海科技大學信息科學與技術(shù)學院的副教授、研究員和博士生導師,同時擔任學院副院長和學位委員會主任。
他于 2008 年在加拿大多倫多大學獲得計算機科學博士學位,隨后在加州大學洛杉磯分校(UCLA)從事博士后研究。此后,他先后在澳大利亞國家信息通信技術(shù)研究院(NICTA)和澳大利亞國立大學擔任研究員及高級研究員,積累了豐富的國際科研與合作經(jīng)驗。自 2016 年起加入上海科技大學,并于 2017 年起任副教授,長期在 PLUS Lab 領(lǐng)銜團隊開展前沿研究工作。
何旭明教授的研究興趣主要集中在計算機視覺、機器學習與科學智能等領(lǐng)域,尤其關(guān)注開放世界場景理解、多模態(tài)數(shù)據(jù)的理解與生成、少樣本與非均衡數(shù)據(jù)學習、終身學習以及新類別發(fā)現(xiàn)等具有挑戰(zhàn)性的科學問題。在這些方向上,他已發(fā)表一百余篇學術(shù)論文,涵蓋 Nature Communications、IEEE TPAMI、Nano Letters、NeurIPS、ICLR、CVPR、ICCV 等國際頂級期刊與會議,在學術(shù)界產(chǎn)生了廣泛影響。
其科研成果被廣泛引用,并指導學生多次獲得重要學術(shù)獎勵,包括 IEEE CVPR Workshop 最佳論文獎、IEEE FG 最佳學生論文獎及 ICCV OOD-CV 競賽冠軍等。除此之外,何旭明教授還曾獲上海市優(yōu)秀教學成果一等獎,多次擔任 ICCV、ECCV、CVPR、NeurIPS 等國際頂級會議的領(lǐng)域主席,并擔任國際期刊 TMLR 副主編,現(xiàn)任上海市智能視覺與影像工程技術(shù)研究中心主任。
![]()
https://faculty.sist.shanghaitech.edu.cn/faculty/hexm/index.html
未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.