![]()
本文第一作者是二年級博士生閆熠辰,主要研究方向是多模態大模型的數據質量管理;通訊作者是李環研究員,主要研究方向包括人工智能數據準備、大模型高效推理與部署、時空大數據與模型輕量化等。
![]()
01 省流版:一張圖看懂 COIDO
在深入技術細節之前,我們先用一張漫畫來直觀理解 COIDO (Coupled Importance-Diversity Optimization) 解決的核心問題與方案:
正如鐘離在漫畫中所言,面對海量視覺指令數據的選擇任務,傳統方法需要遍歷全部數據才能進行篩選造成大量「磨損」(高昂計算成本)。同時在面對數據重要性和多樣性問題時,傳統方法往往顧此失彼。而 COIDO 通過「耦合優化」的新契約,實現了以簡馭繁的效果。
02 論文速覽
![]()
- 論文題目:COIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization
- 收錄會議:NeurIPS 2025
- 作者單位:浙江大學大數據智能團隊、杭州電子科技大學、北京郵電大學
- 項目代碼:https://github.com/SuDIS-ZJU/COIDO
- 論文鏈接:https://arxiv.org/abs/2510.17847
03 研究背景與動機 (Motivation)
![]()
多模態大語言模型(MLLM)的能力在很大程度上依賴于高質量的視覺指令微調(Visual Instruction Tuning)。然而,隨著數據集規模的爆炸式增長(如 LLaVA-665K),在全量數據上進行微調帶來了巨大的計算開銷和冗余 。
現有的數據篩選方法雖然旨在選取高質量子集,但普遍存在兩個關鍵痛點:
- 高昂的篩選成本:現有方法通常要求目標 MLLM 對全量數據進行反向傳播以計算重要性(如梯度、Loss),這導致篩選階段本身的計算成本就極高,違背了 「降本增效」的初衷 。也就是說,為了篩選出少量有價值數據,我們還是得讓全部的數據進入到目標 MLLM 當中并訓練。
- 優化目標的解耦:數據篩選通常需要兼顧重要性(Importance)和多樣性(Diversity)。現有方法往往將二者割裂處理——在訓練階段關注重要性,在篩選階段通過獨立算法處理多樣性。這種解耦往往導致次優的權衡 。
針對上述問題,本文提出了 COIDO 框架,旨在通過極低成本的訓練,實現重要性與多樣性的聯合(耦合)優化 。
04 方法論 (Mothodology)
COIDO 的核心思想是摒棄「遍歷全量數據」的舊范式,轉而采用輕量級評分器(Plug-in Scorer)配合小樣本采樣的策略。
![]()
1. 輕量級評分器與小樣本學習:不同于需要全量微調 MLLM 的方法,COIDO 引入了一個輕量級的插件評分器(COIDO Scorer)。我們僅從全量數據中隨機采樣一小部分(例如 20%)作為訓練集。評分器通過這部分數據學習整個數據集的分布特征,從而能夠對剩余數據進行泛化評分,無需遍歷全集進行訓練 。
2. 重要性與多樣性的耦合優化 (Coupled Optimization):這是本論文的核心創新點。本文將重要性和多樣性的優化統一在了一個聯合訓練框架中,而非分階段進行:
重要性損失 (L_I):基于 Cross-Entropy Loss 的重加權。我們將評分器輸出的得分 w 加權作用于 MLLM 的預測 Loss。根據反向傳播原理,模型會自動降低高難度(高 Loss)樣本的權重以最小化整體 Loss,從而使得評分器隱式地學習到樣本的重要性(即:分數越低,樣本越重要 / 越難)
多樣性損失 (L_D):基于譜聚類(Spectral Clustering)的方差最小化。我們在特征空間將數據聚類,并計算各簇(Cluster)平均得分的方差。通過最小化該方差,迫使模型在挑選高分樣本時,不會過度集中于某一類,從而保證了數據的多樣性分布。
![]()
![]()
![]()
![]()
![]()
05 實驗 (Experiments)
本文在 LLaVA-1.5-7B 模型及 LLaVA-665K 數據集上進行了廣泛驗證,并在 10 個主流多模態基準(包括 VQAv2, GQA, MMBench 等)上進行了測試。
![]()
1. 性能與效率的雙重 SOTA:實驗結果表明,COIDO 僅利用 20% 的數據進行訓練和篩選,即可達到全量數據微調 98.2% 的平均性能。與現有的 SOTA 方法(如 ICONS、TIVE、COINCIDE)相比:
- 計算效率最高:COIDO 擁有最低的 Total FLOPs (4.2E),顯著優于需要全量遍歷的方法。
- 篩選質量最優:在相同的數據留存率下,COIDO 在各個 Benchmark 上均取得了極具競爭力的結果。
![]()
2. 強大的泛化性與遷移性:將在 LLaVA-665K 上訓練好的 COIDO Scorer 直接應用于 Vision-Flan 數據集(Zero-shot Transfer),其表現甚至優于在該數據集上從頭訓練的評分器,證明了 COIDO 能夠學習到通用的數據價值評估標準。
06 總結 (Conclusion)
COIDO 提供了一種全新的多模態數據篩選范式。它打破了「數據篩選必須昂貴」的刻板印象,證明了通過耦合優化和小樣本學習,我們可以「以簡馭繁」,用極小的計算代價精準定位高價值的視覺指令數據。這不僅為資源受限的研究者提供了高效微調 MLLM 的可能,也為未來大規模多模態數據的自動化清洗與治理提供了新的思路。
關注項目主頁獲取更多細節與代碼實現!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.