<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別全量掃描!浙大提出COIDO:破解多模態數據選擇「高耗」難題

      0
      分享至



      本文第一作者是二年級博士生閆熠辰,主要研究方向是多模態大模型的數據質量管理;通訊作者是李環研究員,主要研究方向包括人工智能數據準備、大模型高效推理與部署、時空大數據與模型輕量化等。



      01 省流版:一張圖看懂 COIDO

      在深入技術細節之前,我們先用一張漫畫來直觀理解 COIDO (Coupled Importance-Diversity Optimization) 解決的核心問題與方案:

      正如鐘離在漫畫中所言,面對海量視覺指令數據的選擇任務,傳統方法需要遍歷全部數據才能進行篩選造成大量「磨損」(高昂計算成本)。同時在面對數據重要性和多樣性問題時,傳統方法往往顧此失彼。而 COIDO 通過「耦合優化」的新契約,實現了以簡馭繁的效果。

      02 論文速覽



      • 論文題目:COIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization
      • 收錄會議:NeurIPS 2025
      • 作者單位:浙江大學大數據智能團隊、杭州電子科技大學、北京郵電大學
      • 項目代碼:https://github.com/SuDIS-ZJU/COIDO
      • 論文鏈接:https://arxiv.org/abs/2510.17847

      03 研究背景與動機 (Motivation)



      多模態大語言模型(MLLM)的能力在很大程度上依賴于高質量的視覺指令微調(Visual Instruction Tuning)。然而,隨著數據集規模的爆炸式增長(如 LLaVA-665K),在全量數據上進行微調帶來了巨大的計算開銷和冗余 。

      現有的數據篩選方法雖然旨在選取高質量子集,但普遍存在兩個關鍵痛點:

      • 高昂的篩選成本:現有方法通常要求目標 MLLM 對全量數據進行反向傳播以計算重要性(如梯度、Loss),這導致篩選階段本身的計算成本就極高,違背了 「降本增效」的初衷 。也就是說,為了篩選出少量有價值數據,我們還是得讓全部的數據進入到目標 MLLM 當中并訓練。
      • 優化目標的解耦:數據篩選通常需要兼顧重要性(Importance)和多樣性(Diversity)。現有方法往往將二者割裂處理——在訓練階段關注重要性,在篩選階段通過獨立算法處理多樣性。這種解耦往往導致次優的權衡 。

      針對上述問題,本文提出了 COIDO 框架,旨在通過極低成本的訓練,實現重要性與多樣性的聯合(耦合)優化 。

      04 方法論 (Mothodology)

      COIDO 的核心思想是摒棄「遍歷全量數據」的舊范式,轉而采用輕量級評分器(Plug-in Scorer)配合小樣本采樣的策略。



      1. 輕量級評分器與小樣本學習:不同于需要全量微調 MLLM 的方法,COIDO 引入了一個輕量級的插件評分器(COIDO Scorer)。我們僅從全量數據中隨機采樣一小部分(例如 20%)作為訓練集。評分器通過這部分數據學習整個數據集的分布特征,從而能夠對剩余數據進行泛化評分,無需遍歷全集進行訓練 。

      2. 重要性與多樣性的耦合優化 (Coupled Optimization):這是本論文的核心創新點。本文將重要性和多樣性的優化統一在了一個聯合訓練框架中,而非分階段進行:

      重要性損失 (L_I):基于 Cross-Entropy Loss 的重加權。我們將評分器輸出的得分 w 加權作用于 MLLM 的預測 Loss。根據反向傳播原理,模型會自動降低高難度(高 Loss)樣本的權重以最小化整體 Loss,從而使得評分器隱式地學習到樣本的重要性(即:分數越低,樣本越重要 / 越難)
      多樣性損失 (L_D):基于譜聚類(Spectral Clustering)的方差最小化。我們在特征空間將數據聚類,并計算各簇(Cluster)平均得分的方差。通過最小化該方差,迫使模型在挑選高分樣本時,不會過度集中于某一類,從而保證了數據的多樣性分布。











      05 實驗 (Experiments)

      本文在 LLaVA-1.5-7B 模型及 LLaVA-665K 數據集上進行了廣泛驗證,并在 10 個主流多模態基準(包括 VQAv2, GQA, MMBench 等)上進行了測試。



      1. 性能與效率的雙重 SOTA:實驗結果表明,COIDO 僅利用 20% 的數據進行訓練和篩選,即可達到全量數據微調 98.2% 的平均性能。與現有的 SOTA 方法(如 ICONS、TIVE、COINCIDE)相比:

      • 計算效率最高:COIDO 擁有最低的 Total FLOPs (4.2E),顯著優于需要全量遍歷的方法。
      • 篩選質量最優:在相同的數據留存率下,COIDO 在各個 Benchmark 上均取得了極具競爭力的結果。



      2. 強大的泛化性與遷移性:將在 LLaVA-665K 上訓練好的 COIDO Scorer 直接應用于 Vision-Flan 數據集(Zero-shot Transfer),其表現甚至優于在該數據集上從頭訓練的評分器,證明了 COIDO 能夠學習到通用的數據價值評估標準。

      06 總結 (Conclusion)

      COIDO 提供了一種全新的多模態數據篩選范式。它打破了「數據篩選必須昂貴」的刻板印象,證明了通過耦合優化和小樣本學習,我們可以「以簡馭繁」,用極小的計算代價精準定位高價值的視覺指令數據。這不僅為資源受限的研究者提供了高效微調 MLLM 的可能,也為未來大規模多模態數據的自動化清洗與治理提供了新的思路。

      關注項目主頁獲取更多細節與代碼實現!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      湖人116-114太陽!詹姆斯看清現實,范德比爾特賽后表態也成關鍵

      湖人116-114太陽!詹姆斯看清現實,范德比爾特賽后表態也成關鍵

      魚崖大話籃球
      2025-12-15 17:12:31
      印度警方:法院拒絕了梅西印度行主辦方的保釋請求,對其拘留14天

      印度警方:法院拒絕了梅西印度行主辦方的保釋請求,對其拘留14天

      懂球帝
      2025-12-14 17:04:27
      1-2!意甲2冠王遭讀秒絕殺+15輪0勝墊底 高層震怒罰全隊封閉管理

      1-2!意甲2冠王遭讀秒絕殺+15輪0勝墊底 高層震怒罰全隊封閉管理

      我愛英超
      2025-12-15 05:52:41
      柬埔寨的洪家天下:“金邊肯德基全家桶”

      柬埔寨的洪家天下:“金邊肯德基全家桶”

      Wilsonhe8
      2025-07-01 00:24:02
      白巖松,脫離人民群眾很久了,還把工會黑慘了

      白巖松,脫離人民群眾很久了,還把工會黑慘了

      超級學爸蛋總
      2025-12-14 22:30:59
      日本知道自己上當了,但是已經來不及了

      日本知道自己上當了,但是已經來不及了

      南宮一二
      2025-11-27 09:06:47
      甘蔗搭它煮水,堪稱化痰高手!一清老痰、二潤肺養胃,三祛內火

      甘蔗搭它煮水,堪稱化痰高手!一清老痰、二潤肺養胃,三祛內火

      江江食研社
      2025-12-13 10:30:11
      大蒜塞耳朵里太厲害了,10個人9個都用得到,看完趕快叮囑家人

      大蒜塞耳朵里太厲害了,10個人9個都用得到,看完趕快叮囑家人

      妙招酷
      2025-12-02 00:06:08
      王皓真生氣了!連問林詩棟2遍“懂不懂” 賽后情緒激動當場做復盤

      王皓真生氣了!連問林詩棟2遍“懂不懂” 賽后情緒激動當場做復盤

      風過鄉
      2025-12-15 08:15:40
      ?湖北十堰3員工聚餐后甲醇中毒致1死1腦死亡 涉事散裝酒由公司食堂承包者提供?

      ?湖北十堰3員工聚餐后甲醇中毒致1死1腦死亡 涉事散裝酒由公司食堂承包者提供?

      上游新聞
      2025-12-15 12:07:04
      《沁園春·雪》發表,無人超越,一才女填詞,毛主席驚:拜受了

      《沁園春·雪》發表,無人超越,一才女填詞,毛主席驚:拜受了

      抽象派大師
      2025-12-13 05:01:21
      10人聚餐逃單后續:10人已社死,組局人身份被扒,張某正臉照曝光

      10人聚餐逃單后續:10人已社死,組局人身份被扒,張某正臉照曝光

      卷史
      2025-12-14 17:26:02
      法國驗證!中國足球青訓成果,黃金一代即將升空

      法國驗證!中國足球青訓成果,黃金一代即將升空

      中山印象體育攝影師
      2025-12-15 12:06:21
      小伙從上海坐高鐵出發,1200公里路程只花了61元,還是一等座?他是這么操作的

      小伙從上海坐高鐵出發,1200公里路程只花了61元,還是一等座?他是這么操作的

      瀟湘晨報
      2025-12-15 14:56:33
      你可以高喊房地產“止跌企穩”,但你無法命令規律低頭

      你可以高喊房地產“止跌企穩”,但你無法命令規律低頭

      廖保平
      2025-12-14 11:00:17
      隨著12月15日的來臨,快船隊傳來了兩條信息非常值得關注!

      隨著12月15日的來臨,快船隊傳來了兩條信息非常值得關注!

      田先生籃球
      2025-12-15 09:26:53
      中國終于明白戰勝國的優勢!美國意識到:自己也被中國裝進去了!

      中國終于明白戰勝國的優勢!美國意識到:自己也被中國裝進去了!

      布拉旅游說
      2025-12-09 11:27:15
      這就是公開辱華的后果!取消冠軍頭銜只是開始,職業生涯也全毀了

      這就是公開辱華的后果!取消冠軍頭銜只是開始,職業生涯也全毀了

      墨蘭史書
      2025-12-13 05:10:03
      女優中尾芽衣子驚傳去世,好友:不希望她被遺忘

      女優中尾芽衣子驚傳去世,好友:不希望她被遺忘

      小雅娛樂八卦
      2025-12-15 15:36:07
      不容錯過!12月15日晚19:30!央視五套CCTV5以及CCTV5+節目表

      不容錯過!12月15日晚19:30!央視五套CCTV5以及CCTV5+節目表

      皮皮觀天下
      2025-12-15 10:40:34
      2025-12-15 17:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11921文章數 142509關注度
      往期回顧 全部

      科技要聞

      平價數碼產品,要和我們說再見了?

      頭條要聞

      上周有菲方人員持刀威脅中方執法海警 外交部回應

      頭條要聞

      上周有菲方人員持刀威脅中方執法海警 外交部回應

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      黃綺珊在何晴去世首發,10年悄悄祈福

      財經要聞

      新農合漲到400元 農民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態度原創

      數碼
      時尚
      藝術
      公開課
      軍事航空

      數碼要聞

      巨頭iRobot申請破產重組:曾被譽為掃地機器人“鼻祖”

      伊姐周日熱推:電視劇《老舅》;電視劇《啞舍》......

      藝術要聞

      369米!中國第三大民企的全球運營總部,網傳三個設計方案

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基稱烏方已妥協不加入北約 俄方發聲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 伊人成人在线视频免费| 熟女国产精品| 定远县| 欧美va天堂在线电影| 欧美日韩精品一区二区在线观看| 国产精品久久香蕉免费播放| 超碰人人妻| 马尔康县| 亚洲乱妇熟女爽到高潮的片| 免费观看的av毛片的网站| 久久精品国产亚洲精品色婷婷| 浪荡干片网在线观看| AV中文天堂| 国产精品久久国产精品99 gif | 粉嫩导航| 亚洲精品av一二三区无码| 欧美精品一区二区蜜臀亚洲| 久久精品国产一区二区三| 51av视频| 久热大香蕉| 无码欧精品亚洲日韩一区| AV最新高清无码专区| 日日噜噜夜夜久久亚洲一区二区| 91丨国产丨白浆秘?网站| 国产午夜福利短视频| 女同互慰高潮呻吟免费播放| 欧洲一区二区三区| 呼伦贝尔市| 亚洲欧美v国产一区二区| 在线A级毛片无码免费真人| 国产超碰在线| 另类小说av| 久久精品蜜芽亚洲国产av| 小13箩利洗澡无码视频网站| 黑人又粗又长又大| YOUJIZZJIZZJIZZ18| 特级毛片在线大全免费播放| 免费又爽又大又高潮视频| 亚洲不卡视频| 少妇人妻大乳在线视频| 亚洲精品久久久久久无码色欲四季|