<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      One image is all you need多模態指令數據合成,只管給圖給Oasis

      0
      分享至



      近年來,多模態指令數據合成方法多依賴人工設計復雜的合成提示詞(prompt),耗費大量人力與時間成本。在文本數據合成領域,MAGPIE [1] 是一個非常成功的合成方法,該方法無需用戶提供任何 prompt,僅以 <|im_start|> 這類特殊 token 作為模型輸入,即可完成數據合成。

      受啟發于 MAGPIE,本文中來自同濟大學、字節跳動和愛丁堡大學的研究者提出了一種新型多模態指令數據合成方法,只需用戶提供圖片(即,VLM 中常用的特殊 token ),Oasis 會自動完成指令合成、質量控制和回復生成,產出高質量的數據。

      同時,為了支持進一步研究,該研究提供了一個全新的開源代碼庫 MM-INF,該庫涵蓋了 Oasis 和一些常用的多模態數據合成方法,并不斷進行更新維護,歡迎大家試用并提供寶貴的反饋意見。



      • 論文鏈接:https://arxiv.org/abs/2503.08741
      • 代碼鏈接:https://github.com/Letian2003/MM_INF
      • 數據集鏈接:https://huggingface.co/datasets/WonderThyme/Oasis

      研究動機



      上圖展示了常用數據合成鏈路與 Oasis 的流程對比,常用的數據鏈路可能會存在以下三類問題:

      1. 多樣性缺失:大量方法依賴固定不變的提示詞與合成流程,嚴重限制了數據的覆蓋范圍與難度層次,導致生成數據同質化嚴重;
      2. 質量不足:現有技術難以穩定產出能顯著提升多模態大語言模型(MLLMs)表征能力的高質量合成數據,多數研究不得不退而求其次,采用基于圖像描述(caption)的二次生成策略,效果與效率均不理想;
      3. 依賴人工:流程繁瑣且成本高企。即便看似 「一站式」的合成框架,在關鍵環節(如設計數據模式、編寫提示詞等)仍需大量人工參與,不僅費時費力,還使整個數據合成過程低效且繁瑣。

      本文提出的Oasis 僅依靠圖像生成數據,打破了依賴預設文本提示詞( + [text prompt])的傳統多模態輸入模式。 該方法誘導強大的 MLLM 僅基于輸入的圖像(作為 < image> token 輸入),利用其自身的知識和自回歸特性,自主生成多樣化、與圖像內容相關的指令。完全不需要人工提供任何前置的文本提示詞。研究者深入分析了高質量指令應具備的屬性,并據此精心設計了一系列篩選標準,用于自動過濾掉生成指令中的低質量數據。

      方法介紹

      概述



      方法如上圖所示,主要有三個步驟:

      1. 構造 「鉤子提示詞(hooking prompt)」以誘導模型進行自回歸采樣;
      2. 對采樣結果進行分類,只保留指令型采樣結果;
      3. 進行指令質量控制 & 回復生成。

      我們以 Qwen2-VL 為例,詳細介紹這三個步驟。

      第一步:構造 「hooking prompt」 誘導模型進行自回歸采樣

      以圖像描述為例,一個典型的 MLLM 輸入為 「<|im_start|>User\nDescribe the image.<|im_end|>\n<|im_start|>Assisstant」,MLLM 感知到當前的 role 為 Assistant 后,會生成關于指令的回復。

      我們提取完整輸入中的前綴 「<|im_start|>User\n」,送入到 VLM 中進行采樣,由此生成的回復是不受任何人為 bias 影響的,唯一的 condition 是圖片自身;

      在采樣過程中,生成的數據大致可分為兩類:指令型(instruction-following)和描述型(caption),這一現象可以通過交錯的多模態語言模型(MLLM)圖像 - 文本訓練過程來解釋。

      第二步:采樣結果分類

      為了僅篩選出指令數據用于后續工作,我們設計了一種分類機制將數據歸入指令型和描述型兩類。

      具體而言,我們驅動一個大語言模型(LLM)作為分類器來預測類別。若包含指令,則將其分類為指令遵循型數據,并從中提取一條指令;否則,將其分類為描述型數據并舍棄。我們采用 few-shot 策略以提高分類精度,完整的提示詞模板見附錄。

      對于分類為指令型的采樣結果,我們會進行質量控制和回復生成。

      第三步:質量控制 & 回復生成

      我們從指令的 可解性 / 清晰度 / 幻覺程度 / 無意義性 四個角度,對指令進行篩選,通過篩選的指令會用 Qwen2-VL 進行回復生成,組成一條完整的 「指令 - 回復」 訓練數據;

      每個維度均采用 1-5 級評分(1 分表示最差,5 分表示最優):

      1. 可解性 (Solvability):評估圖像是否提供足夠的信息來全面回答問題。如果圖像缺失關鍵細節(如對象或上下文),指令可能無法被完全解決。
      2. 清晰度 (Clarity):評價問題傳達意圖的精確程度。指令應避免模糊性,確保能得出明確答案(例如,避免開放式或含糊的表述)。
      3. 幻覺程度 (Hallucination):衡量問題內容與圖像實際內容的一致性。指令需避免引入圖像中不存在的信息(如虛構對象或場景)。
      4. 無意義性 (Nonsense):檢查問題在語法、連貫性和語義上的合理性。指令必須通順、有意義,避免錯誤如語法混亂或邏輯矛盾。

      具體的篩選細節見附錄。另外,我們在消融實驗中發現回復的質量控制是無效的,只對指令做質量控制即可。

      Oasis-500k

      我們基于 Cambrian-10M [2] 的圖片,進行數據生產,最后合成約 500k 的訓練數據,稱之為 Oasis-500k;由于 Oasis 的生產只依賴圖片,所以只要圖片的數量是足夠的,Oasis 可以輕松進行 Scaling,數據量級隨著時間是線性增長的。

      數據特性分析

      我們對 Oasis 合成的數據和開源常用的指令數據 LLaVA-NeXT 進行了一系列屬性的對比,包括指令和回復的長度、語言類型、動名詞組合等。

      指令和回復的長度



      如上表所示,從指令和回復的平均長度來看,Oasis 數據均長于LLaVA-NeXT,且整體標準差更大。更長的長度表明 Oasis 數據可能包含更豐富的信息,而更大的標準差則說明其數據任務更多元。

      語言類型



      得益于該方法的自回歸特性,基于圖像的自回歸過程不會引入顯式語言偏差,因此生成的指令覆蓋廣泛語種。借助 langdetect 庫,對 Oasis-500k 數據的語言類型分布進行可視化分析發現:除英文(78.52%)和中文(18.66%)外,還包含韓語、挪威語、越南語、法語、德語等小語種,語言多樣性顯著。

      動詞名詞組合



      基于 spaCy 庫,解析了數據集的根動詞(root verbs)與高頻名詞對象(top noun objects,即出現頻率超過 1% 的根動詞及與其關聯的前 3 位名詞對象)。上圖展示了兩類數據中最常見的根動詞及對應名詞對象分布,相較 LLaVA-NeXT,Oasis 數據的根動詞具有以下優勢:

      • 表達自然性:覆蓋更自然實用、信息量更豐富的動詞語匯;
      • 對象多樣性:高頻名詞對象呈現更豐富的語義分布。

      值得注意的是,LLaVA-NeXT 對 「answer question」 組合的高度依賴,反映出其在任務設計上可能過度偏重問答(QA)場景。

      數據示例



      Oasis 數據集的示例如圖所示,可見 Oasis 的指令生成能力很強,可基于圖像主題生成細節豐富且信息密度高的指令。另外生成的任務覆蓋廣度好,涵蓋跨領域任務場景,如目標識別(Object Recognition)、場景描述(Scene Description)和代碼理解(Code Comprehension)等。這些可視化同樣佐證了前文關于數據多樣性的觀點。

      實驗結果



      Oasis 有效性

      我們將 LLaVA-NeXT 設置為 baseline,在其 SFT 數據上做增量改進,觀察相對于 baseline 的提升。我們在 14 個 benchmark 上對基于 Oasis 訓練的 MLLM 進行了全面評估。

      如上表所示,Oasis 作為基線的增量數據引入,較基線實現全面且顯著的性能提升。

      在 Vicuna1.5/Qwen2.5/Llama3 等基座網絡上,平均提升分別 3.1%/1.8%/3.2%;以 Vicuna-7B-v1.5 為例,通用知識 MMBench-EN/CN 準確率提升 + 1.4% / +2.3%;OCR 任務 TextVQA 與 OCRBench 精度分別提高 2.7% 和 2.1%;在文檔分析任務上較基線提升 4.3% 和 6.3%;

      上述結果不僅證明了合成數據的多樣性,更揭示了 Oasis 在增強 MLLM 泛化能力上的有效性。

      對比其他合成方法

      除了 Oasis 數據,我們引入了 4 種增量改進,來進一步說明 Oasis 的有效性。

      1. Oasis 圖片的原始標注數據(指令 + 回復),驗證 SFT 圖片多樣性增加的影響;
      2. LLaVA-NeXT 原始 SFT 數據的上采樣,排除數據量級對效果的影響;
      3. MMEvol 數據 [3]
      4. DenseFusion-1M 數據 [4]

      如上表所示,Oasis 作為增量數據引入時,依然表現出了更好的綜合性能,再一次佐證關于數據多樣性的觀點;

      數據 Scaling 效果

      我們基于 100k 的 LLaVA-NeXT 數據,對 Oasis 的數據量進行了 3 組 Scaling 實驗,即,在 LLaVA-100k 的基礎上分別加入 150k/300k/500k 的 Oasis 合成數據。整體趨勢上來看,Oasis 數據量從 0 增至 500k 的過程中,模型性能穩定提升,添加 500k 條 Oasis 數據后,平均得分提高 5.2%;300k→500k 帶來了 + 4.0% 的顯著增益,也進一步說明該數據的可擴展性;

      垂域數據合成能力





      受益于 Oasis 只依賴圖片輸入的特性,它非常善于合成垂類的數據。我們以 OCR 為例,驗證 Oasis 在垂域數據合成上的有效性。我們從 Cambrian-10M 中篩選出了 24 個和 OCR 相關的數據集(共 311k 圖片),然后基于這些圖片進行 Oasis 數據合成了 70k 的垂域訓練數據。如上表所示,這份 OCR 垂域數據在 OCR 相關的 benchmark 上帶來了非常明顯的提升。另外如上圖所示,Oasis 合成的數據不僅僅關注文字提取任務,同樣也考察了模型對于上下文的理解、屬性推理等能力。

      消融實驗



      描述數據的回收利用

      在數據合成流程的第二步中,我們使用了 LLM 來對第一步中模型自回歸采樣出的數據進行篩選,去掉 caption 類型的數據。這一步的通過率為 49.9%,占比約一半的 caption 類型數據被丟棄,這導致合成效率受到較大的影響。

      因此,我們采用一些策略來對此類 caption 數據進行回收利用。首先,我們使用一些規則來對數據中的特殊字段(如亂碼等)進行去除。然后,我們使用 Qwen2.5-72B-Instruct LLM 來對 caption 數據的質量進行三個維度評估,最終我們得到了約 250k 的高質量 caption,并與 LLaVA 論文中給出的圖像詳細描述指令進行隨機匹配。

      我們在原始的 OASIS 數據上額外加入這 250k 數據進行訓練,如上表所示,加入 caption 后多數指標有上升,并帶來了總體 0.3% 的提升。這說明我們可以低成本地回收利用數據合成過程中被丟棄的數據,并帶來額外的實驗收益。

      指令質量控制的必要性

      在完成數據分類之后,我們對指令質量進行了控制,從四個維度篩除低質量指令:可解性、清晰度、幻覺成都和無意義內容。為了評估這一質量控制機制對數據質量和模型性能的影響,我們進一步進行了消融實驗。

      具體來說,我們使用經過質量控制和未經質量控制的 20 萬條數據分別訓練模型,比較所得模型的性能。在質量篩選過程中,高質量指令的接受率為 50.9%,因此,未經質量控制的 20 萬條數據中,會包含約 10 萬條 「低質量」 指令。

      根據上表第二部分展示的實驗結果。在應用質量控制機制的情況下,模型整體性能顯著提升了 1%。在 DocVQA 和 InfoVQA 這兩個任務中,模型性能分別提升了超過 7%。這一結果充分證明了在 Oasis 框架中,數據質量控制機制是非常必要的。

      回復質量控制的必要性

      為探究響應質量控制的必要性,我們嘗試了兩種低質量響應過濾方法:

      1. 負對數似然(NLL)拒絕采樣法:對每條指令采樣 5 個回復,計算其負對數似然,保留置信度最高的回復作為最終輸出(參考 [5]);
      2. 多模態大語言模型(MLLM)評分法:使用 Qwen2-VL-72B-Instruct 模型從有用性(helpfulness)、真實性(truthfulness)、指令遵循性(instruction-following)三個維度進行 1-5 分評分,過濾未獲滿分(5 分)的回復。

      如上表所示,證明兩種方法均導致模型平均得分下降(-0.7% 與 -1.6%),證明對回復做質量控制無效甚至有害。高質量指令本身即可驅動 MLLM 生成高質量的回復,引入對回復的質量控制可能會引入額外的人為 bias;

      開源代碼庫 MM-INF



      • 代碼鏈接:https://github.com/Letian2003/MM_INF

      該研究還開源了一個數據合成的 codebase MM-INF。該 codebase 依托于開源代碼庫 ms-swift [6] 實現了一個數據合成引擎,可以串聯起若干個基于 LLM/VLM 的數據合成步驟。代碼庫內涵蓋了 Oasis 的實現以及一些常用的多模態數據合成鏈路(如圖片描述、基于描述生成 QA 等),歡迎大家試用并提供寶貴的反饋意見。

      參考文獻

      [1] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, ICLR 2025.

      [2] Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs, NeurIPS 2024.

      [3] MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct, arxiv 2409.05840.

      [4] DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception, NeurIPS 2024.

      [5] SimPO: Simple preference optimization with a reference-free reward, NeurIPS 2024.

      [6] https://github.com/modelscope/ms-swift

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      遼寧搶簽?王俊杰下家3選1,簽字費曝光,22歲簽年薪只有50萬

      遼寧搶簽?王俊杰下家3選1,簽字費曝光,22歲簽年薪只有50萬

      樂聊球
      2025-12-08 11:29:49
      梅西剛到美國被黑還不如伊布!兩年半來一直獲得MVP、奪冠!

      梅西剛到美國被黑還不如伊布!兩年半來一直獲得MVP、奪冠!

      氧氣是個地鐵
      2025-12-07 22:20:53
      SpaceX估值升至8000億美元,超越OpenAI成最大獨角獸。它為啥值這么多?拆解SpaceX的業務飛輪

      SpaceX估值升至8000億美元,超越OpenAI成最大獨角獸。它為啥值這么多?拆解SpaceX的業務飛輪

      問問馬斯克AskMusk
      2025-12-07 21:29:47
      原國務委員王丙乾逝世,享年100歲

      原國務委員王丙乾逝世,享年100歲

      界面新聞
      2025-12-08 15:38:35
      已售650萬,央視曝光:全是假的!網友怒了:喪良心

      已售650萬,央視曝光:全是假的!網友怒了:喪良心

      據說無據
      2025-12-08 09:30:56
      那些支持JavaScript的公司,幾乎全倒下了!

      那些支持JavaScript的公司,幾乎全倒下了!

      碼農翻身
      2025-12-08 08:58:26
      A股:不必等待了!明天(12月9日),股市或將迎來大級別的變化

      A股:不必等待了!明天(12月9日),股市或將迎來大級別的變化

      財經大拿
      2025-12-08 11:59:21
      女兒失蹤3年,竟托夢說在鄰居家魚缸里,警察趕到后當場愣了

      女兒失蹤3年,竟托夢說在鄰居家魚缸里,警察趕到后當場愣了

      罪案洞察者
      2025-09-16 14:31:27
      國籍爭議真相大白1年后,22歲谷愛凌近況曝光,一點都不意外

      國籍爭議真相大白1年后,22歲谷愛凌近況曝光,一點都不意外

      趣文說娛
      2025-12-04 18:32:25
      警惕外企打著高裁員賠償的幌子制造對立和矛盾

      警惕外企打著高裁員賠償的幌子制造對立和矛盾

      黯泉
      2025-12-08 11:22:46
      榕江荒野的瓜太大!有女選手稱有安全員用“兩根火腿腸”引誘妥協

      榕江荒野的瓜太大!有女選手稱有安全員用“兩根火腿腸”引誘妥協

      火山詩話
      2025-12-07 17:39:21
      愛馬仕繼承人被騙光千億身家,他犯的這個錯,我們普通人都會遇到

      愛馬仕繼承人被騙光千億身家,他犯的這個錯,我們普通人都會遇到

      阿訊說天下
      2025-12-07 01:13:21
      郭德綱“造謠抹黑國營院團”遭“約談”?北京市西城區文旅局回應記者:具體回復要等領導調度

      郭德綱“造謠抹黑國營院團”遭“約談”?北京市西城區文旅局回應記者:具體回復要等領導調度

      極目新聞
      2025-12-08 12:55:52
      質疑聲超多,26歲閔某已任浙大馬院博士生導師,博士入學2年當博導?

      質疑聲超多,26歲閔某已任浙大馬院博士生導師,博士入學2年當博導?

      趣筆談
      2025-12-08 11:46:24
      阿湯哥付清3400萬撫養費,與女兒天各一方,12年未見也不打算相見

      阿湯哥付清3400萬撫養費,與女兒天各一方,12年未見也不打算相見

      老謝談史
      2025-11-29 19:06:06
      “一個月做5次,超過就按50萬一次收費!”澤尻英龍華逼丈夫簽下

      “一個月做5次,超過就按50萬一次收費!”澤尻英龍華逼丈夫簽下

      忠于法紀
      2025-12-03 11:35:03
      上海教師諸倩蕓去世,年僅31歲,帶畢業班,因腹痛確診,僅2個月

      上海教師諸倩蕓去世,年僅31歲,帶畢業班,因腹痛確診,僅2個月

      雙色球的方向舵
      2025-12-08 13:24:20
      16歲讀博的神童張炘煬,如今無業躺平啃老,坦然承認:我不是神童

      16歲讀博的神童張炘煬,如今無業躺平啃老,坦然承認:我不是神童

      不寫散文詩
      2025-12-07 19:20:12
      特斯拉上海超級工廠第400萬輛整車下線:星光金Model Y L

      特斯拉上海超級工廠第400萬輛整車下線:星光金Model Y L

      鳳凰網科技
      2025-12-08 14:29:07
      終于知道給馬克龍獻花的清純女孩了!女孩身份曝光,顏值極高太美

      終于知道給馬克龍獻花的清純女孩了!女孩身份曝光,顏值極高太美

      阿纂看事
      2025-12-08 09:31:05
      2025-12-08 16:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11868文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      數碼
      教育
      親子
      游戲
      健康

      數碼要聞

      惠普、戴爾等回應漲價:由于配件漲價 電腦肯定也漲價

      教育要聞

      父母永遠不要與孩子分享的8件事,關系再好也別說

      親子要聞

      奧運冠軍助陣!廣東“公益體彩 快樂操場”助力萌娃體育夢

      《節奏醫生》IGN9分!Steam好評如潮:音游天花板

      甲狀腺結節到這個程度,該穿刺了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: www插插插无码视频网站| 亚洲人成亚洲人成在线观看| 欧美激情精品久久久久久| 永和县| 九九热精品免费视频| 国内国外精品影片无人区| 午夜精品久久久久久99热| 亚洲乱人伦中文字幕无码| 久久国产精品久久精品国产| 人妻图区| 国产首页一区二区不卡| 日本精品一区二区三区四区| 精品国产三级在线观看| 95色综合| 祁门县| 亚州精品熟女在线| 丰满人妻一区二区三区无码AV| 神马视频| 午夜免费啪视频在线观看| 美女张开腿黄网站免费| 国产精品无码aⅴ嫩草| 欧美性猛交xxxx富婆| 泸水县| 亚洲V色| 亚洲AVAV天堂Av在线播放| 四虎影视一区二区精品| 688欧美人禽杂交狂配| 亚洲va国产va天堂va久久| av色欲无码人妻中文字幕| a片在线免费观看| 狠狠干2019| 熟女视频在线观看| 国语自产拍精品香蕉在线播放| 夜鲁鲁鲁夜夜综合视频欧美| 亚洲乱码国产乱码精品精| 人妻中文系列| 读书| 91视频专区| 国产一区二区午夜福利久久| 国产亚洲一二三区精品| 真实的国产乱xxxx|