![]()
長期以來,開源多模態模型在復雜推理任務上,始終與 GPT-4o、Gemini 等頂尖閉源模型存在一道難以逾越的鴻溝。
社區開發者們逐漸意識到,核心痛點或許不在于模型架構的精進或者模型參數的規模。真正的瓶頸,在于高質量、思維鏈(CoT)密集的推理數據極度匱乏。
在純文本領域,DeepSeek-R1 的成功已驗證了高質量后訓練數據(Post-training Data)的威力,但在多模態領域,我們面對的是橫亙在眼前的「兩座大山」:
- 數據失衡:現有開源多模態數據仍以簡單 VQA 與自然圖像為主,而對于真正具有高推理價值的數據,如 STEM 圖表、邏輯謎題、復雜視覺符號等數據不僅少,而且標注成本極高。
- 推理質量參差不齊:即便現有的「推理數據」也存在推理過程短、模版化,標注粒度不足、缺乏中間驗證、視覺與邏輯推理割裂的問題。
為了填補這一空白,上海 AI 實驗室 OpenDataLab 研究團隊正式開源了 MMFineReason 框架。這既是一套全流程 100% 基于開源生態、可復現的多模態推理數據合成 Pipeline,同時也開源了由此方法構建的包含1.8M 高質量樣本、5.1B Token的大規模數據集。
![]()
- 論文標題:MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
- Huggingface 論文:https://huggingface.co/papers/2601.21821
- 項目主頁:https://mmfinereason.github.io/
- 數據集 & 模型:https://huggingface.co/collections/OpenDataArena/mmfinereason
小模型,大性能:高效數據選擇的強大優勢
先來秀一秀性能結果。團隊很驚喜的發現,MMFineReason 的出現,標志著多模態模型進入了「以小博大」的新階段。
實驗數據顯示,MMFineReason-4B模型基于 Qwen3-VL-4B 訓練而成,其推理能力不僅超越了 Qwen3-VL-8B-Thinking,性能更是直逼 30B 參數規模的 Qwen3-VL-30B-A3B-Thinking。
更令研究團隊驚喜的是,同樣基于同尺寸底座訓練的MMFineReason-8B,表現更加優秀:它直接擊敗了 Qwen3-VL-30B-A3B-Thinking 和 Gemini-2.5-Flash,并開始向 GPT5-mini-High 及 Qwen3-VL-32B-Thinking 等頂級模型發起沖擊。
值得強調的是,這種「跨級碾壓」的性能躍遷并非來自新的模型結構設計,也不是通過更復雜的訓練技巧實現的,而幾乎完全源于數據層面的變化—— 尤其是推理數據的結構化程度與單位樣本中的有效推理密度。
更進一步,團隊還發現通過難度感知過濾,能實現極高的數據轉換效率:僅使用總量 7%(約 123K)的高難度精選子集數據,即可媲美全量 1.8M 數據相當的性能表現。
因此,當數據被有效篩選、難度與模型能力精確對齊時,數據選擇本身就成為決定參數效率的核心杠桿。
![]()
![]()
揭秘「Closed-Source Level」數據管線:完全開源的數據生產線
![]()
不同于依賴黑盒 API 的傳統方案,MMFineReason 構建了一套完全開源的透明且高效的 Pipeline,全流程 100% 基于開源模型。整個流程主要通過三個階段來實現高質量數據的生產:
- 數據標準化:首先從源頭定義「什么是可推理任務」,對 STEM、Puzzle、圖、幾何、科學表等多領域數據進行標準化處理并統一 Schema,并進行嚴格的清洗。
- 推理蒸餾:利用 Qwen3-VL-235B-Thinking 作為老師模型進行推理蒸餾,并嚴格遵守四階段推理框架:「視覺感知 → 邏輯推導 → 中間驗證 → 結論確認」,從而來生成詳細且具備「視覺落地」能力的 CoT 推理軌跡。
- 雙重過濾:為了確保訓練的高效性,團隊引入了雙層篩選機制,第一是正確性過濾,確保答案與推理過程嚴格一致;在剔除低質量 CoT 的基礎上,進行難度感知(Difficulty-Aware)過濾,專門篩選出對 Qwen3-VL-4B 小模型具有高「訓練價值」的樣本,即「小模型穩定失敗」的樣本,從而避免了無效數據的堆砌。
![]()
最終,研究團隊得到了 MMFineReason-1.8M(正確全量), MMFineReason-586K(正確且去掉過于簡單樣本),以及 MMFineReason-123K(正確且最困難樣本)三個高質量數據集。
MMFineReason-1.8M:專為「深度推理」打造的高質量多模態數據
與其說 MMFineReason 是一個常規的 VQA 數據集,倒不如將其定義為一個專為多模態大模型準備的「硬核思維訓練場」。在當前多模態領域普遍陷入「數據饑渴」與「思維鏈斷層」的背景下,該項目展現出了極具辨識度的核心特征。
首先,MMFineReason 在思維深度上實現了質的飛躍。相比 HoneyBee 等同類數據集,其平均思維鏈(CoT)長度達到了驚人的 2,910 tokens,規模足足是前者的2.7 倍。這種長路徑推理數據的引入,本質上是讓模型告別了簡單的「直覺判斷」,轉而掌握一套詳盡且具象的「視覺 - 邏輯」推導范式。
![]()
在領域分布上,研究團隊展現出了鮮明的去平庸化導向,堅決拒絕易于「刷分」的簡單樣本,轉而深耕高難度邏輯腹地。
數據集中,數學領域以 79.4% 的絕對占比強化了符號推理根基,涵蓋了幾何、微積分等深度學科;13.8% 的科學數據則聚焦于復雜的物理、化學圖表分析;此外,數據集還引入了 4.6% 的謎題與游戲數據,通過抽象模式識別與策略博弈,不斷試探并挑戰開源模型的智商上限。
![]()
圖為 MMFineReason 數據集的數據分布情況。可以看到數據集的領域覆蓋了數學、謎題與游戲、幾何 / 微積分、圖表與復雜科學等。
更具深遠意義的洞察在于這種高強度訓練帶來的「協同提升效應」。實驗結果打破了專項訓練會削弱通用能力的固有認知:當模型在 STEM 和邏輯難題上進行深度鉆研時,其在一般性 VQA 任務上的表現反而得到了同步增強。這種以點帶面的能力釋放,再次印證了高質量邏輯鏈條才是驅動模型性能跨級演進的真邏輯。
結語與展望
MMFineReason 的開源,證明了在多模態領域,當模型架構逐漸收斂、參數規模的邊際收益不斷下降,決定能力差距的,不再是模型有多大,而是「數據是否真的教會模型如何推理」。通過精細化的數據工程,小參數模型完全有潛力在復雜推理任務上對抗甚至超越大參數模型。
這不是一次規模的勝利,而是Data-Centric 方法論的勝利。我們期待未來在多模態開源大模型的路上,能用更高效、更高價值的數據來促進社區的進步。
目前,該項目已在 Huggingface 及 GitHub 全面上線,為開源社區提供了從數據到工具鏈的完整支撐。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.