網易首頁 > 網易號 > 正文申請入駐

開源多模態推理「破壁」時刻：MMFineReason助力4B逆襲30B

2026-02-13 15:51:35　來源: 機器之心Pro

河北舉報

分享至

長期以來，開源多模態模型在復雜推理任務上，始終與 GPT-4o、Gemini 等頂尖閉源模型存在一道難以逾越的鴻溝。

社區開發者們逐漸意識到，核心痛點或許不在于模型架構的精進或者模型參數的規模。真正的瓶頸，在于高質量、思維鏈（CoT）密集的推理數據極度匱乏。

在純文本領域，DeepSeek-R1 的成功已驗證了高質量后訓練數據（Post-training Data）的威力，但在多模態領域，我們面對的是橫亙在眼前的「兩座大山」：

數據失衡：現有開源多模態數據仍以簡單 VQA 與自然圖像為主，而對于真正具有高推理價值的數據，如 STEM 圖表、邏輯謎題、復雜視覺符號等數據不僅少，而且標注成本極高。
推理質量參差不齊：即便現有的「推理數據」也存在推理過程短、模版化，標注粒度不足、缺乏中間驗證、視覺與邏輯推理割裂的問題。

為了填補這一空白，上海 AI 實驗室 OpenDataLab 研究團隊正式開源了 MMFineReason 框架。這既是一套全流程 100% 基于開源生態、可復現的多模態推理數據合成 Pipeline，同時也開源了由此方法構建的包含1.8M 高質量樣本、5.1B Token的大規模數據集。

論文標題：MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
Huggingface 論文：https://huggingface.co/papers/2601.21821
項目主頁：https://mmfinereason.github.io/
數據集 & 模型：https://huggingface.co/collections/OpenDataArena/mmfinereason

小模型，大性能：高效數據選擇的強大優勢

先來秀一秀性能結果。團隊很驚喜的發現，MMFineReason 的出現，標志著多模態模型進入了「以小博大」的新階段。

實驗數據顯示，MMFineReason-4B模型基于 Qwen3-VL-4B 訓練而成，其推理能力不僅超越了 Qwen3-VL-8B-Thinking，性能更是直逼 30B 參數規模的 Qwen3-VL-30B-A3B-Thinking。

更令研究團隊驚喜的是，同樣基于同尺寸底座訓練的MMFineReason-8B，表現更加優秀：它直接擊敗了 Qwen3-VL-30B-A3B-Thinking 和 Gemini-2.5-Flash，并開始向 GPT5-mini-High 及 Qwen3-VL-32B-Thinking 等頂級模型發起沖擊。

值得強調的是，這種「跨級碾壓」的性能躍遷并非來自新的模型結構設計，也不是通過更復雜的訓練技巧實現的，而幾乎完全源于數據層面的變化—— 尤其是推理數據的結構化程度與單位樣本中的有效推理密度。

更進一步，團隊還發現通過難度感知過濾，能實現極高的數據轉換效率：僅使用總量 7%（約 123K）的高難度精選子集數據，即可媲美全量 1.8M 數據相當的性能表現。

因此，當數據被有效篩選、難度與模型能力精確對齊時，數據選擇本身就成為決定參數效率的核心杠桿。

揭秘「Closed-Source Level」數據管線：完全開源的數據生產線

不同于依賴黑盒 API 的傳統方案，MMFineReason 構建了一套完全開源的透明且高效的 Pipeline，全流程 100% 基于開源模型。整個流程主要通過三個階段來實現高質量數據的生產：

數據標準化：首先從源頭定義「什么是可推理任務」，對 STEM、Puzzle、圖、幾何、科學表等多領域數據進行標準化處理并統一 Schema，并進行嚴格的清洗。
推理蒸餾：利用 Qwen3-VL-235B-Thinking 作為老師模型進行推理蒸餾，并嚴格遵守四階段推理框架：「視覺感知 → 邏輯推導 → 中間驗證 → 結論確認」，從而來生成詳細且具備「視覺落地」能力的 CoT 推理軌跡。
雙重過濾：為了確保訓練的高效性，團隊引入了雙層篩選機制，第一是正確性過濾，確保答案與推理過程嚴格一致；在剔除低質量 CoT 的基礎上，進行難度感知（Difficulty-Aware）過濾，專門篩選出對 Qwen3-VL-4B 小模型具有高「訓練價值」的樣本，即「小模型穩定失敗」的樣本，從而避免了無效數據的堆砌。

最終，研究團隊得到了 MMFineReason-1.8M（正確全量）， MMFineReason-586K（正確且去掉過于簡單樣本），以及 MMFineReason-123K（正確且最困難樣本）三個高質量數據集。

MMFineReason-1.8M：專為「深度推理」打造的高質量多模態數據

與其說 MMFineReason 是一個常規的 VQA 數據集，倒不如將其定義為一個專為多模態大模型準備的「硬核思維訓練場」。在當前多模態領域普遍陷入「數據饑渴」與「思維鏈斷層」的背景下，該項目展現出了極具辨識度的核心特征。

首先，MMFineReason 在思維深度上實現了質的飛躍。相比 HoneyBee 等同類數據集，其平均思維鏈（CoT）長度達到了驚人的 2,910 tokens，規模足足是前者的2.7 倍。這種長路徑推理數據的引入，本質上是讓模型告別了簡單的「直覺判斷」，轉而掌握一套詳盡且具象的「視覺 - 邏輯」推導范式。

在領域分布上，研究團隊展現出了鮮明的去平庸化導向，堅決拒絕易于「刷分」的簡單樣本，轉而深耕高難度邏輯腹地。

數據集中，數學領域以 79.4% 的絕對占比強化了符號推理根基，涵蓋了幾何、微積分等深度學科；13.8% 的科學數據則聚焦于復雜的物理、化學圖表分析；此外，數據集還引入了 4.6% 的謎題與游戲數據，通過抽象模式識別與策略博弈，不斷試探并挑戰開源模型的智商上限。

圖為 MMFineReason 數據集的數據分布情況。可以看到數據集的領域覆蓋了數學、謎題與游戲、幾何 / 微積分、圖表與復雜科學等。

更具深遠意義的洞察在于這種高強度訓練帶來的「協同提升效應」。實驗結果打破了專項訓練會削弱通用能力的固有認知：當模型在 STEM 和邏輯難題上進行深度鉆研時，其在一般性 VQA 任務上的表現反而得到了同步增強。這種以點帶面的能力釋放，再次印證了高質量邏輯鏈條才是驅動模型性能跨級演進的真邏輯。

結語與展望

MMFineReason 的開源，證明了在多模態領域，當模型架構逐漸收斂、參數規模的邊際收益不斷下降，決定能力差距的，不再是模型有多大，而是「數據是否真的教會模型如何推理」。通過精細化的數據工程，小參數模型完全有潛力在復雜推理任務上對抗甚至超越大參數模型。

這不是一次規模的勝利，而是Data-Centric 方法論的勝利。我們期待未來在多模態開源大模型的路上，能用更高效、更高價值的數據來促進社區的進步。

目前，該項目已在 Huggingface 及 GitHub 全面上線，為開源社區提供了從數據到工具鏈的完整支撐。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.