<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      開源多模態推理「破壁」時刻:MMFineReason助力4B逆襲30B

      0
      分享至



      長期以來,開源多模態模型在復雜推理任務上,始終與 GPT-4o、Gemini 等頂尖閉源模型存在一道難以逾越的鴻溝。

      社區開發者們逐漸意識到,核心痛點或許不在于模型架構的精進或者模型參數的規模。真正的瓶頸,在于高質量、思維鏈(CoT)密集的推理數據極度匱乏。

      在純文本領域,DeepSeek-R1 的成功已驗證了高質量后訓練數據(Post-training Data)的威力,但在多模態領域,我們面對的是橫亙在眼前的「兩座大山」:

      1. 數據失衡:現有開源多模態數據仍以簡單 VQA 與自然圖像為主,而對于真正具有高推理價值的數據,如 STEM 圖表、邏輯謎題、復雜視覺符號等數據不僅少,而且標注成本極高。
      2. 推理質量參差不齊:即便現有的「推理數據」也存在推理過程短、模版化,標注粒度不足、缺乏中間驗證、視覺與邏輯推理割裂的問題。

      為了填補這一空白,上海 AI 實驗室 OpenDataLab 研究團隊正式開源了 MMFineReason 框架。這既是一套全流程 100% 基于開源生態、可復現的多模態推理數據合成 Pipeline,同時也開源了由此方法構建的包含1.8M 高質量樣本、5.1B Token的大規模數據集。



      • 論文標題:MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
      • Huggingface 論文:https://huggingface.co/papers/2601.21821
      • 項目主頁:https://mmfinereason.github.io/
      • 數據集 & 模型:https://huggingface.co/collections/OpenDataArena/mmfinereason

      小模型,大性能:高效數據選擇的強大優勢

      先來秀一秀性能結果。團隊很驚喜的發現,MMFineReason 的出現,標志著多模態模型進入了「以小博大」的新階段。

      實驗數據顯示,MMFineReason-4B模型基于 Qwen3-VL-4B 訓練而成,其推理能力不僅超越了 Qwen3-VL-8B-Thinking,性能更是直逼 30B 參數規模的 Qwen3-VL-30B-A3B-Thinking。

      更令研究團隊驚喜的是,同樣基于同尺寸底座訓練的MMFineReason-8B,表現更加優秀:它直接擊敗了 Qwen3-VL-30B-A3B-Thinking 和 Gemini-2.5-Flash,并開始向 GPT5-mini-High 及 Qwen3-VL-32B-Thinking 等頂級模型發起沖擊。

      值得強調的是,這種「跨級碾壓」的性能躍遷并非來自新的模型結構設計,也不是通過更復雜的訓練技巧實現的,而幾乎完全源于數據層面的變化—— 尤其是推理數據的結構化程度與單位樣本中的有效推理密度。

      更進一步,團隊還發現通過難度感知過濾,能實現極高的數據轉換效率:僅使用總量 7%(約 123K)的高難度精選子集數據,即可媲美全量 1.8M 數據相當的性能表現。

      因此,當數據被有效篩選、難度與模型能力精確對齊時,數據選擇本身就成為決定參數效率的核心杠桿。





      揭秘「Closed-Source Level」數據管線:完全開源的數據生產線



      不同于依賴黑盒 API 的傳統方案,MMFineReason 構建了一套完全開源的透明且高效的 Pipeline,全流程 100% 基于開源模型。整個流程主要通過三個階段來實現高質量數據的生產:

      1. 數據標準化:首先從源頭定義「什么是可推理任務」,對 STEM、Puzzle、圖、幾何、科學表等多領域數據進行標準化處理并統一 Schema,并進行嚴格的清洗。
      2. 推理蒸餾:利用 Qwen3-VL-235B-Thinking 作為老師模型進行推理蒸餾,并嚴格遵守四階段推理框架:「視覺感知 → 邏輯推導 → 中間驗證 → 結論確認」,從而來生成詳細且具備「視覺落地」能力的 CoT 推理軌跡。
      3. 雙重過濾:為了確保訓練的高效性,團隊引入了雙層篩選機制,第一是正確性過濾,確保答案與推理過程嚴格一致;在剔除低質量 CoT 的基礎上,進行難度感知(Difficulty-Aware)過濾,專門篩選出對 Qwen3-VL-4B 小模型具有高「訓練價值」的樣本,即「小模型穩定失敗」的樣本,從而避免了無效數據的堆砌。



      最終,研究團隊得到了 MMFineReason-1.8M(正確全量), MMFineReason-586K(正確且去掉過于簡單樣本),以及 MMFineReason-123K(正確且最困難樣本)三個高質量數據集。

      MMFineReason-1.8M:專為「深度推理」打造的高質量多模態數據

      與其說 MMFineReason 是一個常規的 VQA 數據集,倒不如將其定義為一個專為多模態大模型準備的「硬核思維訓練場」。在當前多模態領域普遍陷入「數據饑渴」與「思維鏈斷層」的背景下,該項目展現出了極具辨識度的核心特征。

      首先,MMFineReason 在思維深度上實現了質的飛躍。相比 HoneyBee 等同類數據集,其平均思維鏈(CoT)長度達到了驚人的 2,910 tokens,規模足足是前者的2.7 倍。這種長路徑推理數據的引入,本質上是讓模型告別了簡單的「直覺判斷」,轉而掌握一套詳盡且具象的「視覺 - 邏輯」推導范式。



      在領域分布上,研究團隊展現出了鮮明的去平庸化導向,堅決拒絕易于「刷分」的簡單樣本,轉而深耕高難度邏輯腹地。

      數據集中,數學領域以 79.4% 的絕對占比強化了符號推理根基,涵蓋了幾何、微積分等深度學科;13.8% 的科學數據則聚焦于復雜的物理、化學圖表分析;此外,數據集還引入了 4.6% 的謎題與游戲數據,通過抽象模式識別與策略博弈,不斷試探并挑戰開源模型的智商上限。



      圖為 MMFineReason 數據集的數據分布情況。可以看到數據集的領域覆蓋了數學、謎題與游戲、幾何 / 微積分、圖表與復雜科學等。

      更具深遠意義的洞察在于這種高強度訓練帶來的「協同提升效應」。實驗結果打破了專項訓練會削弱通用能力的固有認知:當模型在 STEM 和邏輯難題上進行深度鉆研時,其在一般性 VQA 任務上的表現反而得到了同步增強。這種以點帶面的能力釋放,再次印證了高質量邏輯鏈條才是驅動模型性能跨級演進的真邏輯。

      結語與展望

      MMFineReason 的開源,證明了在多模態領域,當模型架構逐漸收斂、參數規模的邊際收益不斷下降,決定能力差距的,不再是模型有多大,而是「數據是否真的教會模型如何推理」。通過精細化的數據工程,小參數模型完全有潛力在復雜推理任務上對抗甚至超越大參數模型。

      這不是一次規模的勝利,而是Data-Centric 方法論的勝利。我們期待未來在多模態開源大模型的路上,能用更高效、更高價值的數據來促進社區的進步。

      目前,該項目已在 Huggingface 及 GitHub 全面上線,為開源社區提供了從數據到工具鏈的完整支撐。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      名人堂公布!4人入選,含金量越來越低了?

      名人堂公布!4人入選,含金量越來越低了?

      籃球實錄
      2026-02-12 13:52:56
      美媒:中國095首次亮相渤海,將改變海戰規則

      美媒:中國095首次亮相渤海,將改變海戰規則

      世家寶
      2026-02-13 15:32:41
      賣不動了?特斯拉突然上架大量 Model Y 現車

      賣不動了?特斯拉突然上架大量 Model Y 現車

      XCiOS俱樂部
      2026-02-11 18:46:57
      花1580買的“永久”服務,5年后100塊沒人要!廠家套路太深了!

      花1580買的“永久”服務,5年后100塊沒人要!廠家套路太深了!

      沙雕小琳琳
      2026-02-12 00:32:34
      奧運會為什么發避孕套?難道運動員都帶伴侶嗎?看完你就明白了!

      奧運會為什么發避孕套?難道運動員都帶伴侶嗎?看完你就明白了!

      南權先生
      2026-02-13 15:17:51
      當之無愧的非洲與阿拉伯第一,美媒:阿爾及利亞SU-57飛行照曝光

      當之無愧的非洲與阿拉伯第一,美媒:阿爾及利亞SU-57飛行照曝光

      嘯鷹評
      2026-02-12 23:21:27
      離譜!追覓年會徹底翻車,新車全是山寨貨,被東風猛士直接質疑

      離譜!追覓年會徹底翻車,新車全是山寨貨,被東風猛士直接質疑

      凡兮說
      2026-02-11 20:25:29
      一號文件一下來,城鎮戶口的人估計后悔慘了!

      一號文件一下來,城鎮戶口的人估計后悔慘了!

      南權先生
      2026-02-11 15:55:35
      曼城狂喜!英超變天:阿森納不是丟了2分,而是搶下1分,6輪僅2勝

      曼城狂喜!英超變天:阿森納不是丟了2分,而是搶下1分,6輪僅2勝

      風過鄉
      2026-02-13 06:55:08
      這跟不穿有啥區別?格萊美紅毯女星穿衣大膽,連美國網友都無語了

      這跟不穿有啥區別?格萊美紅毯女星穿衣大膽,連美國網友都無語了

      夢醉為紅顏一笑
      2026-02-10 14:52:10
      日本扣押中國漁船并逮捕船長,外交部回應

      日本扣押中國漁船并逮捕船長,外交部回應

      觀察者網
      2026-02-13 15:44:07
      緬甸撣邦南北交通要道設卡!運中國商品的貨車一律禁止通行,勒令折返

      緬甸撣邦南北交通要道設卡!運中國商品的貨車一律禁止通行,勒令折返

      緬甸中文網
      2026-02-12 13:49:57
      英超有變!6輪丟9分,只有阿森納一周雙賽,曼聯切爾西爭冠無望

      英超有變!6輪丟9分,只有阿森納一周雙賽,曼聯切爾西爭冠無望

      嗨皮看球
      2026-02-13 14:57:18
      有種感覺,暴風雨前的寧靜,馬上就要被撕開了。

      有種感覺,暴風雨前的寧靜,馬上就要被撕開了。

      南權先生
      2026-02-13 15:25:33
      高崗身亡多年,周總理為其妻子安排工作,毛主席為何表態:不同意

      高崗身亡多年,周總理為其妻子安排工作,毛主席為何表態:不同意

      大運河時空
      2026-01-18 07:10:03
      杭州一小區兩年前“買房送黃金”,業主250萬的房子現市值縮水87萬,送的1000克黃金暴漲到112萬,資產增值25萬

      杭州一小區兩年前“買房送黃金”,業主250萬的房子現市值縮水87萬,送的1000克黃金暴漲到112萬,資產增值25萬

      揚子晚報
      2026-02-11 14:59:09
      澳新銀行:預計黃金將在2026年第二季度觸及5800美元/盎司

      澳新銀行:預計黃金將在2026年第二季度觸及5800美元/盎司

      財聯社
      2026-02-13 12:14:53
      醒醒吧,伊朗從來不是我們的“好朋友”

      醒醒吧,伊朗從來不是我們的“好朋友”

      蘇格拉高
      2026-01-11 07:42:04
      印媒:加勒萬沖突后中國再不敢惹印度了,印軍極寒環境下監控中國

      印媒:加勒萬沖突后中國再不敢惹印度了,印軍極寒環境下監控中國

      青輝
      2026-02-13 17:47:04
      嫡長子的壓迫感到底有多大!

      嫡長子的壓迫感到底有多大!

      另子維愛讀史
      2026-02-06 20:22:00
      2026-02-13 18:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12304文章數 142564關注度
      往期回顧 全部

      科技要聞

      獨家探訪蔡磊:答不完的卷子 死磕最后一程

      頭條要聞

      泰國曼谷飛重慶航班延誤17個小時 上百人滯留機場過夜

      頭條要聞

      泰國曼谷飛重慶航班延誤17個小時 上百人滯留機場過夜

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      米蘭冬奧摘銀 谷愛凌再遭美國網友網暴

      財經要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個畫風!

      態度原創

      健康
      手機
      本地
      數碼
      公開課

      轉頭就暈的耳石癥,能開車上班嗎?

      手機要聞

      vivo率先支持2億像素高清照片微博直發,X300等多款機型全面適配

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      數碼要聞

      9600MT/s 96GB,聯想產品經理曬三星電子“雙96”LPCAMM2內存條

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版