<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      難樣本篩選破局SFT依賴,GRPO-only斬獲感知推理雙最優

      0
      分享至

      中興通訊AIM團隊 投稿
      量子位 | 公眾號 QbitAI

      一組被AAAI 2026接收的新實驗,一口啃向了多模態大模型后訓練的硬骨頭

      在視覺推理與視覺感知兩大類基準測試上,只用中等+困難樣本訓練、且完全不做SFT的GRPO-only范式,反而拿下幾乎所有最優成績。

      MathVista最高68.3、OCRBench達77.8、MMMU提升0.107、MMStar提升0.083,相比全量數據訓練大幅躍升,甚至全面超越傳統的“SFT+RL”雙階段范式。

      結論直截了當:

      • 多模態后訓練環節里,樣本難度比訓練范式更關鍵,而SFT并非RL的必要前置步驟。

      這項由中南大學&中興通訊團隊完成的新研究,為多模態大模型找到了可量化、可操作的“難度采樣”標準,并第一次系統性驗證了一個過去被視為“不可能有效”的訓練路線,即僅靠RL強化策略(GRPO),就能獨立完成多模態能力的優化

      而研究切入點,正是多模態后訓練長期卡住的兩個老問題。

      第一,缺乏可量化的樣本難度指標。

      多模態數據包含視覺與文本雙重特征,文本模態難度常無法直接表征多模態樣本整體難度(如OCR、目標檢測等任務),因此無法沿用純文本數據的難度劃分方式,導致難以篩選對模型優化具有高價值的訓練樣本。

      第二,訓練范式無法協同優化感知與推理能力。

      現有方法多采用“監督微調+強化微調”的固定流程,且大多數研究側重于提升模型的推理性能,但多模態場景常常既包含視覺推理類(數學、科學、圖表分析等),又包含視覺感知類(目標檢測、目標定位、計數、OCR等),單一范式可能無法適配兩類數據的訓練需求,導致模型在感知或推理任務中出現性能偏科。

      針對這些痛點,團隊從模態內敏感性與跨模態交互復雜度雙重視角,提出PISM(漸進式圖像語義掩碼)與CMAB(跨模態注意力平衡)兩種難度量化策略,并設計分層訓練框架,驗證了強化學習獨立優化多模態能力的可行性,為多模態后訓練提供全新技術路徑。

      核心方法:難度感知采樣策略與訓練框架

      研究人員提出了2種互補的難度量化策略,分別從視覺敏感性與跨模態注意力平衡維度來實現樣本難度分層。

      漸進式圖像語義掩碼(PISM)

      下面是漸進式圖像語義掩碼(PISM,Progressive Image Semantic Masking)方法示意圖。

      從無掩碼(mask_ratio = 0.0)到重度掩碼(mask_ratio > 0.7),研究團隊漸進式地對圖像的不同部分進行掩碼操作。

      每張掩碼圖像通過隨機隱藏一定比例的像素區域,該過程模擬了不同程度的視覺信息損失。

      隨后在這些掩碼圖像上評估模型性能,以了解模型為了準確推理對視覺細節的依賴程度。



      如圖所示,PISM基于“難樣本對視覺信息損失更敏感”的核心假設,通過系統的圖像退化實驗量化樣本難度,具體流程如下:

      1、掩碼設計。

      對圖像-文本樣本對s=(I,Q),設置掩碼比例序列Λ={λi|λi=0.0,0.1,…,0.9},模擬從無退化(λ=0.0)到重度退化(λ=0.9)的視覺信息損失場景。

      2、性能評估。

      對每個掩碼比例λi

      ,生成擾動圖像



      (M(·)

      為隨機像素掩碼操作),輸入模型得到預測結果



      ,通過二元指標



      (1表示預測正確,0表示錯誤)評估性能。

      3、魯棒性計算。

      為降低隨機性影響,每個掩碼比例重復實驗K=10次,計算魯棒準確率



      4、難度劃分。

      定義失敗閾值



      ,據此將樣本分為4類:



      跨模態注意力平衡(CMAB)

      下面是跨模態注意力平衡(CMAB,Cross-Modality Attention Balance)方法示意圖。

      對于每個生成token,我們計算其在所有Transformer層上對輸入文本token和圖像token的平均注意力分數,然后對所有生成的token的這些分數取平均值。

      (N) 代表Transformer的總層數。



      如上圖所示,CMAB通過分析模型生成響應時對文本和對圖像的注意力之比,評估跨模態交互復雜度,具體邏輯如下:

      1、注意力分解。

      對輸入的圖像



      與文本



      計算模型生成每個響應token y

      t

      時,在第l層Transformer的跨模態注意力權重



      ,并分解為圖像注意力總和



      與文本注意力總和



      2、注意力平衡比計算。

      定義跨層的token級注意力平衡比



      ,為降低層間噪聲,排除首末層(主要負責輸入編碼與輸出解碼),計算幾何均值



      (ε≈10

      -8避免數值不穩定)。

      3、樣本級平衡比。

      對所有響應token取算術平均,得到樣本級注意力平衡比



      4、難度劃分。

      基于

      區分樣本難度:



      分層訓練框架與實驗設計

      基于PISM與CMAB的難度分層結果,設計兩種后訓練范式進行對比。

      第一種,GRPO-only范式

      直接對難度分層后的樣本(為中等+困難樣本)應用組相對策略優化(GRPO,Group Relative Policy Optimization,),無SFT預處理。

      第二種,SFT+GRPO范式。

      先對篩選后的樣本(如困難樣本、中等樣本)進行SFT,再對目標樣本應用GRPO,并測試SFT階段樣本難度順序(如SFT(困難)+GRPO(中等)、SFT(中等)+GRPO(困難))對模型性能的影響。

      實驗配置如下:

      • 基礎模型:Qwen2.5VL-7B(多模態大模型,支持視覺-文本聯合推理);
      • 硬件環境:5個節點(每節點8×80GB NVIDIA A800 SXM4 GPU)+2個節點(每節點8×96GB NVIDIA H20 GPU);
      • 框架工具:SFT基于LLaMA-Factory實現,GRPO基于Swift框架實現,評估基于OpenCompass框架,采用GPT-4o-mini作為統一評分器;
      • 基準數據集:涵蓋6類通用場景的多模態任務。
      實驗結果與分析

      PISM策略下的性能對比(以視覺推理數據集為例)

      下表展示了PISM分層后,不同訓練范式在視覺推理數據集上的性能。



      (注:表1,通過PISM在視覺推理數據集上使用SFT+GRPO和僅使用GRPO的訓練結果比較,*表示次優結果,加粗表示最優結果)

      從表中可觀察到——

      第一,GRPO-only(中等+困難)范式優勢顯著。

      在MathVista(68.300)、OCRBench(77.800)、MMMU(0.547)、MMStar(0.639)4項指標上均取得最優,較全量數據GRPO-only提升幅度最大(MathVista提升14.9分,MMMU提升0.107);

      第二,SFT階段未帶來增益。

      所有SFT+GRPO范式的性能均低于GRPO-only(中等+困難),且SFT階段樣本難度順序對結果影響較?。ㄈ鏢FT(中等)+GRPO(困難)與SFT(困難)+GRPO(中等)性能接近),說明SFT可能引入“偽思維鏈”(Pseudo-CoT),限制模型真實推理能力;

      第三,隨機樣本性能有限。

      GRPO-only(隨機樣本)雖在部分指標(如MMVet)表現較好,但整體低于中等+困難樣本訓練結果,驗證了難度分層對樣本質量篩選的有效性。

      CMAB策略下的性能對比(以視覺感知數據集為例)

      下表展示了CMAB分層后,不同訓練范式在視覺感知數據集上的性能。



      (注:表2,通過CMAB在視覺感知數據集上對采用SFT+GRPO和GRPO-only兩種訓練方式的結果對比,*表示次優結果,加粗表示最優結果)

      從表中可觀察到CMAB在推理任務中優勢凸顯——

      GRPO-only(中+困難)在MathVista(68.300)、MMVet(50.367)、MMMU(0.550)、MMStar(0.629)上表現最優,尤其在需要跨模態深度融合的任務中(如MathVista),較SFT+GRPO范式提升1.5-2.5分,驗證了CMAB對跨模態交互復雜度評估的有效性。

      推翻“SFT是RL后訓練必要前提”的傳統認知關鍵結論

      通過以上實驗,研究團隊得出了一系列結論。

      首先,難度感知采樣是核心。

      無論PISM還是CMAB,基于中等+困難樣本的GRPO-only訓練均顯著優于全量數據、隨機樣本及SFT+GRPO范式,證明“數據質量(難度分層)比數量更重要”。

      其次,GRPO-only范式可行

      實驗推翻了“SFT是RL后訓練必要前提”的傳統認知,GRPO-only在排除SFT后,極大地簡化了訓練流程,提高了模型后訓練效率,為多模態模型通用訓練提供新思路。

      該研究提出多模態樣本難度量化標準,首次從視覺敏感性與跨模態注意力平衡兩個維度,建立可量化的多模態樣本難度評估體系,解決了多模態數據“難篩選”問題。

      通過聚焦多模態后訓練的“樣本篩選”核心問題,為多模態大模型性能提升提供了全新技術路徑,也為后續研究打開了“數據驅動優化”的新視角。

      最后,研究團隊還提出了三個未來研究方向:

      1. 動態難度調整:當前難度評估為靜態,未來可結合模型訓練過程動態更新樣本難度,實現自適應課程學習;
      2. 多策略融合:探索PISM與CMAB的聯合采樣策略,進一步提升樣本篩選精度;
      3. 更大模型驗證:在百億參數級多模態模型上驗證方法有效性,探索難度感知采樣在更大尺度模型中的泛化性。

      目前,研究代碼已開源,擴展版本包含詳細實驗配置,為后續研究提供可復現的技術基礎。

      期待更多研究者基于此方法,推動多模態AI在醫療、教育、自動駕駛等領域的實際應用。

      arXiv:
      https://arxiv.org/abs/2511.06722
      GitHub:
      https://github.com/qijianyu277/DifficultySampling

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      賴昌星妻子曾明娜現狀,獨居3000平老宅,做飯弄花草活成世外桃源

      賴昌星妻子曾明娜現狀,獨居3000平老宅,做飯弄花草活成世外桃源

      娛說瑜悅
      2025-12-01 19:12:40
      新加坡政壇內訌!在野黨頭頭吳孟成怒批黃循財別學“亞洲立陶宛”

      新加坡政壇內訌!在野黨頭頭吳孟成怒批黃循財別學“亞洲立陶宛”

      我心縱橫天地間
      2025-12-08 12:38:24
      天妒英才!上海31歲一級教師諸倩蕓去世,獲獎無數,臨終僅剩82斤

      天妒英才!上海31歲一級教師諸倩蕓去世,獲獎無數,臨終僅剩82斤

      烈史
      2025-12-07 21:27:12
      “走外交鋼絲”?印媒爆:普京訪問后,印度正籌備澤連斯基潛在訪印計劃

      “走外交鋼絲”?印媒爆:普京訪問后,印度正籌備澤連斯基潛在訪印計劃

      環球網資訊
      2025-12-08 12:00:30
      政治局會議定調明年經濟工作:實施更加積極有為的宏觀政策

      政治局會議定調明年經濟工作:實施更加積極有為的宏觀政策

      第一財經資訊
      2025-12-08 14:45:55
      81歲林豆豆現狀:已退休23年,獨居在北京老房子,用閱讀打發時間

      81歲林豆豆現狀:已退休23年,獨居在北京老房子,用閱讀打發時間

      攬星河的筆記
      2025-11-12 12:36:17
      闞清子孕晚期腫成饅頭臉,老公全程貼心攙扶,30斤幸福肥超有愛

      闞清子孕晚期腫成饅頭臉,老公全程貼心攙扶,30斤幸福肥超有愛

      鑫鑫愛吃糖
      2025-12-07 18:19:19
      蘭斌強:必須警惕“蔡正元現象”在大陸的泛濫

      蘭斌強:必須警惕“蔡正元現象”在大陸的泛濫

      放開他讓wo來
      2025-12-07 21:56:28
      伊藤美誠說實話了,她最害怕的對手不是莎莎和曼昱,而是這位老將

      伊藤美誠說實話了,她最害怕的對手不是莎莎和曼昱,而是這位老將

      韓馳
      2025-11-30 09:26:11
      38歲王子文越來越放的開,穿黑色透視連衣裙,個子不高卻很有料!

      38歲王子文越來越放的開,穿黑色透視連衣裙,個子不高卻很有料!

      農村娛樂光哥
      2025-12-07 12:05:33
      中央再提“穩樓市”,這些信號你看懂了嗎?

      中央再提“穩樓市”,這些信號你看懂了嗎?

      大道微言
      2025-12-06 21:57:33
      有前框 能帶娃!雅迪C09新國標電動車上市:2399元

      有前框 能帶娃!雅迪C09新國標電動車上市:2399元

      快科技
      2025-12-06 11:34:18
      庫茲馬超模未婚妻曬觀戰雄鹿美照!場邊激情吶喊 秀出性感好身材

      庫茲馬超模未婚妻曬觀戰雄鹿美照!場邊激情吶喊 秀出性感好身材

      Emily說個球
      2025-12-08 12:32:11
      巴基斯坦三軍總司令開始洗牌,復仇手段狠辣,前總理生死不明

      巴基斯坦三軍總司令開始洗牌,復仇手段狠辣,前總理生死不明

      老范談史
      2025-12-06 02:01:31
      詹姆斯·沃森去世,因發現“DNA雙螺旋結構”享譽世界,晚年宣稱“黑人因基因智力低”而飽受爭議

      詹姆斯·沃森去世,因發現“DNA雙螺旋結構”享譽世界,晚年宣稱“黑人因基因智力低”而飽受爭議

      生物世界
      2025-11-08 08:11:39
      我退休后回老家養老,村書記擺架子要給我上一課,不料縣長來考察

      我退休后回老家養老,村書記擺架子要給我上一課,不料縣長來考察

      五元講堂
      2025-12-04 11:49:42
      經典版QQ官宣回歸

      經典版QQ官宣回歸

      每日經濟新聞
      2025-12-08 13:10:10
      常州將新增2座機場!

      常州將新增2座機場!

      中吳網
      2025-12-08 15:29:35
      任前公示中縣委副書記“年齡打架”,廣西一地回應:擬任職務不予任用

      任前公示中縣委副書記“年齡打架”,廣西一地回應:擬任職務不予任用

      極目新聞
      2025-12-08 14:08:40
      首日票房破億,《得閑謹制》已打破8項紀錄

      首日票房破億,《得閑謹制》已打破8項紀錄

      揚子晚報
      2025-12-07 14:04:32
      2025-12-08 17:27:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11824文章數 176340關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      藝術
      游戲
      親子
      時尚
      公開課

      藝術要聞

      一棵樹的力量

      《節奏醫生》IGN9分!Steam好評如潮:音游天花板

      親子要聞

      奧運冠軍助陣!廣東“公益體彩 快樂操場”助力萌娃體育夢

      除了大衣,今年最火的外套一定就是它了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成 人片 黄 色 大 片| 国产人妻丰满熟妇嗷嗷叫| 亚洲图片另类| 欧美性受xxxx黑人xyx性爽| 国产熟妇久久777777| 日本无遮挡吸乳视频| yy19影院| 亚洲欧美在线综合一区二区三区| 久久久久人妻一区精品色| 国产精品久久久一区二区三区 | 久久精品国产亚洲av忘忧草18| 影音先锋久久久久av综合网成人| 亚洲香蕉| 最近免费中文字幕mv在线视频3| 成熟丰满熟妇高潮xxxxx视频| 最新高清无码专区| 亚洲日本国产| 91人人人| 婷婷丁香五月亚洲中文字幕| 精品国产乱码久久久久久口爆网站| 国产成人AV| 伊人69| 无码人妻一区二区三区免费| 绥江县| 成人av中文字幕在线播放| 日韩一区二区三区三级| 国产精品美女久久久免费| 女人与牲口性恔配视频免费| XXXX欧美| 亚洲性爱在线观看| 国精品无码一区二区三区在线蜜臀| 亚洲中文字幕av在线| 亚洲欧美?va天堂人熟伦| 亚洲色偷精品一区二区三区 | 久久久噜噜噜久久| 国产精品天天看天天狠| 国产手机在线αⅴ片无码观看| 97国产在线| 艳妇乳肉豪妇荡乳AV无码福利| 亚洲第一福利网站在线观看| 欧美精品一区二区三区在线观看|