<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      港中文 MMlab×美團新研究:僅用一個模型,應對多種視覺推理任務

      0
      分享至



      港中文岳翔宇教授團隊提出統一多模態推理模型 OneThinker,驗證任務泛化能力。

      作者丨鄭佳美

      編輯丨岑峰

      在大模型邁向通用視覺智能的浪潮中,單一任務或單一模態的方法正面臨瓶頸。現實世界的視覺理解系統不僅要回答問題,還要理解動態視頻、定位事件、跟蹤目標、生成描述乃至進行復雜的邏輯推理,這要求模型具備綜合的跨任務和跨模態能力。

      然而,現有方法多數依賴任務專化模型,難以實現不同視覺任務間的協同與知識共享,這不僅導致系統復雜度高,也限制了模型在綜合推理場景中的表現。

      在這樣的行業背景下,香港中文大學多媒體實驗室(MMLab)與美團的聯合研究團隊提出了OneThinker多模態統一推理模型,并在論文中系統性地給出了答案。

      不同于為每個視覺任務單獨設計模型,OneThinker 選擇了一條更激進的路線:將圖像與視頻中的問答、描述、時空定位、跟蹤和分割等任務統一抽象為“先推理、后作答”的通用形式,并通過多任務強化學習對模型進行整體優化。

      這項工作不僅關注模型在單一基準上的性能提升,更試圖驗證一個更根本的問題,“是否可以通過統一的推理機制,讓一個模型同時具備多種視覺理解與推理能力,而不犧牲任何單項任務的表現?”

      圍繞這一問題,研究團隊構建了大規模多任務數據集,引入改進的強化學習算法,并在圖像與視頻兩種模態上進行了系統而全面的實驗評測,為通用視覺推理模型的設計提供了具有參考價值的實證結果。


      論文地址:https://arxiv.org/pdf/2512.03043v2

      01
      從任務割裂到統一推理

      為驗證 OneThinker 模型在多模態、多任務場景下的有效性,研究團隊在圖像與視頻兩種模態上,對多類典型視覺理解任務進行了系統評測。實驗內容涵蓋問答、描述、定位、跟蹤和分割等多個方向,旨在全面評估模型在不同任務類型和不同模態下的整體表現。

      整體實驗結果來看,OneThinker 在絕大多數視覺理解任務中均優于基礎模型以及多種現有開源方法,表現出較為穩定的性能優勢。這一結果表明,通過統一建模并引入多任務強化學習機制,模型能夠在不犧牲單任務性能的前提下,有效提升其綜合推理能力和跨任務適應性。


      圖像問答任務中,OneThinker 需要同時處理視覺內容理解、數學推理、邏輯推斷以及跨模態信息融合等多種復雜能力。實驗結果顯示,該模型在多項高難度圖像問答任務中均取得了明顯優于對比模型的表現,尤其在涉及數學推理、科學推理和多步驟邏輯推斷的問題上優勢更加突出。

      上述結果表明,統一的推理框架不僅未削弱模型在復雜問答任務中的表現,反而通過多任務聯合訓練,使模型獲得了更強的抽象推理能力和跨領域泛化能力。


      視頻問答任務中,模型不僅需要理解單幀視覺信息,還需有效建模時間順序、事件演變以及長程依賴關系。實驗結果表明,OneThinker 在多項視頻問答任務中整體性能優于專門針對視頻推理設計的模型,尤其在長視頻推理和視頻數學推理等任務中表現更為突出。

      這一結果說明,在統一訓練框架下,OneThinker 成功學習到了穩定而有效的時間建模能力,從而能夠在復雜視頻場景中進行連續推理和事件級理解。


      圖像和視頻描述任務中,OneThinker 需要生成與視覺內容高度一致、語義連貫且信息完整的自然語言描述。實驗結果表明,該模型在圖像描述和視頻描述任務中均取得了較為領先的性能,生成文本在準確性、完整性和語言質量等方面均有明顯提升。

      這進一步說明,推理能力的增強有助于模型更有效地組織和整合視覺信息,從而生成結構更加清晰、邏輯更加合理的描述文本。


      時間定位任務中,模型需要準確判斷事件在視頻中發生的起止時間;而在空間定位任務中,則需要精確預測目標在圖像中的空間位置。實驗結果顯示,OneThinker 在這兩類任務中均取得了顯著性能提升,能夠更準確地理解事件發生的時間范圍以及目標的空間分布特征。


      進一步地,在同時涉及時間與空間信息的聯合定位任務中,OneThinker 同樣表現出較強的綜合建模能力,表明該模型能夠在統一框架下同時處理“何時發生”和“發生在哪里”這兩個關鍵問題。


      目標跟蹤任務中,OneThinker 需要在視頻序列中持續、穩定地定位同一目標。實驗結果顯示,該模型在跟蹤精度和整體穩定性方面均明顯優于對比方法,尤其在長時間序列中表現更加穩健。


      圖像與視頻分割任務中,OneThinker 能夠結合推理過程生成結構化提示,從而有效引導分割模型獲得更加精確的目標區域。實驗結果表明,該模型在細粒度視覺理解任務中同樣具備較強競爭力,說明推理機制能夠對感知類任務形成有效補充。


      此外,通過消融實驗可以發現,僅采用監督微調而不引入強化學習,會導致模型在多項任務上的性能明顯下降;同時,用傳統強化學習方法替代論文提出的 EMA-GRPO 算法,也會引起整體性能的退化。這進一步驗證了強化學習策略及其改進方法在統一多任務訓練中的重要作用。


      最后,在未參與訓練的新任務上,OneThinker 依然表現出較好的零樣本泛化能力,說明統一多任務訓練有助于模型學習更加通用和可遷移的視覺推理知識。


      02
      讓推理成為訓練的核心

      為支持統一多模態推理模型的訓練,研究中構建了一個大規模、多任務的數據集,覆蓋圖像和視頻兩種模態。這個數據集包含問答、描述、時間定位、空間定位、時空定位、目標跟蹤以及分割等多種視覺理解任務,數據來源廣泛,涵蓋多個應用領域和不同難度層級,從而為模型學習多樣化的視覺推理能力提供了充分支撐。

      在此基礎上,研究團隊還進一步構建了一個帶有推理過程標注的子數據集,用于模型的監督微調階段。該子數據集中的推理過程由性能較強的模型自動生成,并經過嚴格的篩選與校驗,以保證推理鏈條在邏輯正確性和表達一致性方面的可靠性,為后續強化學習階段奠定了良好的初始化基礎。


      在訓練過程中,所有任務均被統一表示為“先推理、后作答”的形式,即模型首先生成內部推理過程,再輸出最終答案或結構化結果。這種統一的任務表達方式使不同類型的任務能夠在同一訓練框架下進行聯合優化,同時也便于獎勵函數的自動計算與評估。

      對于感知類任務,模型需要輸出符合預定義格式的結構化結果,以確保評估過程具有良好的可重復性和穩定性,從而避免因輸出格式差異帶來的評價偏差。


      在完成監督微調之后,研究團隊引入強化學習進一步提升模型的推理能力。在訓練過程中,模型根據不同任務類型獲得相應的準確性獎勵和格式獎勵,從而引導模型生成既符合任務目標又滿足輸出規范的結果。


      針對多任務訓練中不同任務獎勵分布差異較大的問題,研究中提出了一種基于指數滑動平均的歸一化方法,使各類任務在訓練過程中能夠獲得相對平衡的優化信號,從而有效避免模型過度偏向少數獎勵分布較強的任務。

      模型訓練在大規模 GPU 集群上完成,整體訓練流程分為監督微調和強化學習兩個階段。通過合理設置學習率、批大小以及視頻幀數上限,在保證訓練效率的同時,實現了穩定而有效的多任務聯合優化。

      03
      讓推理跨越任務邊界

      從實驗結果可以看出,統一的多模態推理模型在性能層面具有良好的可行性和有效性。這一發現表明,將不同視覺任務整合到同一模型中進行建模,并不會削弱模型在單一任務上的表現,反而能夠在整體上提升其推理能力。

      同時,實驗也顯示,強化學習并非只適用于語言推理任務,在引入合適的建模方式后,同樣可以有效作用于視覺感知和時序理解等多模態場景。

      在這一背景下,OneThinker 所采用的模型設計思路展現出一定的普適性。通過統一接口、統一訓練流程以及統一優化策略,不同任務和不同模態之間得以共享推理能力和結構性知識,從而減少了重復建模的需求。這種設計范式為通用視覺推理模型的構建提供了一條相對清晰且具有復用價值的技術路徑。

      從應用層面來看,統一的多模態推理模型也更貼近真實場景的實際需求。在諸如自動駕駛、智能監控以及機器人感知與決策等任務中,系統往往需要在同一框架下同時完成理解、推理和定位等多種功能。相比依賴多個獨立模型的方案,統一模型在系統復雜度控制和任務協同方面具有更大的潛在優勢。

      總體而言,這些實驗結果提示,多模態通用模型的發展方向不應僅停留在模型規模的擴展上,而更值得關注的是任務建模方式的統一、推理機制的合理設計以及訓練策略的協同優化。

      這些方面的探索為后續多模態通用智能系統的研究提供了有益的參考。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國家統計局原局長邱曉華:很多人按揭買的房子,房子的價格已經比首付還要低!它給人帶來的心理沖擊是很大的

      國家統計局原局長邱曉華:很多人按揭買的房子,房子的價格已經比首付還要低!它給人帶來的心理沖擊是很大的

      和訊網
      2025-12-18 17:46:52
      國務院安委會辦公室對21個市級政府開展安全生產約談

      國務院安委會辦公室對21個市級政府開展安全生產約談

      界面新聞
      2025-12-18 14:41:59
      臺灣超越日本,成為亞洲首富

      臺灣超越日本,成為亞洲首富

      深度報
      2025-12-17 23:01:35
      廣東一男子吹玻璃30年致腮幫變形,調侃自己是“青蛙王子”會蛤蟆功

      廣東一男子吹玻璃30年致腮幫變形,調侃自己是“青蛙王子”會蛤蟆功

      極目新聞
      2025-12-18 16:38:55
      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      杭城村叔
      2025-12-17 21:01:23
      央視《老舅》被觀眾要求下架,理由:劇情太假,掛羊頭賣狗肉!

      央視《老舅》被觀眾要求下架,理由:劇情太假,掛羊頭賣狗肉!

      甜檸聊史
      2025-12-17 09:23:55
      太突然!菲律賓20艘漁船“鐵索連環”闖黃巖島,馬科斯這招真的狠

      太突然!菲律賓20艘漁船“鐵索連環”闖黃巖島,馬科斯這招真的狠

      潮鹿逐夢
      2025-12-18 11:08:23
      王室與軍方的陽謀!泰王下旨"皇家庇護"兜底傷亡,讓泰軍放手去打

      王室與軍方的陽謀!泰王下旨"皇家庇護"兜底傷亡,讓泰軍放手去打

      李健政觀察
      2025-12-17 16:45:21
      韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質的中國籍綁匪

      韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質的中國籍綁匪

      環球熱點快評
      2025-12-18 11:43:15
      珠海一小區業主放火燒自家房子,事前疑在群里發預告,物業:火已撲滅無傷亡,警方介入

      珠海一小區業主放火燒自家房子,事前疑在群里發預告,物業:火已撲滅無傷亡,警方介入

      極目新聞
      2025-12-18 17:10:51
      男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發地為私人承包區,已排查公園安全隱患

      男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發地為私人承包區,已排查公園安全隱患

      極目新聞
      2025-12-18 17:10:51
      上映10小時,《阿凡達3》強勢奪冠,卡梅隆把《動物城2》打懵了

      上映10小時,《阿凡達3》強勢奪冠,卡梅隆把《動物城2》打懵了

      八卦南風
      2025-12-18 14:38:36
      恭喜!巴黎首奪世界級冠軍 今年加冕6冠王 史上第3隊比肩巴薩拜仁

      恭喜!巴黎首奪世界級冠軍 今年加冕6冠王 史上第3隊比肩巴薩拜仁

      我愛英超
      2025-12-18 04:15:05
      姆巴佩獨造3球,年度65球比肩三大傳奇,皇馬3-2險勝魚腩晉級16強

      姆巴佩獨造3球,年度65球比肩三大傳奇,皇馬3-2險勝魚腩晉級16強

      釘釘陌上花開
      2025-12-18 05:57:26
      笑噴!河南女生被南方室友催洗澡“發飆”:最近半年澡量超我十年

      笑噴!河南女生被南方室友催洗澡“發飆”:最近半年澡量超我十年

      行者聊官
      2025-12-18 10:06:02
      張小泉名下浙A邁巴赫被拍賣,已被強制執行超31億元

      張小泉名下浙A邁巴赫被拍賣,已被強制執行超31億元

      21世紀經濟報道
      2025-12-18 13:24:14
      轟炸機抵近東京,美國拒表態,日本承認波茨坦公告,求中國一件事

      轟炸機抵近東京,美國拒表態,日本承認波茨坦公告,求中國一件事

      梁訊
      2025-12-18 10:38:01
      臺軍派F-16“偷拍”福建艦

      臺軍派F-16“偷拍”福建艦

      揚子晚報
      2025-12-18 12:35:36
      商務部就法國總統有關中歐經貿關系言論進行回應

      商務部就法國總統有關中歐經貿關系言論進行回應

      環球網資訊
      2025-12-18 16:07:41
      明年2月起施行!廣州:機關事業單位停車場將有序對社會開放

      明年2月起施行!廣州:機關事業單位停車場將有序對社會開放

      城事特搜
      2025-12-18 20:34:10
      2025-12-18 21:47:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7012文章數 20715關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽

      頭條要聞

      “法國政變”視頻在臉書瘋傳 馬克龍想刪卻刪不掉

      頭條要聞

      “法國政變”視頻在臉書瘋傳 馬克龍想刪卻刪不掉

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      本地
      親子
      旅游
      家居
      公開課

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      親子要聞

      孩子的無限潛能,需要被開發

      旅游要聞

      突發通報!新疆喀納斯景區:發生局部雪崩,一人被埋,已無生命體征

      家居要聞

      高端私宅 理想隱居圣地

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产良妇出轨视频在线观看| 人妻人人操| 久久精品中文字幕一区| 97人妻天天摸天天爽天天| 精品国产三级在线观看| 亚洲乱码中文字幕综合| 国产精品亚洲二区在线播放| wwwwww.日本色| 久久亚洲V无码专区成人| 欧美成人片在线观看| 久久天天躁狠狠躁夜夜av| 国产18禁黄网站禁片免费视频| 国产日韩精品欧美一区灰| www黄片| 中国老妇xxxx性开放| 亚洲人成无码网站久久99热国产| 女人与公狍交酡女免费| 国产在线你懂| 义马市| 国产乱子伦精品免费无码专区| 人妻 日韩 欧美 综合 制服| 国产亚洲人成网站在线观看| 五月。。激情綜合老漢色| 欧美?日韩?人妻| 天天日天天躁| 超碰99热| 嘉善县| 国精产品一区一区三区有限公司杨| 邯郸县| 亚洲色成人网站www永久四虎| 秋霞影院午夜伦a片欧美| 免费一区二区三区| 石渠县| 久久久www免费人成精品| 亚洲成a人片在线观看天堂无码| 亚洲成a人无码| 免费无码又爽又刺激高潮的视频| 综合一区二区| 百色市| 好吊AV| 成人网站免费看黄a站视频|