![]()
智東西
作者 程茜
編輯 云鵬
智東西1月30日報道,1月29日,商湯正式開源多模態自主推理模型SenseNova-MARS-8B和SenseNova-MARS-32B。該系列模型在多模態搜索與推理的核心基準測試中性能超越Gemini 3 Pro、GPT-5.2。
商湯指出,SenseNova-MARS是首個支持動態視覺推理和圖文搜索深度融合的Agentic VLM模型。
該框架能夠在多輪推理過程中主動運用圖像搜索、文本搜索和圖像裁剪工具,如通過放大、裁剪圖片尋找細節,然后調用文本、圖片搜索工具查詢背景信息,且這一過程無需人工干預。
在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基準測試中,SenseNova-MARS取得開源模型中的SOTA成績。
![]()
商湯日日新SenseNova-MARS模型、代碼、數據集全開源。
![]()
GitHub地址:
https://github.com/OpenSenseNova/SenseNova-MARS
一、自動放大圖片看細節,調用外部工具進行文字、圖片搜索
盡管視覺語言模型(VLM)能夠通過智能推理解決復雜任務,但其主要局限于面向文本的思維鏈或孤立的工具調用。尤其是在需要協調外部工具(例如搜索和圖像裁剪)的知識密集型和視覺復雜場景中,它們無法展現出人類所需的熟練程度,無法將動態工具操作與連續推理無縫銜接。
基于此,商湯研究團隊推出了SenseNova-MARS。SenseNova-MARS能在生活和工作的場景,解決需要“多步驟推理+多工具協作”的問題,如可以通過裁剪放大圖片的細節、進行圖像搜索、進行文本搜索。
下方模型需要完成識別賽車服微小Logo、查詢公司成立年份、匹配車手出生年月、計算差值的復雜任務,SenseNova-MARS可自主調用圖像裁剪、文本/圖像搜索工具,無需人工干預完成解答。
![]()
其還能從產品和行業峰會的照片中,如根據下面的汽車圖片識別出汽車品牌的標志、確認車型,然后結合文本和圖像搜索給出答案。
![]()
SenseNova-MARS能從賽事照片中識別畫面中的Logo、人物等信息,追溯比賽或人員背景信息,快速補充重要細節。
![]()
該模型還能處理超長步驟的多模態推理,和超過三種工具調用,自動裁剪分析細節、搜索相關研究數據,快速驗證假設,得出關鍵判斷。例如根據下方圖片,其能快速抓取精準信息,包括公司成立年份、人物出生年月等。
![]()
二、搜索能力超Gemini-3-Pro、GPT-5.2,跨任務調用工具強過Qwen3-VL-8B
為了全面評估智能視覺學習模型(VLM)在復雜視覺任務上的性能,研究團隊引入了HR-MMSearch基準測試。
作為評估VLM智能體細粒度感知和搜索推理能力的基準測試。該數據集包含305張4K分辨率的圖像,這些圖像來自8個不同的、具有高影響力的領域,涵蓋體育、休閑文化以及科學技術等。
![]()
▲HR-MMSearch測試集的數據包含情況
實驗表明,SenseNova-MARS在開源搜索和細粒度圖像理解基準測試中均表現較優。在面向搜索的基準測試中,SenseNova-MARS-32B在MMSearch和HR-MMSearch上的得分分別為74.3和54.4,超越了Gemini-3-Pro和GPT-5.2等專有模型。
在知識密集型MMSearch基準測試中,SenseNova-MARS主要依賴圖像和文本搜索工具來獲取外部信息,對基于裁剪的感知依賴性極低。相比之下,在既需要高分辨率感知,也需要復雜的推理的HR-MMSearch測試中,SenseNova-MARS展現出更為均衡的工具使用,表明其能夠有效地整合局部視覺線索和外部知識。
與Qwen3-VL-8B相比,SenseNova-MARS-8B通過動態地為每種任務場景選擇最有效的工具,展現出更強的跨任務適應性。
![]()
▲SenseNova-MARS-8B的自適應工具使用行為
SenseNova-MARS-32B在六項基準測試中與其他模型的整體性能對比顯示,MMSearch、HR-MMSearch和FVQA等搜索導向型基準測試中,該模型超越了Gemini-3-Pro和GPT-5.2等專有模型。
![]()
面向視覺理解,在V Bench和HR-Bench等高分辨率感知基準測試中,SenseNova-MARS-32B性能優于Qwen3-VL-235B-A22B等模型。
![]()
三、系統框架+強化學習,采用雙階段流水線并行訓練策略
SenseNova-MARS基于Qwen2.5-VL-7B-Instruct,采用兩階段流水線進行訓練,先進行系統框架訓練(SFT),再進行強化學習(RL)訓練。
第一階段,其針對跨模態搜索推理訓練數據稀缺的痛點,的提出了基于多模智能體的自動化數據合成引擎,采用細粒度視覺錨點與多跳深度關聯檢索的機制,動態挖掘并關聯跨網頁實體的邏輯,自動化構建高復雜度的多跳推理鏈路,同時引入閉環自洽性校驗來去除幻覺數據,構造出具備嚴密邏輯鏈條與高知識密度的多跳搜索問答數據。
其篩選的高難度案例中,每個案例都標注了“該用什么工具、步驟是什么”,讓AI先學會基本的解題邏輯,確保AI一開始就接觸真實復雜場景。
第二階段訓練采用強化學習,AI每做對一次決策,比如選對工具、步驟合理就會獲得獎勵,做錯了就調整策略。
此外,為了避免AI“學偏”,研究團隊還引入了BN-GSPO算法,讓模型在處理簡單題和復雜題時都能保持穩定進步,不會出現“偏科”。
![]()
這種基于雙階段歸一化的機制可以平滑動態工具調用返回分布多樣性帶來的優化波動并確保學習信號分布的一致性,從而解決跨模態多步多工具智能體訓練過程中的收斂性難題。
經過這樣的訓練,AI不僅學會了用工具,還能知道在什么情況下應該使用哪些工具,以及如何將不同工具的結果有機結合起來。
結語:多模態AI能自主解題,或加速產業端AI應用
商湯提出了新型的多模態智能推理與搜索模型,該模型能夠在多輪推理過程中主動運用圖像搜索、文本搜索和圖像裁剪工具,提升了AI從被動響應指令到主動規劃步驟、調用工具解決復雜問題的能力。
聚焦到真實的業務場景,在工業質檢、金融風控、傳媒內容分析、賽事數據挖掘、科研輔助等領域,模型此前受限于看不清細節、不會查背景、無法處理復雜多步驟任務的落地痛點。SenseNova-MARS無需人工干預的閉環解題能力,或大幅提升產業端的AI應用效率。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.