網易首頁 > 網易號 > 正文申請入駐

OmniGAIA: 全模態AI智能體新基準，最強開源模型僅13分！

2026-02-27 18:25:51　來源: AI科技評論

廣東舉報

分享至

人大&小紅書推出OmniGAIA基準和OmniAtlas智能體。

人類的智能是自然交織的——我們不僅同時用眼睛看、用耳朵聽、用語言交流，還能進行復雜的長邏輯鏈推理，并在遇到難題時熟練使用搜索引擎等外部工具來輔助自己完成任務。

然而，當前爆火的“多模態大模型（MLLM）”大多仍局限于“圖文”或“音文”的雙模態交互。它們嚴重缺乏作為“通用AI助手”所必需的全模態統籌、長程推理與工具調用能力。

為了填補這一空白，中國人民大學聯合小紅書、東南大學、浙江大學和清華大學的研究團隊重磅推出了 OmniGAIA——一個專為評估“原生全模態AI智能體”而設計的新基準，并同時開源了配套的基礎智能體訓練秘籍 OmniAtlas！

該工作不僅揭示了當前開源模型與頂尖閉源模型之間的巨大“智能鴻溝”，更給出了一套讓大模型真正學會“看、聽、想與用工具”的實戰配方。目前代碼、數據、模型已全面開源！

論文鏈接: https://arxiv.org/pdf/2602.22897

代碼&Demo:https://github.com/RUC-NLPIR/OmniGAIA

數據集&模型：https://huggingface.co/collections/RUC-NLPIR/omnigaia

排行榜：https://huggingface.co/spaces/RUC-NLPIR/OmniGAIA-LeaderBoard

Demo

1. 圖片+音頻任務：計算圖片和音頻中兩個事件發生時間相隔多久？

2. 帶音頻的視頻任務：視頻中講者提到了一個某電影中的橋，請幫我調研其背景。

痛點直擊：現有的評測為什么不夠看

隨著 Qwen3-Omni、Gemini-3 等全模態大模型的涌現，模型已經能在單一網絡內統一處理文本、視覺和音頻。但現有的評測基準（如 OmniBench、WorldSense 等）大多基于極短的音視頻，且題型多為重“感知”的多項選擇題。

在真實世界中，我們需要 AI 解決的問題是這樣的：

“視頻里導游指著遠處的那座活動橋，解說提到這讓他想起了電影《福祿雙霸天》。請問這座橋到底叫什么名字？在1979年電影開拍時，這座橋已經建成了多少年？”

這就要求 AI 不能只會“看圖說話”，它必須面對幾十分鐘的長視頻，從中錨定地理位置，主動去搜索引擎查證橋的真實名字和建成年份，最后進行相關計算。

現有的評測測不出這種能力，OmniGAIA因此應運而生！

OmniGAIA：全模態智能體的新基準

OmniGAIA 包含360個源自真實世界的高難度任務，覆蓋地理、歷史、科技等 9 大垂直領域。輸入不僅包含時長數十分鐘的“視頻+音頻”，還有復雜的“圖片+音頻”組合。模型不能靠盲猜，必須多次調用外部工具才能得出唯一可驗證的開放式最終答案。

它是如何構建出來的？——首創“全模態事件圖譜”驅動法

為了自動合成邏輯嚴密且防作弊的高難度QA，團隊設計了一套極其精妙的流水線：

1.數據收集：從 FineVideo、LongVideoBench、LongVideo-Reason、COCO 2017 以及HuggingFace 中篩選并整理視頻（含音頻）及“圖像+音頻”數據源，覆蓋 100 多個不同的垂直領域。

2.高價值信息挖掘：使用Gemini-3-Flash 提取事件、進行環境分析、音頻分析（包含自動語音識別 ASR、說話人身份識別 Speaker ID）以及圖像理解（包含光學字符識別 OCR、物體識別、人臉識別）。

3.智能體全模態事件圖譜構建：DeepSeek-V3.2通過規劃后續步驟、利用工具獲取新信息，并結合大語言模型 (LLM) 的自我反思(self-reflexion) 與人工審查來驗證事實準確性，從而迭代式地擴展初始事件圖譜。

4.問答生成與質量審查：通過事件模糊化(fuzzification) 生成高難度的多跳(multi-hop) 問答對，隨后由 LLM 和人工共同驗證其準確性、任務難度以及答案的唯一性。

OmniAtlas：原生全模態智能體基座模型

在嚴苛的測試下，早期的開源模型表現較差。為了提升開源全模態模型的 Agent 能力，團隊不僅提出了基準，更給出了一套開源解法與完整的“訓練秘籍”——OmniAtlas。

它遵循工具集成推理范式，包含三大核心殺手锏：

1.主動全模態感知(Active Perception)

面對超長視頻或高清大圖，傳統的“全局降采樣”會丟失大量細節。OmniAtlas 賦予了模型“指哪看哪、聽哪”的特技！它可以通過內置工具（read_video / read_audio / read_image）精準截取特定時間段的視頻或裁剪特定區域的圖片，實現高保真的按需感知。

2.高質量軌跡合成與監督微調

團隊利用強大的推理模型進行“后見之明引導的樹探索”，在已知正確答案的引導下，剪枝掉錯誤分支，合成出完美的“思考+工具調用”成功軌跡。在監督微調階段，采用掩碼監督（Masked SFT），只對模型生成的“思考和動作”算 Loss，屏蔽掉外部工具返回的冗長噪音，讓模型真正學會“如何思考”。

3. OmniDPO細粒度糾錯

全模態任務極易“一步錯，步步錯”。團隊首創了OmniDPO，能夠精準定位失敗軌跡中的“第一處錯誤點”（到底是沒看清、聽漏了，還是搜索關鍵詞用錯了？），并生成糾正后的正確前綴，構建正負樣本對進行偏好優化，實現真正的“對癥下藥”！。

實驗結果：性能鴻溝與成因

1.主實驗結果：在OmniGAIA上對比全模態模型的性能

團隊在統一提供外部工具（搜索、瀏覽器、代碼）的嚴苛環境下評測了各大前沿模型，我們可以發現：

1.閉源王者斷崖領先：最強的閉源模型 Gemini-3-Pro 拿下了62.5% 的一次通過率（Pass@1），展現出極其成熟的規劃與驗證能力。而最強的開源基線 Qwen-3-Omni (30B) 僅有13.3%，差距近乎 4.7 倍！

2.“大力出奇跡”失效：擁有高達5600億 (560B) 龐大參數量的 LongCat-Flash-Omni 得分甚至不如 30B 的小模型！這證明了：在全模態Agent領域，優秀的“智能體工具調用策略”比單純的參數規模更關鍵。

3.OmniAtlas療效顯著：經過OmniAtlas 訓練配方優化的 Qwen-3-Omni，準確率從 13.3% 暴漲至 20.8% (+7.5)！在較小的 7B 模型上，更是提升了近 4 倍（3.6% ?? 13.3%）。

2.細粒度錯誤分析：AI到底錯在了哪一步？

通過對模型失敗軌跡的解剖，研究發現：在困難任務中，開源模型有高達 90% 以上的失敗源于“沒有正確使用工具”（比如沒有調用工具，陷入搜索死循環、查錯方向），這直接導致了下游任務完成的全面崩潰。

3.工具調用行為分析

AI 到底該調用幾次工具？散點分布圖（Violin Plot）揭示了有趣的現象：

“工具冷漠癥”：完全不用工具的模型（集中在 0 次），成功率很低。這證實了僅靠模型腦內的先驗知識，根本搞不定復雜的真實環境。

調得多就一定好嗎？錯！部分失敗軌跡調用了 10~20 次以上工具，但全在做低效重復的無用功，無法有效解決不確定性。

從被動到主動：OmniAtlas 的工具調用分布更加主動，有效探索率的大幅提升直接拉動了過關率，但也帶來了工具調用冗余的問題，希望后續工作可以更好的平衡性能與效率。

4.原生全模態感知vs外掛感知工具，哪個更好？

我們真的需要原生全模態大模型嗎？能不能用純文本大模型，外掛一個“識圖/聽音 API”來代替？消融實驗給出了答案：

1.對強模型來說，原生才是王道：Gemini-3-Flash依靠原生感知拿到最高分 51.7，且工具調用僅需 4.4 次。如果把感知拆分成外部工具，不僅成績下降，API調用成本更是翻倍（增至 9.4 次）。

2.外掛工具打不了“硬仗”：對于較弱的開源模型，外掛感知工具雖然能在簡單題上提點分，但在需要復雜跨模態推理的 Hard 難題中，成績直接崩盤（從 9.0 跌至 3.9）。

結論：外掛工具會切斷模態間的內在聯系，原生全模態融合，才是拔高AI智能上限的唯一正解！

總結與未來展望

看得清、聽得懂只是起點，會思考、善用工具、能行動才是邁向通用人工智能（AGI）的試金石。

OmniGAIA 揭開了現有全模態大模型在“長程推理與多輪工具使用”上的缺陷，而OmniAtlas 的全套硬核實驗剖析則為開源社區指明了一條極具潛力的演進路線。研究團隊指出，通往真正原生全模態 AI 助手的道路上，未來有三大黃金賽道：

1.全模態智能體強化學習（Agentic RL）：在真實全模態反饋下直接優化長視野決策策略。

2.全模態MCP生態：為全模態智能體接入更多工具，打造可擴展的MCP工具集。

3.全模態具身智能（Embodied Agents）：將擁有“全模態大腦”的智能體引入物理世界，完成真實世界的交互，來打造我們生活中的AI助手。

作者信息

本工作第一作者李曉熙，目前就讀于中國人民大學高瓴人工智能學院，博士三年級，研究方向主要包括Agentic AI、Deep Research、大模型推理、強化學習等。在國際頂級會議NeurIPS，ICLR，ACL等發表7篇一作工作，代表工作包括DeepAgent, WebThinker, Search-o1, RetroLLM等。2025 年起，他在小紅書參加 RedStar 實習項目，進行Agentic AI和Deep Research領域的研究工作。

本文的通信作者竇志成，中國人民大學高瓴人工智能學院長聘教授、博士生導師、副院長。主要研究方向為信息檢索、大模型、智能體、大模型檢索增強、AI搜索、司法智能等。在國際知名學術會議和期刊上發表論文200余篇，帶領團隊研發涉外法治大模型，開源大模型檢索增強工具包FlashRAG、iAgent系列信息智能體（WebThinker、ARPO、DeepAgent等）累計獲得GitHub星標1萬余枚。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.