<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OmniGAIA: 全模態AI智能體新基準,最強開源模型僅13分!

      0
      分享至


      人大&小紅書推出OmniGAIA基準和OmniAtlas智能體。

      人類的智能是自然交織的——我們不僅同時用眼睛看、用耳朵聽、用語言交流,還能進行復雜的長邏輯鏈推理,并在遇到難題時熟練使用搜索引擎等外部工具來輔助自己完成任務。

      然而,當前爆火的“多模態大模型(MLLM)”大多仍局限于“圖文”或“音文”的雙模態交互。它們嚴重缺乏作為“通用AI助手”所必需的全模態統籌、長程推理與工具調用能力。

      為了填補這一空白,中國人民大學聯合小紅書、東南大學、浙江大學和清華大學的研究團隊重磅推出了 OmniGAIA——一個專為評估“原生全模態AI智能體”而設計的新基準,并同時開源了配套的基礎智能體訓練秘籍 OmniAtlas!

      該工作不僅揭示了當前開源模型與頂尖閉源模型之間的巨大“智能鴻溝”,更給出了一套讓大模型真正學會“看、聽、想與用工具”的實戰配方。目前代碼、數據、模型已全面開源!


      論文鏈接: https://arxiv.org/pdf/2602.22897

      代碼&Demo:https://github.com/RUC-NLPIR/OmniGAIA

      數據集&模型:https://huggingface.co/collections/RUC-NLPIR/omnigaia

      排行榜:https://huggingface.co/spaces/RUC-NLPIR/OmniGAIA-LeaderBoard

      01


      Demo

      1. 圖片+音頻任務:計算圖片和音頻中兩個事件發生時間相隔多久?

      2. 帶音頻的視頻任務:視頻中講者提到了一個某電影中的橋,請幫我調研其背景。

      02


      痛點直擊:現有的評測為什么不夠看

      隨著 Qwen3-Omni、Gemini-3 等全模態大模型的涌現,模型已經能在單一網絡內統一處理文本、視覺和音頻。但現有的評測基準(如 OmniBench、WorldSense 等)大多基于極短的音視頻,且題型多為重“感知”的多項選擇題。

      在真實世界中,我們需要 AI 解決的問題是這樣的:

      “視頻里導游指著遠處的那座活動橋,解說提到這讓他想起了電影《福祿雙霸天》。請問這座橋到底叫什么名字?在1979年電影開拍時,這座橋已經建成了多少年?”


      這就要求 AI 不能只會“看圖說話”,它必須面對幾十分鐘的長視頻,從中錨定地理位置,主動去搜索引擎查證橋的真實名字和建成年份,最后進行相關計算。

      現有的評測測不出這種能力,OmniGAIA因此應運而生!

      03


      OmniGAIA:全模態智能體的新基準

      OmniGAIA 包含360個源自真實世界的高難度任務,覆蓋地理、歷史、科技等 9 大垂直領域。輸入不僅包含時長數十分鐘的“視頻+音頻”,還有復雜的“圖片+音頻”組合。模型不能靠盲猜,必須多次調用外部工具才能得出唯一可驗證的開放式最終答案。

      它是如何構建出來的?——首創全模態事件圖譜驅動法


      為了自動合成邏輯嚴密且防作弊的高難度QA,團隊設計了一套極其精妙的流水線:

      1.數據收集從 FineVideo、LongVideoBench、LongVideo-Reason、COCO 2017 以及HuggingFace 中篩選并整理視頻(含音頻)及“圖像+音頻”數據源,覆蓋 100 多個不同的垂直領域。

      2.高價值信息挖掘使用Gemini-3-Flash 提取事件、進行環境分析、音頻分析(包含自動語音識別 ASR、說話人身份識別 Speaker ID)以及圖像理解(包含光學字符識別 OCR、物體識別、人臉識別)。

      3.智能體全模態事件圖譜構建DeepSeek-V3.2通過規劃后續步驟、利用工具獲取新信息,并結合大語言模型 (LLM) 的自我反思(self-reflexion) 與人工審查來驗證事實準確性,從而迭代式地擴展初始事件圖譜。

      4.問答生成與質量審查通過事件模糊化(fuzzification) 生成高難度的多跳(multi-hop) 問答對,隨后由 LLM 和人工共同驗證其準確性、任務難度以及答案的唯一性。

      04


      OmniAtlas:原生全模態智能體基座模型

      在嚴苛的測試下,早期的開源模型表現較差。為了提升開源全模態模型的 Agent 能力,團隊不僅提出了基準,更給出了一套開源解法與完整的“訓練秘籍”——OmniAtlas。


      它遵循工具集成推理范式,包含三大核心殺手锏:

      1.主動全模態感知(Active Perception)

      面對超長視頻或高清大圖,傳統的“全局降采樣”會丟失大量細節。OmniAtlas 賦予了模型“指哪看哪、聽哪”的特技!它可以通過內置工具(read_video / read_audio / read_image)精準截取特定時間段的視頻或裁剪特定區域的圖片,實現高保真的按需感知。

      2.高質量軌跡合成與監督微調

      團隊利用強大的推理模型進行“后見之明引導的樹探索”,在已知正確答案的引導下,剪枝掉錯誤分支,合成出完美的“思考+工具調用”成功軌跡。在監督微調階段,采用掩碼監督(Masked SFT),只對模型生成的“思考和動作”算 Loss,屏蔽掉外部工具返回的冗長噪音,讓模型真正學會“如何思考”。

      3. OmniDPO細粒度糾錯

      全模態任務極易“一步錯,步步錯”。團隊首創了OmniDPO,能夠精準定位失敗軌跡中的第一處錯誤點(到底是沒看清、聽漏了,還是搜索關鍵詞用錯了?),并生成糾正后的正確前綴,構建正負樣本對進行偏好優化,實現真正的“對癥下藥”!。

      05


      實驗結果:性能鴻溝與成因

      1.主實驗結果:在OmniGAIA上對比全模態模型的性能


      團隊在統一提供外部工具(搜索、瀏覽器、代碼)的嚴苛環境下評測了各大前沿模型,我們可以發現:

      1.閉源王者斷崖領先:最強的閉源模型 Gemini-3-Pro 拿下了62.5% 的一次通過率(Pass@1),展現出極其成熟的規劃與驗證能力。而最強的開源基線 Qwen-3-Omni (30B) 僅有13.3%,差距近乎 4.7 倍!

      2.大力出奇跡失效:擁有高達5600億 (560B) 龐大參數量的 LongCat-Flash-Omni 得分甚至不如 30B 的小模型!這證明了:在全模態Agent領域,優秀的“智能體工具調用策略”比單純的參數規模更關鍵。

      3.OmniAtlas療效顯著:經過OmniAtlas 訓練配方優化的 Qwen-3-Omni,準確率從 13.3% 暴漲至 20.8% (+7.5)!在較小的 7B 模型上,更是提升了近 4 倍(3.6% ?? 13.3%)。

      2.細粒度錯誤分析:AI到底在了哪一步?


      通過對模型失敗軌跡的解剖,研究發現:在困難任務中,開源模型有高達 90% 以上的失敗源于沒有正確使用工具(比如沒有調用工具,陷入搜索死循環、查錯方向),這直接導致了下游任務完成的全面崩潰。

      3.工具調用行為分析


      AI 到底該調用幾次工具?散點分布圖(Violin Plot)揭示了有趣的現象:

      工具冷漠癥完全不用工具的模型(集中在 0 次),成功率很低。這證實了僅靠模型腦內的先驗知識,根本搞不定復雜的真實環境。

      調得多就一定好嗎?錯!部分失敗軌跡調用了 10~20 次以上工具,但全在做低效重復的無用功,無法有效解決不確定性。

      從被動到主動:OmniAtlas 的工具調用分布更加主動,有效探索率的大幅提升直接拉動了過關率,但也帶來了工具調用冗余的問題,希望后續工作可以更好的平衡性能與效率。

      4.原生全模態感知vs外掛感知工具,哪個更好


      我們真的需要原生全模態大模型嗎?能不能用純文本大模型,外掛一個“識圖/聽音 API”來代替?消融實驗給出了答案:

      1.對強模型來說,原生才是王道:Gemini-3-Flash依靠原生感知拿到最高分 51.7,且工具調用僅需 4.4 次。如果把感知拆分成外部工具,不僅成績下降,API調用成本更是翻倍(增至 9.4 次)。

      2.外掛工具打不了硬仗對于較弱的開源模型,外掛感知工具雖然能在簡單題上提點分,但在需要復雜跨模態推理的 Hard 難題中,成績直接崩盤(從 9.0 跌至 3.9)。

      結論:外掛工具會切斷模態間的內在聯系,原生全模態融合,才是拔高AI智能上限的唯一正解!

      06


      總結與未來展望

      看得清、聽得懂只是起點,會思考、善用工具、能行動才是邁向通用人工智能(AGI)的試金石。

      OmniGAIA 揭開了現有全模態大模型在“長程推理與多輪工具使用”上的缺陷,而OmniAtlas 的全套硬核實驗剖析則為開源社區指明了一條極具潛力的演進路線。研究團隊指出,通往真正原生全模態 AI 助手的道路上,未來有三大黃金賽道:

      1.全模態智能體強化學習(Agentic RL):在真實全模態反饋下直接優化長視野決策策略。

      2.全模態MCP生態:為全模態智能體接入更多工具,打造可擴展的MCP工具集。

      3.全模態具身智能(Embodied Agents):將擁有“全模態大腦”的智能體引入物理世界,完成真實世界的交互,來打造我們生活中的AI助手。

      07


      作者信息


      本工作第一作者李曉熙,目前就讀于中國人民大學高瓴人工智能學院,博士三年級,研究方向主要包括Agentic AI、Deep Research、大模型推理、強化學習等。在國際頂級會議NeurIPS,ICLR,ACL等發表7篇一作工作,代表工作包括DeepAgent, WebThinker, Search-o1, RetroLLM等。2025 年起,他在小紅書參加 RedStar 實習項目,進行Agentic AI和Deep Research領域的研究工作。


      本文的通信作者竇志成,中國人民大學高瓴人工智能學院長聘教授、博士生導師、副院長。主要研究方向為信息檢索、大模型、智能體、大模型檢索增強、AI搜索、司法智能等。在國際知名學術會議和期刊上發表論文200余篇,帶領團隊研發涉外法治大模型,開源大模型檢索增強工具包FlashRAG、iAgent系列信息智能體(WebThinker、ARPO、DeepAgent等)累計獲得GitHub星標1萬余枚。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      突發訃告!蔣彥強不幸離世,年僅40歲

      突發訃告!蔣彥強不幸離世,年僅40歲

      南方都市報
      2026-03-27 15:53:39
      時代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

      時代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

      快科技
      2026-03-27 14:18:12
      蜜雪的零售邊界,不止于一杯杯奶茶、咖啡、或啤酒

      蜜雪的零售邊界,不止于一杯杯奶茶、咖啡、或啤酒

      晚點LatePost
      2026-03-26 18:50:35
      全球唯一雙座隱身戰機!殲-20S跨界作戰有多震撼?專家解析

      全球唯一雙座隱身戰機!殲-20S跨界作戰有多震撼?專家解析

      齊魯壹點
      2026-03-27 06:56:45
      部分娃哈哈宏勝工廠停產,有工廠已放假

      部分娃哈哈宏勝工廠停產,有工廠已放假

      界面新聞
      2026-03-27 14:59:14
      自戰事爆發以來 伊朗平均每天賣油能多賺1.7億

      自戰事爆發以來 伊朗平均每天賣油能多賺1.7億

      財聯社
      2026-03-27 11:05:06
      關于伊朗的十大虛假敘事——你是如何被網軍欺騙的?

      關于伊朗的十大虛假敘事——你是如何被網軍欺騙的?

      楓嶺社
      2026-03-27 10:49:09
      羅技:“我一降價,你還不是像狗一樣跑過來”

      羅技:“我一降價,你還不是像狗一樣跑過來”

      電腦吧評測室
      2026-03-26 22:05:58
      感冒三藥、失眠三藥、牙痛三藥......40種常見病的三藥配對一覽表!

      感冒三藥、失眠三藥、牙痛三藥......40種常見病的三藥配對一覽表!

      環京快爆
      2026-03-26 11:13:27
      充電9分鐘續航超千里:全新騰勢Z9GT開啟閃充時代

      充電9分鐘續航超千里:全新騰勢Z9GT開啟閃充時代

      大眾侃車
      2026-03-26 18:02:02
      張雪峰女兒親自辟謠!父母恩愛沒離婚,回應三個問題,口才很意外

      張雪峰女兒親自辟謠!父母恩愛沒離婚,回應三個問題,口才很意外

      離離言幾許
      2026-03-27 14:42:23
      張雪峰去世僅兩天!公司宣布重大決定:收回他所有肖像使用權

      張雪峰去世僅兩天!公司宣布重大決定:收回他所有肖像使用權

      娛樂圈圈圓
      2026-03-26 21:47:07
      中美俄石油儲量對比:俄800億桶,美國超700億桶,中國有多少?

      中美俄石油儲量對比:俄800億桶,美國超700億桶,中國有多少?

      福建平子
      2026-03-27 11:27:57
      “咬死”ASML,禁止維修光刻機只是開始,輪到中國工程師頭疼了!

      “咬死”ASML,禁止維修光刻機只是開始,輪到中國工程師頭疼了!

      流史歲月
      2026-03-27 12:05:09
      一女子在湖南省道縣人民醫院生產后,與新生兒不幸雙雙離世,多方回應

      一女子在湖南省道縣人民醫院生產后,與新生兒不幸雙雙離世,多方回應

      半島官網
      2026-03-27 15:13:26
      奇瑞犀牛電池能“抗造”到離譜?切角、穿刺、泡水不爆炸,甚至還能正常供電!

      奇瑞犀牛電池能“抗造”到離譜?切角、穿刺、泡水不爆炸,甚至還能正常供電!

      極果酷玩
      2026-03-27 14:58:30
      史上首次:特朗普簽名將印上美元紙幣,打破165年傳統

      史上首次:特朗普簽名將印上美元紙幣,打破165年傳統

      上觀新聞
      2026-03-27 12:58:08
      打虎!廣東省政協副主席郭永航被查

      打虎!廣東省政協副主席郭永航被查

      極目新聞
      2026-03-27 18:37:06
      再婚8年,丈夫老實憨厚,鄰居卻悄悄提醒:你男人全身都是秘密

      再婚8年,丈夫老實憨厚,鄰居卻悄悄提醒:你男人全身都是秘密

      烙任情感
      2026-03-26 16:32:02
      涉嫌嚴重違紀違法,張建生被查

      涉嫌嚴重違紀違法,張建生被查

      都市快報橙柿互動
      2026-03-27 14:59:18
      2026-03-27 18:59:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7151文章數 20742關注度
      往期回顧 全部

      科技要聞

      楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

      體育要聞

      邵佳一:足球就像一場馬拉松

      娛樂要聞

      張雪峰靈堂內景曝光,四周擺滿了鮮花

      財經要聞

      我在小吃培訓機構學習“科技與狠活”

      汽車要聞

      與眾08,金標大眾不能輸的一戰

      態度原創

      房產
      教育
      數碼
      健康
      公開課

      房產要聞

      剛剛,海南樓市,官方數據發布!

      教育要聞

      重拳出擊,整治教育內卷,中考徹底變天了

      數碼要聞

      華碩ROG幻世神Cronox機箱開啟預約:配備9.2"副屏,2399元

      干細胞抗衰4大誤區,90%的人都中招

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版