<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      FysicsWorld:填補全模態交互與物理感知評測的空白

      0
      分享至



      近年來,多模態大語言模型正在經歷一場快速的范式轉變,新興研究聚焦于構建能夠聯合處理和生成跨語言、視覺、音頻以及其他潛在感官模態信息的統一全模態大模型。此類模型的目標不僅是感知全模態內容,還要將視覺理解和生成整合到統一架構中,從而實現模態間的協同交互。

      這種轉變的驅動力源于真實物理世界的復雜性,自從文明誕生以來,人類通過對反映現實世界本質的視覺線索、聽覺信號、空間動態等復雜多模態信息的不斷觀察、分析和推理來實現對真實物理世界的正確認識和理解。

      因此,一個面向真實物理世界的先進的全模態智能架構,不僅需要對真實世界中的多模態交互做出正確響應,還應具備遵循物理世界規律的感知與推理能力,以實現對復雜現實環境的可靠理解。

      盡管當前的多模態與全模態大模型不斷突破,但評測體系卻始終難以跟上模型能力的擴張——模態覆蓋不完整、模態之間缺乏真實物理世界關聯、各種多模態任務長期局限于文本輸出下的評測,難以反映模型在真實環境中的全模態耦合與人機交互的能力。這讓研究者無法全面評估模型在面對復雜物理世界場景時的實際能力,也無法進行公平、統一的跨模態比較。

      為解決這一發展瓶頸,飛捷科思智能科技(上海)有限公司(Fysics AI)和復旦大學認知與智能技術實驗室(CITLab)研究團隊共同正式推出了全球首個面向真實物理世界的統一全模態評測基準——FysicsWorld(中文名稱:物理世界)

      該基準不僅能夠評測模型在圖像、視頻、音頻與文本間進行雙向輸入與輸出的能力,還覆蓋了模型對真實物理世界場景的感知、理解、生成以及跨模態推理等核心能力。



      圖 1:FysicsWorld 全模態智能評測體系示意圖

      FysicsWorld 包括具備高質量樣本的 16 大任務,涉及上百類真實開放域場景,并精心設計了跨模態信息之間的依賴關系與互補性,從而全面呈現物理世界多模態信息的復雜性。



      • 論文標題:FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning
      • 技術報告鏈接:https://arxiv.org/pdf/2512.12756
      • GitHub 項目主頁鏈接:https://github.com/Fysics-AI/FysicsWorld
      • 數據集鏈接
      • https://huggingface.co/datasets/Fysics-AI/FysicsWorld
      • https://hf-mirror.com/datasets/Fysics-AI/FysicsWorld
      • 模型排行榜鏈接:https://huggingface.co/spaces/Fysics-AI/FysicsWorld-LeaderBoard

      此外,FysicsWorld 創新地提出了跨模態互補性篩選策略(Cross-Modal Complementarity Screening, CMCS),其通過嚴格的模態依賴性驗證機制,確保基準中的每個樣本在求解時均必須依賴多種模態的信息融合,從而有效避免「單模態捷徑」帶來的偏差。因此,CMCS 能夠更可靠地評估模型在真實物理世界場景下的多模態綜合智能水平。

      通過大量實驗證明,FysicsWorld 不僅能夠清晰揭示當前全模態模型架構在融合多模態理解推理、基于語音驅動的人機交互、跨模態生成及物理現實世界場景感知等環節的真實短板,也為未來面向物理環境的全模態架構研發提供了診斷工具與方向指引。隨著 FysicsWorld 的推出和應用,下一代人工智能正在從簡單的「多模態拼接」邁向真正的全模態統一智能,在面向真實世界的理解和交互方面邁出關鍵一步。

      深度挖掘:從「多模態拼接」到

      面向真實物理世界的「全模態智能」的深度需求

      隨著多模態模型從最初的「視覺 + 語言」,逐步走向「視覺 + 音頻 + 語言」,再到如今面向真實物理世界的全模態統一架構,人們對大模型的期待已遠超「看得懂、聽得懂」。

      研究者希望它們能夠在真實環境中準確理解現實物理世界中的復雜場景、整合來自不同感官的信號、進行跨模態推理,并以更加自然、符合物理世界規律的方式與人類交互,為未來具身智能時代的發展奠定基礎。然而,現有評測體系遠遠無法反映模型在真實物理場景下的能力:

      • 模態覆蓋不全:多數跨模態基準仍局限于文本為中心的有限模態中,鮮有工作能夠徹底涵蓋文本 - 圖像 - 視頻 - 音頻為代表的物理世界全模態信息,無法真正評測新一代模型在更為復雜的真實世界場景中的全模態信息融合理解能力。
      • 輸出形式單一:現有的跨模態評測基準大多數僅考察文本輸出,幾乎不涉及多模態生成,也缺乏語音驅動的多模態交互等面向真實世界以人為主體的任務,難以推動未來以語音驅動為基礎的跨模態人機交互的發展。
      • 模態關聯不強:現有的多數跨模態數據集僅僅將多個不同模態信息(例如圖像、視頻、音頻)簡單拼接,進行排列組合,卻忽略了不同模態信息之間的關聯性及耦合性,導致跨模態數據的信息密度較低,不要求模型融合真實物理場景中不同模態的線索進行真正的跨模態理解和推理,這阻礙了對新一代全模態模型的能力探索和深度挖掘。



      圖 2:全模態智能評測體系對比圖

      在模型能力快速發展、應用場景愈發貼近真實物理世界的今天,一個能夠真正覆蓋任意模態輸入輸出,挖掘以人為主體的語音驅動多模態人機交互能力,并能夠反映模型在物理真實場景下跨模態智能水平的統一評測基準體系,已經成為推動全模態智能向前邁進的迫切需求。

      核心突破:FysicsWorld

      首次打通「全模態全鏈路」的統一任務體系

      全模態評測任務體系:從基礎感知到高階交互的系統覆蓋

      FysicsWorld 構建了一套兼顧廣度與深度的任務體系,將 16 項多模態任務系統化地組織為一條從基礎感知延伸至面向真實物理世界的高階交互的能力曲線。

      在基礎多模態能力層面,FysicsWorld 全面檢驗模型在圖像理解、視頻理解、音頻推理,以及視覺生成等核心任務上的表現,確保視覺與聽覺能力在細粒度層面得到充分驗證。

      在高階跨模態交互層面,FysicsWorld 進一步將評測推向真實應用場景下的跨模態交互任務,構建了細粒度的能力挖掘與評價體系,通過語音驅動的視覺理解與人機交互、基于視覺信息的音頻合成、跨模態綜合邏輯推斷、以及基于動作序列和當前狀態的后續行為預測等任務,共同構成對模型在真實物理世界中多源信號融合、語義一致性、復雜推理與動態環境適應能力的嚴格考查。這些設計不僅關注信息處理本身,更強調模型在真實環境中進行整體決策和協同感知的能力。

      憑借這一結構完整、層級清晰的任務體系,FysicsWorld 首次實現了對全模態模型從單模態到多模態、從靜態到動態、從時序到空間、從感知到生成與推理的連續覆蓋,并充分貼合真實物理世界的環境復雜性,為下一代面向物理場景的全模態智能提供了真正意義上的統一評測框架。



      圖 3:FysicsWorld 評測體系分類圖



      圖 4:FysicsWorld 系統性評測體系示意圖

      跨模態數據的融合與高質量構建:新穎的跨模態數據構造流程

      FysicsWorld 在數據構建階段采用了嚴謹的多源融合流程。研究團隊從異構高質量數據集中篩選多模態樣本,并通過人工審校與半自動化輔助校對的雙重機制,對語義一致性、表達自然度和場景匹配性進行嚴格篩查,逐步排除不符合標準的內容,確保問答和指令在邏輯與語義上保持高準確度。

      在語音驅動的人機交互相關任務中,FysicsWorld 進一步構建了閉環數據構造與驗證流程:先由對文本進行自動化重寫與口語化表述增強,再通過多樣的語音合成技術,基于 10 余種不同的真人語音音色,構造真實自然且高度擬人化的語音交互數據,隨后通過語音識別反向驗證語義一致性,以保證合成的語音內容表達自然、含義明確,并與文本嚴格對齊。

      依托這一精細化、多階段的構建模式,FysicsWorld 構建了更加真實與自然的高質量語音驅動人機交互任務,在大規模覆蓋與數據純度之間取得了良好平衡,為全模態任務體系提供了可靠且高質量的基礎數據支撐。

      跨模態互補性篩選策略:打破模態孤島,確保跨模態間的信息依賴

      在多模態評測中,一個經常被忽視的風險在于,許多任務實際上并不真正依賴多模態信息即可被輕松解決,這使得評測結果難以有效反映模型真實的多模態融合能力。為解決這一長期存在的問題,FysicsWorld 創新地引入了跨模態互補性篩選策略(Cross-Modal Complementarity Screening, CMCS),從數據構造層面確保跨模態任務具備明確的模態信息耦合與依賴。

      跨模態互補性篩選策略的核心機制簡單而有效,對于待篩選的跨模態樣本,該策略隨機移除一個或多個模態,并觀察評測模型的性能變化。若模型在模態消融后仍能保持較高的任務表現,則該樣本被視為跨模態依賴不足或信息冗余,因而從 FysicsWorld 中剔除。這類樣本容易使模型依賴單一模態的捷徑作答,無法有效檢驗真實的多模態融合能力。

      反之,經過任意模態消融后模型都無法順利解決的數據樣本才會被 FysicsWorld 保留,這些數據能夠體現各模態之間顯著的信息互補性和耦合性,必須整合視覺、聽覺和語言線索的互補證據才能解決這類問題。



      圖 5:FysicsWorld 跨模態數據構造示意圖

      得益于跨模態互補性篩選策略,最終的數據集具備強模態互補性,使 FysicsWorld 能夠更準確地檢驗模型的真實多模態融合水平,成為當前評估全模態能力最具參考價值的基準之一。

      多維度論證:

      全模態模型的真實能力圖譜

      基于 FysicsWorld,研究團隊圍繞國際上 30 余個最先進的 AI 模型進行了系統性的評測,涵蓋全模態大模型、多模態大模型、特定模態的專用模型以及統一理解與生成式模型。

      基礎多模態能力分層清晰,基石仍待打牢

      在圖像、視頻和音頻理解的基礎多模態任務中,實驗結果呈現出明顯分層。GPT-5 與 Gemini-2.5-Pro 等閉源模型整體領先,表現穩定可靠。開源全模態模型雖在部分任務上逐漸縮小差距,但在長視頻語義鏈路、復雜聽覺理解以及高難度推理中仍顯薄弱。統一結構的理解 - 生成模型在圖像和視頻生成上展現一定競爭力,但在細粒度文本約束、語義一致性及結構控制能力上仍落后于專門的擴散式或視頻生成模型。

      這些結果揭示了當前模型在基礎感知與生成能力上的主要瓶頸,同時為跨模態任務提供了重要的性能基線。



      圖 6:音頻推理和視頻生成任務中不同模型性能對比示意圖

      跨模態推理與交互:真實世界融合能力仍處早期

      當任務從單模態切換到真實物理場景下的多模態協作時,模型性能普遍出現明顯下滑,退化幅度遠超預期——尤其是在那些必須依賴圖像、視頻、音頻之間真實互補關系才能作答的任務中,短板暴露無遺。

      無論是通過語音驅動的視覺理解與人機交互、基于視覺信息的音頻合成、跨模態綜合邏輯推斷以及基于動作序列和當前狀態的后續行為預測等任務,都要求模型具備深層次的跨模態交互、真實物理世界常識理解與時空推理能力,嚴格考查了模型在真實物理世界中多源信號融合、語義一致性、復雜推理與動態環境適應能力。然而實測表明,主流模型在面向真實世界的多模態對齊、信息融合、跨模態生成以及物理場景適應能力等關鍵環節,仍存在顯著不足。

      這些結果清晰指出,盡管多模態模型在基礎認知上已有顯著進展,但要實現面向真實物理世界的全模態智能,還需要在跨模態融合、動態環境理解、物理約束推理與多源感知協同等方向進一步突破。



      圖 7:全模態 / 視覺語言大模型在圖像為中心任務上的性能對比



      圖 8:全模態 / 視覺語言大模型在視頻為中心任務上的性能對比

      洞察與趨勢:面向真實物理世界的

      全模態智能仍有廣闊空間

      現有全模態模型和多模態大模型在多源感知和基礎生成上雖已初見成效,但在面對復雜物理場景、多源信息交互以及長時序動態環境時,仍難以實現穩定、深度的跨模態融合與統一推理。

      這意味著,面向真實物理世界的全模態智能的下一階段,不僅需要繼續鞏固單模態能力的根基,提升視覺、聽覺、語言等單模態處理在真實場景中的精度與一致性,更需要在模態融合策略上進行系統性優化,實現多模態信息在時空、語義及物理約束維度的協調與整合。

      跨模態動態推理、場景化理解與生成能力,將成為衡量下一代全模態模型核心競爭力的關鍵指標。模型不僅需要在復雜物理環境中整合圖像、視頻、音頻與文本信息,還要能夠在長時序、多事件交互、受物理環境約束的情況下保持邏輯一致性、語義連貫性與生成穩定性。這對模型的結構設計、推理機制以及數據構建提出了更高要求,也為研究者和工程團隊提供了明確的發展方向。

      作為首個支持全模態輸入輸出、覆蓋感知 - 理解 - 推理 - 生成、并具備強跨模態依賴性的統一評測基準,FysicsWorld 為面向真實物理世界的全模態智能提供了可控、系統且可比較的能力映射工具,使研究者能夠清晰洞察模型在多模態感知、物理場景信息融合和跨模態推理生成上的真實水平,為推動全模態智能在真實世界中實現穩定、深度的跨模態融合與統一推理提供了堅實支撐。

      飛捷科思智能科技(上海)有限公司由復旦大學智能機器人與先進制造創新學院副院長、智能機器人研究院常務副院長,原英偉達 PhysX 物理引擎主要奠基人與研發團隊負責人張立華教授創辦,是國內唯一擁有完全自主研發的可微分通用物理仿真引擎產品的企業。

      公司以新一代物理仿真引擎 Fysics 為核心,致力于打造全球領先的物理智能關鍵技術與產品,推動具身智能與人形機器人技術研發及應用場景的快速落地,在高精度物理仿真引擎、高質量具身智能仿真平臺、機器人敏捷運動與魯棒智能控制等領域處于行業領先水平,并向行業提供覆蓋「仿真—訓練—部署—迭代」的全棧解決方案。依托自主可控的物理智能底座,公司持續賦能中國具身智能與機器人產業的發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不上市的字節,正在改寫中國互聯網的戰爭規則

      不上市的字節,正在改寫中國互聯網的戰爭規則

      新浪財經
      2026-02-15 23:17:51
      王菲將六登春晚,獻唱《你我經歷的一刻》;此前五次登臺首首爆火,去年《世界贈予我的》創收視峰值

      王菲將六登春晚,獻唱《你我經歷的一刻》;此前五次登臺首首爆火,去年《世界贈予我的》創收視峰值

      揚子晚報
      2026-02-15 08:40:17
      中核集團的顧軍被查了。最讓人脊背發涼的是他的第一個身份

      中核集團的顧軍被查了。最讓人脊背發涼的是他的第一個身份

      南權先生
      2026-02-02 16:05:36
      衣譜:一種無聲的自我簽名

      衣譜:一種無聲的自我簽名

      疾跑的小蝸牛
      2026-02-15 23:15:41
      A股:周日晚間傳來4個核彈級利空!A股或將會迎來更大級別大行情?

      A股:周日晚間傳來4個核彈級利空!A股或將會迎來更大級別大行情?

      股市皆大事
      2026-02-15 17:46:05
      凱恩打入生涯500球,未來能否追平C羅紀錄?

      凱恩打入生涯500球,未來能否追平C羅紀錄?

      奇史怪談
      2026-02-16 03:29:25
      委內瑞拉和伊朗這一手“反水”,直接給中國上一堂最昂貴的戰略課

      委內瑞拉和伊朗這一手“反水”,直接給中國上一堂最昂貴的戰略課

      南權先生
      2026-01-16 16:22:00
      毛主席批評彭雪楓搞山頭主義,彭雪楓怒拍桌子:有山頭,但沒主義

      毛主席批評彭雪楓搞山頭主義,彭雪楓怒拍桌子:有山頭,但沒主義

      鶴羽說個事
      2026-01-15 14:50:02
      喜歡把家里打掃得很干凈的人,往往會有這3種命運,很準!

      喜歡把家里打掃得很干凈的人,往往會有這3種命運,很準!

      品讀時刻
      2026-02-12 00:06:27
      貝克漢姆家小七情人節曬三個哥哥,貝嫂轉發溫情示好長子布魯克林

      貝克漢姆家小七情人節曬三個哥哥,貝嫂轉發溫情示好長子布魯克林

      譯言
      2026-02-15 05:56:09
      好消息養老金繼續漲?人社部長表態!獨生子女父母能多漲100元嗎

      好消息養老金繼續漲?人社部長表態!獨生子女父母能多漲100元嗎

      另子維愛讀史
      2026-02-15 22:07:20
      吳石潛伏臺北,僅半年便壯烈犧牲!頭號共諜郭汝瑰直言:吳石之敗,敗在心存僥幸

      吳石潛伏臺北,僅半年便壯烈犧牲!頭號共諜郭汝瑰直言:吳石之敗,敗在心存僥幸

      清風鑒史
      2025-12-29 21:10:24
      Let's cook,克洛普的新造型被人吐槽像絕命毒師里的“老白”

      Let's cook,克洛普的新造型被人吐槽像絕命毒師里的“老白”

      懂球帝
      2026-02-16 00:51:05
      西半球亂成一鍋粥!盧比奧說美國是歐洲之子,呂特喊特朗普爸爸

      西半球亂成一鍋粥!盧比奧說美國是歐洲之子,呂特喊特朗普爸爸

      一口娛樂
      2026-02-16 02:17:10
      趙光義登基后,面對兄長趙匡胤留下的24歲皇后,他是如何對待的?

      趙光義登基后,面對兄長趙匡胤留下的24歲皇后,他是如何對待的?

      馬蹄燙嘴說美食
      2026-02-15 16:58:38
      我61歲,和45歲女舞伴搭伙過日子,新婚夜她突然提出一個要求

      我61歲,和45歲女舞伴搭伙過日子,新婚夜她突然提出一個要求

      小月故事
      2026-02-05 11:02:18
      1-4、3-4日本張本智和再度飲恨,4-0慘敗:松島輝空登頂成其克星

      1-4、3-4日本張本智和再度飲恨,4-0慘敗:松島輝空登頂成其克星

      現代小青青慕慕
      2026-02-02 17:41:34
      被關42天,馬杜羅從紐約獄中打出一通電話,委內瑞拉變天了

      被關42天,馬杜羅從紐約獄中打出一通電話,委內瑞拉變天了

      健身狂人
      2026-02-15 06:57:54
      季羨林:一個家庭最大的悲哀不是貧窮,是兒女過40歲還做這兩件事

      季羨林:一個家庭最大的悲哀不是貧窮,是兒女過40歲還做這兩件事

      扶蘇聊歷史
      2025-12-30 14:30:43
      飛機上打群架?!高空上群毆,一片混亂,飛機被迫改道迫降

      飛機上打群架?!高空上群毆,一片混亂,飛機被迫改道迫降

      英國那些事兒
      2026-02-14 23:31:53
      2026-02-16 04:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12310文章數 142567關注度
      往期回顧 全部

      科技要聞

      發春節紅包的大廠都被約談了

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態度原創

      教育
      手機
      本地
      親子
      公開課

      教育要聞

      為什么現在的中國留學生都在無腦沖QS前50學校?

      手機要聞

      榮耀Magic V6真機現身,圓形Deco、紅色機身

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      親子要聞

      從小“吃零食”和“不吃零食”的孩子,離了父母的嚴管,差距拉大

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版