<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      清華陳建宇×斯坦福Chelsea團隊世界模型Ctrl-World能力登頂全球

      0
      分享至



      機器之心編輯部

      在全球具身智能領(lǐng)域的頂級權(quán)威評測 WorldArena 榜單中,清華陳建宇(星動紀元創(chuàng)始人)團隊聯(lián)合斯坦福 Chelsea Finn(PI 創(chuàng)始人) 團隊研發(fā)的 Ctrl-World 世界模型交出優(yōu)異答卷:



      • 具身任務(wù)能力斬獲全球第一,更在主體一致性、軌跡精度、深度準確性、策略評估一致性四大核心維度登頂;
      • 視頻生成能力排名全球第二,僅次于阿里 Wan 2.6,強勢超越谷歌 Veo 3.1、英偉達 Cosmos-Predict 2.5 等世界頂尖模型;
      • Ctrl-World 成為在「視頻生成質(zhì)量」(看起來真實) 與「具身任務(wù)」(真正可用) 兩大維度均躋身頂級梯隊的世界模型



      14 個世界模型在 WorldArena 融合多維度表現(xiàn)的 EWMScore 綜合指標評分

      (a) Ctrl-World 在具身策略評估一致性上高達 0.986,遠超英偉達等同類模型;(b) Ctrl-World 以 59.70 在視頻生成質(zhì)量上排名全球第二,超越谷歌 Veo 3.1(58.87),僅次于阿里 Wan 2.6(61.86)

      WorldArena:

      全球具身世界模型的「終極試煉場」

      WorldArena 之所以能成為行業(yè)公認的權(quán)威榜單,核心在于其「全面、硬核、具引領(lǐng)性」的定位,徹底區(qū)別于泛化的 AI 評測體系,其專業(yè)權(quán)威源于三大核心特質(zhì):

      1. 硬核基準:頂尖學(xué)術(shù)共建,全方位綜合評測

      WorldArena 由清華大學(xué)牽頭,聯(lián)合普林斯頓大學(xué)、新加坡國立大學(xué)、北京大學(xué)、香港大學(xué)、中科院、上海交通大學(xué)、中國科學(xué)技術(shù)大學(xué)等 8 所全球頂尖學(xué)術(shù)機構(gòu)共同研發(fā),團隊成員均為具身智能、計算機視覺、機器人學(xué)領(lǐng)域的權(quán)威學(xué)者,共同制定了兼具科學(xué)性與實用性的硬核評測標準。

      該體系聚焦具身世界模型這一核心領(lǐng)域,打造了涵蓋 16 大核心指標、3 大真實應(yīng)用任務(wù)的全方位綜合測試場景,全面考核模型的感知精度、物理理解、空間認知、動作預(yù)測及實際落地適配能力,實現(xiàn)對具身智能核心技術(shù)的全方位、深層次檢驗,而非單一維度的能力比拼。

      2. 參賽陣容鼎盛:全球巨頭與頂尖機構(gòu)同臺競技

      得益于其權(quán)威的評測標準與行業(yè)影響力,全球頂尖具身世界模型研發(fā)團隊均主動參與評測,首批參評陣容涵蓋國際科技巨頭、頂尖學(xué)術(shù)機構(gòu),包括:谷歌、英偉達、阿里、字節(jié)、智譜、智元、極佳視界、清華大學(xué)、斯坦福大學(xué)、北京大學(xué)、香港大學(xué)、普林斯頓大學(xué)等

      此次共有全球頂尖 14 款參賽模型同臺競技,覆蓋通用視頻生成衍生模型、機器人專用模型等所有主流技術(shù)路線,真正形成「全球頂級玩家齊聚」的格局,榜單結(jié)果不僅是各模型能力的直觀排名,更成為行業(yè)技術(shù)研發(fā)、方向布局的重要「風向標」,引領(lǐng)具身智能領(lǐng)域的創(chuàng)新發(fā)展。

      3. 評測硬核:16 項指標 + 3 大任務(wù),直擊「真干活」的核心需求

      WorldArena 的評測體系圍繞「具身實用」設(shè)計,聚焦「真能干活」:



      視頻質(zhì)量 6 大評估維度示意圖:視覺質(zhì)量、運動質(zhì)量、內(nèi)容一致性、物理貼合度、3D 精度、可控性,每個維度都有明確的優(yōu)劣判斷標準

      6 大核心維度涵蓋視覺質(zhì)量、運動質(zhì)量、內(nèi)容一致性、物理貼合度(Physics Adherence)、3D 準確性(3D Accuracy)、可控性,細分為 16 項量化指標,每一項都對應(yīng)機器人實際應(yīng)用的痛點;



      具身任務(wù)評估體系概覽:通過數(shù)據(jù)引擎、策略評估、動作規(guī)劃三大任務(wù),全面測試模型的實戰(zhàn)能力

      3 大具身任務(wù)(數(shù)據(jù)引擎、策略評估、動作規(guī)劃)模擬模型的真實使用場景,直接考核「生成的內(nèi)容能不能訓(xùn)練機器人」、「模擬的環(huán)境能不能測試策略」、「規(guī)劃的動作能不能完成任務(wù)」;

      70 位專業(yè)標注者對 3500 個視頻進行主觀評估,確保結(jié)果既符合技術(shù)標準,又貼近人類對「實用」的直覺判斷。



      現(xiàn)有世界模型基準與 WorldArena 的評測維度對比:

      該表從視頻質(zhì)量 6 個子維度、具身任務(wù) 3 大核心角色及人類評估維度,全面對比了主流評測基準與 WorldArena 的覆蓋情況,直觀體現(xiàn)了 WorldArena 在具身任務(wù)評測上的獨家優(yōu)勢,是其成為具身世界模型專屬評測金標準的核心依據(jù)。

      這種「技術(shù)指標 + 實用任務(wù) + 人類校驗」的三重考核,讓 WorldArena 的排名不只是「分數(shù)高低」,更是模型實際應(yīng)用價值的直接體現(xiàn)。

      Ctrl-World 四大具身維度登頂

      斬獲具身任務(wù)能力全球第一



      14 款世界模型在視頻質(zhì)量三大維度(視覺質(zhì)量、運動質(zhì)量、內(nèi)容一致性)的各項指標評分表:

      Ctrl-World 在主體一致性全球第一 (0.8411)



      14 款世界模型物理貼合度、3D 準確性及可控性評分:

      Ctrl-World 在軌跡準確性(0.4766)、深度準確性(0.9300)等核心指標上的領(lǐng)先地位,其中軌跡準確性(0.4766)位列全球第一

      1. 主體一致性全球第一(0.8411):筑牢具身任務(wù)落地的基礎(chǔ)

      Ctrl-World 以 0.8411 的得分拿下該指標全球第一。這一指標用于衡量視頻中生成物體的身份、外觀與形態(tài)在時序維度的穩(wěn)定程度,Ctrl-World 的領(lǐng)先表現(xiàn),使其生成的機器人操作視頻能最大程度規(guī)避物體位置漂移、形態(tài)形變或身份混淆等問題,為機器人作業(yè)提供了高保真的「數(shù)字孿生」交互對象。



      圖中展示了 WorldArena 基準中主體一致性(Subject Consistency)的高低分案例對比,直觀說明 Ctrl-World 以 0.8411 位列全球第一的技術(shù)優(yōu)勢:

      • 高分案例(90.07):在「adjust bottle」任務(wù)中,瓶子在機械臂交互全過程中保持形狀、顏色、標識及位置的時序穩(wěn)定,無漂移或形變,體現(xiàn)高保真「數(shù)字孿生」特性;
      • 低分案例(1.242):同場景下瓶子出現(xiàn)嚴重幾何變形與身份特征丟失,產(chǎn)生視覺噪聲,直接影響機器人策略訓(xùn)練的可靠性。

      2. 軌跡精度全球第一(0.4766 ):動作精準度媲美真實物理軌跡

      軌跡準確性(Trajectory Accuracy)衡量機械臂運動軌跡與真實物理軌跡的對齊度,是機器人動作規(guī)劃的核心基礎(chǔ)。Ctrl-World 以 0.4766 的絕對優(yōu)勢位列全球第一,意味著其生成的機械臂運動軌跡與真實世界物理運動幾乎完全吻合,為機器人提供了可信賴的「數(shù)字孿生」動作模板。



      圖中展示了 WorldArena 基準中軌跡準確性(Trajectory Accuracy)的高低分案例對比,直觀說明 Ctrl-World 以 0.4766 位列全球第一的技術(shù)優(yōu)勢:

      • 高分案例(92.95):在 「move can pot」任務(wù)中,機械臂運動軌跡(紅色路徑線)與真實物理軌跡(GT)高度吻合,動作精準連貫,符合物理運動規(guī)律;
      • 低分案例(8.64):同場景下軌跡出現(xiàn)顯著偏離,伴隨異常跳躍和不連貫動作,無法復(fù)現(xiàn)真實物理運動。

      3. 深度準確性全球第一梯隊(0.9300 ):3D 空間認知遙遙領(lǐng)先

      在 3D 準確性維度的深度準確性(Depth Accuracy)指標上,Ctrl-World 以 0.9300(與第一位差距僅 0.0012)屬全球第一梯隊,展現(xiàn)了對三維空間結(jié)構(gòu)的精準把握。這一能力直接決定機器人在抓取、堆疊、插入等精密操作中的成功率,避免因「空間感知偏差」導(dǎo)致的抓空、碰撞等失誤。



      該圖展示了 WorldArena 基準中深度準確性(Depth Accuracy)高低分案例對比,直觀說明 Ctrl-World 以 0.9300 全球第一梯隊技術(shù)優(yōu)勢:

      • 高分案例(深度準確性 91.58 ):在「stack blocks three」與 「stack bowls two」任務(wù)中,生成深度圖與真實場景(GT)高度一致,物體空間位置穩(wěn)定、透視關(guān)系合理,機械臂與物體保持正確的空間分離與物理接觸,體現(xiàn)精準的三維空間結(jié)構(gòu)認知;
      • 低分案例(深度準確性 59.07):同場景下出現(xiàn)機械臂與物體異常融合(穿透)、嚴重幾何失真、鬼影模糊及陰影缺失,空間完整性崩塌。

      4. 策略評估一致性全球第一(Pearson r=0.986):虛擬測試 = 真實測試

      在最具實用價值的策略評估(Policy Evaluator)任務(wù)中,Ctrl-World 與真實物理模擬器(RoboTwin 2.0)的評估結(jié)果相關(guān)性高達 0.986,近乎完美復(fù)刻真實環(huán)境動態(tài)。這意味著開發(fā)者可直接用 Ctrl-World 測試機器人策略,無需搭建昂貴的真實物理環(huán)境,大幅降低研發(fā)成本。



      世界模型與物理模擬器的策略評估結(jié)果相關(guān)性:

      Ctrl-World 的 Pearson r=0.986,近乎完美復(fù)刻真實環(huán)境評估結(jié)果,遠高于英偉達 Cosmos-Predict 2.5 的 0.483,印證了其作為虛擬仿真環(huán)境的可靠性。

      從指標高分到任務(wù)成功:

      解碼 Ctrl-World 的「實力轉(zhuǎn)化」

      Ctrl-World 在物理貼合度、3D 準確性及可控性等維度的全面領(lǐng)先,并非僅僅是實驗室里的數(shù)字游戲,而是直接決定了其作為「機器人大腦」的實用價值。WorldArena 的評測數(shù)據(jù)清晰揭示了這種轉(zhuǎn)化關(guān)系:

      1. 高保真策略評估:虛擬測試即真實測試

      在 Policy Evaluator 任務(wù)中,Ctrl-World 與 RoboTwin 物理模擬器的評估相關(guān)性高達 0.986,這意味著在 Ctrl-World 中測試的機器人策略性能,與在真實物理環(huán)境中測試的結(jié)果幾乎無差異。相比之下,Cosmos-Predict 2.5 的相關(guān)性僅為 0.483。這一差距的背后的技術(shù)邏輯在于:Ctrl-World 通過顯式動作建模(Action-Conditioned)架構(gòu),將機械臂關(guān)節(jié)角度、末端執(zhí)行器位姿等低層物理參數(shù)直接作為生成條件,強制模型學(xué)習(xí)「執(zhí)行動作 A→產(chǎn)生狀態(tài) B」的因果物理鏈,而非僅僅根據(jù)文字描述「猜測」動作。

      2. 動作規(guī)劃成功率:物理準確性直接決定任務(wù)成敗

      在 Action Planner 任務(wù)中,雖然當前所有世界模型的絕對成功率仍有提升空間,但 Ctrl-World 的物理準確性優(yōu)勢為其奠定了最可靠的基礎(chǔ)。在閉環(huán)動作執(zhí)行任務(wù)中,物理貼合度和軌跡精度的高低直接決定了機械臂能否完成「調(diào)整瓶子」、「點擊鈴鐺」等操作。Ctrl-World 的軌跡精度(0.4766)和深度準確性(0.9300)確保了生成的動作序列在真實機器人上執(zhí)行時,能夠精準到達目標位置并維持物理穩(wěn)定的交互,避免了因「空間感知偏差」導(dǎo)致的抓空、碰撞等操作失誤。

      3. 合成數(shù)據(jù)的有效性:從「能生成」到「能訓(xùn)練」

      在 Data Engine 任務(wù)中,Ctrl-World 生成數(shù)據(jù)的物理合理性確保了其可用于訓(xùn)練真實策略。原論文指出,許多模型生成的合成數(shù)據(jù)雖然視覺上清晰,但因缺乏物理一致性,訓(xùn)練出的策略在真實環(huán)境中完全失效(「virtual data training, real world failure」)。而 Ctrl-World 通過嵌入物理引擎約束的訓(xùn)練方式,確保生成的視頻不僅「看起來對」,更「物理上對」,使其合成的視頻 - 動作序列真正具備訓(xùn)練價值。

      Ctrl-World 的「制勝密碼」

      1. 動作條件化(Action-Conditioned)架構(gòu)

      與 Genie Envisioner、GigaWorld 等文本條件化模型不同,Ctrl-World 采用顯式動作建模,直接將機器人動作參數(shù)(關(guān)節(jié)扭矩、夾爪開合度)注入生成過程。原論文明確指出:「explicit action modeling plays a critical role in producing physically plausible interactions」(顯式動作建模對產(chǎn)生物理合理交互至關(guān)重要)。這使其能夠精確模擬接觸力反饋、慣性傳遞等物理現(xiàn)象,從根本上避免了文本模型常見的「物體穿透機械臂」、「隔空吸附」等錯誤。

      2. 物理引擎約束嵌入

      Ctrl-World 在訓(xùn)練過程中嵌入物理引擎約束,將牛頓力學(xué)定律「內(nèi)化」為生成過程的硬約束。不同于單純依賴像素統(tǒng)計規(guī)律的通用視頻模型,Ctrl-World 通過物理引擎監(jiān)督,強制生成內(nèi)容遵守質(zhì)量、摩擦、碰撞守恒律。這正是其策略評估相關(guān)性達到 0.986 的核心原因 —— 生成過程受物理規(guī)律約束,模擬的環(huán)境動態(tài)與真實物理模擬器的誤差極小。

      3. 多視圖聯(lián)合與視頻預(yù)測模型

      針對 Depth Accuracy 第一梯隊成績,Ctrl-World 融合多視圖聯(lián)合預(yù)測與視頻預(yù)測模型,不僅預(yù)測 RGB 像素,更隱式建模深度圖與點云結(jié)構(gòu),利用多視角數(shù)據(jù)訓(xùn)練空間認知能力,使其在處理「堆疊積木」等需要精確深度準確性的任務(wù)時,成功率超僅使用單目視頻訓(xùn)練的模型。

      從「生成好看」到「真能干活」

      世界模型進入新階段

      清華陳建宇團隊聯(lián)合斯坦福 Chelsea Finn 團隊研發(fā)的 Ctrl-World 在 WorldArena 拿下「具身任務(wù)第一、視頻生成綜合第二」的佳績,核心在于其精準把握了具身世界模型的本質(zhì) ——「以物理規(guī)律為根,以空間認知為骨,以功能 utility 為魂」。隨著更多模型加入評測、更多場景被納入體系,WorldArena 將持續(xù)推動具身世界模型向「更懂物理、更有空間感、更能干活」的方向發(fā)展,加速機器人自主智能的落地進程。

      WorldArena 相關(guān)資源

      • 項目主頁:http://world-arena.ai
      • 論文地址:http://arxiv.org/abs/2602.08971
      • GitHub 開源:https://github.com/tsinghua-fib-lab/WorldArena
      • 評測榜單:https://huggingface.co/spaces/WorldArena/WorldArena

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      《讓子彈飛》電影中,那個“肚兜”被扯飛的演員,現(xiàn)在怎么樣了?

      《讓子彈飛》電影中,那個“肚兜”被扯飛的演員,現(xiàn)在怎么樣了?

      小徐講八卦
      2026-02-26 14:25:06
      國乒混雙大潰?。?4分鐘速敗出局,扯下最后遮羞布,王楚欽太難

      國乒混雙大潰???24分鐘速敗出局,扯下最后遮羞布,王楚欽太難

      清衣渡a
      2026-02-26 11:44:50
      古巴領(lǐng)海發(fā)生船只交火,美國國務(wù)卿:事件“極其罕見”,美方將調(diào)查

      古巴領(lǐng)海發(fā)生船只交火,美國國務(wù)卿:事件“極其罕見”,美方將調(diào)查

      環(huán)球網(wǎng)資訊
      2026-02-26 08:41:07
      “窩囊”皇帝創(chuàng)造宋朝巔峰:仁宗四十年,勝過秦皇漢武

      “窩囊”皇帝創(chuàng)造宋朝巔峰:仁宗四十年,勝過秦皇漢武

      孔孔說體育
      2026-02-25 18:05:01
      消息稱前蘋果AI基礎(chǔ)模型團隊負責人龐若鳴被OpenAI挖走

      消息稱前蘋果AI基礎(chǔ)模型團隊負責人龐若鳴被OpenAI挖走

      IT之家
      2026-02-26 12:53:10
      攜程總裁辭職

      攜程總裁辭職

      觀察者網(wǎng)
      2026-02-26 15:05:38
      速成車已開始反噬了,不知車企有沒有后悔?外資車趁機落井下石

      速成車已開始反噬了,不知車企有沒有后悔?外資車趁機落井下石

      柏銘銳談
      2026-02-25 22:43:09
      真正的“逆齡運動”,堅持一年大腦年輕2.3歲!不是跑步、走路……

      真正的“逆齡運動”,堅持一年大腦年輕2.3歲!不是跑步、走路……

      人民日報健康客戶端
      2026-02-25 07:34:27
      放出1000輛,“中年人的一代神車”直降10萬元!

      放出1000輛,“中年人的一代神車”直降10萬元!

      每日經(jīng)濟新聞
      2026-02-26 00:48:36
      跌成白菜價,也沒人買?14億人輸給3億美國人,電視到底怎么了?

      跌成白菜價,也沒人買?14億人輸給3億美國人,電視到底怎么了?

      百科密碼
      2026-02-23 16:49:28
      天價拖車費后續(xù),交警介入,拖車公司求刪視頻退錢,當事人拒和解

      天價拖車費后續(xù),交警介入,拖車公司求刪視頻退錢,當事人拒和解

      社會日日鮮
      2026-02-25 12:17:53
      中國音樂家李梳曈在紐約路邊換胎時被撞身亡,年僅35歲,留下妻子和僅1歲的孩子

      中國音樂家李梳曈在紐約路邊換胎時被撞身亡,年僅35歲,留下妻子和僅1歲的孩子

      大象新聞
      2026-02-26 13:45:03
      官宣!正式加盟,連續(xù)9年全水啊,湖人終于醒目,佩林卡有救了

      官宣!正式加盟,連續(xù)9年全水啊,湖人終于醒目,佩林卡有救了

      球童無忌
      2026-02-26 16:01:13
      跨境襲擊白俄羅斯,破壞俄軍通訊系統(tǒng)!澤連斯基揭穿盧卡申科本質(zhì)

      跨境襲擊白俄羅斯,破壞俄軍通訊系統(tǒng)!澤連斯基揭穿盧卡申科本質(zhì)

      鷹眼Defence
      2026-02-25 18:40:24
      巴拿馬總統(tǒng)慌了,他猛然發(fā)現(xiàn):強吞中國18億資產(chǎn),竟是自尋死路

      巴拿馬總統(tǒng)慌了,他猛然發(fā)現(xiàn):強吞中國18億資產(chǎn),竟是自尋死路

      東極妙嚴
      2026-02-25 16:40:08
      美債清零?游戲結(jié)束,中方不救美元了,特朗普決策錯誤,急求和談

      美債清零?游戲結(jié)束,中方不救美元了,特朗普決策錯誤,急求和談

      財經(jīng)保探長
      2026-02-25 16:46:08
      AI也嫌煩?一用戶讓元寶多次修圖后竟遭辱罵:你媽個X

      AI也嫌煩?一用戶讓元寶多次修圖后竟遭辱罵:你媽個X

      三言科技
      2026-02-24 19:31:12
      徹底癱瘓!兩年了為何許家印遲遲不判刑?真相比你想象的更復(fù)雜

      徹底癱瘓!兩年了為何許家印遲遲不判刑?真相比你想象的更復(fù)雜

      歷史偉人錄
      2026-02-24 18:19:45
      王晶沒撒謊!退出春晚、和沈騰決裂,性格大變的賈玲印證他說的話

      王晶沒撒謊!退出春晚、和沈騰決裂,性格大變的賈玲印證他說的話

      胡一舸南游y
      2026-01-25 14:54:04
      減持字節(jié)暴賺!估值從200億美元到5500億美元,9年贏麻了

      減持字節(jié)暴賺!估值從200億美元到5500億美元,9年贏麻了

      財視傳播
      2026-02-26 10:17:08
      2026-02-26 16:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12368文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      女子家水費兩個月1847元 整整一個月每天用水都是13噸

      頭條要聞

      女子家水費兩個月1847元 整整一個月每天用水都是13噸

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經(jīng)要聞

      人民幣升破6.85,創(chuàng)3年新高

      汽車要聞

      別克君越/昂科威Plus直降5000元 限時優(yōu)惠價15.49萬起

      態(tài)度原創(chuàng)

      時尚
      本地
      旅游
      家居
      公開課

      無論幾歲,好心態(tài)萬歲!

      本地新聞

      津南好·四時總相宜

      旅游要聞

      冬日暖陽下的約克:一座中世紀小城的奇幻漫步

      家居要聞

      歸隱于都市 慢享自由

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版