<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      世界模型不止「視頻」如何評估?WorldLens提出實用化評估新框架

      0
      分享至



      生成式世界模型在機器人、自動駕駛、AIGC等領域的進展肉眼可見:從單視角、行車記錄儀式的視頻合成,到可控、多視角、長時序的 4D 場景生成,越來越多系統已經能輸出「看起來很逼真」的視頻畫面。

      但問題也隨之變得尖銳:當一個模型被稱為「世界模型」時,我們究竟在期待它具備什么能力?

      僅用 LPIPS、FVD 這類視頻指標,或「清晰 / 流暢 / 像真視頻」的主觀印象,很容易把討論停留在「像不像視頻」。而真正決定它是否能服務仿真、規劃、數據合成和閉環決策的,往往是那些視頻指標難以觸及的屬性:幾何是否自洽、多視角是否一致、時序是否穩定、行為是否可執行、下游是否可用、人類是否認可其物理與安全合理性。

      近期,WorldBench 團隊構建了全新、體系化的世界模型評測框架 WorldLens。

      據悉,這是領域內首個從生成 (Generation)、重建 (Reconstruction)、指令跟隨 (Action-Following)、下游任務 (Downstream)和人類偏好 (Human Preference)等五個維度同時出發,評測現有開源世界模型的框架。評測 EvalKit 現已公開。



      • 論文鏈接:https://arxiv.org/abs/2512.10958
      • 項目主頁:https://worldbench.github.io/worldlens
      • 開源評測代碼庫:https://github.com/worldbench/WorldLens
      • 官方 Leaderboard:https://huggingface.co/spaces/worldbench/WorldLens

      為什么「世界模型評估」會成為瓶頸?

      世界模型研究正快速從「能生成」走向「能用」。一旦它被放進真實鏈路,如作為仿真器用于閉環測試、作為數據引擎用于訓練感知與規劃、作為可交互環境支撐反事實推演,評估問題就不再是「文章里有沒有幾個指標」,而是決定整個方向能否規?;七M的基礎設施。



      現實中,我們經??吹揭环N現象:有的模型生成的視頻紋理很強、觀感極佳,但多視角幾何對不上,時序也容易抖;有的模型幾何更穩,卻在行為層面頻繁出現不合理運動;也有模型在開環指標上看似過關,但閉環很快崩掉。更麻煩的是,不同工作各用各的評測,結論難以對齊,失敗模式也難以復現與歸因。

      WorldLens 的核心動機很明確:評估對象已經從「視頻」變成「世界」,那么我們需要一套能覆蓋世界屬性 (World Attribute)、能診斷失敗來源、能在不同模型間公平對比的評測協議。



      WorldLens 是什么

      WorldLens并不試圖用一個分數給世界模型「蓋棺定論」,而是把評估拆成五個互補的 Aspect,讓每個 Aspect 回答一個現實問題:

      • 生成 (Generation):模型生成的畫面是否在對象、時間、語義、幾何、多視角層面都足夠可信?
      • 重建 (Reconstruction):這些序列能否被還原成一個穩定的 4D 場景,并在新視角下仍然成立?
      • 指令跟隨 (Action-Following):把生成世界「喂」給規劃器,Agent 還能不能「正常運行」?尤其是在閉環條件下。
      • 下游任務 (Downstream Task):用它生成的數據訓練 / 測試真實感知任務,是幫助還是負遷移?
      • 人類偏好 (Human Preference):人類看完是否會覺得「可信」「合理」「安全」?這種判斷能否被規模化學習成自動評估器?

      如果把世界模型看作一種新的「系統級組件」,這五個方面分別對應它在真實落地鏈路中的五個關鍵關卡:看得像、立得住、跑得動、用得上、說得通。



      Aspect 1: 生成 (Generation) ——「幀級真實」只是起點

      很多世界模型最先打動人的,是單幀畫面的清晰度與質感。但只要把鏡頭拉長到時序、把設置擴展到多攝像頭,就會出現大量「視頻指標不敏感,但真實系統非常在意」的問題。

      WorldLens在生成性評估這一部分,重點不是繼續追問「更像真實視頻了嗎」,而是把生成質量拆到更貼近世界屬性的層面。它會在對象層面檢查車輛、行人等關鍵參與者是否真實可信(例如外觀與語義是否對齊),也會在時序層面檢查同一個對象是否能穩定地保持「同一個身份」,避免出現紋理閃爍、形狀漂移、甚至像換了一個實體的情況。

      更關鍵的是,WorldLens把幾何與多視角一致性拉回到生成評估中心。即便模型不直接輸出深度,它仍然可以通過估計深度來觀察幾何隨時間是否平滑演化,從而捕捉到隱式幾何不穩定;同時,通過跨視角匹配衡量相機之間的結構與光度對齊,直接檢驗生成「多視角世界」的能力。

      Aspect 2: 重建 (Reconstruction) —— 如果是「世界」,就應當能被重建

      「像世界」不只是看起來合理,更重要的是它是否隱含一個可以被還原的穩定結構。WorldLens在重建方面做了一件很有辨識度的事:把生成視頻統一提升為 4D Gaussian Field,再從多個角度檢驗它的空間與時間一致性。

      在原視角上,它關心重建后能否忠實再現輸入(也就是最基礎的光度 / 外觀重現);但更有信息量的是新視角評測:沿著未見過的相機軌跡渲染新視圖,看是否會出現結構崩壞、遮擋錯誤或明顯偽影,并衡量新視圖與真實分布之間的差距。

      這一套流程經常會暴露出一種典型失效模式,也即論文中反復強調的「floaters」:在新視角下出現大量懸浮、不連續的幾何碎片。它非常直觀地揭示了一個事實:感知真實不等于幾何真實。一個模型可以把紋理做得極其逼真,但只要幾何與時序沒有被真正建模,新視角就會迅速「露餡」。



      Aspect 3: 指令跟隨 (Action-Following) —— 能「看」,不代表能「用」

      如果世界模型要進入自動駕駛的核心鏈路,繞不開的一步是:把它生成的世界交給規劃器,看系統還能不能跑起來。WorldLens在這一部分同時做了開環與閉環評測,目的不是「給規劃器打分」,而是把規劃器當作媒介,測試生成世界是否提供了足夠穩定、足夠可信的可行動線索。

      開環評測里,規劃器的輸出不反過來影響車輛狀態,因此更像是「在固定輸入上做預測」。不少模型在開環條件下仍能表現得相對體面。但一旦進入閉環,規劃輸出會不斷影響下一時刻狀態,誤差會累積放大,許多模型會很快出現碰撞、越界、漂移、路線中止等問題。WorldLens 給出的結論非常一致:閉環會顯著放大生成世界中那些肉眼未必立刻察覺的不一致。

      如果你的目標是用世界模型服務決策與控制,那么閉環評測就不應當是「可選項」,而應當是「必要條件」。WorldLens 的意義在于把這件事從經驗共識變成可復現的評估協議。

      Aspect 4: 下游任務 (Downstream Task) ——「好看」的合成數據,未必「有用」

      世界模型的另一個常見愿景,是成為數據引擎:生成更多訓練數據,幫助真實感知與預測模型。但合成數據是否「可用」,往往不是由視覺觀感決定的,而是由分布對齊、幾何噪聲與時間一致性決定的。

      WorldLens 直接把生成數據拿來評測多個真實下游任務,包括 BEV 地圖分割、3D 檢測、3D 跟蹤與語義 Occupancy 預測等。這里最具沖擊力的現象是:一些單看畫面非常漂亮的模型,在下游任務上反而會出現顯著退化,論文中報告的降幅可達 30–50%。這意味著合成數據并不能被簡單視為真實數據的等價替代,甚至可能帶來負遷移。

      這部分評測的價值在于,它把「世界模型是否有用」從理論討論落到了具體任務與具體數字上,并且指出了改進方向:如果目標是數據引擎,僅提升紋理質量遠遠不夠,結構與時間層面的對齊往往才是關鍵。



      Aspect 5: 人類偏好 (Human Preference) —— 把「人類判斷可信世界」變成可學習信號

      很多世界屬性 (World Attribute) 本質上包含主觀判斷:什么叫「可信」「合理」「安全」?純自動指標很難覆蓋這種綜合感受。

      WorldLens因此構建了大規模人類偏好數據集WorldLens-26K,包含 26808 條評測樣本,每條既有數值評分,也有自然語言解釋,用來記錄標注者為什么給出這個分數、注意到了哪些異常。

      更重要的是,WorldLens并沒有把人類評測停留在「投票式打分」,而是把這些偏好監督進一步用于訓練自動評估代理 WorldLens-Agent。該 Agent 能輸出與人類偏好一致的評分,并生成可解釋的理由,從而在不重復大規模人工標注的前提下,實現可擴展、可復現的主觀評估。

      從研究視角看,這一步相當于把「人類覺得哪里不對」轉化成了可學習、可迭代的評估器,也為未來用偏好對齊來反向優化世界模型打開了路徑。



      沒有「全能模型」,但失效模式高度一致

      WorldLens 的價值不止于 benchmarking,更在于用統一評估把不同模型的能力邊界與失效模式系統性地暴露出來??缥鍌€ Aspect 的結果呈現出幾個非常穩定、也很值得反復咀嚼的現象。



      首先,不同 Aspect 之間存在明顯的能力斷層。Generation 指標上領先的模型,未必能在重建與新視角上站得??;單視角觀感極佳的模型,跨視角一致性可能依然脆弱;開環還能勉強運行的模型,閉環往往迅速失穩。這說明世界模型的能力并不是一條從差到好的線性刻度。



      其次,幾何與時序穩定性像一條「共同瓶頸」,貫穿 Generation、Reconstruction、Action-Following 乃至 Downstream Task。幾何不穩會在新視角下暴露為 floaters,也更容易在閉環中放大為事故,并進一步拖累下游任務表現。

      這也解釋了一個常見困惑:為什么某些模型看起來更清晰,卻不一定更可用 —— 因為紋理質量并不能替代世界結構的自洽。



      再次,閉環評測會把世界模型的缺陷放大到「無法忽視」。在閉環中,任何微小的不一致都會持續積累,最終表現為碰撞、偏航與路線失敗。這對于希望把世界模型用于仿真、驗證與安全測試的研究者而言,是非常直接的提醒:如果只在開環里「看起來不錯」,距離真實可用仍然很遠。



      最后,人類偏好與自動指標既相關又不完全一致。人類解釋文本往往會直接指出幾何異常、物理違背與行為風險,這些信息對理解失敗原因非常關鍵,也為自動評估代理提供了訓練依據。換句話說,主觀評估并不是「不可量化的玄學」,而是可以被結構化、被學習、并最終進入評估閉環的一部分。



      總結:評估將與生成同等重要

      當世界模型從「生成好看的片段」走向「構建可交互的世界」,評估就必須從「視頻質量」升級為「世界屬性」。WorldLens 的貢獻在于把這件事做成了可執行的協議:用五個 Aspect 覆蓋從視覺到幾何、從功能到偏好的一整條鏈路,并用人類數據與評估代理把主觀判斷也納入可規?;捏w系。

      如果說世界模型的上半場比拼的是「能不能生成」,那么下半場更可能比拼的是:能不能生成一個在幾何、物理、行為與人類判斷上都經得起檢驗的世界。WorldLens 試圖為這場下半場提供一套共同語言。

      作者介紹

      本工作由 WorldBench 團隊完成,該團隊匯集了來自世界模型、視頻生成、自動駕駛等方向的研究者,在領域內構建了體系化、易用、性能可靠的各類生成 / 評測框架,包括 VBench、LiDARCrafter、DynamicCity、DrivingSphere、AD-R1 等

      研究者來自世界知名高校、企業,包括了新國立、中科院、中科大、浙大、澳門大學、地平線、南洋理工、華科、慕尼黑工大、復旦、上海人工智能實驗室等

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      阿妹講故事
      2025-03-12 22:39:50
      俞灝明王曉晨十指緊扣出行,像似老夫老妻,低調愛情引網友猜測

      俞灝明王曉晨十指緊扣出行,像似老夫老妻,低調愛情引網友猜測

      今古深日報
      2025-12-22 10:43:21
      大清滅亡時,知府知縣們都去哪兒了?

      大清滅亡時,知府知縣們都去哪兒了?

      優趣紀史記
      2025-12-23 22:18:42
      鄭州發布放假調休通知

      鄭州發布放假調休通知

      大象新聞
      2025-12-23 15:17:45
      百萬網紅全員惡人,妻子提出開放性關系,丈夫出軌19歲女生懷孕

      百萬網紅全員惡人,妻子提出開放性關系,丈夫出軌19歲女生懷孕

      觀察鑒娛
      2025-12-21 12:14:12
      空氣突發告急!超千萬人受影響,南加州發布最高級別空氣污染警報

      空氣突發告急!超千萬人受影響,南加州發布最高級別空氣污染警報

      華人生活網
      2025-12-23 03:44:56
      江蘇一工廠趕單急,孫某為了600元獎勵主動扛下連續24小時雙機床

      江蘇一工廠趕單急,孫某為了600元獎勵主動扛下連續24小時雙機床

      搗蛋窩
      2025-12-24 02:51:13
      人口告別世界第一?二孩催生無效后,國家終于向住房出手了

      人口告別世界第一?二孩催生無效后,國家終于向住房出手了

      奇思妙想草葉君
      2025-12-23 22:58:43
      巔峰時年入超千萬,錢被騙光找球迷借!戴琳曾被債主堵在基地門口

      巔峰時年入超千萬,錢被騙光找球迷借!戴琳曾被債主堵在基地門口

      中國足球的那些事兒
      2025-12-17 18:01:36
      與妻子搏斗48年,82歲的托爾斯泰出逃,客死他鄉,臨終仍喊:快逃

      與妻子搏斗48年,82歲的托爾斯泰出逃,客死他鄉,臨終仍喊:快逃

      墨說古今
      2025-12-23 21:51:02
      殺瘋了!“平民版”問界SUV,僅售9萬多,華為互聯+1400km續航!

      殺瘋了!“平民版”問界SUV,僅售9萬多,華為互聯+1400km續航!

      隔壁說車老王
      2025-12-21 08:16:41
      1992年,吳德罹患血液病,女兒致信中央:可否恢復副國級待遇?

      1992年,吳德罹患血液病,女兒致信中央:可否恢復副國級待遇?

      據說說娛樂
      2025-12-24 00:25:59
      NBA開拓者惹眾怒,棄用楊瀚森引連鎖反應,當地球迷紛紛退票反擊

      NBA開拓者惹眾怒,棄用楊瀚森引連鎖反應,當地球迷紛紛退票反擊

      二哥聊球
      2025-12-23 22:31:37
      任正非沒想到,孟晚舟卸任華為董事后,姚安娜竟開始給他爭光了

      任正非沒想到,孟晚舟卸任華為董事后,姚安娜竟開始給他爭光了

      小欣欣聊體育
      2025-12-21 18:21:32
      乾隆當朝問誰最忠,劉墉答大清無忠臣,皇帝大笑后重賞老臣

      乾隆當朝問誰最忠,劉墉答大清無忠臣,皇帝大笑后重賞老臣

      曉艾故事匯
      2025-12-18 17:19:32
      2026年如果房價繼續下跌,我國有一半的家庭或將面臨三個現實壓力

      2026年如果房價繼續下跌,我國有一半的家庭或將面臨三個現實壓力

      裝修秀
      2025-12-11 11:20:03
      自己卷自己!12306顯示廣州-湛江列車打折了,從200多降到131元…

      自己卷自己!12306顯示廣州-湛江列車打折了,從200多降到131元…

      火山詩話
      2025-12-23 05:08:05
      看宋畫就知道,我們離中國的傳統越來越遠了

      看宋畫就知道,我們離中國的傳統越來越遠了

      中國藝術家
      2025-12-21 05:23:40
      七瀨愛麗絲:從整容破產到三社搶人,這顏值天花板太狠了

      七瀨愛麗絲:從整容破產到三社搶人,這顏值天花板太狠了

      素然追光
      2025-12-23 20:06:55
      百團大戰是背著主席擅自發起的嗎?彭德懷晚年承認:當時有點急

      百團大戰是背著主席擅自發起的嗎?彭德懷晚年承認:當時有點急

      許穋很機智
      2025-12-22 17:37:11
      2025-12-24 04:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11980文章數 142518關注度
      往期回顧 全部

      科技要聞

      慘烈90分鐘!快手驚魂:遭遇最強黑產攻擊

      頭條要聞

      與多名女子在泳池大尺度照片披露 克林頓最新回應

      頭條要聞

      與多名女子在泳池大尺度照片披露 克林頓最新回應

      體育要聞

      楊瀚森連續5場DNP!開拓者遭活塞雙殺

      娛樂要聞

      朱孝天回應阿信感謝,自曝沒再收到邀約

      財經要聞

      祥源系百億產品爆雷 浙金中心18人被拘

      汽車要聞

      四款新車集中發布 星途正式走進3.0時代

      態度原創

      親子
      教育
      房產
      本地
      公開課

      親子要聞

      嚴禁引入第三方,管住幼兒園亂收費 | 新京報快評

      教育要聞

      2025山東高考公安政法類錄取分數線

      房產要聞

      獨家猛料!16.1億,浙江老板搶下雅居樂清水灣261畝重磅宅地!

      本地新聞

      云游安徽|宣城何以動人心,百年塔影一城徽韻

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 石城县| 亚洲国产精品久久久久婷婷图片| 午夜综合网| 色欲av亚洲一区无码少妇| 武冈市| 亚洲性受| 中文字幕无码av激情不卡| 婷婷丁香五月深爱憿情网| 熟妇人妻中文字幕| 九九精品在线观看| 狠狠88综合久久久久综合网 | 亚洲性av网站| 人妻少妇乱子伦精品无码专区电影| 亚洲精品一二三四区| 京山县| 女人张开让男人桶出水视频免费版| 宁津县| 亚洲色无码国产精品网站可下载| 日韩人妻系列无码专区| 极品人妻少妇| 人妻中文字幕精品系列| 老太脱裤让老头玩ⅹxxxx| www夜插内射视频网站| 伊人网狼人| 无码黑人| 无码爆乳护士让我爽| 伊人在线视频| 99在线观看视频| 香蕉久久精品日日躁夜夜躁夏| 久久av色欲av久久蜜桃网| 亚色天堂| 人妻夜夜爽天天爽一区| 新绛县| 一个人在线观看免费视频www| 97超碰电影| 国产午夜精品av一区二区麻豆| 国产熟妇??码视频| 亚洲AV第二区国产精品| 乱中年女人伦| 精品视频九九| 四虎影视久久久免费观看|