“轉身,世界依然在那里。”
這聽起來很哲學。
但它成了AI科學家,送給我們不可思議的禮物。
就在前幾天,AI教母李飛飛教授的創業公司World Labs,完成名為RTFM(實時幀模型)的生成式世界模型。
它的核心魔力卻非常簡單。
![]()
給它一張靜態圖片,它能瞬間構筑一個完整的3D世界。
而你,還可以在這個世界里自由漫步。
當你轉身離開,這個世界不會消失,它靜靜地、永恒地等待你的歸來。
這一切,只需要一張H100 GPU來驅動。
過去,我們對元宇宙的所有想象,或許都錯在了起點。
數字世界,不是用代碼一磚一瓦堆砌的,而應該像這樣“生長”出來。
![]()
“創世”體驗
想象一下這個場景。
你手機里存著一張老家的書房照片,書桌、書架、窗外的樹影,都定格在那一瞬。
現在,你把這張照片喂給RTFM。
![]()
下一秒,你不再是一個旁觀者,你“走”進了這個書房。
你可以向前走,湊近書桌,看清上面攤開的書本字跡。
你可以向左轉,端詳書架上的每一本書的書脊。
你甚至可以抬頭,看到天花板上的吊燈,以及它投下的柔和光影。
這不是簡單的“360度全景圖”,而是真正的三維空間。
你可以進行“推拉變焦”,感受鏡頭的真實感。
你甚至能模擬出魚眼鏡頭的夸張失真效果,就像真的攝像機在拍攝。
關鍵在于,這個世界是“活”的。
它遵循物理規則,光滑的地板會映出倒影,陽光會投下動態的陰影。
鏡頭劃過,光源會產生逼真的光暈。
所有這些復雜的效果,都不是程序員預設的。
![]()
而是RTFM通過觀察海量視頻數據后,自己“學會”的。
有網友體驗后驚嘆道:“或許我們身處的世界,也是運行在‘單張’H100 GPU上的。”
這雖是玩笑,卻達出了那種震撼。
我們第一次擁有了在微觀尺度上模仿“造物”的能力。
![]()
RTFM的選擇充滿智慧
創造世界,其實是吞噬算力的無底洞。
事實也的確如此。
李飛飛團隊在博客中算了一筆賬,這筆賬讓人倒吸一口涼氣。
如果直接用現有AI視頻技術,生成60幀的4K交互視頻流。
每秒需要生成超過10萬個token(文本單元)。
![]()
這是什么概念?
相當于每秒就要“寫”出一本《哈利·波特與魔法石》的文本量!
而要維持一小時以上的持續交互,需要處理的上下文將超過1億token。
用現在的技術硬剛,既不可行,也絕不經濟。
就像在蒸汽機時代,非要造一架航天飛機,材料和技術都支撐不起這個藍圖。
但李飛飛和她的World Labs,走了一條更聰明、更智慧的路。
他們洞察到一個趨勢,在AI領域,能隨著計算能力提升而平滑擴展的簡單方法,往往會成為主流。
![]()
換句話說,他們不追求在今天就造出“完全體”的終極模型。
而是設計一個能優雅地“騎”在摩爾定律肩膀上的模型。
他們的目標非常務實。
單張H100 GPU上,實現交互級的幀率和無限持久的世界。
它讓高高在上的“世界模型”技術,在今天就能被觸摸、被體驗。
它不是一個實驗室里的龐然大物,而是一個已經可以預覽的未來。
![]()
三大原則鑄就“永不消逝”
RTFM究竟是如何實現的呢?
它的設計圍繞三個核心原則,這三大原則也是它成功的基石。
第一,效率。
這是硬指標,也是一切的起點。
單張H100就能跑,意味著極高的可部署性,它讓實時交互成為可能。
![]()
第二,可擴展性。
這是RTFM最聰明的地方。
它徹底拋棄了傳統3D圖形學那套復雜,人工設計的“顯式3D表征”。
比如三角網格、高斯潑濺。
相反,它采用了一種“端到端”的神經網絡。
直接從視頻數據里,學習世界的規律。
你可以把它理解成一個天生的“學習者”。
我們教孩子什么是貓,給他看無數張貓的圖片。
![]()
而不是給他講解貓的骨骼肌肉結構。
RTFM也是如此,它通過“觀看”海量視頻,自己總結出了光影、透視、材質的規律。
這意味著,給它更多、更好的數據,它的世界就會變得更逼真、更豐富。
第三,持久性。
這是最迷人的一點,也是“永不消逝”這個詞的由來。
早期的類似模型有個致命問題。
你探索過的地方,生成的畫面,如果你轉身離開再回來,系統可能需要重新生成,而且很可能生成得不一樣。
RTFM用了一個巧妙的辦法,來解決這個問題。
“位姿幀”, 它為生成的每一幀畫面,打上一個三維空間的坐標和朝向標簽。
所有這些帶位姿的幀,就構成了一個世界的“空間記憶系統”。
當你需要從一個新角度生成畫面時,RTFM不會傻傻地去回憶全部的歷史。
而是像我們人類一樣,只“檢索”你身邊最近的、最相關的畫面作為參考。
![]()
這個過程叫“上下文調度”。
正是這個機制,保證了這個世界擁有“永久記憶”。
你留下的每一個腳印,看過的每一處風景,都被妥善地安放在時空的某個坐標上,等待你的再次探訪。
![]()
AI學會了“腦補”真實
RTFM的突破,還在于它模糊了一個傳統界限,重建與生成。
過去,在計算機視覺里,“重建”是在已有視角間插值,填補空白,這相對精確。
然而“生成”卻是無中生有,創造從未見過的內容,但也更容易“胡編亂造”。
RTFM把這兩者融為了一體。
![]()
當輸入的信息很充分,它就傾向于精確地“重建”,忠實還原。
當輸入的信息很稀疏,它就會被“逼”著去進行合理的推測和“生成”。
像一個充滿想象力的畫家,幫你把畫面補充完整。
它是更快的渲染器,更是“學習型的渲染器”。
反射、陰影這些讓圖形學程序員頭疼不已的效果,RTFM不需任何人工指導。
僅通過觀察學習,就能自主掌握。
它學會的,是世界的底層語法。
當人們理解了RTFM的技術內涵,再回頭看它的創造者。
李飛飛教授的World Labs,其宏大的野心就清晰可見。
這家公司在今年4月成立,短短幾個月內就融資約2.3億美元。
![]()
估值突破10億美元,吸引了a16z、英偉達、AMD等頂級資本。
李飛飛一直強調,AI領域真正難的問題是“空間智能”。
RTFM和它前身的模型Marble,正是攻克這一難題的利劍。
短期內,這項技術將顛覆內容創作行業。
游戲和電影的制作方式將被徹底改變。
![]()
如今,設計師提供一個概念圖,一個完整的、可探索的虛擬場景就生成了。
這能節省的成本和時間是天文數字。
在游戲和電影之外,World Labs的規劃非常明確。
![]()
構建理解空間、物理的模型;賦能增強現實(AR)和機器人技術。
AR是一個能理解真實世界三維幾何,并能持久記憶的AI。
是數字信息穩定、逼真地融入現實的基礎。
機器人需要在模擬世界中進行海量訓練。
一個能夠自動生成無限逼真、可交互訓練環境的“世界模型”,是機器人普及的關鍵加速器。
RTFM的發布,像一個信號。
![]()
數字世界的基石,已經開始鋪設。
它或許還不夠完美,但已經在我們腳下展開。
在數字空間中,RTF創造一個永不消逝、遵守物理法則。
并能與我們實時交互的世界。
素材來源
1.《智東西》李飛飛造了個「永不消逝的世界」!單張GPU就能跑
2.《第一財經》“AI教母”李飛飛發布實時生成式世界模型!一張H100就能運行
3.《澎湃新聞》李飛飛發布全新世界模型,可在單張H100GPU上流暢運行
本文作者 | 檸檬雪
責任編輯 | 淡淡翠
策劃 | 淡淡翠
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.