![]()
編輯 | 杜偉、澤南
又一位大佬準備對現(xiàn)有 AI 技術范式開刀了。
今天凌晨,英偉達高級研究科學家、機器人團隊負責人 Jim Fan(范麟熙)發(fā)布文章《第二代預訓練范式》,引發(fā)了機器學習社區(qū)的討論。
![]()
Jim Fan 指出,目前以大語言模型(LLM)為代表的 AI 模型主要基于「對下一詞的預測」,這第一代范式雖然取得了巨大成功,但在將其應用于物理世界時,出現(xiàn)了明顯的「水土不服」。
對于這個觀點,紐約大學助理教授、谷歌 DeepMind 研究科學家謝賽寧也表示同意。
![]()
那么預訓練的第二代范式應該是什么樣子?我們先來看 Jim Fan 的全文內容:
「預測下一個詞」曾是第一個預訓練范式。而現(xiàn)在,我們正處于第二個范式轉移之中:世界建模(World Modeling)或者「預測下一個物理狀態(tài)」
很少有人意識到這場變革的影響有多么深遠,遺憾的是,目前世界模型最被大眾熟知的用例只是些 AI 視頻廢料(以及即將到來的游戲廢料)。但我敢全心篤定,2026 年將成為「大世界模型」(Large World Models, LWMs)為機器人學以及更廣泛的多模態(tài) AI 奠定真實基礎的元年
在此背景下,我將「世界建模」定義為:在特定動作的約束下,預測下一個(或一段持續(xù)時間內)合理的物理世界狀態(tài)。 視頻生成模型是其中的一種實例化體現(xiàn),這里的「下一狀態(tài)」是一系列 RGB 幀(通常為 8-10 秒,最長可幾分鐘),而「動作」則是對該做什么的文本描述。訓練過程涉及對數(shù)十億小時視頻像素中未來變化的建模。
從核心上看,視頻世界模型是可學習的物理模擬器和渲染引擎,它們捕捉到了「反事實」。這是一個更高級的詞匯,意指在給定不同動作時,推理未來的演化如何不同。世界模型從根本上將視覺置于首位。
相比之下,視覺語言模型(VLMs)在本質上是「語言優(yōu)先」的。從最早的原型(如 LLaVA)開始,其敘事邏輯幾乎未變:視覺信息從編碼器進入,然后被路由到語言主干網(wǎng)絡中。隨著時間的推移,編碼器在改進,架構更趨簡潔,視覺也試圖變得更加「原生」(如 omni 模型)。但它始終像是一個「二等公民」,在物理規(guī)模上遠遜于業(yè)界多年來為大語言模型(LLMs)練就的肌肉。
這條路徑很便捷,因為我們知道 LLM 是可擴展的。我們的架構直覺、數(shù)據(jù)配方設計以及基準測試(如 VQA)都高度針對語言進行了優(yōu)化。
對于物理 AI,2025 年曾被 VLA(視覺 - 語言 - 動作)模型主導:在預訓練的 VLM 檢查點之上,硬生生嫁接一個機器人電機動作解碼器。這其實是 「LVA」:其重要性排序依次為語言 > 視覺 > 動作。同樣,這條路徑很方便,因為我們精通 VLM 的訓練套路。
然而,VLM 中的大部分參數(shù)都分配給了知識(例如「這團像素是可口可樂品牌」),而非物理(例如「如果你打翻可樂瓶,液體會蔓延成一片褐色污漬,弄臟白桌布,并毀掉電機」)。VLA 在設計上非常擅長知識檢索,但在錯誤的地方顯得「頭重腳輕」。這種多階段的嫁接設計也違背了我對簡潔與優(yōu)雅的追求。
從生物學角度看,視覺主導了我們的皮層計算。大腦皮層約有三分之一的部分專門用于處理枕葉、顳葉和頂葉區(qū)域的像素信息。相比之下,語言僅依賴于一個相對緊湊的區(qū)域。視覺是連接大腦、運動系統(tǒng)和物理世界的高帶寬通道,它閉合了「感覺運動回路」。這是解決機器人問題的最核心環(huán)路,而且這個過程的中轉完全不需要語言。
大自然給了我們一個存在性證明:一種具有極高肢體智能但語言能力微乎其微的生物 —— 類人猿。
我曾見過類人猿駕駛高爾夫球車,像人類技工一樣用螺絲刀更換剎車片。它們的語言理解能力比不過 BERT 或 GPT-1,但它們的物理技能遠超目前最先進的機器人。類人猿或許沒有強大的語言模型,但它們肯定擁有極其穩(wěn)健的「如果... 會怎樣」的心理圖景:即物理世界如何運作,以及如何應對它們的干預。
世界建模的時代已經(jīng)到來,它充滿了「苦澀的教訓」的味道。正如加州大學伯克利分校教授 Jitendra Malik 經(jīng)常提醒我們這些「規(guī)模崇拜者」所說:「監(jiān)督學習是 AI 研究者的鴉片。」YouTube 的全部存量以及智能眼鏡的興起,將捕捉到規(guī)模遠超人類歷史所有文本的原始物理世界視覺流。
我們將見證一種新型預訓練:下一個世界狀態(tài)可能不限于 RGB 圖像,3D 空間運動、本體感覺和觸覺感知才剛剛起步。
我們將見證一種新型推理:發(fā)生在視覺空間而非語言空間的「思維鏈」。你可以通過模擬幾何形狀和接觸點,想象物體如何移動和碰撞來解決物理難題,而無需將其轉化為字符串。語言只是一個瓶頸,一個腳手架,而非根基。
我們將面臨一盒全新的潘多拉之問:即使有了完美的未來模擬,動作指令該如何解碼?像素重建真的是最佳目標嗎,還是我們應該進入另一種潛空間?我們需要多少機器人數(shù)據(jù),擴展遙操作規(guī)模仍是標準答案嗎?在經(jīng)歷過這些探索后,我們是否終于在向機器人領域的「GPT-3 時刻」邁進?
Ilya 終究是對的,AGI 尚未收斂。我們回到了「研究的時代」,沒有什么比挑戰(zhàn)第一性原理更令人心潮澎湃了。
Jim Fan 對現(xiàn)狀的思考以及對未來的判斷,同樣收獲了評論區(qū)大量網(wǎng)友的認可。
![]()
![]()
有人認為這是「神經(jīng)符號 AI 社區(qū)的勝利」。
![]()
你認同 Jim Fan 的觀點嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.