![]()
大數據文摘受權轉載自智源社區
強化學習智能體在像素環境中可實現游戲高分刷新,但關鍵線索隱匿時即陷入決策困境;生成模型雖能生成光影逼真場景,卻無法解析 “積木傾塌” 背后的基礎物理邏輯。
人工智能對真實世界的認知,受限于以 “理解” 為核心的 “世界模型” 門檻。
如今任職于哈佛大學Kempner 研究所與計算機科學系的助理教授Yilun Du正是該領域的核心探索者之一。憑借 MIT 博士畢業的扎實理論基礎,他一直以來致力于通過生成式人工智能構建具備推理與規劃能力的世界模型。他開創了用生成模型進行決策規劃的新范式,并提出基于可組合性 和 “模型社會” 的下一代世界模型藍圖。
OpenAI、FAIR、DeepMind 等諸多全球頂尖 AI 實驗室,都留下過他的研究足跡。這些經歷,讓他對行業前沿動態有了多維度的深刻洞察。
與此同時,Yilun Du也始終堅持著能量基模型(EBMs)的研究方向,為破解世界模型困境提供了關鍵思路。他早年聚焦能量景觀學習,提出通過建模數據能量分布捕捉事物本質。這一突破為 2020 年擴散模型迭代埋下伏筆,也成了可組合生成建模的重要理論基石。他認為,EBMs 能超越傳統模型的淺層擬合,挖掘底層能量邏輯,與世界模型的需求高度契合。就像孩子靠積木凹凸拼接、堆疊平衡的基本邏輯,能搭出城堡、橋梁等無數造型,Yilun Du 認為,復雜世界的運行也遵循著簡潔深刻的底層規則。
若能構建可靈活組合、動態適配這些規則的模型,就能突破訓練數據局限,觸達數據集中從未出現過的新場景。而打開世界模型的 “理解之門”,還需跨越三座關鍵關卡:當前模型缺乏因果性與物理規律、需支持良好規劃和要能泛化到未見過的事物。
這是模型從實驗室走向真實場景的關鍵,也是可組合建模的核心價值。關于如何突破這三重關卡,他在與智源的對話中分享了諸多洞見,從技術路徑的探索方向,到個人研究心得均有涉及,其中便包括他獨特的閱讀經驗—— “偏愛研讀經典的 AI 老論文,尤其是心理學、神經科學領域的相關文章”。以下是本期智源專訪的完整內容。
智源專訪欄目意在展現行業頂尖技術研究者和創業者的研究經歷和故事,記錄技術世界的嬗變,激發當代AI從業者的創新思維,啟迪認知、關注突破性進展,為行業注入靈感光芒。本次專訪為總第31期。
簡介:Yilun Du,哈佛大學肯普納研究所與計算機科學學院助理教授、博士生導師。麻省理工學院電子工程與計算機科學系博士,師從萊斯利·凱爾布林、托馬斯·洛薩諾-佩雷斯和約書亞·特南鮑姆教授。曾任OpenAI研究員,并在Meta FAIR與Google DeepMind從事研究。主要研究方向包括生成建模、具身智能、機器人學習與決策推理,致力于通過生成式人工智能構建具備推理與規劃能力的世界模型。相關研究在NeurIPS、ICML、ICLR、ICCV、RSS等多次發表,其在能量基模型和擴散模型方面的工作對生成式人工智能的發展具有重要影響。
采訪:李夢佳
編輯:陳然
01
學術起點,高中起對生物充滿熱忱
“對生物的興趣是我的重要起點,讓我對如何創造智能產生濃厚興趣”
采訪者:在求學和工作過程中,您認為有哪些關鍵經歷對您的學術方向產生了影響?
Yilun Du:第一個關鍵經歷,是從小便接觸生物相關知識。那時我參加過生物奧林匹克競賽,由此對 “如何創造智能” 產生了濃厚興趣,所以高中階段對生物的熱忱,成了我探索智能領域的重要起點。進入本科后,我關注到 DeepMind 及其 AlphaGo 的相關成果。這些突破讓我真切感受到 “創造人工智能” 這一方向的獨特魅力,也進一步加深了我對該領域的興趣。本科第三年,我在 OpenAI 度過了 9 個月,期間主要圍繞能量基模型和人工智能模型開展研究。這段經歷同樣意義非凡,也正是從這時起,我萌生了攻讀博士、投身科研的想法。
采訪者:您在OpenAI、FAIR還有DeepMind這些頂尖實驗室都有過研究經歷,這些不同的環境,在研究風格、問題選擇以及目標上會有什么不同嗎?
Yilun Du:差異較大。2018年我在OpenAI時,它才剛剛起步,總共只有二十幾個人。那時候80%的人在做強化學習,20%的人在做各種深度生成模型,比如語言模型或者我們當時在做的能量基模型,和現在的OpenAI很不一樣,規模真的很小。不過那時候OpenAI的人們特別專注,大家都非常相信自己所做的事情,我覺得現在行業里最聰明的一批人都在那里,每個人都很投入。
而FAIR、DeepMind等公司規模則大得多,每個公司都有好幾百人甚至好幾千人,整體氛圍會輕松一些,和OpenAI的緊張專注不太一樣,而且大家對科研的關注點也有所不同。在人工智能領域,OpenAI的研究方向和硅谷的關聯更緊密,大家特別想做出通用人工智能相關的成果。但DeepMind的研究更偏向科研性質,有些人關注計算機科學,有些人專注神經科學,還有人研究人工智能在科學領域的應用,研究方向更開放、沒有那么局限。我幾年前在FAIR的時候,那里的研究氛圍也比較開放,當時我們在做FAIR Protein相關的研究,類似ESM這種用語言模型研究蛋白質的方向,整體也是比較開放的狀態。
采訪者:在這些過往經歷中,您覺得有沒有對您影響特別大的人物或者相關的理論?
Yilun Du:我在 OpenAI 期間經歷了蠻大的轉變。當初選擇加入 OpenAI,是因為看到他們開發出能玩《DOTA2》的智能體,所以最開始我對智能體格外感興趣。在 OpenAI 的日子里,我每天都會和 Ilya Sutskever 交流,他常跟我說,自己不太相信通用強化學習,卻對通用模型格外認可,尤其是能量基模型。
也正因如此,我從那時起開始投身能量基模型與通用模型的研究。那會兒行業里,大家基本都在使用生成對抗網絡,且這類網絡僅應用于圖像領域;同時智能體的研究正當火熱,幾乎沒人涉足生成模型相關方向,所以我們當時做這個領域,總覺得格外有意義。
從那之后,我便一直對能量基模型抱有濃厚興趣。后來依托我們在能量基模型上的研究,又延伸出擴散模型相關的工作 —— 由于擴散模型與能量基模型極為相似,我們還將之前在能量基模型上的成果遷移到了擴散模型中。這段經歷,也讓我最終確定了如今的研究方向。
![]()
圖注:Ilya Sutskever圖片(圖源CNN)
02
EBM或將在推理領域有大突破
“真正想學習的EBM,是要讓真實答案都是低能量,其余答案都是高能量。”
采訪者:請您分析一下基于能量基模型(EBM)和基于分數(score)的模型,您認為它們有什么不一樣的地方?各自有什么優點、缺點呢?
Yilun Du:其實可以說分數模型就是能量基模型的一種。傳統意義上,分數匹配是訓練能量基模型的一種方法。但能量基模型本身有個特點:當你學習到能量景觀之后,若想生成一張圖像,便可采用自適應測試時計算的方式 —— 你希望能量優化運行多久,它便能運行多久。如此一來,比如生成圖像時,你能通過運行多步朗之萬動力學得到理想圖像。這正是能量基模型的優勢所在,即可以通過控制采樣時間,提升生成結果的質量。而分數模型,正是學習能量基模型的一種方式。像大家熟知的 Jaccard 相似系數,早在 21 世紀初就有不少人探索這種方法。從這個角度來講,分數模型其實就是能量基模型的一種。
注:Jaccard相似系數主要用于計算符號度量或布爾值度量的個體間的相似度(一般用于解決非對稱二元的相關性問題),無法衡量差異具體值的大小,只能獲得“是否相同”這個結果,所以Jaccard系數只關心個體間共同具有的特征是否一致這個問題。Jaccard系數等于樣本集交集與樣本集合四集的比值,可以用于計算兩個集合的相似性,無論這些集合是文檔、用戶的興趣愛好或任何其他類型的集合。
采訪者:在未來兩三年里,EBM可能會最先在哪一個應用領域取得突破?
Yilun Du:我覺得能量基模型在推理領域應該會有蠻大的突破。現在推理的一個核心問題,是如何通過更多的測試時計算,得到更優的答案。當下大家用鏈式思維做推理,會發現很多推理任務其實頗具難度 —— 有些推理過程難以用語言清晰表述,而且當鏈式思維的流程拉得很長時,也很難明確它具體的運行邏輯。
能量基模型有個鮮明特點,就是能通過采樣直接生成答案,因此你可以通過多步優化,逐步趨近并得到最終答案。我們最近有一篇論文《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》,正是將語言模型的可能性也視作一種能量,再在其上通過采樣開展推理。
所以我認為,用采樣與迭代優化的思路來做推理,是讓模型能夠依據可用時間,靈活決定測試時計算量的好方式。
![]()
圖注:《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》
采訪者:目前最關心的研究方向是什么?
Yilun Du:總的來說,我現在對智能體的構建格外感興趣。比如如何打造出色的機器人,讓它能完成各類家庭或工作任務;又或者如何研發線上智能體,幫人們處理發郵件、購物等事務 —— 核心就是探索智能體的構建方法。我感覺目前最大的問題,在于現有系統在這方面的表現都不盡如人意。像語言模型智能體,環境稍有變化便無法正常工作,可靠性不足;機器人也是如此,一旦環境改變或接到新任務,往往難以順利運行。
我認為問題的核心在于決策環節。世界本身存在無限可能,我或許會給智能體設定從未見過的目標,而這些目標并未包含在訓練數據集中,導致系統在新環境下無法給出理想答案。這便是泛化難題。通常訓練神經網絡時,它會擬合給定的訓練數據集,但在決策任務中,遇到未見過的目標,就會超出數據集的覆蓋范圍。
那該如何解決這個問題呢?我認為必須讓系統具備推理能力,能夠通過規劃或搜索得出答案。具體該如何通過搜索與規劃獲取動作呢?我們一直在開展能量基模型相關的研究,也可以采用廣度模型,比如學習一個動力學模型。有了動力學模型,再結合動作序列,就能得到動作軌跡;依據這些動作可計算出能量,進而借助能量進行搜索。所以我覺得,要做好決策,離不開通過搜索或推理來獲取答案。
采訪者:在實際落地過程中,EBM的穩定性和收斂性是否是現在的工程挑戰之一?目前有哪些解決思路?
Yilun Du:有一個思路是,擴散模型中的分數匹配其實就是 EBM 的一種訓練方式,因此可將擴散模型大致解釋為 EBM。不過兩者存在一點差別:擴散模型通常只需運行幾步,從噪聲起步,依據時間積分即可得到答案。但若是將決策模型解釋為 EBM,采樣過程便有所不同 —— 需在高噪聲水平下運行多步以獲取一個答案,隨后進入下一個時間步,再運行多步。如此一來,其實可以將未來模型轉化為類似 EBM 的形態。我們最近有一篇論文《Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models》的,把流匹配這類方法稍作修改,便使其成為了真正的 EBM,可見二者本質上十分接近。
當然,我們真正希望學習的 EBM,需讓真實答案均處于低能量狀態,其余答案則處于高能量狀態。但通過分數匹配的方式學習能量景觀時,每個正確答案都會成為一個局部最小值,能量在此處雖達到最低,可這些能量值有高有低,并非理想的 EBM 景觀。因此,若想真正學習到優質的 EBM 基線,還必須借助對比學習 —— 需找到辦法將所有正確答案的能量向下壓制,同時將其余答案的能量向上推升。這一過程頗具難度,核心在于要設法構建出優質的負樣本。
![]()
圖注:Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers網站頁面
03
世界模型,如何泛化到前所未見的事物?
“世界上只有幾個簡單的規則,構建一個組合模型就能泛化到其他”
采訪者:目前世界模型方面,要攻克的最關鍵問題是什么?
Yilun Du:我覺得世界模型有幾個關鍵問題。第一個大問題,現在的世界模型不夠有因果性,也不夠符合物理規律。比如讓像Sora這樣的模型去抓一個杯子,杯子可能就浮起來了,其實根本沒抓上,說明這些世界模型的物理準確性不足。
第二個問題,世界模型并不需要最準確的,而是需要能支持良好規劃的能力。比如我想規劃去夏威夷旅游,如果用現在的視頻生成模型作為世界模型,是做不到的,因為讓它模擬“打開網站、點擊按鈕訂機票”這個過程,每一步都模擬不出來。我覺得有些任務中,世界模型不應該模擬每一張照片,有時候需要模擬幾張照片,而有時候需要模擬更高層次的知識。所以世界知識必須是分層的,不只是模擬下面幾幀照片的方式。
第三個大問題,需要讓這些模型能泛化到沒見過的東西。比如YouTube上有各種視頻,像“抓杯子”的視頻很多,但“沒抓好杯子把杯子摔壞”的視頻很少。但如果真想把視頻模型用在機器人上,就必須讓模型能準確模擬沒見過的場景。所以怎么實現這種好的泛化能力,是個很有意思的問題。我們一直在做組合結構相關的工作,認為世界上其實只有幾個簡單的規則,只要構建一個能把這些簡單規則組合起來的模型,就能泛化到沒見過的場景。但泛化確實是個大問題,現在大家展示世界模型時只放幾個視頻,能展示幾個好的案例,但如果要真正用在機器人上,不能只生成一兩個視頻,而是要100%的時候都能生成好的動作規劃,所以泛化能力就非常重要了。
采訪者:關于現有的那些世界模型,它們的方法有哪些?
Yilun Du:我感覺如今大家似乎把許多事物都稱作世界模型。有人會說圖像模型是世界模型,也有人認為視頻模型屬于世界模型。在我看來,不妨去翻閱傳統 AI 的論文,其中便有 “基于模型的智能” 這一概念。像邏輯專家系統這類傳統 AI 系統,都秉持著這樣的思路:先建立一個數據庫或儲備一些信息,用以描述世界的演變規律;再設計一個推理過程,結合既定目標,通過推理,依據信息數據庫與目標推導出最終答案。我認為,這才是世界模型最通用的形態。
采訪者:世界模型應該要記住世界的哪些關鍵信息,它又是怎么篩選那些信息的?
Yilun Du:這是個有意思的問題,其實我們不太清楚到底要記哪些信息。一方面,大型語言模型記了很多信息,尤其是高層級信息,比如想訂機票去開會,它知道每一步該怎么操作,所以語言模型有特別多的高層級信息。另一方面,視頻模型則有更多低層級的物理信息,比如想系鞋帶,視頻模型可以告訴我具體怎么做。再比如動作模型、觸覺模型或者音頻模型,它們又各自包含各種其他信息。所以我的感覺是,我們也不太清楚到底需要多少信息,但應該把現在這些模型都當作不同的信息源。比如我們有了這些源信息,再把機器人放在真實世界中,讓它在真實世界里學習剩下未知的信息。
怎么篩選到有用的信息,這也特別重要。因為信息量大的話,很難找到正確的答案或信息來完成想做的事。不過現在的語言模型其實有一個非常高效的獲取信息的方式 —— 傳統的數據庫信息量大,但查到正確答案很費勁,而語言模型只要你問它問題,就能給出一個答案。這個答案可能不準確,所以需要多花點時間計算 / 推理來得到正確答案,但至少答案應該是比較接近準確的。
所以我覺得可以用現在的生成模型作為幫助找到有用信息的方式。你可以想象,我有一個語言模型、一個視頻模型、一個動作模型,根據我需要的信息直接查詢這些模型,就能得到大概需要的信息了。
![]()
圖注:Yilun Du 參加神經人工智能前沿研討會,討論“學習世界組合模型”
采訪者:關于具身智能領域,宏觀趨勢下,未來10年可能推動具身智能進步的核心驅動力會是什么?
Yilun Du:我認為當前存在幾個關鍵問題亟待解決。第一個尤為突出的問題是記憶缺失。如今我們研發的系統,比如依據單張照片執行策略的模型,普遍缺乏記憶能力。正因為沒有記憶,舉個例子,若要尋找某件物品,它可能打開柜子后又關上,過不了多久,就因毫無記憶再次打開同一個柜子。這便是當下模型普遍面臨的記憶短板。更關鍵的是,即便在策略中融入記憶模塊,實際效果也不盡如人意 —— 這些策略往往無法真正理解記憶的價值與用途。
第二個核心問題是持續學習的實現。現在的模型,大多依賴龐大的數據集完成訓練,訓練結束后,進入真實世界便不再具備學習能力。但人類截然不同,比如接觸一款新工具、學習一項新任務,都能快速掌握。因此,讓系統擁有快速學習新事物的能力,同樣是重中之重。
第三個問題,我認為也至關重要,那就是搜索與推理能力的欠缺。如今的語言模型,瀏覽過的文本數量遠超任何人,積累的知識也極為龐大,卻鮮少有真正的創造力。比如多數數學定理之類的內容,語言模型在預訓練階段早已接觸,從這個角度看,這些模型更像是信息檢索工具 —— 即便存儲了海量數據,也無法在此基礎上展開推理。而人類獲取這些數據后,能以全新的方式將其組合,進而得出新的見解、找到新的解決方案。
在我看來,當前的神經網絡系統更偏向模式識別工具,僅學會了極為簡單的計算邏輯,并未掌握真正通用、可泛化的能力。若想研發更先進的人工智能,必須打造更多具備高層級推理能力的系統。具體該如何實現?我認為搜索與規劃能力必不可少,我們所研究的能量基模型,正是實現高層級推理的路徑之一,這也是第三點需要突破的核心方向。
采訪者:您現在所倡導的基于可組合能量圖譜的具身智能路線,和目前比較火的VLA模型路線,最大的分歧點在哪里?
Yilun Du:在我看來,VLA 的邏輯對我而言并不合理。VLA 的核心是將圖像、文本與動作進行映射,但實際上,傳統機器人決策存在兩種經典路徑:一是學習策略,二是學習模型。在處理機器人相關問題時,傳統方法往往更傾向于學習模型。
以控制機器人抓取物體為例,一種簡單的思路是記錄每一步所需動作,之后通過回放完成任務,這屬于無模型的方式。而基于模型的方式,則是先學習機器人的運動學模型,掌握物體的 3D 姿態,再依據這些信息計算出抓取方案。這兩種方式中,前者顯然更簡便,只需記錄動作即可;但后者的泛化能力要強得多 —— 即便將蘋果放到新的位置,依然能通過類似的計算完成抓取。
我認為這正是二者的核心差異。如今的 VLA,本質上更接近記錄動作的思路:依靠海量數據訓練,模型在數據中產生過擬合,最終只能根據見過的圖像預測動作。因此 VLA 的泛化能力極差,只要遇到不同的物體,或是接收到不同的語言指令,便無法正常工作。
比如面前放著蘋果時讓它去抓橘子,它仍會沿用抓取蘋果的方式 —— 因為模型并未掌握高層級推理能力,只是機械記住了見過的演示過程。而我們的研究方向,是學習世界模型或能量基模型,再在此基礎上展開推理,更貼近傳統機器人采用的基于模型的方式:先學習世界模型,再確立作為目標函數的能量函數,最后通過運行搜索與規劃得出動作。我們相信,這種方式才能真正解決未見過的問題,而非僅能應對已 “死記硬背” 的場景,這便是我們研究的核心方向。
04
品讀經典,六十年代的神經學探索
“我偏愛研讀經典的 AI 老論文,以及心理學、神經科學領域的相關文章。”
采訪者:如今很多研究方向呈現同質化,如何看待當前卷帙浩繁的論文?
Yilun Du:我不太喜歡,也很少去讀如今大家頻繁發在網上的那些論文。在我看來,要是天天沉浸在這些熱門論文里,自己做的研究很容易就會和眾人趨同 —— 畢竟大家關注的都是同一批熱點文章。所以我更偏愛讀一些經典論文。比如今年我在講授一門課程時,便帶著學生從 1950 年開始,研讀各類七八十年代,甚至五六十年代的人工智能文章。
品讀這些經典老文,你會發現如今大家鉆研的許多內容,其實前人早已探索過;但同時也能清晰看到不同研究方法的優劣所在。在我看來,讀老論文是個很有價值的方式。此外,我還很喜歡讀心理學或神經科學領域的文章,畢竟人類本身就是一個極具代表性的智能范例。你可以觀察人類如何學習知識,再由此思考怎樣讓人工智能實現人類具備的能力。
只要你稍微翻開幾本神經科學的書籍,就會發現其中有大量研究圍繞記憶構建、持續學習、模型控制展開,這些都是由來已久的傳統研究方向。借助這些內容,你能清楚意識到當前人工智能的能力與人類智能之間的差距,進而發掘出許多值得深入探索的研究問題。
采訪者:神經科學領域,有沒有什么讓您有很大啟發的idea?
Yilun Du:從神經科學中學到的一些觀點,給了我不少啟發。其中有一點格外有意思:人腦并非一個單一的龐大模型,而是由各類功能模塊構成的復雜系統。比如,大腦中有負責語言表達的區域、負責聽覺感知的區域,也有負責動作控制的區域。即便有人大腦的某一區域出現問題,他依然能夠正常思考、正常聆聽,只是無法順利說話而已。
由此可見,人腦是一個高度模塊化的系統,各個模塊各司其職又協同配合,最終共同支撐起完整的智能。我們目前開展的許多研究,正是在探索如何將各類模型整合起來,構建出更具智能的整體系統 —— 這一思路,大概就是從神經科學的研究中得到的啟發。
采訪者:有哪些看起來有些“過時”的經典論文推薦研讀?
Yilun Du:有許多極具價值的經典論文。比如 Marvin Minsky 撰寫的《Steps Towards Artificial Intelligence》,若你細細品讀便會發現,如今學界研究的幾乎每一個方向,文中都曾提及 —— 他不僅探討了神經網絡的學習方法,還闡述了強化學習、搜索規劃的實現路徑,以及記憶機制的構建思路。再如 John McCarthy 的《Programs with Common Sense》,文中詳細論述了智能系統所需的核心要素,以及如何借助邏輯實現這些功能。此外,Marvin Minsky 還有一本著作《The Society of Mind》,專門講解如何通過去中心化的 AI 智能體或去中心化的 AI 組件,搭建起一個完整的智能系統。我覺得這些內容都格外有意思。實際上,這類稍早的經典文獻并不難尋,稍加檢索就能找到。但當你真正讀進去就會發現,現在我們探索的各種想法,前人早已埋下過思想的種子。
![]()
圖注:《The Society of Mind》
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.