哈佛Yilun Du專訪：世界模型三問 —— 因果、規(guī)劃與泛化的征途

2025-12-13 12:09:13　來源: 大數(shù)據(jù)文摘

北京舉報

分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自智源社區(qū)

強化學(xué)習(xí)智能體在像素環(huán)境中可實現(xiàn)游戲高分刷新，但關(guān)鍵線索隱匿時即陷入決策困境；生成模型雖能生成光影逼真場景，卻無法解析 “積木傾塌” 背后的基礎(chǔ)物理邏輯。

人工智能對真實世界的認(rèn)知，受限于以 “理解” 為核心的 “世界模型” 門檻。

如今任職于哈佛大學(xué)Kempner 研究所與計算機科學(xué)系的助理教授Yilun Du正是該領(lǐng)域的核心探索者之一。憑借 MIT 博士畢業(yè)的扎實理論基礎(chǔ)，他一直以來致力于通過生成式人工智能構(gòu)建具備推理與規(guī)劃能力的世界模型。他開創(chuàng)了用生成模型進(jìn)行決策規(guī)劃的新范式，并提出基于可組合性和 “模型社會” 的下一代世界模型藍(lán)圖。

OpenAI、FAIR、DeepMind 等諸多全球頂尖 AI 實驗室，都留下過他的研究足跡。這些經(jīng)歷，讓他對行業(yè)前沿動態(tài)有了多維度的深刻洞察。

與此同時，Yilun Du也始終堅持著能量基模型（EBMs）的研究方向，為破解世界模型困境提供了關(guān)鍵思路。他早年聚焦能量景觀學(xué)習(xí)，提出通過建模數(shù)據(jù)能量分布捕捉事物本質(zhì)。這一突破為 2020 年擴散模型迭代埋下伏筆，也成了可組合生成建模的重要理論基石。他認(rèn)為，EBMs 能超越傳統(tǒng)模型的淺層擬合，挖掘底層能量邏輯，與世界模型的需求高度契合。就像孩子靠積木凹凸拼接、堆疊平衡的基本邏輯，能搭出城堡、橋梁等無數(shù)造型，Yilun Du 認(rèn)為，復(fù)雜世界的運行也遵循著簡潔深刻的底層規(guī)則。

若能構(gòu)建可靈活組合、動態(tài)適配這些規(guī)則的模型，就能突破訓(xùn)練數(shù)據(jù)局限，觸達(dá)數(shù)據(jù)集中從未出現(xiàn)過的新場景。而打開世界模型的 “理解之門”，還需跨越三座關(guān)鍵關(guān)卡：當(dāng)前模型缺乏因果性與物理規(guī)律、需支持良好規(guī)劃和要能泛化到未見過的事物。

這是模型從實驗室走向真實場景的關(guān)鍵，也是可組合建模的核心價值。關(guān)于如何突破這三重關(guān)卡，他在與智源的對話中分享了諸多洞見，從技術(shù)路徑的探索方向，到個人研究心得均有涉及，其中便包括他獨特的閱讀經(jīng)驗—— “偏愛研讀經(jīng)典的 AI 老論文，尤其是心理學(xué)、神經(jīng)科學(xué)領(lǐng)域的相關(guān)文章”。以下是本期智源專訪的完整內(nèi)容。

智源專訪欄目意在展現(xiàn)行業(yè)頂尖技術(shù)研究者和創(chuàng)業(yè)者的研究經(jīng)歷和故事，記錄技術(shù)世界的嬗變，激發(fā)當(dāng)代AI從業(yè)者的創(chuàng)新思維，啟迪認(rèn)知、關(guān)注突破性進(jìn)展，為行業(yè)注入靈感光芒。本次專訪為總第31期。

簡介：Yilun Du，哈佛大學(xué)肯普納研究所與計算機科學(xué)學(xué)院助理教授、博士生導(dǎo)師。麻省理工學(xué)院電子工程與計算機科學(xué)系博士，師從萊斯利·凱爾布林、托馬斯·洛薩諾-佩雷斯和約書亞·特南鮑姆教授。曾任OpenAI研究員，并在Meta FAIR與Google DeepMind從事研究。主要研究方向包括生成建模、具身智能、機器人學(xué)習(xí)與決策推理，致力于通過生成式人工智能構(gòu)建具備推理與規(guī)劃能力的世界模型。相關(guān)研究在NeurIPS、ICML、ICLR、ICCV、RSS等多次發(fā)表，其在能量基模型和擴散模型方面的工作對生成式人工智能的發(fā)展具有重要影響。

采訪：李夢佳

編輯：陳然

學(xué)術(shù)起點，高中起對生物充滿熱忱

“對生物的興趣是我的重要起點，讓我對如何創(chuàng)造智能產(chǎn)生濃厚興趣”

采訪者：在求學(xué)和工作過程中，您認(rèn)為有哪些關(guān)鍵經(jīng)歷對您的學(xué)術(shù)方向產(chǎn)生了影響？

Yilun Du：第一個關(guān)鍵經(jīng)歷，是從小便接觸生物相關(guān)知識。那時我參加過生物奧林匹克競賽，由此對 “如何創(chuàng)造智能” 產(chǎn)生了濃厚興趣，所以高中階段對生物的熱忱，成了我探索智能領(lǐng)域的重要起點。進(jìn)入本科后，我關(guān)注到 DeepMind 及其 AlphaGo 的相關(guān)成果。這些突破讓我真切感受到 “創(chuàng)造人工智能” 這一方向的獨特魅力，也進(jìn)一步加深了我對該領(lǐng)域的興趣。本科第三年，我在 OpenAI 度過了 9 個月，期間主要圍繞能量基模型和人工智能模型開展研究。這段經(jīng)歷同樣意義非凡，也正是從這時起，我萌生了攻讀博士、投身科研的想法。

采訪者：您在OpenAI、FAIR還有DeepMind這些頂尖實驗室都有過研究經(jīng)歷，這些不同的環(huán)境，在研究風(fēng)格、問題選擇以及目標(biāo)上會有什么不同嗎？

Yilun Du：差異較大。2018年我在OpenAI時，它才剛剛起步，總共只有二十幾個人。那時候80%的人在做強化學(xué)習(xí)，20%的人在做各種深度生成模型，比如語言模型或者我們當(dāng)時在做的能量基模型，和現(xiàn)在的OpenAI很不一樣，規(guī)模真的很小。不過那時候OpenAI的人們特別專注，大家都非常相信自己所做的事情，我覺得現(xiàn)在行業(yè)里最聰明的一批人都在那里，每個人都很投入。

而FAIR、DeepMind等公司規(guī)模則大得多，每個公司都有好幾百人甚至好幾千人，整體氛圍會輕松一些，和OpenAI的緊張專注不太一樣，而且大家對科研的關(guān)注點也有所不同。在人工智能領(lǐng)域，OpenAI的研究方向和硅谷的關(guān)聯(lián)更緊密，大家特別想做出通用人工智能相關(guān)的成果。但DeepMind的研究更偏向科研性質(zhì)，有些人關(guān)注計算機科學(xué)，有些人專注神經(jīng)科學(xué)，還有人研究人工智能在科學(xué)領(lǐng)域的應(yīng)用，研究方向更開放、沒有那么局限。我?guī)啄昵霸贔AIR的時候，那里的研究氛圍也比較開放，當(dāng)時我們在做FAIR Protein相關(guān)的研究，類似ESM這種用語言模型研究蛋白質(zhì)的方向，整體也是比較開放的狀態(tài)。

采訪者：在這些過往經(jīng)歷中，您覺得有沒有對您影響特別大的人物或者相關(guān)的理論？

Yilun Du：我在 OpenAI 期間經(jīng)歷了蠻大的轉(zhuǎn)變。當(dāng)初選擇加入 OpenAI，是因為看到他們開發(fā)出能玩《DOTA2》的智能體，所以最開始我對智能體格外感興趣。在 OpenAI 的日子里，我每天都會和 Ilya Sutskever 交流，他常跟我說，自己不太相信通用強化學(xué)習(xí)，卻對通用模型格外認(rèn)可，尤其是能量基模型。

也正因如此，我從那時起開始投身能量基模型與通用模型的研究。那會兒行業(yè)里，大家基本都在使用生成對抗網(wǎng)絡(luò)，且這類網(wǎng)絡(luò)僅應(yīng)用于圖像領(lǐng)域；同時智能體的研究正當(dāng)火熱，幾乎沒人涉足生成模型相關(guān)方向，所以我們當(dāng)時做這個領(lǐng)域，總覺得格外有意義。

從那之后，我便一直對能量基模型抱有濃厚興趣。后來依托我們在能量基模型上的研究，又延伸出擴散模型相關(guān)的工作 —— 由于擴散模型與能量基模型極為相似，我們還將之前在能量基模型上的成果遷移到了擴散模型中。這段經(jīng)歷，也讓我最終確定了如今的研究方向。

圖注：Ilya Sutskever圖片（圖源CNN）

EBM或?qū)⒃谕评眍I(lǐng)域有大突破

“真正想學(xué)習(xí)的EBM，是要讓真實答案都是低能量，其余答案都是高能量。”

采訪者：請您分析一下基于能量基模型（EBM）和基于分?jǐn)?shù)（score）的模型，您認(rèn)為它們有什么不一樣的地方？各自有什么優(yōu)點、缺點呢？

Yilun Du：其實可以說分?jǐn)?shù)模型就是能量基模型的一種。傳統(tǒng)意義上，分?jǐn)?shù)匹配是訓(xùn)練能量基模型的一種方法。但能量基模型本身有個特點：當(dāng)你學(xué)習(xí)到能量景觀之后，若想生成一張圖像，便可采用自適應(yīng)測試時計算的方式 —— 你希望能量優(yōu)化運行多久，它便能運行多久。如此一來，比如生成圖像時，你能通過運行多步朗之萬動力學(xué)得到理想圖像。這正是能量基模型的優(yōu)勢所在，即可以通過控制采樣時間，提升生成結(jié)果的質(zhì)量。而分?jǐn)?shù)模型，正是學(xué)習(xí)能量基模型的一種方式。像大家熟知的 Jaccard 相似系數(shù)，早在 21 世紀(jì)初就有不少人探索這種方法。從這個角度來講，分?jǐn)?shù)模型其實就是能量基模型的一種。

注：Jaccard相似系數(shù)主要用于計算符號度量或布爾值度量的個體間的相似度(一般用于解決非對稱二元的相關(guān)性問題),無法衡量差異具體值的大小,只能獲得“是否相同”這個結(jié)果,所以Jaccard系數(shù)只關(guān)心個體間共同具有的特征是否一致這個問題。Jaccard系數(shù)等于樣本集交集與樣本集合四集的比值,可以用于計算兩個集合的相似性,無論這些集合是文檔、用戶的興趣愛好或任何其他類型的集合。

采訪者：在未來兩三年里，EBM可能會最先在哪一個應(yīng)用領(lǐng)域取得突破？

Yilun Du：我覺得能量基模型在推理領(lǐng)域應(yīng)該會有蠻大的突破。現(xiàn)在推理的一個核心問題，是如何通過更多的測試時計算，得到更優(yōu)的答案。當(dāng)下大家用鏈?zhǔn)剿季S做推理，會發(fā)現(xiàn)很多推理任務(wù)其實頗具難度 —— 有些推理過程難以用語言清晰表述，而且當(dāng)鏈?zhǔn)剿季S的流程拉得很長時，也很難明確它具體的運行邏輯。

能量基模型有個鮮明特點，就是能通過采樣直接生成答案，因此你可以通過多步優(yōu)化，逐步趨近并得到最終答案。我們最近有一篇論文《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》，正是將語言模型的可能性也視作一種能量，再在其上通過采樣開展推理。

所以我認(rèn)為，用采樣與迭代優(yōu)化的思路來做推理，是讓模型能夠依據(jù)可用時間，靈活決定測試時計算量的好方式。

圖注：《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》

采訪者：目前最關(guān)心的研究方向是什么？

Yilun Du：總的來說，我現(xiàn)在對智能體的構(gòu)建格外感興趣。比如如何打造出色的機器人，讓它能完成各類家庭或工作任務(wù)；又或者如何研發(fā)線上智能體，幫人們處理發(fā)郵件、購物等事務(wù) —— 核心就是探索智能體的構(gòu)建方法。我感覺目前最大的問題，在于現(xiàn)有系統(tǒng)在這方面的表現(xiàn)都不盡如人意。像語言模型智能體，環(huán)境稍有變化便無法正常工作，可靠性不足；機器人也是如此，一旦環(huán)境改變或接到新任務(wù)，往往難以順利運行。

我認(rèn)為問題的核心在于決策環(huán)節(jié)。世界本身存在無限可能，我或許會給智能體設(shè)定從未見過的目標(biāo)，而這些目標(biāo)并未包含在訓(xùn)練數(shù)據(jù)集中，導(dǎo)致系統(tǒng)在新環(huán)境下無法給出理想答案。這便是泛化難題。通常訓(xùn)練神經(jīng)網(wǎng)絡(luò)時，它會擬合給定的訓(xùn)練數(shù)據(jù)集，但在決策任務(wù)中，遇到未見過的目標(biāo)，就會超出數(shù)據(jù)集的覆蓋范圍。

那該如何解決這個問題呢？我認(rèn)為必須讓系統(tǒng)具備推理能力，能夠通過規(guī)劃或搜索得出答案。具體該如何通過搜索與規(guī)劃獲取動作呢？我們一直在開展能量基模型相關(guān)的研究，也可以采用廣度模型，比如學(xué)習(xí)一個動力學(xué)模型。有了動力學(xué)模型，再結(jié)合動作序列，就能得到動作軌跡；依據(jù)這些動作可計算出能量，進(jìn)而借助能量進(jìn)行搜索。所以我覺得，要做好決策，離不開通過搜索或推理來獲取答案。

采訪者：在實際落地過程中，EBM的穩(wěn)定性和收斂性是否是現(xiàn)在的工程挑戰(zhàn)之一？目前有哪些解決思路？

Yilun Du：有一個思路是，擴散模型中的分?jǐn)?shù)匹配其實就是 EBM 的一種訓(xùn)練方式，因此可將擴散模型大致解釋為 EBM。不過兩者存在一點差別：擴散模型通常只需運行幾步，從噪聲起步，依據(jù)時間積分即可得到答案。但若是將決策模型解釋為 EBM，采樣過程便有所不同 —— 需在高噪聲水平下運行多步以獲取一個答案，隨后進(jìn)入下一個時間步，再運行多步。如此一來，其實可以將未來模型轉(zhuǎn)化為類似 EBM 的形態(tài)。我們最近有一篇論文《Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models》的，把流匹配這類方法稍作修改，便使其成為了真正的 EBM，可見二者本質(zhì)上十分接近。

當(dāng)然，我們真正希望學(xué)習(xí)的 EBM，需讓真實答案均處于低能量狀態(tài)，其余答案則處于高能量狀態(tài)。但通過分?jǐn)?shù)匹配的方式學(xué)習(xí)能量景觀時，每個正確答案都會成為一個局部最小值，能量在此處雖達(dá)到最低，可這些能量值有高有低，并非理想的 EBM 景觀。因此，若想真正學(xué)習(xí)到優(yōu)質(zhì)的 EBM 基線，還必須借助對比學(xué)習(xí) —— 需找到辦法將所有正確答案的能量向下壓制，同時將其余答案的能量向上推升。這一過程頗具難度，核心在于要設(shè)法構(gòu)建出優(yōu)質(zhì)的負(fù)樣本。

圖注：Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers網(wǎng)站頁面

世界模型，如何泛化到前所未見的事物？

“世界上只有幾個簡單的規(guī)則，構(gòu)建一個組合模型就能泛化到其他”

采訪者：目前世界模型方面，要攻克的最關(guān)鍵問題是什么？

Yilun Du：我覺得世界模型有幾個關(guān)鍵問題。第一個大問題，現(xiàn)在的世界模型不夠有因果性，也不夠符合物理規(guī)律。比如讓像Sora這樣的模型去抓一個杯子，杯子可能就浮起來了，其實根本沒抓上，說明這些世界模型的物理準(zhǔn)確性不足。

第二個問題，世界模型并不需要最準(zhǔn)確的，而是需要能支持良好規(guī)劃的能力。比如我想規(guī)劃去夏威夷旅游，如果用現(xiàn)在的視頻生成模型作為世界模型，是做不到的，因為讓它模擬“打開網(wǎng)站、點擊按鈕訂機票”這個過程，每一步都模擬不出來。我覺得有些任務(wù)中，世界模型不應(yīng)該模擬每一張照片，有時候需要模擬幾張照片，而有時候需要模擬更高層次的知識。所以世界知識必須是分層的，不只是模擬下面幾幀照片的方式。

第三個大問題，需要讓這些模型能泛化到?jīng)]見過的東西。比如YouTube上有各種視頻，像“抓杯子”的視頻很多，但“沒抓好杯子把杯子摔壞”的視頻很少。但如果真想把視頻模型用在機器人上，就必須讓模型能準(zhǔn)確模擬沒見過的場景。所以怎么實現(xiàn)這種好的泛化能力，是個很有意思的問題。我們一直在做組合結(jié)構(gòu)相關(guān)的工作，認(rèn)為世界上其實只有幾個簡單的規(guī)則，只要構(gòu)建一個能把這些簡單規(guī)則組合起來的模型，就能泛化到?jīng)]見過的場景。但泛化確實是個大問題，現(xiàn)在大家展示世界模型時只放幾個視頻，能展示幾個好的案例，但如果要真正用在機器人上，不能只生成一兩個視頻，而是要100%的時候都能生成好的動作規(guī)劃，所以泛化能力就非常重要了。

采訪者：關(guān)于現(xiàn)有的那些世界模型，它們的方法有哪些？

Yilun Du：我感覺如今大家似乎把許多事物都稱作世界模型。有人會說圖像模型是世界模型，也有人認(rèn)為視頻模型屬于世界模型。在我看來，不妨去翻閱傳統(tǒng) AI 的論文，其中便有 “基于模型的智能” 這一概念。像邏輯專家系統(tǒng)這類傳統(tǒng) AI 系統(tǒng)，都秉持著這樣的思路：先建立一個數(shù)據(jù)庫或儲備一些信息，用以描述世界的演變規(guī)律；再設(shè)計一個推理過程，結(jié)合既定目標(biāo)，通過推理，依據(jù)信息數(shù)據(jù)庫與目標(biāo)推導(dǎo)出最終答案。我認(rèn)為，這才是世界模型最通用的形態(tài)。

采訪者：世界模型應(yīng)該要記住世界的哪些關(guān)鍵信息，它又是怎么篩選那些信息的？

Yilun Du：這是個有意思的問題，其實我們不太清楚到底要記哪些信息。一方面，大型語言模型記了很多信息，尤其是高層級信息，比如想訂機票去開會，它知道每一步該怎么操作，所以語言模型有特別多的高層級信息。另一方面，視頻模型則有更多低層級的物理信息，比如想系鞋帶，視頻模型可以告訴我具體怎么做。再比如動作模型、觸覺模型或者音頻模型，它們又各自包含各種其他信息。所以我的感覺是，我們也不太清楚到底需要多少信息，但應(yīng)該把現(xiàn)在這些模型都當(dāng)作不同的信息源。比如我們有了這些源信息，再把機器人放在真實世界中，讓它在真實世界里學(xué)習(xí)剩下未知的信息。

怎么篩選到有用的信息，這也特別重要。因為信息量大的話，很難找到正確的答案或信息來完成想做的事。不過現(xiàn)在的語言模型其實有一個非常高效的獲取信息的方式 —— 傳統(tǒng)的數(shù)據(jù)庫信息量大，但查到正確答案很費勁，而語言模型只要你問它問題，就能給出一個答案。這個答案可能不準(zhǔn)確，所以需要多花點時間計算 / 推理來得到正確答案，但至少答案應(yīng)該是比較接近準(zhǔn)確的。

所以我覺得可以用現(xiàn)在的生成模型作為幫助找到有用信息的方式。你可以想象，我有一個語言模型、一個視頻模型、一個動作模型，根據(jù)我需要的信息直接查詢這些模型，就能得到大概需要的信息了。

圖注：Yilun Du 參加神經(jīng)人工智能前沿研討會，討論“學(xué)習(xí)世界組合模型”

采訪者：關(guān)于具身智能領(lǐng)域，宏觀趨勢下，未來10年可能推動具身智能進(jìn)步的核心驅(qū)動力會是什么？

Yilun Du：我認(rèn)為當(dāng)前存在幾個關(guān)鍵問題亟待解決。第一個尤為突出的問題是記憶缺失。如今我們研發(fā)的系統(tǒng)，比如依據(jù)單張照片執(zhí)行策略的模型，普遍缺乏記憶能力。正因為沒有記憶，舉個例子，若要尋找某件物品，它可能打開柜子后又關(guān)上，過不了多久，就因毫無記憶再次打開同一個柜子。這便是當(dāng)下模型普遍面臨的記憶短板。更關(guān)鍵的是，即便在策略中融入記憶模塊，實際效果也不盡如人意 —— 這些策略往往無法真正理解記憶的價值與用途。

第二個核心問題是持續(xù)學(xué)習(xí)的實現(xiàn)?，F(xiàn)在的模型，大多依賴龐大的數(shù)據(jù)集完成訓(xùn)練，訓(xùn)練結(jié)束后，進(jìn)入真實世界便不再具備學(xué)習(xí)能力。但人類截然不同，比如接觸一款新工具、學(xué)習(xí)一項新任務(wù)，都能快速掌握。因此，讓系統(tǒng)擁有快速學(xué)習(xí)新事物的能力，同樣是重中之重。

第三個問題，我認(rèn)為也至關(guān)重要，那就是搜索與推理能力的欠缺。如今的語言模型，瀏覽過的文本數(shù)量遠(yuǎn)超任何人，積累的知識也極為龐大，卻鮮少有真正的創(chuàng)造力。比如多數(shù)數(shù)學(xué)定理之類的內(nèi)容，語言模型在預(yù)訓(xùn)練階段早已接觸，從這個角度看，這些模型更像是信息檢索工具 —— 即便存儲了海量數(shù)據(jù)，也無法在此基礎(chǔ)上展開推理。而人類獲取這些數(shù)據(jù)后，能以全新的方式將其組合，進(jìn)而得出新的見解、找到新的解決方案。

在我看來，當(dāng)前的神經(jīng)網(wǎng)絡(luò)系統(tǒng)更偏向模式識別工具，僅學(xué)會了極為簡單的計算邏輯，并未掌握真正通用、可泛化的能力。若想研發(fā)更先進(jìn)的人工智能，必須打造更多具備高層級推理能力的系統(tǒng)。具體該如何實現(xiàn)？我認(rèn)為搜索與規(guī)劃能力必不可少，我們所研究的能量基模型，正是實現(xiàn)高層級推理的路徑之一，這也是第三點需要突破的核心方向。

采訪者：您現(xiàn)在所倡導(dǎo)的基于可組合能量圖譜的具身智能路線，和目前比較火的VLA模型路線，最大的分歧點在哪里？

Yilun Du：在我看來，VLA 的邏輯對我而言并不合理。VLA 的核心是將圖像、文本與動作進(jìn)行映射，但實際上，傳統(tǒng)機器人決策存在兩種經(jīng)典路徑：一是學(xué)習(xí)策略，二是學(xué)習(xí)模型。在處理機器人相關(guān)問題時，傳統(tǒng)方法往往更傾向于學(xué)習(xí)模型。

以控制機器人抓取物體為例，一種簡單的思路是記錄每一步所需動作，之后通過回放完成任務(wù)，這屬于無模型的方式。而基于模型的方式，則是先學(xué)習(xí)機器人的運動學(xué)模型，掌握物體的 3D 姿態(tài)，再依據(jù)這些信息計算出抓取方案。這兩種方式中，前者顯然更簡便，只需記錄動作即可；但后者的泛化能力要強得多 —— 即便將蘋果放到新的位置，依然能通過類似的計算完成抓取。

我認(rèn)為這正是二者的核心差異。如今的 VLA，本質(zhì)上更接近記錄動作的思路：依靠海量數(shù)據(jù)訓(xùn)練，模型在數(shù)據(jù)中產(chǎn)生過擬合，最終只能根據(jù)見過的圖像預(yù)測動作。因此 VLA 的泛化能力極差，只要遇到不同的物體，或是接收到不同的語言指令，便無法正常工作。

比如面前放著蘋果時讓它去抓橘子，它仍會沿用抓取蘋果的方式 —— 因為模型并未掌握高層級推理能力，只是機械記住了見過的演示過程。而我們的研究方向，是學(xué)習(xí)世界模型或能量基模型，再在此基礎(chǔ)上展開推理，更貼近傳統(tǒng)機器人采用的基于模型的方式：先學(xué)習(xí)世界模型，再確立作為目標(biāo)函數(shù)的能量函數(shù)，最后通過運行搜索與規(guī)劃得出動作。我們相信，這種方式才能真正解決未見過的問題，而非僅能應(yīng)對已 “死記硬背” 的場景，這便是我們研究的核心方向。

品讀經(jīng)典，六十年代的神經(jīng)學(xué)探索

“我偏愛研讀經(jīng)典的 AI 老論文，以及心理學(xué)、神經(jīng)科學(xué)領(lǐng)域的相關(guān)文章?！?/strong>

采訪者：如今很多研究方向呈現(xiàn)同質(zhì)化，如何看待當(dāng)前卷帙浩繁的論文？

Yilun Du：我不太喜歡，也很少去讀如今大家頻繁發(fā)在網(wǎng)上的那些論文。在我看來，要是天天沉浸在這些熱門論文里，自己做的研究很容易就會和眾人趨同 —— 畢竟大家關(guān)注的都是同一批熱點文章。所以我更偏愛讀一些經(jīng)典論文。比如今年我在講授一門課程時，便帶著學(xué)生從 1950 年開始，研讀各類七八十年代，甚至五六十年代的人工智能文章。

品讀這些經(jīng)典老文，你會發(fā)現(xiàn)如今大家鉆研的許多內(nèi)容，其實前人早已探索過；但同時也能清晰看到不同研究方法的優(yōu)劣所在。在我看來，讀老論文是個很有價值的方式。此外，我還很喜歡讀心理學(xué)或神經(jīng)科學(xué)領(lǐng)域的文章，畢竟人類本身就是一個極具代表性的智能范例。你可以觀察人類如何學(xué)習(xí)知識，再由此思考怎樣讓人工智能實現(xiàn)人類具備的能力。

只要你稍微翻開幾本神經(jīng)科學(xué)的書籍，就會發(fā)現(xiàn)其中有大量研究圍繞記憶構(gòu)建、持續(xù)學(xué)習(xí)、模型控制展開，這些都是由來已久的傳統(tǒng)研究方向。借助這些內(nèi)容，你能清楚意識到當(dāng)前人工智能的能力與人類智能之間的差距，進(jìn)而發(fā)掘出許多值得深入探索的研究問題。

采訪者：神經(jīng)科學(xué)領(lǐng)域，有沒有什么讓您有很大啟發(fā)的idea？

Yilun Du：從神經(jīng)科學(xué)中學(xué)到的一些觀點，給了我不少啟發(fā)。其中有一點格外有意思：人腦并非一個單一的龐大模型，而是由各類功能模塊構(gòu)成的復(fù)雜系統(tǒng)。比如，大腦中有負(fù)責(zé)語言表達(dá)的區(qū)域、負(fù)責(zé)聽覺感知的區(qū)域，也有負(fù)責(zé)動作控制的區(qū)域。即便有人大腦的某一區(qū)域出現(xiàn)問題，他依然能夠正常思考、正常聆聽，只是無法順利說話而已。

由此可見，人腦是一個高度模塊化的系統(tǒng)，各個模塊各司其職又協(xié)同配合，最終共同支撐起完整的智能。我們目前開展的許多研究，正是在探索如何將各類模型整合起來，構(gòu)建出更具智能的整體系統(tǒng) —— 這一思路，大概就是從神經(jīng)科學(xué)的研究中得到的啟發(fā)。

采訪者：有哪些看起來有些“過時”的經(jīng)典論文推薦研讀？

Yilun Du：有許多極具價值的經(jīng)典論文。比如 Marvin Minsky 撰寫的《Steps Towards Artificial Intelligence》，若你細(xì)細(xì)品讀便會發(fā)現(xiàn)，如今學(xué)界研究的幾乎每一個方向，文中都曾提及 —— 他不僅探討了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法，還闡述了強化學(xué)習(xí)、搜索規(guī)劃的實現(xiàn)路徑，以及記憶機制的構(gòu)建思路。再如 John McCarthy 的《Programs with Common Sense》，文中詳細(xì)論述了智能系統(tǒng)所需的核心要素，以及如何借助邏輯實現(xiàn)這些功能。此外，Marvin Minsky 還有一本著作《The Society of Mind》，專門講解如何通過去中心化的 AI 智能體或去中心化的 AI 組件，搭建起一個完整的智能系統(tǒng)。我覺得這些內(nèi)容都格外有意思。實際上，這類稍早的經(jīng)典文獻(xiàn)并不難尋，稍加檢索就能找到。但當(dāng)你真正讀進(jìn)去就會發(fā)現(xiàn)，現(xiàn)在我們探索的各種想法，前人早已埋下過思想的種子。

圖注：《The Society of Mind》

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計費，平均節(jié)省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點推薦

近日，青海。車主自駕青海遇男子招手搭車，男子去快遞站給孩子們?nèi)∵^冬物資，車主好心送男子去學(xué)校，車主：

中安在線 2026-02-18 22:00:26
122 跟貼 122

內(nèi)蒙古草原名場面！狼偷不著羊，就跟藏獒貼貼，網(wǎng)友：前狼假寐，蓋以誘敵

BRTV新聞 2026-02-19 07:15:56
148 跟貼 148

中國游客稱因道路積雪被困俄羅斯“極光村” 超40小時，俄媒：滯留游客都已離開

上游新聞 2026-02-17 20:22:05
25006 跟貼 25006

媒體：馬克龍真魔怔了在印度還暗戳戳提中國

澎湃新聞 2026-02-18 22:58:24
1737 跟貼 1737

匈牙利、斯洛伐克宣布暫停向烏克蘭出口柴油

財聯(lián)社 2026-02-18 23:58:05
2378 跟貼 2378

大年初三不拜年？這些老規(guī)矩，你可要注意！

大象新聞 2026-02-19 06:12:09
241 跟貼 241

上海市人民政府關(guān)于同意《上海崇明江南造船（集團）有限責(zé)任公司“9·4”較大中毒和窒息事故調(diào)查報告》的批復(fù)

上海市人民政府網(wǎng)站 2026-02-19 09:36:00
0 跟貼 0

法國1萬人的村莊10年自費辦活動慶祝春節(jié) 負(fù)責(zé)人發(fā)聲

極目新聞 2026-02-19 11:18:51
309 跟貼 309

深圳花市現(xiàn)“反向拍賣”，蝴蝶蘭從250元喊到120元成交，店家：最便宜的時候不要錢，但要靠搶

極目新聞 2026-02-18 18:29:21
211 跟貼 211

媒體：從防守向進(jìn)攻轉(zhuǎn)變日本海上自衛(wèi)隊加速推進(jìn)轉(zhuǎn)型

澎湃新聞 2026-02-19 14:25:23
9 跟貼 9

“爸媽來后冰箱都變老了！”網(wǎng)友：原來全國都這樣

都市快報橙柿互動 2026-02-18 00:22:49
904 跟貼 904

沒能贏得一塊金牌劉少昂：只要國家需要愿再戰(zhàn)四年

澎湃新聞 2026-02-19 10:06:27
6 跟貼 6

印度一大學(xué)拿中國機器狗冒充自研

環(huán)球時報 2026-02-18 16:09:05
2162 跟貼 2162

廣東一公司“60萬元尋狗”引關(guān)注，律師稱公開懸賞有法律效力

現(xiàn)代快報 2026-02-19 16:33:08
1 跟貼 1

反向過年新潮流：老外扎堆來中國，單日飛三亞外國游客大增3倍

每日經(jīng)濟新聞 2026-02-15 11:30:33
1672 跟貼 1672

拿出刪帖封號的勁頭，管理煙花爆竹

薇微笑語 2026-02-19 17:52:23
2 跟貼 2

日韓股市集體高開日經(jīng)225指數(shù)漲0.57%

證券時報 2026-02-19 08:31:03
708 跟貼 708

中國1月Swift人民幣在全球支付中占比3.13%

每日經(jīng)濟新聞 2026-02-19 09:12:45
277 跟貼 277

《自然》發(fā)表中國研究成果：修復(fù)大腦里一個“錯字” 孤獨癥小鼠恢復(fù)了正常

上觀新聞 2026-02-19 06:30:08
90 跟貼 90

奶茶間諜，一擊必殺？

華商天下 2026-02-19 18:05:19
0 跟貼 0

評論區(qū)有人稱一家四口虧了4000元

上觀新聞 2026-02-19 13:01:26
0 跟貼 0

安徽一6歲女孩給5歲“小叔”拜年，男孩大方給100元壓歲錢，媽媽：女孩一磕頭，我兒子一激動，就把全部錢給她了

大象新聞 2026-02-19 15:44:27
0 跟貼 0

伊朗國防部隊：進(jìn)入全面?zhèn)鋺?zhàn)狀態(tài)
每日經(jīng)濟新聞
2026-02-19 16:07:49

意大利知名地標(biāo)“愛情拱門”突然崩塌，永久消失，當(dāng)?shù)厥虚L：曾有成千上萬的情侶來打卡，旅游業(yè)遭“毀滅性打擊”
大風(fēng)新聞
2026-02-17 19:26:03

南京一商場晚上突發(fā)火災(zāi)，看電影的觀眾緊急逃生，應(yīng)急部門：火已撲滅，無人傷亡
極目新聞
2026-02-19 12:49:48

浙江一地通知：即日起全域禁止銷售
都市快報橙柿互動
2026-02-19 17:58:37

后續(xù)，江蘇一家人吃飯父親酒后掀桌，兒子透露更多，以后不回家了
離離言幾許
2026-02-18 23:24:35

第3金還要耐心等待！天公不作美，中國隊冬奧熱門沖金項再次延期
全景體育V
2026-02-19 10:10:31

南方大米產(chǎn)量第一，為啥超市里大部分還是東北米？南方米去哪了？
天下十三洲獵奇
2026-02-18 23:53:55

突發(fā)！美國出手封殺多家中國機構(gòu)
芯火相承
2026-02-19 10:02:18

42歲王濛再破天花板！退役12年，再次讓李琰和整個冰壇“沉默”了
翰飛觀事
2026-02-16 11:29:39

林丹在西班牙過年，別墅內(nèi)景曝光，全家人與朋友除夕吃海鮮大餐
手工制作阿殲
2026-02-19 11:58:33

再立新功！俄價值超1.2億美元的S-300VM與道爾防空系統(tǒng)遭摧毀
軍迷戰(zhàn)情室
2026-02-18 23:58:09

2018年，張扣扣向王家復(fù)仇，唯獨不殺王自新妻子：她有不死的理由
米果說識
2026-02-19 09:32:34

凌晨發(fā)送恐嚇信息？桔子酒店涉事門店：已報警，非員工發(fā)送
大風(fēng)新聞
2026-02-19 09:46:23

12死！湖北煙花店爆炸：店主身份被扒，大量內(nèi)幕披露，知情者發(fā)聲
博士觀察
2026-02-19 00:06:41

2月17日俄烏最新： 2.5 年來的最大戰(zhàn)果
西樓飲月
2026-02-17 20:49:47

湖北12死煙花爆燃：死者身份公布，大量內(nèi)部照流出，責(zé)任人被控制
博士觀察
2026-02-19 11:41:09

尹錫悅庭審細(xì)節(jié)曝光：被判無期只瞥了一眼法官，離庭時與律師相視一笑！法官闡述為何不判死刑
紅星新聞
2026-02-19 17:28:30

太尷尬了！大年初一，上海網(wǎng)友哭訴稱大門被鄰居貼兩張“大字報”
火山詩話
2026-02-19 15:05:12

襄陽宜城煙花店才50多平米，要了12條人命！最害人的，或是防盜網(wǎng)
火山詩話
2026-02-19 13:50:13

坐3.6億飛機，戴1000萬名表，拿5000萬炒股的秦奮究竟什么背景
涵豆說娛
2026-01-19 17:21:55

2026-02-19 18:43:00

大數(shù)據(jù)文摘

專注大數(shù)據(jù)，每日有分享！

6825文章數(shù) 94529關(guān)注度

往期回顧全部

科技要聞

怒燒45億，騰訊字節(jié)阿里決戰(zhàn)春節(jié)

李飛飛AI初創(chuàng)公司W(wǎng)orld Labs獲10億美元融資

Anthropic至2029年或支付超800億美元云費用

上春晚≠下一個宇樹：炫技之后才是真正淘汰賽

Meta擴大與英偉達(dá)合作協(xié)議拿下Grace CPU首發(fā)權(quán)

頭條要聞

媒體：高市2.0 日本政局發(fā)生了意料之中的變動

尹錫悅被判無期只瞥了一眼法官離庭時與律師相視一笑

2名初中生扶摔倒女子被交警定次責(zé) 摔倒女子索賠22萬

除尹錫悅外金龍顯、趙志浩、金峰埴也被判刑

分析人士:特朗普正準(zhǔn)備對伊朗發(fā)動一場持續(xù)的軍事行動

頭條要聞

媒體：高市2.0 日本政局發(fā)生了意料之中的變動

尹錫悅被判無期只瞥了一眼法官離庭時與律師相視一笑

2名初中生扶摔倒女子被交警定次責(zé) 摔倒女子索賠22萬

除尹錫悅外金龍顯、趙志浩、金峰埴也被判刑

分析人士:特朗普正準(zhǔn)備對伊朗發(fā)動一場持續(xù)的軍事行動

體育要聞

中國隊第二金！徐夢桃贏女子空中技巧兩連冠邵琪銅牌

蘇翊鳴淚灑領(lǐng)獎臺！決賽三度落淚，媽媽送祝福：最好的生日禮物

沒拿獎牌會坐牢？蘇翊鳴教練：這是偏見，奧運會為中日間架起橋梁

不想退役！徐夢桃：希望能參加第6次冬奧決賽前一天還在針灸

王濛談韓國隊奪冠：給韓國隊鼓鼓掌，捍衛(wèi)了我們亞洲的地位

娛樂要聞

明星過年百態(tài)！黃曉明等現(xiàn)身三亞

《驚蟄》把楊冪身材當(dāng)噱頭惹爭議，張藝謀又翻車

票房倒掛、破億艱難！2026年春節(jié)檔大片要崩了

毛曉彤拜年照喜氣洋洋抱金元寶笑容燦爛

劉浩存持續(xù)被扒！背靠張藝謀春晚獨舞，難怪陳佩斯說誰都得罪不起

財經(jīng)要聞

面條火腿香菇醬！上市公司這些年請你吃

一場大戰(zhàn)，又驟然逼近了

從斷崖調(diào)整到價值重生，誰活下來了？

美聯(lián)儲紀(jì)要首提加息可能委員會內(nèi)部分歧顯著！

春節(jié)祈福，AI算命火了

汽車要聞

量產(chǎn)甲醇插混吉利銀河星耀6甲醇插混版申報圖

含奕派007/奕派008等東風(fēng)奕派限時權(quán)益至高減6000元

大六座SUV三個靈魂拷問丨2026格局與趨勢 ③

26款奔馳“小S級”售價親民，外觀豪華，車長超5米，搭載2.0T輕混

比亞迪RACCO內(nèi)飾官圖發(fā)布將于今夏在日本市場發(fā)布

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

房產(chǎn)

游戲

公開課

教育要聞

聽懂這5點，下學(xué)期教書，哪還有什么不幸福的？

新航道春季班｜雅思入門預(yù)備課程：夯實英語根基，科學(xué)銜接進(jìn)階

春節(jié)有“拜年社恐”？6句話養(yǎng)出不怯場的孩子，親朋都夸落落大方

馬年伊始，請帶上這10句話整裝出發(fā)！

工作能力強的老師長啥樣？看看你中幾條

本地新聞

春花齊放2026：《駿馬奔騰迎新歲》

下一站是嘉禾望崗，請各位乘客做好哭泣準(zhǔn)備

圍觀了北京第一屆黑色羽絨服大賽，我笑瘋了

云游中國｜撥開云霧，巫山每幀都是航拍大片

房產(chǎn)要聞

頂豪搶房潮席卷全國！中旅馥棠公館項目395㎡大平層加推入市！

三亞新機場，又傳出新消息！

999元開線上免稅店?海南爆出免稅大騙局，多人已被抓！

177億元，砸向超級城更！海南這座城，正式起飛！

《巫師》劇情設(shè)計師：初代結(jié)局受到了公司高層干預(yù)

MOD作者將《如龍極3》的香川照之替換為原版角色

廠商表示《馬拉松》面向PC和Xbox玩家也有獨占掛件

史上最大"沖擊波"？外網(wǎng)玩家發(fā)帖吐槽《星際公民》

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻

為什么人類有不同的膚色？

古代的馬真能日行八百里嗎

李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

哈佛Yilun Du專訪：世界模型三問 —— 因果、規(guī)劃與泛化的征途

怒燒45億，騰訊字節(jié)阿里決戰(zhàn)春節(jié)

媒體：高市2.0 日本政局發(fā)生了意料之中的變動

媒體：高市2.0 日本政局發(fā)生了意料之中的變動

中國隊第二金！徐夢桃贏女子空中技巧兩連冠 邵琪銅牌

明星過年百態(tài)！黃曉明等現(xiàn)身三亞

面條火腿香菇醬！上市公司這些年請你吃

量產(chǎn)甲醇插混 吉利銀河星耀6甲醇插混版申報圖

態(tài)度原創(chuàng)

聽懂這5點，下學(xué)期教書，哪還有什么不幸福的？

春花齊放2026：《駿馬奔騰迎新歲》

頂豪搶房潮席卷全國！ 中旅馥棠公館項目395㎡大平層加推入市！

《巫師》劇情設(shè)計師：初代結(jié)局受到了公司高層干預(yù)

怒燒45億，騰訊字節(jié)阿里決戰(zhàn)春節(jié)

中國隊第二金！徐夢桃贏女子空中技巧兩連冠邵琪銅牌

明星過年百態(tài)！黃曉明等現(xiàn)身三亞

面條火腿香菇醬！上市公司這些年請你吃

量產(chǎn)甲醇插混吉利銀河星耀6甲醇插混版申報圖

聽懂這5點，下學(xué)期教書，哪還有什么不幸福的？

頂豪搶房潮席卷全國！中旅馥棠公館項目395㎡大平層加推入市！