<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      哈佛Yilun Du專訪:世界模型三問 —— 因果、規(guī)劃與泛化的征途

      0
      分享至


      大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自智源社區(qū)

      強(qiáng)化學(xué)習(xí)智能體在像素環(huán)境中可實現(xiàn)游戲高分刷新,但關(guān)鍵線索隱匿時即陷入決策困境;生成模型雖能生成光影逼真場景,卻無法解析 “積木傾塌” 背后的基礎(chǔ)物理邏輯。

      人工智能對真實世界的認(rèn)知,受限于以 “理解” 為核心的 “世界模型” 門檻。

      如今任職于哈佛大學(xué)Kempner 研究所與計算機(jī)科學(xué)系的助理教授Yilun Du正是該領(lǐng)域的核心探索者之一。憑借 MIT 博士畢業(yè)的扎實理論基礎(chǔ),他一直以來致力于通過生成式人工智能構(gòu)建具備推理與規(guī)劃能力的世界模型。他開創(chuàng)了用生成模型進(jìn)行決策規(guī)劃的新范式,并提出基于可組合性 和 “模型社會” 的下一代世界模型藍(lán)圖。

      OpenAI、FAIR、DeepMind 等諸多全球頂尖 AI 實驗室,都留下過他的研究足跡。這些經(jīng)歷,讓他對行業(yè)前沿動態(tài)有了多維度的深刻洞察。

      與此同時,Yilun Du也始終堅持著能量基模型(EBMs)的研究方向,為破解世界模型困境提供了關(guān)鍵思路。他早年聚焦能量景觀學(xué)習(xí),提出通過建模數(shù)據(jù)能量分布捕捉事物本質(zhì)。這一突破為 2020 年擴(kuò)散模型迭代埋下伏筆,也成了可組合生成建模的重要理論基石。他認(rèn)為,EBMs 能超越傳統(tǒng)模型的淺層擬合,挖掘底層能量邏輯,與世界模型的需求高度契合。就像孩子靠積木凹凸拼接、堆疊平衡的基本邏輯,能搭出城堡、橋梁等無數(shù)造型,Yilun Du 認(rèn)為,復(fù)雜世界的運行也遵循著簡潔深刻的底層規(guī)則。

      若能構(gòu)建可靈活組合、動態(tài)適配這些規(guī)則的模型,就能突破訓(xùn)練數(shù)據(jù)局限,觸達(dá)數(shù)據(jù)集中從未出現(xiàn)過的新場景。而打開世界模型的 “理解之門”,還需跨越三座關(guān)鍵關(guān)卡:當(dāng)前模型缺乏因果性與物理規(guī)律、需支持良好規(guī)劃和要能泛化到未見過的事物。

      這是模型從實驗室走向真實場景的關(guān)鍵,也是可組合建模的核心價值。關(guān)于如何突破這三重關(guān)卡,他在與智源的對話中分享了諸多洞見,從技術(shù)路徑的探索方向,到個人研究心得均有涉及,其中便包括他獨特的閱讀經(jīng)驗—— “偏愛研讀經(jīng)典的 AI 老論文,尤其是心理學(xué)、神經(jīng)科學(xué)領(lǐng)域的相關(guān)文章”。以下是本期智源專訪的完整內(nèi)容。

      智源專訪欄目意在展現(xiàn)行業(yè)頂尖技術(shù)研究者和創(chuàng)業(yè)者的研究經(jīng)歷和故事,記錄技術(shù)世界的嬗變,激發(fā)當(dāng)代AI從業(yè)者的創(chuàng)新思維,啟迪認(rèn)知、關(guān)注突破性進(jìn)展,為行業(yè)注入靈感光芒。本次專訪為總第31期。

      簡介:Yilun Du,哈佛大學(xué)肯普納研究所與計算機(jī)科學(xué)學(xué)院助理教授、博士生導(dǎo)師。麻省理工學(xué)院電子工程與計算機(jī)科學(xué)系博士,師從萊斯利·凱爾布林、托馬斯·洛薩諾-佩雷斯和約書亞·特南鮑姆教授。曾任OpenAI研究員,并在Meta FAIR與Google DeepMind從事研究。主要研究方向包括生成建模、具身智能、機(jī)器人學(xué)習(xí)與決策推理,致力于通過生成式人工智能構(gòu)建具備推理與規(guī)劃能力的世界模型。相關(guān)研究在NeurIPS、ICML、ICLR、ICCV、RSS等多次發(fā)表,其在能量基模型和擴(kuò)散模型方面的工作對生成式人工智能的發(fā)展具有重要影響。

      采訪:李夢佳

      編輯:陳然

      01


      學(xué)術(shù)起點,高中起對生物充滿熱忱

      “對生物的興趣是我的重要起點,讓我對如何創(chuàng)造智能產(chǎn)生濃厚興趣”

      采訪者:在求學(xué)和工作過程中,您認(rèn)為有哪些關(guān)鍵經(jīng)歷對您的學(xué)術(shù)方向產(chǎn)生了影響?

      Yilun Du第一個關(guān)鍵經(jīng)歷,是從小便接觸生物相關(guān)知識。那時我參加過生物奧林匹克競賽,由此對 “如何創(chuàng)造智能” 產(chǎn)生了濃厚興趣,所以高中階段對生物的熱忱,成了我探索智能領(lǐng)域的重要起點。進(jìn)入本科后,我關(guān)注到 DeepMind 及其 AlphaGo 的相關(guān)成果。這些突破讓我真切感受到 “創(chuàng)造人工智能” 這一方向的獨特魅力,也進(jìn)一步加深了我對該領(lǐng)域的興趣。本科第三年,我在 OpenAI 度過了 9 個月,期間主要圍繞能量基模型和人工智能模型開展研究。這段經(jīng)歷同樣意義非凡,也正是從這時起,我萌生了攻讀博士、投身科研的想法。

      采訪者:您在OpenAI、FAIR還有DeepMind這些頂尖實驗室都有過研究經(jīng)歷,這些不同的環(huán)境,在研究風(fēng)格、問題選擇以及目標(biāo)上會有什么不同嗎?

      Yilun Du差異較大。2018年我在OpenAI時,它才剛剛起步,總共只有二十幾個人。那時候80%的人在做強(qiáng)化學(xué)習(xí),20%的人在做各種深度生成模型,比如語言模型或者我們當(dāng)時在做的能量基模型,和現(xiàn)在的OpenAI很不一樣,規(guī)模真的很小。不過那時候OpenAI的人們特別專注,大家都非常相信自己所做的事情,我覺得現(xiàn)在行業(yè)里最聰明的一批人都在那里,每個人都很投入。

      而FAIR、DeepMind等公司規(guī)模則大得多,每個公司都有好幾百人甚至好幾千人,整體氛圍會輕松一些,和OpenAI的緊張專注不太一樣,而且大家對科研的關(guān)注點也有所不同。在人工智能領(lǐng)域,OpenAI的研究方向和硅谷的關(guān)聯(lián)更緊密,大家特別想做出通用人工智能相關(guān)的成果。但DeepMind的研究更偏向科研性質(zhì),有些人關(guān)注計算機(jī)科學(xué),有些人專注神經(jīng)科學(xué),還有人研究人工智能在科學(xué)領(lǐng)域的應(yīng)用,研究方向更開放、沒有那么局限。我?guī)啄昵霸贔AIR的時候,那里的研究氛圍也比較開放,當(dāng)時我們在做FAIR Protein相關(guān)的研究,類似ESM這種用語言模型研究蛋白質(zhì)的方向,整體也是比較開放的狀態(tài)。

      采訪者:在這些過往經(jīng)歷中,您覺得有沒有對您影響特別大的人物或者相關(guān)的理論?

      Yilun Du:我在 OpenAI 期間經(jīng)歷了蠻大的轉(zhuǎn)變。當(dāng)初選擇加入 OpenAI,是因為看到他們開發(fā)出能玩《DOTA2》的智能體,所以最開始我對智能體格外感興趣。在 OpenAI 的日子里,我每天都會和 Ilya Sutskever 交流,他常跟我說,自己不太相信通用強(qiáng)化學(xué)習(xí),卻對通用模型格外認(rèn)可,尤其是能量基模型。

      也正因如此,我從那時起開始投身能量基模型與通用模型的研究。那會兒行業(yè)里,大家基本都在使用生成對抗網(wǎng)絡(luò),且這類網(wǎng)絡(luò)僅應(yīng)用于圖像領(lǐng)域;同時智能體的研究正當(dāng)火熱,幾乎沒人涉足生成模型相關(guān)方向,所以我們當(dāng)時做這個領(lǐng)域,總覺得格外有意義。

      從那之后,我便一直對能量基模型抱有濃厚興趣。后來依托我們在能量基模型上的研究,又延伸出擴(kuò)散模型相關(guān)的工作 —— 由于擴(kuò)散模型與能量基模型極為相似,我們還將之前在能量基模型上的成果遷移到了擴(kuò)散模型中。這段經(jīng)歷,也讓我最終確定了如今的研究方向。


      圖注:Ilya Sutskever圖片(圖源CNN)

      02

      EBM或?qū)⒃谕评眍I(lǐng)域有大突破

      “真正想學(xué)習(xí)的EBM,是要讓真實答案都是低能量,其余答案都是高能量。”

      采訪者:請您分析一下基于能量基模型(EBM)和基于分?jǐn)?shù)(score)的模型,您認(rèn)為它們有什么不一樣的地方?各自有什么優(yōu)點、缺點呢?

      Yilun Du其實可以說分?jǐn)?shù)模型就是能量基模型的一種。傳統(tǒng)意義上,分?jǐn)?shù)匹配是訓(xùn)練能量基模型的一種方法。但能量基模型本身有個特點:當(dāng)你學(xué)習(xí)到能量景觀之后,若想生成一張圖像,便可采用自適應(yīng)測試時計算的方式 —— 你希望能量優(yōu)化運行多久,它便能運行多久。如此一來,比如生成圖像時,你能通過運行多步朗之萬動力學(xué)得到理想圖像。這正是能量基模型的優(yōu)勢所在,即可以通過控制采樣時間,提升生成結(jié)果的質(zhì)量。而分?jǐn)?shù)模型,正是學(xué)習(xí)能量基模型的一種方式。像大家熟知的 Jaccard 相似系數(shù),早在 21 世紀(jì)初就有不少人探索這種方法。從這個角度來講,分?jǐn)?shù)模型其實就是能量基模型的一種。

      注:Jaccard相似系數(shù)主要用于計算符號度量或布爾值度量的個體間的相似度(一般用于解決非對稱二元的相關(guān)性問題),無法衡量差異具體值的大小,只能獲得“是否相同”這個結(jié)果,所以Jaccard系數(shù)只關(guān)心個體間共同具有的特征是否一致這個問題。Jaccard系數(shù)等于樣本集交集與樣本集合四集的比值,可以用于計算兩個集合的相似性,無論這些集合是文檔、用戶的興趣愛好或任何其他類型的集合。

      采訪者:在未來兩三年里,EBM可能會最先在哪一個應(yīng)用領(lǐng)域取得突破?

      Yilun Du:我覺得能量基模型在推理領(lǐng)域應(yīng)該會有蠻大的突破。現(xiàn)在推理的一個核心問題,是如何通過更多的測試時計算,得到更優(yōu)的答案。當(dāng)下大家用鏈?zhǔn)剿季S做推理,會發(fā)現(xiàn)很多推理任務(wù)其實頗具難度 —— 有些推理過程難以用語言清晰表述,而且當(dāng)鏈?zhǔn)剿季S的流程拉得很長時,也很難明確它具體的運行邏輯。

      能量基模型有個鮮明特點,就是能通過采樣直接生成答案,因此你可以通過多步優(yōu)化,逐步趨近并得到最終答案。我們最近有一篇論文《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》,正是將語言模型的可能性也視作一種能量,再在其上通過采樣開展推理。

      所以我認(rèn)為,用采樣與迭代優(yōu)化的思路來做推理,是讓模型能夠依據(jù)可用時間,靈活決定測試時計算量的好方式。


      圖注:《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》

      采訪者目前最關(guān)心的研究方向是什么?

      Yilun Du:總的來說,我現(xiàn)在對智能體的構(gòu)建格外感興趣。比如如何打造出色的機(jī)器人,讓它能完成各類家庭或工作任務(wù);又或者如何研發(fā)線上智能體,幫人們處理發(fā)郵件、購物等事務(wù) —— 核心就是探索智能體的構(gòu)建方法。我感覺目前最大的問題,在于現(xiàn)有系統(tǒng)在這方面的表現(xiàn)都不盡如人意。像語言模型智能體,環(huán)境稍有變化便無法正常工作,可靠性不足;機(jī)器人也是如此,一旦環(huán)境改變或接到新任務(wù),往往難以順利運行。

      我認(rèn)為問題的核心在于決策環(huán)節(jié)。世界本身存在無限可能,我或許會給智能體設(shè)定從未見過的目標(biāo),而這些目標(biāo)并未包含在訓(xùn)練數(shù)據(jù)集中,導(dǎo)致系統(tǒng)在新環(huán)境下無法給出理想答案。這便是泛化難題。通常訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,它會擬合給定的訓(xùn)練數(shù)據(jù)集,但在決策任務(wù)中,遇到未見過的目標(biāo),就會超出數(shù)據(jù)集的覆蓋范圍。

      那該如何解決這個問題呢?我認(rèn)為必須讓系統(tǒng)具備推理能力,能夠通過規(guī)劃或搜索得出答案。具體該如何通過搜索與規(guī)劃獲取動作呢?我們一直在開展能量基模型相關(guān)的研究,也可以采用廣度模型,比如學(xué)習(xí)一個動力學(xué)模型。有了動力學(xué)模型,再結(jié)合動作序列,就能得到動作軌跡;依據(jù)這些動作可計算出能量,進(jìn)而借助能量進(jìn)行搜索。所以我覺得,要做好決策,離不開通過搜索或推理來獲取答案。

      采訪者:在實際落地過程中,EBM的穩(wěn)定性和收斂性是否是現(xiàn)在的工程挑戰(zhàn)之一?目前有哪些解決思路?

      Yilun Du:有一個思路是,擴(kuò)散模型中的分?jǐn)?shù)匹配其實就是 EBM 的一種訓(xùn)練方式,因此可將擴(kuò)散模型大致解釋為 EBM。不過兩者存在一點差別:擴(kuò)散模型通常只需運行幾步,從噪聲起步,依據(jù)時間積分即可得到答案。但若是將決策模型解釋為 EBM,采樣過程便有所不同 —— 需在高噪聲水平下運行多步以獲取一個答案,隨后進(jìn)入下一個時間步,再運行多步。如此一來,其實可以將未來模型轉(zhuǎn)化為類似 EBM 的形態(tài)。我們最近有一篇論文《Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models》的,把流匹配這類方法稍作修改,便使其成為了真正的 EBM,可見二者本質(zhì)上十分接近。

      當(dāng)然,我們真正希望學(xué)習(xí)的 EBM,需讓真實答案均處于低能量狀態(tài),其余答案則處于高能量狀態(tài)。但通過分?jǐn)?shù)匹配的方式學(xué)習(xí)能量景觀時,每個正確答案都會成為一個局部最小值,能量在此處雖達(dá)到最低,可這些能量值有高有低,并非理想的 EBM 景觀。因此,若想真正學(xué)習(xí)到優(yōu)質(zhì)的 EBM 基線,還必須借助對比學(xué)習(xí) —— 需找到辦法將所有正確答案的能量向下壓制,同時將其余答案的能量向上推升。這一過程頗具難度,核心在于要設(shè)法構(gòu)建出優(yōu)質(zhì)的負(fù)樣本。


      圖注:Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers網(wǎng)站頁面

      03

      世界模型,如何泛化到前所未見的事物?

      “世界上只有幾個簡單的規(guī)則,構(gòu)建一個組合模型就能泛化到其他”

      采訪者:目前世界模型方面,要攻克的最關(guān)鍵問題是什么?

      Yilun Du:我覺得世界模型有幾個關(guān)鍵問題。第一個大問題,現(xiàn)在的世界模型不夠有因果性,也不夠符合物理規(guī)律。比如讓像Sora這樣的模型去抓一個杯子,杯子可能就浮起來了,其實根本沒抓上,說明這些世界模型的物理準(zhǔn)確性不足。

      第二個問題,世界模型并不需要最準(zhǔn)確的,而是需要能支持良好規(guī)劃的能力。比如我想規(guī)劃去夏威夷旅游,如果用現(xiàn)在的視頻生成模型作為世界模型,是做不到的,因為讓它模擬“打開網(wǎng)站、點擊按鈕訂機(jī)票”這個過程,每一步都模擬不出來。我覺得有些任務(wù)中,世界模型不應(yīng)該模擬每一張照片,有時候需要模擬幾張照片,而有時候需要模擬更高層次的知識。所以世界知識必須是分層的,不只是模擬下面幾幀照片的方式。

      第三個大問題,需要讓這些模型能泛化到?jīng)]見過的東西。比如YouTube上有各種視頻,像“抓杯子”的視頻很多,但“沒抓好杯子把杯子摔壞”的視頻很少。但如果真想把視頻模型用在機(jī)器人上,就必須讓模型能準(zhǔn)確模擬沒見過的場景。所以怎么實現(xiàn)這種好的泛化能力,是個很有意思的問題。我們一直在做組合結(jié)構(gòu)相關(guān)的工作,認(rèn)為世界上其實只有幾個簡單的規(guī)則,只要構(gòu)建一個能把這些簡單規(guī)則組合起來的模型,就能泛化到?jīng)]見過的場景。但泛化確實是個大問題,現(xiàn)在大家展示世界模型時只放幾個視頻,能展示幾個好的案例,但如果要真正用在機(jī)器人上,不能只生成一兩個視頻,而是要100%的時候都能生成好的動作規(guī)劃,所以泛化能力就非常重要了。

      采訪者:關(guān)于現(xiàn)有的那些世界模型,它們的方法有哪些?

      Yilun Du我感覺如今大家似乎把許多事物都稱作世界模型。有人會說圖像模型是世界模型,也有人認(rèn)為視頻模型屬于世界模型。在我看來,不妨去翻閱傳統(tǒng) AI 的論文,其中便有 “基于模型的智能” 這一概念。像邏輯專家系統(tǒng)這類傳統(tǒng) AI 系統(tǒng),都秉持著這樣的思路:先建立一個數(shù)據(jù)庫或儲備一些信息,用以描述世界的演變規(guī)律;再設(shè)計一個推理過程,結(jié)合既定目標(biāo),通過推理,依據(jù)信息數(shù)據(jù)庫與目標(biāo)推導(dǎo)出最終答案。我認(rèn)為,這才是世界模型最通用的形態(tài)。

      采訪者:世界模型應(yīng)該要記住世界的哪些關(guān)鍵信息,它又是怎么篩選那些信息的?

      Yilun Du:這是個有意思的問題,其實我們不太清楚到底要記哪些信息。一方面,大型語言模型記了很多信息,尤其是高層級信息,比如想訂機(jī)票去開會,它知道每一步該怎么操作,所以語言模型有特別多的高層級信息。另一方面,視頻模型則有更多低層級的物理信息,比如想系鞋帶,視頻模型可以告訴我具體怎么做。再比如動作模型、觸覺模型或者音頻模型,它們又各自包含各種其他信息。所以我的感覺是,我們也不太清楚到底需要多少信息,但應(yīng)該把現(xiàn)在這些模型都當(dāng)作不同的信息源。比如我們有了這些源信息,再把機(jī)器人放在真實世界中,讓它在真實世界里學(xué)習(xí)剩下未知的信息。

      怎么篩選到有用的信息,這也特別重要。因為信息量大的話,很難找到正確的答案或信息來完成想做的事。不過現(xiàn)在的語言模型其實有一個非常高效的獲取信息的方式 —— 傳統(tǒng)的數(shù)據(jù)庫信息量大,但查到正確答案很費勁,而語言模型只要你問它問題,就能給出一個答案。這個答案可能不準(zhǔn)確,所以需要多花點時間計算 / 推理來得到正確答案,但至少答案應(yīng)該是比較接近準(zhǔn)確的。

      所以我覺得可以用現(xiàn)在的生成模型作為幫助找到有用信息的方式。你可以想象,我有一個語言模型、一個視頻模型、一個動作模型,根據(jù)我需要的信息直接查詢這些模型,就能得到大概需要的信息了。


      圖注:Yilun Du 參加神經(jīng)人工智能前沿研討會,討論“學(xué)習(xí)世界組合模型”

      采訪者:關(guān)于具身智能領(lǐng)域,宏觀趨勢下,未來10年可能推動具身智能進(jìn)步的核心驅(qū)動力會是什么?

      Yilun Du我認(rèn)為當(dāng)前存在幾個關(guān)鍵問題亟待解決。第一個尤為突出的問題是記憶缺失。如今我們研發(fā)的系統(tǒng),比如依據(jù)單張照片執(zhí)行策略的模型,普遍缺乏記憶能力。正因為沒有記憶,舉個例子,若要尋找某件物品,它可能打開柜子后又關(guān)上,過不了多久,就因毫無記憶再次打開同一個柜子。這便是當(dāng)下模型普遍面臨的記憶短板。更關(guān)鍵的是,即便在策略中融入記憶模塊,實際效果也不盡如人意 —— 這些策略往往無法真正理解記憶的價值與用途。

      第二個核心問題是持續(xù)學(xué)習(xí)的實現(xiàn)。現(xiàn)在的模型,大多依賴龐大的數(shù)據(jù)集完成訓(xùn)練,訓(xùn)練結(jié)束后,進(jìn)入真實世界便不再具備學(xué)習(xí)能力。但人類截然不同,比如接觸一款新工具、學(xué)習(xí)一項新任務(wù),都能快速掌握。因此,讓系統(tǒng)擁有快速學(xué)習(xí)新事物的能力,同樣是重中之重。

      第三個問題,我認(rèn)為也至關(guān)重要,那就是搜索與推理能力的欠缺。如今的語言模型,瀏覽過的文本數(shù)量遠(yuǎn)超任何人,積累的知識也極為龐大,卻鮮少有真正的創(chuàng)造力。比如多數(shù)數(shù)學(xué)定理之類的內(nèi)容,語言模型在預(yù)訓(xùn)練階段早已接觸,從這個角度看,這些模型更像是信息檢索工具 —— 即便存儲了海量數(shù)據(jù),也無法在此基礎(chǔ)上展開推理。而人類獲取這些數(shù)據(jù)后,能以全新的方式將其組合,進(jìn)而得出新的見解、找到新的解決方案。

      在我看來,當(dāng)前的神經(jīng)網(wǎng)絡(luò)系統(tǒng)更偏向模式識別工具,僅學(xué)會了極為簡單的計算邏輯,并未掌握真正通用、可泛化的能力。若想研發(fā)更先進(jìn)的人工智能,必須打造更多具備高層級推理能力的系統(tǒng)。具體該如何實現(xiàn)?我認(rèn)為搜索與規(guī)劃能力必不可少,我們所研究的能量基模型,正是實現(xiàn)高層級推理的路徑之一,這也是第三點需要突破的核心方向。

      采訪者:您現(xiàn)在所倡導(dǎo)的基于可組合能量圖譜的具身智能路線,和目前比較火的VLA模型路線,最大的分歧點在哪里?

      Yilun Du在我看來,VLA 的邏輯對我而言并不合理。VLA 的核心是將圖像、文本與動作進(jìn)行映射,但實際上,傳統(tǒng)機(jī)器人決策存在兩種經(jīng)典路徑:一是學(xué)習(xí)策略,二是學(xué)習(xí)模型。在處理機(jī)器人相關(guān)問題時,傳統(tǒng)方法往往更傾向于學(xué)習(xí)模型。

      以控制機(jī)器人抓取物體為例,一種簡單的思路是記錄每一步所需動作,之后通過回放完成任務(wù),這屬于無模型的方式。而基于模型的方式,則是先學(xué)習(xí)機(jī)器人的運動學(xué)模型,掌握物體的 3D 姿態(tài),再依據(jù)這些信息計算出抓取方案。這兩種方式中,前者顯然更簡便,只需記錄動作即可;但后者的泛化能力要強(qiáng)得多 —— 即便將蘋果放到新的位置,依然能通過類似的計算完成抓取。

      我認(rèn)為這正是二者的核心差異。如今的 VLA,本質(zhì)上更接近記錄動作的思路:依靠海量數(shù)據(jù)訓(xùn)練,模型在數(shù)據(jù)中產(chǎn)生過擬合,最終只能根據(jù)見過的圖像預(yù)測動作。因此 VLA 的泛化能力極差,只要遇到不同的物體,或是接收到不同的語言指令,便無法正常工作。

      比如面前放著蘋果時讓它去抓橘子,它仍會沿用抓取蘋果的方式 —— 因為模型并未掌握高層級推理能力,只是機(jī)械記住了見過的演示過程。而我們的研究方向,是學(xué)習(xí)世界模型或能量基模型,再在此基礎(chǔ)上展開推理,更貼近傳統(tǒng)機(jī)器人采用的基于模型的方式:先學(xué)習(xí)世界模型,再確立作為目標(biāo)函數(shù)的能量函數(shù),最后通過運行搜索與規(guī)劃得出動作。我們相信,這種方式才能真正解決未見過的問題,而非僅能應(yīng)對已 “死記硬背” 的場景,這便是我們研究的核心方向。

      04

      品讀經(jīng)典,六十年代的神經(jīng)學(xué)探索

      “我偏愛研讀經(jīng)典的 AI 老論文,以及心理學(xué)、神經(jīng)科學(xué)領(lǐng)域的相關(guān)文章。”

      采訪者:如今很多研究方向呈現(xiàn)同質(zhì)化,如何看待當(dāng)前卷帙浩繁的論文?

      Yilun Du我不太喜歡,也很少去讀如今大家頻繁發(fā)在網(wǎng)上的那些論文。在我看來,要是天天沉浸在這些熱門論文里,自己做的研究很容易就會和眾人趨同 —— 畢竟大家關(guān)注的都是同一批熱點文章。所以我更偏愛讀一些經(jīng)典論文。比如今年我在講授一門課程時,便帶著學(xué)生從 1950 年開始,研讀各類七八十年代,甚至五六十年代的人工智能文章。

      品讀這些經(jīng)典老文,你會發(fā)現(xiàn)如今大家鉆研的許多內(nèi)容,其實前人早已探索過;但同時也能清晰看到不同研究方法的優(yōu)劣所在。在我看來,讀老論文是個很有價值的方式。此外,我還很喜歡讀心理學(xué)或神經(jīng)科學(xué)領(lǐng)域的文章,畢竟人類本身就是一個極具代表性的智能范例。你可以觀察人類如何學(xué)習(xí)知識,再由此思考怎樣讓人工智能實現(xiàn)人類具備的能力。

      只要你稍微翻開幾本神經(jīng)科學(xué)的書籍,就會發(fā)現(xiàn)其中有大量研究圍繞記憶構(gòu)建、持續(xù)學(xué)習(xí)、模型控制展開,這些都是由來已久的傳統(tǒng)研究方向。借助這些內(nèi)容,你能清楚意識到當(dāng)前人工智能的能力與人類智能之間的差距,進(jìn)而發(fā)掘出許多值得深入探索的研究問題。

      采訪者:神經(jīng)科學(xué)領(lǐng)域,有沒有什么讓您有很大啟發(fā)的idea?

      Yilun Du:從神經(jīng)科學(xué)中學(xué)到的一些觀點,給了我不少啟發(fā)。其中有一點格外有意思:人腦并非一個單一的龐大模型,而是由各類功能模塊構(gòu)成的復(fù)雜系統(tǒng)。比如,大腦中有負(fù)責(zé)語言表達(dá)的區(qū)域、負(fù)責(zé)聽覺感知的區(qū)域,也有負(fù)責(zé)動作控制的區(qū)域。即便有人大腦的某一區(qū)域出現(xiàn)問題,他依然能夠正常思考、正常聆聽,只是無法順利說話而已。

      由此可見,人腦是一個高度模塊化的系統(tǒng),各個模塊各司其職又協(xié)同配合,最終共同支撐起完整的智能。我們目前開展的許多研究,正是在探索如何將各類模型整合起來,構(gòu)建出更具智能的整體系統(tǒng) —— 這一思路,大概就是從神經(jīng)科學(xué)的研究中得到的啟發(fā)。

      采訪者:有哪些看起來有些“過時”的經(jīng)典論文推薦研讀?

      Yilun Du有許多極具價值的經(jīng)典論文。比如 Marvin Minsky 撰寫的《Steps Towards Artificial Intelligence》,若你細(xì)細(xì)品讀便會發(fā)現(xiàn),如今學(xué)界研究的幾乎每一個方向,文中都曾提及 —— 他不僅探討了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,還闡述了強(qiáng)化學(xué)習(xí)、搜索規(guī)劃的實現(xiàn)路徑,以及記憶機(jī)制的構(gòu)建思路。再如 John McCarthy 的《Programs with Common Sense》,文中詳細(xì)論述了智能系統(tǒng)所需的核心要素,以及如何借助邏輯實現(xiàn)這些功能。此外,Marvin Minsky 還有一本著作《The Society of Mind》,專門講解如何通過去中心化的 AI 智能體或去中心化的 AI 組件,搭建起一個完整的智能系統(tǒng)。我覺得這些內(nèi)容都格外有意思。實際上,這類稍早的經(jīng)典文獻(xiàn)并不難尋,稍加檢索就能找到。但當(dāng)你真正讀進(jìn)去就會發(fā)現(xiàn),現(xiàn)在我們探索的各種想法,前人早已埋下過思想的種子。


      圖注:《The Society of Mind》

      GPU 訓(xùn)練特惠!

      H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      真慘!燃油車再次迎大降價,最大跌幅50%,老車主“背刺”成常態(tài)

      真慘!燃油車再次迎大降價,最大跌幅50%,老車主“背刺”成常態(tài)

      小談食刻美食
      2026-04-25 09:34:33
      這臺大眾很不大眾 解讀一汽-大眾ID. AURA T6

      這臺大眾很不大眾 解讀一汽-大眾ID. AURA T6

      新出行
      2026-04-25 14:01:58
      美國發(fā)出宣戰(zhàn)書!美軍集結(jié)到位,21國要求本國公民立即從伊朗撤離

      美國發(fā)出宣戰(zhàn)書!美軍集結(jié)到位,21國要求本國公民立即從伊朗撤離

      史政先鋒
      2026-04-25 14:47:45
      快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

      快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

      極目新聞
      2025-10-28 11:13:51
      前所未有!中國罕見直接表態(tài):軍演針對菲律賓

      前所未有!中國罕見直接表態(tài):軍演針對菲律賓

      鳳眼論
      2026-04-24 18:49:26
      特朗普:美國總統(tǒng)是危險職業(yè) 不想生活在恐懼之中

      特朗普:美國總統(tǒng)是危險職業(yè) 不想生活在恐懼之中

      財聯(lián)社
      2026-04-26 12:16:05
      60歲宋祖英:臉部圓潤眼袋明顯,同母異父的妹妹是知名演員

      60歲宋祖英:臉部圓潤眼袋明顯,同母異父的妹妹是知名演員

      細(xì)品名人
      2026-04-25 07:55:00
      中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

      中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

      福建睿平
      2026-04-26 10:53:36
      穆杰塔巴傷情曝光!比想象更重,他用一招終結(jié)美以斬首戰(zhàn)術(shù)

      穆杰塔巴傷情曝光!比想象更重,他用一招終結(jié)美以斬首戰(zhàn)術(shù)

      聞識
      2026-04-26 04:59:24
      河北一女子稱用輪椅推患病親人到銀行取錢被拒:急需入院治療,人都快沒氣了;銀行致歉

      河北一女子稱用輪椅推患病親人到銀行取錢被拒:急需入院治療,人都快沒氣了;銀行致歉

      大象新聞
      2026-04-25 21:45:03
      首組2-2!尼克斯大勝老鷹進(jìn)天王山 唐斯20+10+10布倫森19分

      首組2-2!尼克斯大勝老鷹進(jìn)天王山 唐斯20+10+10布倫森19分

      醉臥浮生
      2026-04-26 08:52:23
      中國最危險的“淀粉崇拜”!不吃米飯哪有力氣?這套農(nóng)耕廢物邏輯害慘了現(xiàn)代人

      中國最危險的“淀粉崇拜”!不吃米飯哪有力氣?這套農(nóng)耕廢物邏輯害慘了現(xiàn)代人

      知識圈
      2026-04-25 20:46:53
      誰能相信啊!天賦滿滿的狀元郎,29歲被交易,30歲又要被交易?

      誰能相信啊!天賦滿滿的狀元郎,29歲被交易,30歲又要被交易?

      球毛鬼胎
      2026-04-26 12:58:38
      霍爾木茲海峽,傳來大消息!伊朗總統(tǒng),最新發(fā)聲!比特幣跳水,超9.9萬人爆倉!

      霍爾木茲海峽,傳來大消息!伊朗總統(tǒng),最新發(fā)聲!比特幣跳水,超9.9萬人爆倉!

      證券時報e公司
      2026-04-25 22:11:02
      掘金主帥:我不喜歡麥克丹尼爾斯的行為,但這就是他的為人

      掘金主帥:我不喜歡麥克丹尼爾斯的行為,但這就是他的為人

      懂球帝
      2026-04-26 12:45:19
      孩子脫臼復(fù)位只收100元,家長舉報亂收費!衛(wèi)健委:應(yīng)收110元,你還少給了!家長拒繳費后離開!

      孩子脫臼復(fù)位只收100元,家長舉報亂收費!衛(wèi)健委:應(yīng)收110元,你還少給了!家長拒繳費后離開!

      醫(yī)脈圈
      2026-04-25 20:04:06
      想干啥?青島兩根立桿裝18個攝像頭24個補(bǔ)光燈!當(dāng)?shù)鼐街虑?>
    </a>
        <h3>
      <a href=聽心堂
      2026-04-25 19:00:02
      車圈最卷的時候,有人開始做減法

      車圈最卷的時候,有人開始做減法

      虎嗅APP
      2026-04-25 16:02:28
      記者現(xiàn)場探訪:普通山坡藏著“金色”線索

      記者現(xiàn)場探訪:普通山坡藏著“金色”線索

      半島晨報
      2026-04-25 19:11:46
      4個去中國化最徹底的國家,一個已全盤西化,一個正試圖恢復(fù)漢字

      4個去中國化最徹底的國家,一個已全盤西化,一個正試圖恢復(fù)漢字

      你是我心中最美星空
      2026-04-26 07:15:09
      2026-04-26 13:59:00
      大數(shù)據(jù)文摘 incentive-icons
      大數(shù)據(jù)文摘
      專注大數(shù)據(jù),每日有分享!
      6853文章數(shù) 94542關(guān)注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

      頭條要聞

      白宮槍手系教師兼游戲開發(fā)者 曾向哈里斯總統(tǒng)競選捐款

      頭條要聞

      白宮槍手系教師兼游戲開發(fā)者 曾向哈里斯總統(tǒng)競選捐款

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《八千里路云和月》大結(jié)局意難平

      財經(jīng)要聞

      DeepSeek V4背后,梁文鋒的轉(zhuǎn)身

      汽車要聞

      預(yù)售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態(tài)度原創(chuàng)

      教育
      健康
      旅游
      游戲
      公開課

      教育要聞

      新疆溫泉縣:山水映校園 少年正向陽

      干細(xì)胞如何讓燒燙傷皮膚"再生"?

      旅游要聞

      春光正好迎假期 文旅消費暖意濃 多元“微度假”體驗解鎖小城引流密碼

      《光與影:33號遠(yuǎn)征隊》迎來發(fā)售一周年紀(jì)念

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久久av男人的天堂| 国产精品久久久久鬼色| 亚洲国产精品成人av网| 欧美成人动态图| 69亚洲| 甘洛县| 夜夜躁很很躁日日躁麻豆| 美女少妇高潮一区二区| 西西人体大胆瓣开下部自慰 | 炉霍县| 精品中文字幕人妻一二| 大地资源在线高清| 九九天堂网| 亚洲国产成人极品综合| 自慰无码一区二区三区| 激情自拍校园春色中文| 国产黄色一区二区三区四区| 亚洲日本91| 四虎成人精品无码| 老熟妇老熟女老女人天堂| 亚洲综合久久一区二区| 在线天堂最新版资源| 亚洲婷婷综合色高清在线| 好吊av| 精品亚洲综合成人网| 亚洲中文字幕久久精品蜜桃| 亚洲老女人区一区二视频| 国产精品人妻系列21p| 隔壁人妻偷人bd中字| 亚洲精品成人片在线观看精品字幕| a网站免费观看| 沙湾县| 无码AV无码免费一区二区| 国产在线不卡AV观看| 亚洲欧美国产免费综合视频| 国产精品无码一本二本三本色| 久久av色欲av久久蜜桃网| 国产精品久久久| 国产成人精品无码片区在线观看| 国产太嫩了在线观看| 亚洲国产色图|