<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      哈佛Yilun Du專訪:世界模型三問 —— 因果、規(guī)劃與泛化的征途

      0
      分享至


      大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自智源社區(qū)

      強化學(xué)習(xí)智能體在像素環(huán)境中可實現(xiàn)游戲高分刷新,但關(guān)鍵線索隱匿時即陷入決策困境;生成模型雖能生成光影逼真場景,卻無法解析 “積木傾塌” 背后的基礎(chǔ)物理邏輯。

      人工智能對真實世界的認(rèn)知,受限于以 “理解” 為核心的 “世界模型” 門檻。

      如今任職于哈佛大學(xué)Kempner 研究所與計算機科學(xué)系的助理教授Yilun Du正是該領(lǐng)域的核心探索者之一。憑借 MIT 博士畢業(yè)的扎實理論基礎(chǔ),他一直以來致力于通過生成式人工智能構(gòu)建具備推理與規(guī)劃能力的世界模型。他開創(chuàng)了用生成模型進(jìn)行決策規(guī)劃的新范式,并提出基于可組合性 和 “模型社會” 的下一代世界模型藍(lán)圖。

      OpenAI、FAIR、DeepMind 等諸多全球頂尖 AI 實驗室,都留下過他的研究足跡。這些經(jīng)歷,讓他對行業(yè)前沿動態(tài)有了多維度的深刻洞察。

      與此同時,Yilun Du也始終堅持著能量基模型(EBMs)的研究方向,為破解世界模型困境提供了關(guān)鍵思路。他早年聚焦能量景觀學(xué)習(xí),提出通過建模數(shù)據(jù)能量分布捕捉事物本質(zhì)。這一突破為 2020 年擴散模型迭代埋下伏筆,也成了可組合生成建模的重要理論基石。他認(rèn)為,EBMs 能超越傳統(tǒng)模型的淺層擬合,挖掘底層能量邏輯,與世界模型的需求高度契合。就像孩子靠積木凹凸拼接、堆疊平衡的基本邏輯,能搭出城堡、橋梁等無數(shù)造型,Yilun Du 認(rèn)為,復(fù)雜世界的運行也遵循著簡潔深刻的底層規(guī)則。

      若能構(gòu)建可靈活組合、動態(tài)適配這些規(guī)則的模型,就能突破訓(xùn)練數(shù)據(jù)局限,觸達(dá)數(shù)據(jù)集中從未出現(xiàn)過的新場景。而打開世界模型的 “理解之門”,還需跨越三座關(guān)鍵關(guān)卡:當(dāng)前模型缺乏因果性與物理規(guī)律、需支持良好規(guī)劃和要能泛化到未見過的事物。

      這是模型從實驗室走向真實場景的關(guān)鍵,也是可組合建模的核心價值。關(guān)于如何突破這三重關(guān)卡,他在與智源的對話中分享了諸多洞見,從技術(shù)路徑的探索方向,到個人研究心得均有涉及,其中便包括他獨特的閱讀經(jīng)驗—— “偏愛研讀經(jīng)典的 AI 老論文,尤其是心理學(xué)、神經(jīng)科學(xué)領(lǐng)域的相關(guān)文章”。以下是本期智源專訪的完整內(nèi)容。

      智源專訪欄目意在展現(xiàn)行業(yè)頂尖技術(shù)研究者和創(chuàng)業(yè)者的研究經(jīng)歷和故事,記錄技術(shù)世界的嬗變,激發(fā)當(dāng)代AI從業(yè)者的創(chuàng)新思維,啟迪認(rèn)知、關(guān)注突破性進(jìn)展,為行業(yè)注入靈感光芒。本次專訪為總第31期。

      簡介:Yilun Du,哈佛大學(xué)肯普納研究所與計算機科學(xué)學(xué)院助理教授、博士生導(dǎo)師。麻省理工學(xué)院電子工程與計算機科學(xué)系博士,師從萊斯利·凱爾布林、托馬斯·洛薩諾-佩雷斯和約書亞·特南鮑姆教授。曾任OpenAI研究員,并在Meta FAIR與Google DeepMind從事研究。主要研究方向包括生成建模、具身智能、機器人學(xué)習(xí)與決策推理,致力于通過生成式人工智能構(gòu)建具備推理與規(guī)劃能力的世界模型。相關(guān)研究在NeurIPS、ICML、ICLR、ICCV、RSS等多次發(fā)表,其在能量基模型和擴散模型方面的工作對生成式人工智能的發(fā)展具有重要影響。

      采訪:李夢佳

      編輯:陳然

      01


      學(xué)術(shù)起點,高中起對生物充滿熱忱

      “對生物的興趣是我的重要起點,讓我對如何創(chuàng)造智能產(chǎn)生濃厚興趣”

      采訪者:在求學(xué)和工作過程中,您認(rèn)為有哪些關(guān)鍵經(jīng)歷對您的學(xué)術(shù)方向產(chǎn)生了影響?

      Yilun Du第一個關(guān)鍵經(jīng)歷,是從小便接觸生物相關(guān)知識。那時我參加過生物奧林匹克競賽,由此對 “如何創(chuàng)造智能” 產(chǎn)生了濃厚興趣,所以高中階段對生物的熱忱,成了我探索智能領(lǐng)域的重要起點。進(jìn)入本科后,我關(guān)注到 DeepMind 及其 AlphaGo 的相關(guān)成果。這些突破讓我真切感受到 “創(chuàng)造人工智能” 這一方向的獨特魅力,也進(jìn)一步加深了我對該領(lǐng)域的興趣。本科第三年,我在 OpenAI 度過了 9 個月,期間主要圍繞能量基模型和人工智能模型開展研究。這段經(jīng)歷同樣意義非凡,也正是從這時起,我萌生了攻讀博士、投身科研的想法。

      采訪者:您在OpenAI、FAIR還有DeepMind這些頂尖實驗室都有過研究經(jīng)歷,這些不同的環(huán)境,在研究風(fēng)格、問題選擇以及目標(biāo)上會有什么不同嗎?

      Yilun Du差異較大。2018年我在OpenAI時,它才剛剛起步,總共只有二十幾個人。那時候80%的人在做強化學(xué)習(xí),20%的人在做各種深度生成模型,比如語言模型或者我們當(dāng)時在做的能量基模型,和現(xiàn)在的OpenAI很不一樣,規(guī)模真的很小。不過那時候OpenAI的人們特別專注,大家都非常相信自己所做的事情,我覺得現(xiàn)在行業(yè)里最聰明的一批人都在那里,每個人都很投入。

      而FAIR、DeepMind等公司規(guī)模則大得多,每個公司都有好幾百人甚至好幾千人,整體氛圍會輕松一些,和OpenAI的緊張專注不太一樣,而且大家對科研的關(guān)注點也有所不同。在人工智能領(lǐng)域,OpenAI的研究方向和硅谷的關(guān)聯(lián)更緊密,大家特別想做出通用人工智能相關(guān)的成果。但DeepMind的研究更偏向科研性質(zhì),有些人關(guān)注計算機科學(xué),有些人專注神經(jīng)科學(xué),還有人研究人工智能在科學(xué)領(lǐng)域的應(yīng)用,研究方向更開放、沒有那么局限。我?guī)啄昵霸贔AIR的時候,那里的研究氛圍也比較開放,當(dāng)時我們在做FAIR Protein相關(guān)的研究,類似ESM這種用語言模型研究蛋白質(zhì)的方向,整體也是比較開放的狀態(tài)。

      采訪者:在這些過往經(jīng)歷中,您覺得有沒有對您影響特別大的人物或者相關(guān)的理論?

      Yilun Du:我在 OpenAI 期間經(jīng)歷了蠻大的轉(zhuǎn)變。當(dāng)初選擇加入 OpenAI,是因為看到他們開發(fā)出能玩《DOTA2》的智能體,所以最開始我對智能體格外感興趣。在 OpenAI 的日子里,我每天都會和 Ilya Sutskever 交流,他常跟我說,自己不太相信通用強化學(xué)習(xí),卻對通用模型格外認(rèn)可,尤其是能量基模型。

      也正因如此,我從那時起開始投身能量基模型與通用模型的研究。那會兒行業(yè)里,大家基本都在使用生成對抗網(wǎng)絡(luò),且這類網(wǎng)絡(luò)僅應(yīng)用于圖像領(lǐng)域;同時智能體的研究正當(dāng)火熱,幾乎沒人涉足生成模型相關(guān)方向,所以我們當(dāng)時做這個領(lǐng)域,總覺得格外有意義。

      從那之后,我便一直對能量基模型抱有濃厚興趣。后來依托我們在能量基模型上的研究,又延伸出擴散模型相關(guān)的工作 —— 由于擴散模型與能量基模型極為相似,我們還將之前在能量基模型上的成果遷移到了擴散模型中。這段經(jīng)歷,也讓我最終確定了如今的研究方向。


      圖注:Ilya Sutskever圖片(圖源CNN)

      02

      EBM或?qū)⒃谕评眍I(lǐng)域有大突破

      “真正想學(xué)習(xí)的EBM,是要讓真實答案都是低能量,其余答案都是高能量。”

      采訪者:請您分析一下基于能量基模型(EBM)和基于分?jǐn)?shù)(score)的模型,您認(rèn)為它們有什么不一樣的地方?各自有什么優(yōu)點、缺點呢?

      Yilun Du其實可以說分?jǐn)?shù)模型就是能量基模型的一種。傳統(tǒng)意義上,分?jǐn)?shù)匹配是訓(xùn)練能量基模型的一種方法。但能量基模型本身有個特點:當(dāng)你學(xué)習(xí)到能量景觀之后,若想生成一張圖像,便可采用自適應(yīng)測試時計算的方式 —— 你希望能量優(yōu)化運行多久,它便能運行多久。如此一來,比如生成圖像時,你能通過運行多步朗之萬動力學(xué)得到理想圖像。這正是能量基模型的優(yōu)勢所在,即可以通過控制采樣時間,提升生成結(jié)果的質(zhì)量。而分?jǐn)?shù)模型,正是學(xué)習(xí)能量基模型的一種方式。像大家熟知的 Jaccard 相似系數(shù),早在 21 世紀(jì)初就有不少人探索這種方法。從這個角度來講,分?jǐn)?shù)模型其實就是能量基模型的一種。

      注:Jaccard相似系數(shù)主要用于計算符號度量或布爾值度量的個體間的相似度(一般用于解決非對稱二元的相關(guān)性問題),無法衡量差異具體值的大小,只能獲得“是否相同”這個結(jié)果,所以Jaccard系數(shù)只關(guān)心個體間共同具有的特征是否一致這個問題。Jaccard系數(shù)等于樣本集交集與樣本集合四集的比值,可以用于計算兩個集合的相似性,無論這些集合是文檔、用戶的興趣愛好或任何其他類型的集合。

      采訪者:在未來兩三年里,EBM可能會最先在哪一個應(yīng)用領(lǐng)域取得突破?

      Yilun Du:我覺得能量基模型在推理領(lǐng)域應(yīng)該會有蠻大的突破。現(xiàn)在推理的一個核心問題,是如何通過更多的測試時計算,得到更優(yōu)的答案。當(dāng)下大家用鏈?zhǔn)剿季S做推理,會發(fā)現(xiàn)很多推理任務(wù)其實頗具難度 —— 有些推理過程難以用語言清晰表述,而且當(dāng)鏈?zhǔn)剿季S的流程拉得很長時,也很難明確它具體的運行邏輯。

      能量基模型有個鮮明特點,就是能通過采樣直接生成答案,因此你可以通過多步優(yōu)化,逐步趨近并得到最終答案。我們最近有一篇論文《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》,正是將語言模型的可能性也視作一種能量,再在其上通過采樣開展推理。

      所以我認(rèn)為,用采樣與迭代優(yōu)化的思路來做推理,是讓模型能夠依據(jù)可用時間,靈活決定測試時計算量的好方式。


      圖注:《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》

      采訪者目前最關(guān)心的研究方向是什么?

      Yilun Du:總的來說,我現(xiàn)在對智能體的構(gòu)建格外感興趣。比如如何打造出色的機器人,讓它能完成各類家庭或工作任務(wù);又或者如何研發(fā)線上智能體,幫人們處理發(fā)郵件、購物等事務(wù) —— 核心就是探索智能體的構(gòu)建方法。我感覺目前最大的問題,在于現(xiàn)有系統(tǒng)在這方面的表現(xiàn)都不盡如人意。像語言模型智能體,環(huán)境稍有變化便無法正常工作,可靠性不足;機器人也是如此,一旦環(huán)境改變或接到新任務(wù),往往難以順利運行。

      我認(rèn)為問題的核心在于決策環(huán)節(jié)。世界本身存在無限可能,我或許會給智能體設(shè)定從未見過的目標(biāo),而這些目標(biāo)并未包含在訓(xùn)練數(shù)據(jù)集中,導(dǎo)致系統(tǒng)在新環(huán)境下無法給出理想答案。這便是泛化難題。通常訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,它會擬合給定的訓(xùn)練數(shù)據(jù)集,但在決策任務(wù)中,遇到未見過的目標(biāo),就會超出數(shù)據(jù)集的覆蓋范圍。

      那該如何解決這個問題呢?我認(rèn)為必須讓系統(tǒng)具備推理能力,能夠通過規(guī)劃或搜索得出答案。具體該如何通過搜索與規(guī)劃獲取動作呢?我們一直在開展能量基模型相關(guān)的研究,也可以采用廣度模型,比如學(xué)習(xí)一個動力學(xué)模型。有了動力學(xué)模型,再結(jié)合動作序列,就能得到動作軌跡;依據(jù)這些動作可計算出能量,進(jìn)而借助能量進(jìn)行搜索。所以我覺得,要做好決策,離不開通過搜索或推理來獲取答案。

      采訪者:在實際落地過程中,EBM的穩(wěn)定性和收斂性是否是現(xiàn)在的工程挑戰(zhàn)之一?目前有哪些解決思路?

      Yilun Du:有一個思路是,擴散模型中的分?jǐn)?shù)匹配其實就是 EBM 的一種訓(xùn)練方式,因此可將擴散模型大致解釋為 EBM。不過兩者存在一點差別:擴散模型通常只需運行幾步,從噪聲起步,依據(jù)時間積分即可得到答案。但若是將決策模型解釋為 EBM,采樣過程便有所不同 —— 需在高噪聲水平下運行多步以獲取一個答案,隨后進(jìn)入下一個時間步,再運行多步。如此一來,其實可以將未來模型轉(zhuǎn)化為類似 EBM 的形態(tài)。我們最近有一篇論文《Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models》的,把流匹配這類方法稍作修改,便使其成為了真正的 EBM,可見二者本質(zhì)上十分接近。

      當(dāng)然,我們真正希望學(xué)習(xí)的 EBM,需讓真實答案均處于低能量狀態(tài),其余答案則處于高能量狀態(tài)。但通過分?jǐn)?shù)匹配的方式學(xué)習(xí)能量景觀時,每個正確答案都會成為一個局部最小值,能量在此處雖達(dá)到最低,可這些能量值有高有低,并非理想的 EBM 景觀。因此,若想真正學(xué)習(xí)到優(yōu)質(zhì)的 EBM 基線,還必須借助對比學(xué)習(xí) —— 需找到辦法將所有正確答案的能量向下壓制,同時將其余答案的能量向上推升。這一過程頗具難度,核心在于要設(shè)法構(gòu)建出優(yōu)質(zhì)的負(fù)樣本。


      圖注:Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers網(wǎng)站頁面

      03

      世界模型,如何泛化到前所未見的事物?

      “世界上只有幾個簡單的規(guī)則,構(gòu)建一個組合模型就能泛化到其他”

      采訪者:目前世界模型方面,要攻克的最關(guān)鍵問題是什么?

      Yilun Du:我覺得世界模型有幾個關(guān)鍵問題。第一個大問題,現(xiàn)在的世界模型不夠有因果性,也不夠符合物理規(guī)律。比如讓像Sora這樣的模型去抓一個杯子,杯子可能就浮起來了,其實根本沒抓上,說明這些世界模型的物理準(zhǔn)確性不足。

      第二個問題,世界模型并不需要最準(zhǔn)確的,而是需要能支持良好規(guī)劃的能力。比如我想規(guī)劃去夏威夷旅游,如果用現(xiàn)在的視頻生成模型作為世界模型,是做不到的,因為讓它模擬“打開網(wǎng)站、點擊按鈕訂機票”這個過程,每一步都模擬不出來。我覺得有些任務(wù)中,世界模型不應(yīng)該模擬每一張照片,有時候需要模擬幾張照片,而有時候需要模擬更高層次的知識。所以世界知識必須是分層的,不只是模擬下面幾幀照片的方式。

      第三個大問題,需要讓這些模型能泛化到?jīng)]見過的東西。比如YouTube上有各種視頻,像“抓杯子”的視頻很多,但“沒抓好杯子把杯子摔壞”的視頻很少。但如果真想把視頻模型用在機器人上,就必須讓模型能準(zhǔn)確模擬沒見過的場景。所以怎么實現(xiàn)這種好的泛化能力,是個很有意思的問題。我們一直在做組合結(jié)構(gòu)相關(guān)的工作,認(rèn)為世界上其實只有幾個簡單的規(guī)則,只要構(gòu)建一個能把這些簡單規(guī)則組合起來的模型,就能泛化到?jīng)]見過的場景。但泛化確實是個大問題,現(xiàn)在大家展示世界模型時只放幾個視頻,能展示幾個好的案例,但如果要真正用在機器人上,不能只生成一兩個視頻,而是要100%的時候都能生成好的動作規(guī)劃,所以泛化能力就非常重要了。

      采訪者:關(guān)于現(xiàn)有的那些世界模型,它們的方法有哪些?

      Yilun Du我感覺如今大家似乎把許多事物都稱作世界模型。有人會說圖像模型是世界模型,也有人認(rèn)為視頻模型屬于世界模型。在我看來,不妨去翻閱傳統(tǒng) AI 的論文,其中便有 “基于模型的智能” 這一概念。像邏輯專家系統(tǒng)這類傳統(tǒng) AI 系統(tǒng),都秉持著這樣的思路:先建立一個數(shù)據(jù)庫或儲備一些信息,用以描述世界的演變規(guī)律;再設(shè)計一個推理過程,結(jié)合既定目標(biāo),通過推理,依據(jù)信息數(shù)據(jù)庫與目標(biāo)推導(dǎo)出最終答案。我認(rèn)為,這才是世界模型最通用的形態(tài)。

      采訪者:世界模型應(yīng)該要記住世界的哪些關(guān)鍵信息,它又是怎么篩選那些信息的?

      Yilun Du:這是個有意思的問題,其實我們不太清楚到底要記哪些信息。一方面,大型語言模型記了很多信息,尤其是高層級信息,比如想訂機票去開會,它知道每一步該怎么操作,所以語言模型有特別多的高層級信息。另一方面,視頻模型則有更多低層級的物理信息,比如想系鞋帶,視頻模型可以告訴我具體怎么做。再比如動作模型、觸覺模型或者音頻模型,它們又各自包含各種其他信息。所以我的感覺是,我們也不太清楚到底需要多少信息,但應(yīng)該把現(xiàn)在這些模型都當(dāng)作不同的信息源。比如我們有了這些源信息,再把機器人放在真實世界中,讓它在真實世界里學(xué)習(xí)剩下未知的信息。

      怎么篩選到有用的信息,這也特別重要。因為信息量大的話,很難找到正確的答案或信息來完成想做的事。不過現(xiàn)在的語言模型其實有一個非常高效的獲取信息的方式 —— 傳統(tǒng)的數(shù)據(jù)庫信息量大,但查到正確答案很費勁,而語言模型只要你問它問題,就能給出一個答案。這個答案可能不準(zhǔn)確,所以需要多花點時間計算 / 推理來得到正確答案,但至少答案應(yīng)該是比較接近準(zhǔn)確的。

      所以我覺得可以用現(xiàn)在的生成模型作為幫助找到有用信息的方式。你可以想象,我有一個語言模型、一個視頻模型、一個動作模型,根據(jù)我需要的信息直接查詢這些模型,就能得到大概需要的信息了。


      圖注:Yilun Du 參加神經(jīng)人工智能前沿研討會,討論“學(xué)習(xí)世界組合模型”

      采訪者:關(guān)于具身智能領(lǐng)域,宏觀趨勢下,未來10年可能推動具身智能進(jìn)步的核心驅(qū)動力會是什么?

      Yilun Du我認(rèn)為當(dāng)前存在幾個關(guān)鍵問題亟待解決。第一個尤為突出的問題是記憶缺失。如今我們研發(fā)的系統(tǒng),比如依據(jù)單張照片執(zhí)行策略的模型,普遍缺乏記憶能力。正因為沒有記憶,舉個例子,若要尋找某件物品,它可能打開柜子后又關(guān)上,過不了多久,就因毫無記憶再次打開同一個柜子。這便是當(dāng)下模型普遍面臨的記憶短板。更關(guān)鍵的是,即便在策略中融入記憶模塊,實際效果也不盡如人意 —— 這些策略往往無法真正理解記憶的價值與用途。

      第二個核心問題是持續(xù)學(xué)習(xí)的實現(xiàn)?,F(xiàn)在的模型,大多依賴龐大的數(shù)據(jù)集完成訓(xùn)練,訓(xùn)練結(jié)束后,進(jìn)入真實世界便不再具備學(xué)習(xí)能力。但人類截然不同,比如接觸一款新工具、學(xué)習(xí)一項新任務(wù),都能快速掌握。因此,讓系統(tǒng)擁有快速學(xué)習(xí)新事物的能力,同樣是重中之重。

      第三個問題,我認(rèn)為也至關(guān)重要,那就是搜索與推理能力的欠缺。如今的語言模型,瀏覽過的文本數(shù)量遠(yuǎn)超任何人,積累的知識也極為龐大,卻鮮少有真正的創(chuàng)造力。比如多數(shù)數(shù)學(xué)定理之類的內(nèi)容,語言模型在預(yù)訓(xùn)練階段早已接觸,從這個角度看,這些模型更像是信息檢索工具 —— 即便存儲了海量數(shù)據(jù),也無法在此基礎(chǔ)上展開推理。而人類獲取這些數(shù)據(jù)后,能以全新的方式將其組合,進(jìn)而得出新的見解、找到新的解決方案。

      在我看來,當(dāng)前的神經(jīng)網(wǎng)絡(luò)系統(tǒng)更偏向模式識別工具,僅學(xué)會了極為簡單的計算邏輯,并未掌握真正通用、可泛化的能力。若想研發(fā)更先進(jìn)的人工智能,必須打造更多具備高層級推理能力的系統(tǒng)。具體該如何實現(xiàn)?我認(rèn)為搜索與規(guī)劃能力必不可少,我們所研究的能量基模型,正是實現(xiàn)高層級推理的路徑之一,這也是第三點需要突破的核心方向。

      采訪者:您現(xiàn)在所倡導(dǎo)的基于可組合能量圖譜的具身智能路線,和目前比較火的VLA模型路線,最大的分歧點在哪里?

      Yilun Du在我看來,VLA 的邏輯對我而言并不合理。VLA 的核心是將圖像、文本與動作進(jìn)行映射,但實際上,傳統(tǒng)機器人決策存在兩種經(jīng)典路徑:一是學(xué)習(xí)策略,二是學(xué)習(xí)模型。在處理機器人相關(guān)問題時,傳統(tǒng)方法往往更傾向于學(xué)習(xí)模型。

      以控制機器人抓取物體為例,一種簡單的思路是記錄每一步所需動作,之后通過回放完成任務(wù),這屬于無模型的方式。而基于模型的方式,則是先學(xué)習(xí)機器人的運動學(xué)模型,掌握物體的 3D 姿態(tài),再依據(jù)這些信息計算出抓取方案。這兩種方式中,前者顯然更簡便,只需記錄動作即可;但后者的泛化能力要強得多 —— 即便將蘋果放到新的位置,依然能通過類似的計算完成抓取。

      我認(rèn)為這正是二者的核心差異。如今的 VLA,本質(zhì)上更接近記錄動作的思路:依靠海量數(shù)據(jù)訓(xùn)練,模型在數(shù)據(jù)中產(chǎn)生過擬合,最終只能根據(jù)見過的圖像預(yù)測動作。因此 VLA 的泛化能力極差,只要遇到不同的物體,或是接收到不同的語言指令,便無法正常工作。

      比如面前放著蘋果時讓它去抓橘子,它仍會沿用抓取蘋果的方式 —— 因為模型并未掌握高層級推理能力,只是機械記住了見過的演示過程。而我們的研究方向,是學(xué)習(xí)世界模型或能量基模型,再在此基礎(chǔ)上展開推理,更貼近傳統(tǒng)機器人采用的基于模型的方式:先學(xué)習(xí)世界模型,再確立作為目標(biāo)函數(shù)的能量函數(shù),最后通過運行搜索與規(guī)劃得出動作。我們相信,這種方式才能真正解決未見過的問題,而非僅能應(yīng)對已 “死記硬背” 的場景,這便是我們研究的核心方向。

      04

      品讀經(jīng)典,六十年代的神經(jīng)學(xué)探索

      “我偏愛研讀經(jīng)典的 AI 老論文,以及心理學(xué)、神經(jīng)科學(xué)領(lǐng)域的相關(guān)文章?!?/strong>

      采訪者:如今很多研究方向呈現(xiàn)同質(zhì)化,如何看待當(dāng)前卷帙浩繁的論文?

      Yilun Du我不太喜歡,也很少去讀如今大家頻繁發(fā)在網(wǎng)上的那些論文。在我看來,要是天天沉浸在這些熱門論文里,自己做的研究很容易就會和眾人趨同 —— 畢竟大家關(guān)注的都是同一批熱點文章。所以我更偏愛讀一些經(jīng)典論文。比如今年我在講授一門課程時,便帶著學(xué)生從 1950 年開始,研讀各類七八十年代,甚至五六十年代的人工智能文章。

      品讀這些經(jīng)典老文,你會發(fā)現(xiàn)如今大家鉆研的許多內(nèi)容,其實前人早已探索過;但同時也能清晰看到不同研究方法的優(yōu)劣所在。在我看來,讀老論文是個很有價值的方式。此外,我還很喜歡讀心理學(xué)或神經(jīng)科學(xué)領(lǐng)域的文章,畢竟人類本身就是一個極具代表性的智能范例。你可以觀察人類如何學(xué)習(xí)知識,再由此思考怎樣讓人工智能實現(xiàn)人類具備的能力。

      只要你稍微翻開幾本神經(jīng)科學(xué)的書籍,就會發(fā)現(xiàn)其中有大量研究圍繞記憶構(gòu)建、持續(xù)學(xué)習(xí)、模型控制展開,這些都是由來已久的傳統(tǒng)研究方向。借助這些內(nèi)容,你能清楚意識到當(dāng)前人工智能的能力與人類智能之間的差距,進(jìn)而發(fā)掘出許多值得深入探索的研究問題。

      采訪者:神經(jīng)科學(xué)領(lǐng)域,有沒有什么讓您有很大啟發(fā)的idea?

      Yilun Du:從神經(jīng)科學(xué)中學(xué)到的一些觀點,給了我不少啟發(fā)。其中有一點格外有意思:人腦并非一個單一的龐大模型,而是由各類功能模塊構(gòu)成的復(fù)雜系統(tǒng)。比如,大腦中有負(fù)責(zé)語言表達(dá)的區(qū)域、負(fù)責(zé)聽覺感知的區(qū)域,也有負(fù)責(zé)動作控制的區(qū)域。即便有人大腦的某一區(qū)域出現(xiàn)問題,他依然能夠正常思考、正常聆聽,只是無法順利說話而已。

      由此可見,人腦是一個高度模塊化的系統(tǒng),各個模塊各司其職又協(xié)同配合,最終共同支撐起完整的智能。我們目前開展的許多研究,正是在探索如何將各類模型整合起來,構(gòu)建出更具智能的整體系統(tǒng) —— 這一思路,大概就是從神經(jīng)科學(xué)的研究中得到的啟發(fā)。

      采訪者:有哪些看起來有些“過時”的經(jīng)典論文推薦研讀?

      Yilun Du有許多極具價值的經(jīng)典論文。比如 Marvin Minsky 撰寫的《Steps Towards Artificial Intelligence》,若你細(xì)細(xì)品讀便會發(fā)現(xiàn),如今學(xué)界研究的幾乎每一個方向,文中都曾提及 —— 他不僅探討了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,還闡述了強化學(xué)習(xí)、搜索規(guī)劃的實現(xiàn)路徑,以及記憶機制的構(gòu)建思路。再如 John McCarthy 的《Programs with Common Sense》,文中詳細(xì)論述了智能系統(tǒng)所需的核心要素,以及如何借助邏輯實現(xiàn)這些功能。此外,Marvin Minsky 還有一本著作《The Society of Mind》,專門講解如何通過去中心化的 AI 智能體或去中心化的 AI 組件,搭建起一個完整的智能系統(tǒng)。我覺得這些內(nèi)容都格外有意思。實際上,這類稍早的經(jīng)典文獻(xiàn)并不難尋,稍加檢索就能找到。但當(dāng)你真正讀進(jìn)去就會發(fā)現(xiàn),現(xiàn)在我們探索的各種想法,前人早已埋下過思想的種子。


      圖注:《The Society of Mind》

      GPU 訓(xùn)練特惠!

      H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      伊朗國防部隊: 進(jìn)入全面?zhèn)鋺?zhàn)狀態(tài)

      伊朗國防部隊: 進(jìn)入全面?zhèn)鋺?zhàn)狀態(tài)

      每日經(jīng)濟新聞
      2026-02-19 16:07:49
      意大利知名地標(biāo)“愛情拱門”突然崩塌,永久消失,當(dāng)?shù)厥虚L:曾有成千上萬的情侶來打卡,旅游業(yè)遭“毀滅性打擊”

      意大利知名地標(biāo)“愛情拱門”突然崩塌,永久消失,當(dāng)?shù)厥虚L:曾有成千上萬的情侶來打卡,旅游業(yè)遭“毀滅性打擊”

      大風(fēng)新聞
      2026-02-17 19:26:03
      南京一商場晚上突發(fā)火災(zāi),看電影的觀眾緊急逃生,應(yīng)急部門:火已撲滅,無人傷亡

      南京一商場晚上突發(fā)火災(zāi),看電影的觀眾緊急逃生,應(yīng)急部門:火已撲滅,無人傷亡

      極目新聞
      2026-02-19 12:49:48
      浙江一地通知:即日起全域禁止銷售

      浙江一地通知:即日起全域禁止銷售

      都市快報橙柿互動
      2026-02-19 17:58:37
      后續(xù),江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      后續(xù),江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      離離言幾許
      2026-02-18 23:24:35
      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      全景體育V
      2026-02-19 10:10:31
      南方大米產(chǎn)量第一,為啥超市里大部分還是東北米?南方米去哪了?

      南方大米產(chǎn)量第一,為啥超市里大部分還是東北米?南方米去哪了?

      天下十三洲獵奇
      2026-02-18 23:53:55
      突發(fā)!美國出手封殺多家中國機構(gòu)

      突發(fā)!美國出手封殺多家中國機構(gòu)

      芯火相承
      2026-02-19 10:02:18
      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      翰飛觀事
      2026-02-16 11:29:39
      林丹在西班牙過年,別墅內(nèi)景曝光,全家人與朋友除夕吃海鮮大餐

      林丹在西班牙過年,別墅內(nèi)景曝光,全家人與朋友除夕吃海鮮大餐

      手工制作阿殲
      2026-02-19 11:58:33
      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統(tǒng)遭摧毀

      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統(tǒng)遭摧毀

      軍迷戰(zhàn)情室
      2026-02-18 23:58:09
      2018年,張扣扣向王家復(fù)仇,唯獨不殺王自新妻子:她有不死的理由

      2018年,張扣扣向王家復(fù)仇,唯獨不殺王自新妻子:她有不死的理由

      米果說識
      2026-02-19 09:32:34
      凌晨發(fā)送恐嚇信息?桔子酒店涉事門店:已報警,非員工發(fā)送

      凌晨發(fā)送恐嚇信息?桔子酒店涉事門店:已報警,非員工發(fā)送

      大風(fēng)新聞
      2026-02-19 09:46:23
      12死!湖北煙花店爆炸:店主身份被扒,大量內(nèi)幕披露,知情者發(fā)聲

      12死!湖北煙花店爆炸:店主身份被扒,大量內(nèi)幕披露,知情者發(fā)聲

      博士觀察
      2026-02-19 00:06:41
      2月17日俄烏最新: 2.5 年來的最大戰(zhàn)果

      2月17日俄烏最新: 2.5 年來的最大戰(zhàn)果

      西樓飲月
      2026-02-17 20:49:47
      湖北12死煙花爆燃:死者身份公布,大量內(nèi)部照流出,責(zé)任人被控制

      湖北12死煙花爆燃:死者身份公布,大量內(nèi)部照流出,責(zé)任人被控制

      博士觀察
      2026-02-19 11:41:09
      尹錫悅庭審細(xì)節(jié)曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      尹錫悅庭審細(xì)節(jié)曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      紅星新聞
      2026-02-19 17:28:30
      太尷尬了!大年初一,上海網(wǎng)友哭訴稱大門被鄰居貼兩張“大字報”

      太尷尬了!大年初一,上海網(wǎng)友哭訴稱大門被鄰居貼兩張“大字報”

      火山詩話
      2026-02-19 15:05:12
      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網(wǎng)

      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網(wǎng)

      火山詩話
      2026-02-19 13:50:13
      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      涵豆說娛
      2026-01-19 17:21:55
      2026-02-19 18:43:00
      大數(shù)據(jù)文摘 incentive-icons
      大數(shù)據(jù)文摘
      專注大數(shù)據(jù),每日有分享!
      6825文章數(shù) 94529關(guān)注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節(jié)阿里決戰(zhàn)春節(jié)

      頭條要聞

      媒體:高市2.0 日本政局發(fā)生了意料之中的變動

      頭條要聞

      媒體:高市2.0 日本政局發(fā)生了意料之中的變動

      體育要聞

      中國隊第二金!徐夢桃贏女子空中技巧兩連冠 邵琪銅牌

      娛樂要聞

      明星過年百態(tài)!黃曉明等現(xiàn)身三亞

      財經(jīng)要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產(chǎn)甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態(tài)度原創(chuàng)

      教育
      本地
      房產(chǎn)
      游戲
      公開課

      教育要聞

      聽懂這5點,下學(xué)期教書,哪還有什么不幸福的?

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      房產(chǎn)要聞

      頂豪搶房潮席卷全國! 中旅馥棠公館項目395㎡大平層加推入市!

      《巫師》劇情設(shè)計師:初代結(jié)局受到了公司高層干預(yù)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版