<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      深度|紅杉對話PI:硬件瓶頸只是借口,傳統架構更是死胡同,端到端 VLA 才是具身智能的真神

      0
      分享至

      在機器人領域,實驗室的精選視頻與現實應用的笨拙表現之間一直存在巨大鴻溝。長期以來,行業習慣于將失敗歸咎于硬件,但Physical Intelligence (PI)團隊卻提出了一個極具挑戰性的觀點:智能,才是機器人普及的唯一瓶頸。

      2026年初,PI 團隊發布了通用機器人模型 π*0.6。本期對話邀請到了公司核心成員Karol HausmanTobi Springenberg,深入探討他們如何通過端到端學習與真實世界強化學習,試圖打破機器人學的舊范式。

      訪談中,兩位專家針對行業痛點提出了三項核心主張:

      • 模塊化是進步的枷鎖:過去幾十年將機器人拆解為感知、規劃、控制的“分治法”從底層就錯了。這種架構導致模塊間的信息流失嚴重,而端到端的視覺語言動作模型才是通往真智能的唯一路徑。

      • 告別仿真環境的溫室陷阱:當同行還在模擬器里跑數據時,PI 堅持真實世界強化學習。他們認為模擬器永遠無法復現紙板粘連或咖啡粉受潮這種長尾故障,只有讓機器人在現實中瘋狂“交學費”,才能練出真正的可靠性。

      • 硬件早已不是借口:PI 團隊認為,十年前的機器人硬件就足以打掃房間。研發重心應從堆硬件轉向磨智能。一旦智能瓶頸突破,現有的簡單夾具也能完成切菜、烹飪等復雜家務。

      • 部署即數據,數據即一切:由于互聯網缺乏現成的機器人動作數據,PI 的策略是直接部署:通過機器人實地工作收集海量真實經驗,形成“部署→數據→優化→更廣部署”的正向循環,最終構建出能跨領域泛化的“物理大模型”。

      在 Physical Intelligence 的愿景中,我們正處于機器人從特定工具向通用物種”轉變的前夜。以下訪談實錄,帶你走進物理智能的最前沿。



      圖片來源:Sequoia Capital

      物理智能核心使命與技術定位:聚焦機器人基礎模型突破

      Sonya Huang在本期節目中,我們邀請到了Physical Intelligence公司的Karol和Tobi。該公司專注于構建機器人基礎模型。Karol和Tobi將解釋,為何傳統上將機器人技術拆解為感知、規劃和控制的方法存在根本性錯誤,以及基于強化學習的端到端學習如何最終實現技術落地。你將聽到他們如何實現機器人在真實場景中的穩定表現——例如讓機器人連續13小時制作咖啡,這些模型如何在截然不同的任務中實現泛化(從手術機器人到無人機飛行),而其中的原理我們尚未完全掌握。我們還將探討π*0.6背后的技術洞察,這是Physical Intelligence最新推出的模型,能夠通過強化學習從經驗中持續學習。敬請收聽。Karol、Tobi,非常感謝你們今天的到來。

      Karol Hausman/Tobi Springenberg感謝邀請。

      Sonya Huang很期待與你們探討物理智能、通用機器人等相關話題。在深入交流前,能否先向觀眾簡要介紹一下物理智能的定義以及你們追求的使命?

      Karol Hausman好的。Physical Intelligence的核心是構建機器人基礎模型。理論上,這類模型應能讓任何機器人完成任何任務。在過去一年半左右的時間里,我們已搭建起支撐模型規模化應用的核心組件。我們的研究表明,這些模型能夠控制多種形態、不同類型的機器人,并且具備泛化能力——可適配全新環境,我們也已明確其泛化所需的條件。

      我們剛剛發布的π*0.6版本(后續會詳細介紹),其性能已達到可部署水平。這對我們而言意義重大:一方面,我們希望這項技術能真正落地到現實世界;另一方面,由于互聯網上缺乏現成的機器人動作數據,我們必須自行構建數據集。因此,我們聚焦于物理智能領域的核心挑戰,致力于打造機器人基礎模型,并已取得顯著進展。

      Sonya Huang非常出色。我想追問一下,為何選擇構建基礎模型,而非像其他公司那樣打造全垂直整合的機器人產品?比如我記得上個月的周日午餐話題——現在已有可購買的家用小型輔助機器人,還有公司在研發烹飪機器人,人形機器人領域也有不少參與者。你們為何選擇專注于基礎模型,而非親自研發機器人?

      Karol Hausman回顧機器人技術的發展歷程,我和許多機器人專家都清晰地認識到,智能始終是行業的瓶頸。無論是家用還是工業場景,機器人硬件早已具備完成復雜任務的能力。十多年前就有機器人在遠程操控下完成全屋清潔的案例——關鍵在于遠程操控:只要有人類智能介入,就能證明硬件具備多樣化任務執行潛力。長期以來,多數機器人公司都采用你提到的模式:設計針對單一任務或應用場景的專用機器人。

      但我們認為,推動行業發展的關鍵是突破智能瓶頸。因此,我們成立公司專注于解決這一核心問題——只有突破智能限制,才能真正實現機器人技術的普及。若選擇其他路徑,很難在智能領域取得實質性進展。我們希望直面這一挑戰,聚焦智能技術研發,未來有望催生出各類垂直領域產品,讓機器人走進家庭、工業等更多場景。

      Sonya Huang我想進一步探討這個問題。硬件方面,我看到了最新的Optimus機械臂視頻,設計堪稱精湛,宛如藝術品。雖然我沒見過十年前遠程操控機器人清潔房屋的視頻,但很好奇是否存在一些如今才剛具備實現條件的任務?例如烹飪,或是剝洋蔥、切洋蔥這類過去硬件無法完成的操作。你認為當前硬件水平對技術落地的推動作用有多大?

      Karol Hausman硬件領域確實取得了長足進步,尤其是人形機器人硬件,比如你提到的靈巧手,現在的性能比幾年前提升了很多。但這并未解決核心瓶頸。即便使用簡單的夾具,機器人理論上早就能完成切菜、烹飪等任務,問題的關鍵在于缺乏操控這些硬件的智能。而且硬件越復雜,反而越無法規避這一瓶頸——它或許能拓展任務邊界,但機器人智能不足的根本問題仍未解決。

      Sonya Huang明白了。也就是說,硬件可能提升了任務執行的上限,但我們目前還未達到基礎能力的下限。

      Karol Hausman沒錯。即便是簡單的機器人,其性能也尚未達到人類操作者的水平。

      機器人技術發展演進:從拆解式架構到端到端學習革新

      Alfred Lin既然限制在于智能層面,那么研發智能的瓶頸又是什么?是數據收集嗎?還是低成本數據獲取?我們會不斷追問,深入核心。所以,解決智能問題的下一層瓶頸是什么?是泛化能力嗎?

      Karol Hausman這是個好問題。我們將其歸結為三個關鍵因素:能力、泛化性和性能。關于能力,我們的目標是:只要能為某項任務或某類機器人收集數據,模型就能復現并自動化該任務。這一點我們已快速實現——大約一年前發布的π0版本就證明了其可行性:任何任務、任何機器人,只要有數據支持,模型就能學習并自動化執行。下一個挑戰是泛化性,這仍是未完全解決的難題。我們希望機器人能實現零樣本學習,例如將其帶入全新的家庭環境,它就能自主適應并開展工作。這難度極大——新環境中,物品擺放、臺面布局、光線條件都與訓練數據存在差異。雖然這一問題尚未完全解決,但我們已摸索出可行的解決思路和規模化路徑。

      機器學習中,泛化能力的核心在于數據多樣性——接觸足夠多的多樣化數據,模型就能適配相似的新場景。今年4月發布的π*0.6版本已實現這一突破:機器人能夠在從未去過的家庭環境中運行,雖未臻完美,但已具備完成廚房清潔等簡單任務的常識。最后一個尚未完全解決的挑戰是性能:如何讓模型性能達到可部署標準?部署至關重要,正如我之前提到的,我們需要通過部署收集數據。這是最具規模化的數據收集方式——讓機器人在現實世界中執行具有經濟價值的任務,數據收集成本幾乎為負。技術部署范圍越廣,獲取的數據就越多,最終可能成為比互聯網數據更龐大的數據源。

      Alfred Lin你認為我們距離實現泛化能力,或是達到可部署的性能水平還有多遠?這里的場景可以是受控環境,也可以是家庭、辦公室等通用場景,不一定是整個世界。若限定場景,泛化能力和性能需要達到什么程度,這類機器人才能實現部署?

      Karol Hausman實際上,我們已非常接近部署階段,并且已經開始自主部署。原本預計需要五年時間才能讓技術達到商業部署標準,具備實際應用價值,但我們在兩個月前就已實現這一目標。目前,模型的實用性、性能和任務覆蓋范圍都已達到臨界點,這是一個非常令人興奮的時刻。

      不過,部署場景的廣度仍有待觀察。有些任務的失敗代價極高,目前并非最佳部署選擇;還有些任務對泛化能力要求極高,如家庭場景部署;或涉及隱私、安全問題,這些場景可能也暫不適合部署。但可以肯定的是,部署范圍正在不斷擴大。隨著數據積累和模型優化,我們將能把機器人部署到更多場景中,現在正處于這一進程的起步階段。

      Alfred Lin目前你們的部署場景主要集中在哪些領域?

      Karol Hausman這是個很難準確回答的問題。對于這些基礎模型,其能力邊界往往超出我們的預期,類似大型語言模型的發展——內部訓練優化后,最終的模型效果難以預測,必須通過實際測試驗證。因此,我們選擇開源模型,避免僅依靠內部團隊測試導致的認知局限。通過開源,我們發現模型的應用場景遠超想象,涵蓋駕駛、手術機器人、農業等多個領域。所以,我無法準確界定當前的部署范圍,但可以確定它比我們預期的更廣泛,且會隨著時間推移持續擴大。模型獲取的數據越多、越成熟,部署場景就會越豐富。

      Tobi Springenberg我想補充一下性能層面的觀點。如你所說,模型的應用起點比我們預想的更廣泛。但同時,要讓每個應用場景都達到商業級日常使用標準——例如作為核心業務支撐,性能方面仍有很長的路要走。

      即將詳細介紹的π*0.6版本,在利用經驗數據學習方面取得了突破——模型部署后,能通過數據反饋持續優化。但坦率地說,許多場景中仍存在大量長尾問題和潛在故障點,我們尚未完全掌握解決方案。

      核心技術架構解析:VLM基礎與動作模塊的融合設計

      Sonya Huang你們一直非常透明地公開研究成果,并選擇開源。如果方便的話,能否介紹一下你們的整體技術架構?你認為通往終極目標的架構是否已基本定型,未來只需在現有基礎上微調并積累大量數據?還是說,架構仍處于探索階段?

      Tobi Springenberg我們可以先談談當前的架構,再探討其未來可能的變化。目前,我們的架構與大家日常接觸的VLM非常相似——輸入文字和圖像,模型就能完成圖像內容識別等任務。我們以同樣的思路為基礎:模型先在互聯網規模的數據上進行預訓練,吸收圖像和文本信息,再融入大量機器人數據。目前,訓練數據以我們自行收集的機器人數據為主,僅包含少量互聯網數據。整體架構基于視覺語言模型,同時增加了動作模型(或稱動作專家)模塊,這部分負責驅動機器人——接收圖像輸入和任務指令后,生成并向機器人發送動作指令。

      從技術層面看,這是一個參數規模達十億級別的Transformer模型,通過機器人數據和互聯網數據進行預訓練,初始訓練主要基于人類演示數據(Karol之前也提到過)——即人類遠程操控機器人執行任務的相關數據。目前,模型的性能提升主要依賴數據規模的擴大,技術架構與VLM領域的主流方案類似。至于未來的變化,這仍是一個開放性問題。我們正在探索為模型增加更多能力,例如拓展上下文理解范圍、支持更多攝像頭輸入、提升對物理世界的認知——如識別房間內的物品、判斷物品是否易碎、是否便于移動等。

      因此,無論是能力拓展還是架構調整,都仍有很大的優化空間。我預計,五六年后回顧現在,當前基于VLM的模型基礎架構可能會發生變化,我們或許會采用全新的技術方案。但核心的數據理念和輸入方式,大概率會保持不變。

      Sonya Huang明白了。是否可以理解為,模型的輸入是像素或信號,輸出是動作?這是否屬于一個大型神經網絡?

      Tobi Springenberg沒錯,是一個大型模型。目前本質上就是圖像輸入、文本輸入,然后輸出文本和動作。

      Sonya Huang你們是否將移動和操作模塊分開設計?或許現在可以聊聊機器人技術的歷史演進,以及不同學習浪潮與你們技術架構的關聯。

      Karol Hausman好的。在機器學習廣泛應用之前,人們普遍認為,只要投入足夠的人力和工程師,深入研究就能編寫代碼,讓機器人完成世界上任何任務。人們曾為此付出巨大努力,但最終發現,現實世界的復雜性遠超想象——無法為所有可能出現的場景編寫規則。同時,在嘗試解決這一問題的過程中,人們習慣性地將機器人技術拆解為多個子問題:感知、控制、規劃。這甚至催生了不同的學術社群,每個社群都有自己的會議和研究重點。后來,人們意識到無法通過手寫規則覆蓋所有場景,于是轉向數據驅動的學習方法——這與人類的學習方式相似,本是個不錯的思路。但實際操作中,人們仍延續了子問題拆解的模式,分別對感知層、控制層、規劃層進行獨立的機器學習訓練。這種方式確實取得了一定進展,效果優于傳統方法,但最終證明,子問題拆解的思路本身存在缺陷。例如,當我試圖拿起這杯水時,不會刻意區分感知、規劃、控制等步驟,而是自然地完成動作。

      傳統的流水線式架構——感知模塊輸出物體位置,規劃模塊生成軌跡,控制模塊執行動作中,各模塊間的接口設計是失敗的關鍵。我們原本對機器人工作原理的認知,從根本上就是錯誤的。于是,我們進入了下一個發展階段:意識到子問題拆解可能從一開始就是錯誤的,轉而采用端到端訓練模式——將傳感器輸入直接作為網絡輸入,動作作為輸出。我們稱之為端到端方法,即從像素直接映射到動作,讓網絡或學習算法自行決定是否需要拆分模塊,如果可行的話。

      但在實踐中,我們發現這種方法需要海量數據,且在需要常識判斷的場景中容易失效——通過第一人稱動作數據集積累常識極其困難,因為需要覆蓋世界上所有可能的場景。就在這時,我們發現了視覺語言動作模型:利用在互聯網數據上預訓練的模型,即已具備一定的世界認知的,在其基礎上添加動作模塊,將通用世界知識與物理世界的任務執行能力相結合。這大致就是我們當前的技術路線。

      在Physical Intelligence,我們還解決了其他關鍵問題:如何實現模型規模化?如何提升泛化能力?如何優化性能和運行速度?如何推進部署落地?但總體而言,我們仍處于利用互聯網預訓練模型的常識知識,構建適用于各類機器人、具備通用動作執行能力的階段。

      Sonya Huang關于推理能力——大型語言模型在推理領域取得了諸多突破。你們的VLA基礎架構是否能受益于這些進展?端到端訓練過程中,推理能力是否會自然涌現?或者說,大型語言模型領域的進展對你們是否有幫助?

      Tobi Springenberg目前我們的模型已經具備一定的動作規劃能力,不僅能預測即時動作,還能規劃后續約50個時間步的動作(約1-2秒)。同時,模型已能在語言層面將任務分解為子任務。例如,當指令為清潔廚房時,模型會自動拆解出“移動到臺面→拿起杯子→將杯子放入水槽”等子步驟。所以,一定程度的推理能力已經存在,未來還會進一步強化。

      我完全預計,強化學習在推理領域的所有進展,最終都會應用到機器人技術中。這一過程很有趣,因為它與人們針對數學問題的強化學習研究有所不同。數學問題對人類而言更像是文本類任務——可以在腦海中通過文本邏輯思考,例如調整公式以得到結果。但對于物理智能而言,推理過程會更復雜。例如,當我最近學習打網球時,不會在腦海中刻意思考拿起球拍→移動到某個位置→做出擊球動作,而是專注于動作本身——身體的移動方式,以及對周圍物體軌跡的預判。這類推理能力,未來會越來越多地融入到模型中。

      Karol Hausman目前,我們確實從視覺語言模型中獲益良多。但這種受益關系未來很可能會逆轉。當前大型語言模型的許多缺陷,本質上是由于其聚焦于文本類任務,如數學、編程。而機器人技術將提供一個全新的視角,促使我們重新思考推理的本質——推理可能需要在抽象空間中進行,結合文本、圖像、軌跡等多種信息來源得出結論。機器人技術為這種新推理模式提供了絕佳的測試平臺:它扎根于物理世界,雖然目前數據有限,面臨諸多挑戰,但由此產生的新發現,未來很可能反哺大型語言模型領域。

      數據與泛化能力:機器人技術落地的關鍵挑戰與突破路徑

      Alfred Lin談到數據,能否介紹一下你們目前已收集的數據規模,以及明年的收集目標?當然,數據越多越好,但具體量級是怎樣的?

      Karol Hausman這是一個相當復雜的問題,不能僅以數量衡量。數據質量和多樣性同樣重要,而機器人數據的質量和多樣性目前尚無嚴格定義。例如,用10種不同方式完成同一任務,這是否屬于多樣化數據?與10種不同杯子相關的數據相比,哪種多樣性更高?

      Alfred Lin確實如此。

      Karol Hausman整個行業目前尚未完全搞清楚如何描述數據的特征、多樣性和質量,也缺乏嚴謹的評估標準。我們還發現,數據的某些特定屬性至關重要。例如,要在某項任務上達到特定性能,僅靠增加現有數據的數量是無法實現的。在π*0.6版本的研發過程中,我們針對三個不同任務進行了測試,早期就發現:如果沿用現有數據收集方式持續積累數據,性能會進入平臺期,無法進一步提升。因此,我們需要尋找新的數據收集方法,或思考什么樣的數據能推動性能提升。而強化學習等技術,正是解決這一問題的關鍵。

      Sonya Huang我們來談談強化學習和π*0.6。這個星號是在致敬π-star嗎?

      Tobi Springenberg沒錯,本質上是這樣。我們希望接近最優策略。

      Sonya Huang最優策略。好的,非常好。能否先簡要介紹一下π*0.6的核心內容,然后再深入探討強化學習在你們領域的意義?

      Tobi Springenberg當然可以。與我們之前的模型相比,核心區別在于:在此之前,我們所有的機器人基礎模型訓練都基于演示數據,即遠程操控數據,模型的訓練目標本質上是模仿這些數據。而新模型π*0.6采用了基于經驗的強化學習:機器人通過運行初始策略——基于演示數據訓練的策略——執行任務,自行收集經驗數據。在這一過程中,人類會提供獎勵信號,也會進行干預修正,例如指出這樣做不對,應該換種方式。這些數據會被回收,模型利用這些數據判斷哪些行為需要強化(多執行),哪些需要弱化(少執行),從而實現持續自我優化。這就是核心差異。正如Karol之前提到的,這種真實數據的持續輸入,是幫助我們突破性能平臺期的關鍵。

      Sonya Huang我理解強化學習就像是在獎勵信號的引導下“爬坡”。那么,在針對特定任務“爬坡”時,如何確保模型的泛化能力?

      Tobi Springenberg針對這個問題,我們的思路是:現有通用模型已具備一定性能(雖非最優),初期目標并非進一步泛化,而是先攻克特定任務。我們選擇了三四個任務進行部署,模型本身需要具備跨任務泛化能力,但強化學習過程的核心是確保在特定任務上的表現。部署并啟動強化學習時,首要目標是精準完成該任務——例如,能從不同位置啟動任務,能應對各類長尾故障。從表面上看,專注于單一任務似乎與泛化能力相悖,但本質上,我們采用相同的方法和流程應對每個任務:提升單個任務的性能,收集所有任務的數據并回收,最終實現整體泛化能力的提升。所以,兩者并非對立關系。

      強化學習的實踐探索:真實場景優先與泛化能力的平衡

      Sonya Huang明白了。你們的強化學習是在真實場景中進行的嗎?能否談談你們在仿真環境和真實環境中強化學習的應用比例?

      Tobi Springenberg我們采取了“真實世界優先”的策略,而非依賴仿真。當然,我們也將仿真作為研究工具進行探索,但π*0.6論文中的所有強化學習實驗均在真實系統中完成。原因在于,真實場景中的長尾故障極難通過仿真建模。以我們此次針對的任務為例,很多故障模式在仿真環境中完全無法預見。例如,其中一個任務是組裝盒子——這是一個實際部署場景,目標是將紙板組裝成巧克力包裝盒,以便后續包裝和運輸。初期,機器人組裝效果很好,但當新一批紙板到貨后,問題出現了:這些扁平的紙板穿孔不夠規整,容易粘連在一起。機器人抓取紙板放置到臺面準備組裝時,會發現臺面上有兩個粘連的紙板——這種情況在仿真環境中(假設紙板都是獨立的)是不會出現的。而我們的方法能夠讓機器人學會處理這種問題:識別粘連情況,將兩個紙板分開,再繼續組裝。如果僅在仿真環境中訓練,機器人永遠無法應對這類真實場景中的突發狀況。

      Karol Hausman強化學習在仿真環境中應用于移動領域已取得不少成功,模型遷移到真實場景的效果也不錯,但在操作領域尚未見到類似的成功案例。原因在于,移動領域的核心問題是機器人對自身身體的建模——只要能精準建模自身,就能較好地完成移動任務。這種建模在仿真環境中只需進行一次(針對特定機器人),若建模足夠精準,就能實現有效遷移。但操作領域的核心并非機器人自身的移動,而是與外部世界的交互——如何通過動作影響物體。例如,將手從A點移動到B點并不難,難的是預判這一動作對所操作物體的影響。此時,問題就從“建模機器人自身”擴展到“建模整個世界”——包括所有可能交互的物體和任務,這在仿真環境中幾乎無法實現規模化建模,因此這類方法在操作領域的效果有限。

      Sonya Huangπ*0.6的核心成果是什么?經過強化學習后,模型在你們關注的測試任務上表現如何?這對你們未來的訓練方案有何啟示?

      Tobi Springenberg對我而言,最令人印象深刻的是,這些模型能夠連續運行數小時,從各類故障中自主恢復,并持續工作。同時,其運行效率相比初始模型有了大幅提升。核心數據如下:在三個任務(之前提到的組裝巧克力盒、用工業級濃縮咖啡機制作咖啡、折疊衣物)中,模型的任務吞吐量提升了兩倍多。與僅基于演示數據訓練的基礎模型相比,新模型不僅運行速度更快,故障恢復能力也顯著增強。你可以在我們的官網查看相關視頻:機器人連續13小時制作咖啡,或連續4小時折疊衣物。親眼目睹這些場景,會徹底改變你對模型的認知——它不再是僅能演示一次的“玩具”,而是具備實際部署價值、能持續完成真實任務的技術。

      Karol Hausman這正是機器人技術領域一個鮮為人知的巨大挑戰。你能在網上看到很多機器人完成酷炫任務的視頻(我們也會發布這類視頻),幾乎任何你能想到的任務,都能找到對應的機器人演示視頻。但這些視頻往往是經過多次拍攝、篩選出的完美片段。行業內普遍面臨的問題是模型的可靠性、性能、運行速度,以及長時間部署的穩定性。這是機器人技術落地的最大瓶頸——如果模型每兩次嘗試就失敗一次,根本不具備實際部署價值。而π*0.6的最大突破,正是讓模型具備了可部署性:我們的辦公室里已有機器人為員工制作咖啡,公司員工也能將機器人帶回家折疊衣物,還有機器人在真實場景中組裝盒子。這真的非常令人興奮。

      Sonya Huang你們的強化學習是否主要聚焦于提升客戶部署場景中的可靠性?例如,確保咖啡制作模型在客戶現場能夠穩定運行,速度足夠快,長時間無故障。這更像是客戶部署層面的創新,還是基礎能力層面的突破?或者兩者兼具?

      Tobi Springenberg兩者兼具。正如Karol之前所說,我們理想中的機器人(無論是家用的洗衣、洗碗、烹飪機器人,還是小型企業用于解決特定問題——如組裝巧克力盒——的機器人),既需要具備可靠性和高性能,也需要能夠應對訓練階段未見過的新任務。僅依靠擴大人類演示數據規模,無法無限提升初始模型的性能和泛化能力——數據收集存在上限。因此,部署是必要的(這也是你提到的客戶部署層面的創新),但從長遠來看,我預計未來幾年,部署過程中收集的數據將成為模型預訓練的重要數據源,助力模型持續優化。我們會越來越依賴自主數據收集,構建覆蓋各類任務的龐大數據集。從這個角度來說,這也是一種新能力的突破。

      Karol Hausman此前,行業內尚未實現模型從自身經驗中學習的規模化應用——雖有諸多嘗試,但均未取得足以支撐部署的令人信服的成果。這正是π*0.6成果的重要性所在:我們首次實現了模型從自身經驗中學習。這與人類的學習方式相似:你可以通過觀看視頻或向他人學習獲得初步知識,但最終必須通過親身實踐才能真正掌握技能——嘗試、觀察動作的結果、總結經驗、持續改進。π*0.6正是朝著這個方向邁出的第一步。

      Sonya Huang這讓我想到了今年Rich Sutton的《經驗時代》論文,非常深刻。你們認為這一技術會開啟機器人領域的持續學習時代嗎?它會成為持續學習的重要組成部分嗎?

      Karol Hausman這取決于人們對“持續學習”的定義。與過去的訓練模式相比,它無疑更具持續性:過去,我們通常是進行一次大規模預訓練(可能加一次后續訓練),然后輸出一個固定的模型,后續幾乎無法調整。而現在,模型部署后仍能持續學習——嘗試新動作、從自身經驗中總結、不斷優化。從這個角度來說,它更接近持續學習。但未來仍有很大的提升空間:例如,通過這種方式快速獲取新技能,或在學習過程中融入推理能力。持續學習是一個梯度光譜,我們目前的成果證明了其可行性,但還有很大的優化潛力。

      Tobi Springenberg我同意。我們目前還處于起步階段。這并非傳統意義上的持續學習(例如通過數據流持續訓練,最終走向通用人工智能等),但這是關鍵的第一步,方向是正確的,未來還有很多工作要做。僅從π*0.6的成果來看,我個人對模型從少量數據中學習的能力感到驚訝。例如,制作濃縮咖啡過程中有一個“壓粉”步驟——將咖啡粉放入濾杯后壓實。我們的機器人初期壓粉力度過大,甚至在壓粉時差點把自己抬離臺面。后來,人類僅進行了30-50次修正,將這些數據反饋給模型后,機器人就學會了更輕柔、更準確地壓粉。這讓我非常意外:模型已經過數百萬次預訓練,而少量的人類修正就能帶來顯著改進。這正是持續學習的潛力所在,令人印象深刻。

      Sonya Huang我仍關心泛化能力。例如,我學會了更好地壓粉,這會讓我更擅長折疊盒子嗎?

      Tobi Springenberg在這個具體案例中,不會。但背后的學習機制是通用的——你可以用同樣的方式修正“盒子粘連時需要分開“盒子折疊不整齊”等問題。30次壓粉修正、30次盒子分離修正、30次折疊對齊修正,這些數據積累起來,就能帶來整體泛化能力的提升。

      Sonya Huang所以這是一種可重復的方案,但不同任務的學習成果不會直接交叉遷移?

      Tobi Springenberg是的。不過,隨著規模擴大,如果不同任務存在相似的動作模式,我預計會出現一定的遷移效應。但目前來看,它更像是一種可重復應用的通用方案。

      Karol Hausman我們發現,通過在更多任務、更多數據上進行預訓練,模型的泛化能力會顯著提升——新任務的適配難度降低,甚至會出現未預期的零樣本任務執行能力。我們會定期開展預訓練,每次都會發現模型性能因數據積累和預訓練流程優化而持續提升。我堅信,隨著模型部署范圍擴大、任務類型增多,回收的數據會進一步推動泛化能力提升,形成“部署→數據→優化→更廣泛部署”的正向循環。

      Tobi Springenberg關于你提到的泛化能力,有一個關鍵細節值得補充。π*0.6的方案包含兩個核心部分:一是通過修正和強化學習反饋持續優化的策略;二是強化學習反饋的獲取方式。我們之前提到了人類修正,而強化學習反饋的獲取方式本身就蘊含泛化潛力。

      具體來說,我們首先讓人類判斷機器人執行任務(如制作咖啡、組裝盒子)的成功與否,為每個任務片段打上標簽;然后訓練一個價值函數,用于預測當前任務狀態下成功或失敗的概率;最后,以這個價值函數為基準,決定是否強化或弱化當前數據。我們發現,當價值函數在更多不同任務的數據上進行訓練時,其性能會顯著提升——例如,對于某些任務,模型能提前30-40個時間步預判失敗(甚至早于人類通過視頻觀察到的失敗信號)。例如,機器人嘗試將濾杯插入咖啡機時,價值函數會提前預判角度不當導致的失敗,并拒絕使用這類數據進行訓練。隨著數據和任務的增加,這種預判能力會不斷增強。

      Sonya Huang這很有趣。

      Tobi Springenberg而且數據和任務越多,效果越好。

      Sonya Huang這與Karpathy所說的“從末端獲取信號”形成了鮮明對比——你們并非等待最終結果,而是在過程中獲取大量信號。

      Karol Hausman強化學習是一個廣闊的領域,包含多種不同方法。人們通常會將強化學習與策略梯度法或特定的在線學習方法關聯,但對我而言,強化學習更像是一種問題定義。針對你提到的“僅能在任務末端獲取獎勵”的問題,已有多種解決方案,例如價值函數、時序差分學習等——通過持續的序列預測來規避長時程任務的獎勵信號稀疏問題。這或許是機器人技術能為整個AI社區帶來的重要貢獻:由于我們無法像語言模型那樣擁有完美的仿真環境(可進行無限次模擬),必須在真實世界中高效學習,因此需要依賴價值函數等技術。這些技術將在更廣泛的AI領域發揮重要作用。

      Sonya Huang我想再深入探討一下——互聯網視頻似乎是你們訓練方案的一部分,但目前并非重點。你認為互聯網視頻中仍有未被挖掘的價值嗎?另外,當前視頻模型、世界模型的發展,是否會為機器人模型能力帶來突破性提升,并成為你們技術pipeline的重要組成部分?

      Karol Hausman這其實包含兩個問題:一是數據層面,如何通過數據積累實現部署突破;二是視頻模型和世界模型的作用。關于數據,我們目前處于“啟動階段”——任何有助于模型提升的數據源(仿真數據、人類視頻、手持設備數據、人類遠程操控數據等)都值得嘗試。我們需要通過各種方式積累數據,達到部署門檻。因為從長遠來看,啟動階段的數據積累無論規模多大,都無法與部署階段獲取的海量真實數據相提并論。我們現在正全力沖刺部署階段,希望通過在更多任務、更多環境中的部署,構建強大的數據引擎。

      關于世界模型:世界模型和強化學習本質上都在解決同一個問題——反事實推理或信用分配問題,即如何判斷哪些動作對任務成功至關重要,以及若采取不同動作,世界會如何演變。世界模型的解決思路是預測未來(例如,若濾杯插入角度不同,結果會是成功還是失敗,通過完整視頻序列呈現);強化學習則通過更隱含的機制解決這一問題,但兩者的核心目標一致。我們正在探索所有這些方法,試圖找到解決反事實推理問題的最佳路徑。目前尚無明確答案,但π*0.6的成果表明強化學習已取得顯著進展,未來也可能有更多其他方法涌現。

      行業洞察與技術反思:從拆解到通用,數據驅動的智能本質

      Sonya Huang非常精彩。能否談談,度過啟動階段后,你們的客戶部署模式會是怎樣的?你們會為客戶提供什么?如何收費?未來會如何演變?例如,是提供全垂直整合的機器人解決方案,還是僅提供模型,由客戶自行整合到其業務流程中?具體又會如何運作?

      Karol Hausman說實話,我們目前還不確定,仍在探索中。技術還處于早期階段,正如你所知,我們才剛剛達到部署的門檻。因此,我們認為當前應優先聚焦技術本身——提升模型的通用性和部署便捷性,擴大之前提到的應用場景范圍。回顧機器人創業公司的歷史,很多公司都經歷過這樣的階段:先研發技術,懷揣著通用化的宏偉愿景,但一旦選定某個應用場景,就會陷入局限——為適配特定場景而妥協,開發專用解決方案,最終淪為專注于單一領域(如倉庫揀選機器人)的應用公司。我們希望避免這種結局。解決物理智能問題的價值,遠超過當前任何單一應用場景的商業價值。

      因此,我們希望確保技術盡可能通用、易于部署,應用場景盡可能廣泛,之后再考慮商業化模式。正如你所說,商業化可能有多種路徑,甚至包括一些我們目前無法預見的方式(取決于技術的發展方向)——例如提供模型服務、全垂直解決方案、機器人硬件銷售等。但現在回答這個問題還為時過早,雖然明確一個方向會讓人更安心,但現階段我們必須專注于技術本身。

      Sonya HuangAlfred肯定會希望有明確答案。

      Karol Hausman是的,Alfred會很高興,但確實還太早。

      Alfred Lin不,你們的愿景非常宏大。感謝你們致力于物理智能研究,這是一項非凡的進步。僅π*0.6就堪稱重大突破。祝賀你們取得的所有成就。

      Tobi Springenberg謝謝。

      Alfred Lin我能問一個尖銳的問題嗎?

      Karol Hausman當然可以。

      Alfred Lin正如你們所說,你們的愿景宏大而廣泛,涉及多個領域。我相信你們研究過以往的機器人技術嘗試,正如你所說,它們大多最終聚焦于單一應用,范圍越來越窄。自動駕駛是其中最成功的大規模應用案例之一,Waymo和特斯拉都取得了巨大成就。但回顧歷史,我在2009年、2010年左右聽Sebastian Thrun在TED演講時第一次了解到自動駕駛——他提到了2007年贏得DARPA挑戰賽的經歷。而現在已經是2025年,自動駕駛技術仍只能在舊金山等局部地區應用,僅能行駛在普通道路上,甚至無法上高速公路。如果你們追求如此通用的目標,那么在泛化能力和性能提升方面,你們設想的時間線是怎樣的?

      Karol Hausman這個問題很有價值。機器人技術的落地,有些方面比自動駕駛更容易,有些方面則更難。更容易的一點是,我們不需要達到100%的可靠性才能部署。很多任務只要達到95%的可靠性就完全可行——例如,家用折疊衣物機器人,即使每100件衣物中有1件折疊不完美,用戶也能接受。

      Alfred Lin可以讓孩子去折疊那1件,這反而成了額外的好處。家務還是需要的。

      Karol Hausman沒錯。但自動駕駛完全不同——每100次行駛中出現1次災難性故障,后果不堪設想。因此,機器人技術的部署門檻可能更低。同時,我們也受益于技術時代的進步——現在已進入視覺語言模型和基礎模型的時代,這些模型本身具備一定的常識,而且我們從2009年到2025年期間積累了大量經驗教訓,這些都為我們提供了助力。我們的解決方案比以往更具通用性。

      但另一方面,挑戰也同樣存在:機器人技術并非單一應用,而是適用于駕駛、操作、移動、飛行等多個領域的通用解決方案,其難度仍有待觀察。但根據我們目前的經驗,說實話,它并沒有想象中那么難。如果從一開始就以通用化為目標進行設計,模型的泛化能力其實相當出色。物理智能中存在一些我們尚未完全理解的特性,使得模型能夠在駕駛、制作咖啡、無人機飛行、手術機器人操作等看似毫無關聯的任務中實現泛化。

      盡管這些任務差異巨大,看似需要不同的模型和應用方案,但我們的模型卻能從這些多樣化的數據中提煉出共性。這讓我充滿信心,或許這個問題并沒有那么難,甚至可能比自動駕駛更容易解決。這是一個合理的質疑,但我們不應從自動駕駛的發展歷程中得出錯誤的結論。

      Alfred Lin非常精彩。祝賀你們。除了自己的成果,還有哪些領域的進展讓你們印象最深刻?

      Karol Hausman我先來回答。你之前提到的視頻模型讓我印象深刻。幾年前我曾參與過相關研究,從未想過其發展速度會如此之快——現在的視頻模型生成的內容幾乎與真實場景無異,能完成各種令人驚嘆的任務。這真的非常令人意外和震撼。

      Tobi Springenberg我至今仍對一個現象感到驚嘆:僅通過下一個Token預測,我們竟然能構建出具備一定通用智能的模型。無論是模型在國際數學奧林匹克挑戰賽中獲勝,還是在科學研究中輔助發現新成果,每一個進展都讓我感到意外。今年有很多這樣的案例,年初時我還以為大型語言模型的預訓練可能已經進入瓶頸期,但沒想到會迎來如此強勁的“第二春”。

      Karol Hausman我想補充的是,這整套技術的可行性本身就令人難以置信。我們或許并未完全意識到這有多不可思議:構建一個松散受大腦啟發、具備通用學習能力的算法,輸入數據后,它不僅能理解,而且表現遠超以往任何技術。這一技術適用于機器人、計算機視覺、語言、聲音等多個領域。仔細想想,它的工作原理及其實際效果,確實令人嘆為觀止。例如,機器人能夠在從未去過的家庭環境中自主工作,能夠連續13小時制作咖啡——這些都是由一個端到端訓練的通用模型完成的,我們雖未完全理解其原理,但它確實開始展現出強大的能力。這對我來說,簡直太神奇了。

      Sonya Huang我們是不是生活在一個模擬世界里?

      Alfred LinSonya就是這么認為的,覺得我們身處模擬環境中。但這確實很有趣——科學研究中,人們通常會將大問題拆解為小問題,但最終發現,這種方法可能并不適用于機器或機器人的訓練。

      Tobi Springenberg說實話,機器學習和AI領域在某種程度上也犯了同樣的錯誤。長期以來,人們都在深入研究單個具體問題,后來才意識到,如果能將這些問題整合起來,實現多任務學習,效果可能會好得多。但令人意外的是,僅僅通過切換到通用預訓練目標,這一切就自然實現了——這正是最令人驚訝的地方。

      Alfred Lin你認為這會不會像手風琴一樣,在兩種框架之間來回切換?先將大問題拆解為小問題,在一段時間內有效,然后失效;再回到大問題,嘗試更通用的解決方案。如此循環往復。

      Tobi Springenberg我們不會再回到拆解問題的老路上去。

      Karol Hausman我也這么認為。有些人提出“兩全其美”的思路:將已知規則(如牛頓物理定律)融入模型,無需讓模型重新學習。但我們的經驗表明,這種方法行不通——強行融入已知規則會限制模型學習新事物的能力。所謂“兩全其美”可能并不存在,我們必須堅持完全的數據驅動學習。這很有趣,試想一下,如果存在一種預加載所有智能的方式,進化過程應該早已找到它——生物出生時就會具備所有知識。但我們觀察到,有些物種(如鹿)出生時就已具備成年個體的智能,終生無需學習;而人類、烏鴉等智能物種則有漫長的童年和青春期,初期并不聰慧,必須通過自身經驗持續學習。

      這說明,通過親身體驗世界并從中學習,是智能形成的關鍵。機器學習和AI領域也正在吸取這一教訓:我們自以為了解人類的思考方式,但實際上并非如此。我們需要做的,是讓算法從數據中自行學習。

      Alfred Lin養育孩子也是如此。我以為自己了解兒子的想法,但其實并不完全了解。

      Karol Hausman我有一個小女兒,她的學習速度和認知發展真的非常令人驚訝。

      Alfred Lin孩子學得太快了。

      Karol Hausman是的,而且你根本不知道他們的知識來自哪里。

      Alfred Lin希望是來自父母。

      Karol Hausman希望如此。但她確實知道一些我從未教過她的東西。

      Alfred Lin非常感謝你們。

      Sonya Huang你們追求的使命非常偉大。感謝你們的分享。

      Karol Hausman/Tobi Springenberg謝謝,感謝邀請。


      原文:Training General Robots for Any Task: Physical Intelligence’s Karol Hausman and Tobi Springenberg

      https://www.youtube.com/watch?v=OJCT-HGxPjk

      編譯:Lingyun Xu

      歡迎掃碼加群參與討論

      我們相信認知能夠跨越階層,

      致力于為年輕人提供高質量的科技和財經內容。

      稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。

      我們正在招募新一期的實習生

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “年花費9萬美元,孩子早申拿到耶魯offer,我卻想讓他選全獎的大學”

      “年花費9萬美元,孩子早申拿到耶魯offer,我卻想讓他選全獎的大學”

      戶外阿毽
      2026-02-14 08:55:18
      春節我把老媽從養老院接回家,隔天喊老媽吃飯,推開門我瞬間哽咽

      春節我把老媽從養老院接回家,隔天喊老媽吃飯,推開門我瞬間哽咽

      煙雨洛神生
      2026-02-12 20:09:36
      國家電影局 財政部印發《關于試行開展2026年中央級國家電影事業發展專項資金支持促進電影消費工作的通知》

      國家電影局 財政部印發《關于試行開展2026年中央級國家電影事業發展專項資金支持促進電影消費工作的通知》

      中國電影報
      2026-02-13 11:16:13
      蜜雪冰城墨西哥首店開業,民眾排隊數小時購買,當地華人:比其他奶茶便宜很多,檸檬水8元一杯,口感和國內一樣

      蜜雪冰城墨西哥首店開業,民眾排隊數小時購買,當地華人:比其他奶茶便宜很多,檸檬水8元一杯,口感和國內一樣

      極目新聞
      2026-02-13 17:51:18
      賴清德受訪,“臺獨”本質現形

      賴清德受訪,“臺獨”本質現形

      環球網資訊
      2026-02-13 07:03:10
      太罕見了:臺軍上將排成一排,大陸送上一句話,鄭麗文發現不對勁

      太罕見了:臺軍上將排成一排,大陸送上一句話,鄭麗文發現不對勁

      東極妙嚴
      2026-02-12 11:08:44
      日本綜藝有多變態?看完下面這些,保證你菊花一緊!

      日本綜藝有多變態?看完下面這些,保證你菊花一緊!

      日本窗
      2026-02-02 17:28:30
      王思聰成功和懶懶分手,回國的懶懶被曝變賣奢侈品,網友吐槽太貴

      王思聰成功和懶懶分手,回國的懶懶被曝變賣奢侈品,網友吐槽太貴

      娛樂團長
      2025-11-16 15:45:42
      1990年,90歲張學良在鏡頭前爆料于鳳至不堪隱私,令人難以置信

      1990年,90歲張學良在鏡頭前爆料于鳳至不堪隱私,令人難以置信

      文史達觀
      2026-02-04 20:01:53
      淘寶閃購:千問訂單近半數來自縣城

      淘寶閃購:千問訂單近半數來自縣城

      界面新聞
      2026-02-12 12:47:19
      馬斯克,別去火星了,一起開發亞特蘭蒂斯!

      馬斯克,別去火星了,一起開發亞特蘭蒂斯!

      Thurman在昆明
      2026-02-14 08:50:17
      2100枚核彈24小時待命,張召忠曾發出警告:一旦開戰,將無處可逃

      2100枚核彈24小時待命,張召忠曾發出警告:一旦開戰,將無處可逃

      近史博覽
      2026-01-22 12:52:47
      江西女碩士失蹤,被發現時已在教授實驗室待6年,魔鬼真的存在

      江西女碩士失蹤,被發現時已在教授實驗室待6年,魔鬼真的存在

      燦爛夏天
      2025-02-10 20:20:13
      黃金大遷徙,中國成為世界金庫,美國沒想到這一天來得這么快

      黃金大遷徙,中國成為世界金庫,美國沒想到這一天來得這么快

      無情有思可
      2026-02-12 06:02:50
      央視又一部好劇來襲,2月20號正式開播,演員都是我喜歡的

      央視又一部好劇來襲,2月20號正式開播,演員都是我喜歡的

      小邵說劇
      2026-02-13 21:38:13
      大孤山被熱議,姜育恒被曝是幕后人,大師算卦15個起,只給明星算

      大孤山被熱議,姜育恒被曝是幕后人,大師算卦15個起,只給明星算

      非常先生看娛樂
      2026-02-13 17:21:44
      別被電視劇騙了!這才是賭王4位嬌妻的真容,貨真價實的罕見照片

      別被電視劇騙了!這才是賭王4位嬌妻的真容,貨真價實的罕見照片

      聚焦最新動態
      2026-02-12 22:29:55
      不打了!字母哥正式退出!杜蘭特怒批東契奇和約基奇

      不打了!字母哥正式退出!杜蘭特怒批東契奇和約基奇

      籃球教學論壇
      2026-02-13 18:36:36
      過年期間,這......才是真正的中式恐怖吧!(附反彈攻略)

      過年期間,這......才是真正的中式恐怖吧!(附反彈攻略)

      言安堂
      2026-02-13 07:36:24
      出手了!高市扣押中國漁船,正式向中國示威,但代價日本承擔不起

      出手了!高市扣押中國漁船,正式向中國示威,但代價日本承擔不起

      奇思妙想生活家
      2026-02-14 01:18:59
      2026-02-14 09:28:49
      ZFinance
      ZFinance
      Z世代的一站式AI、科技和財經資訊
      122文章數 2關注度
      往期回顧 全部

      科技要聞

      獨家探訪蔡磊:答不完的卷子 死磕最后一程

      頭條要聞

      37年懸案告破 香港女總督察被認出是昔日TVB女主播

      頭條要聞

      37年懸案告破 香港女總督察被認出是昔日TVB女主播

      體育要聞

      一年怒虧2個億,庫里和安德瑪的“孽緣”

      娛樂要聞

      大衣哥女兒風光出嫁,農村婚禮超樸素

      財經要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      星光730新春促銷開啟 80天銷量破2.6萬臺

      態度原創

      本地
      時尚
      家居
      健康
      軍事航空

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      穿上這些鞋擁抱春天

      家居要聞

      中古雅韻 樂韻伴日常

      轉頭就暈的耳石癥,能開車上班嗎?

      軍事要聞

      多次成功應對外艦、外機挑釁 太原艦展示052D硬核實力

      無障礙瀏覽 進入關懷版