在機器人領域,實驗室的精選視頻與現實應用的笨拙表現之間一直存在巨大鴻溝。長期以來,行業習慣于將失敗歸咎于硬件,但Physical Intelligence (PI)團隊卻提出了一個極具挑戰性的觀點:智能,才是機器人普及的唯一瓶頸。
2026年初,PI 團隊發布了通用機器人模型 π*0.6。本期對話邀請到了公司核心成員Karol Hausman與Tobi Springenberg,深入探討他們如何通過端到端學習與真實世界強化學習,試圖打破機器人學的舊范式。
訪談中,兩位專家針對行業痛點提出了三項核心主張:
模塊化是進步的枷鎖:過去幾十年將機器人拆解為感知、規劃、控制的“分治法”從底層就錯了。這種架構導致模塊間的信息流失嚴重,而端到端的視覺語言動作模型才是通往真智能的唯一路徑。
告別仿真環境的溫室陷阱:當同行還在模擬器里跑數據時,PI 堅持真實世界強化學習。他們認為模擬器永遠無法復現紙板粘連或咖啡粉受潮這種長尾故障,只有讓機器人在現實中瘋狂“交學費”,才能練出真正的可靠性。
硬件早已不是借口:PI 團隊認為,十年前的機器人硬件就足以打掃房間。研發重心應從堆硬件轉向磨智能。一旦智能瓶頸突破,現有的簡單夾具也能完成切菜、烹飪等復雜家務。
部署即數據,數據即一切:由于互聯網缺乏現成的機器人動作數據,PI 的策略是直接部署:通過機器人實地工作收集海量真實經驗,形成“部署→數據→優化→更廣部署”的正向循環,最終構建出能跨領域泛化的“物理大模型”。
在 Physical Intelligence 的愿景中,我們正處于機器人從特定工具向通用物種”轉變的前夜。以下訪談實錄,帶你走進物理智能的最前沿。
![]()
圖片來源:Sequoia Capital
物理智能核心使命與技術定位:聚焦機器人基礎模型突破
Sonya Huang:在本期節目中,我們邀請到了Physical Intelligence公司的Karol和Tobi。該公司專注于構建機器人基礎模型。Karol和Tobi將解釋,為何傳統上將機器人技術拆解為感知、規劃和控制的方法存在根本性錯誤,以及基于強化學習的端到端學習如何最終實現技術落地。你將聽到他們如何實現機器人在真實場景中的穩定表現——例如讓機器人連續13小時制作咖啡,這些模型如何在截然不同的任務中實現泛化(從手術機器人到無人機飛行),而其中的原理我們尚未完全掌握。我們還將探討π*0.6背后的技術洞察,這是Physical Intelligence最新推出的模型,能夠通過強化學習從經驗中持續學習。敬請收聽。Karol、Tobi,非常感謝你們今天的到來。
Karol Hausman/Tobi Springenberg:感謝邀請。
Sonya Huang:很期待與你們探討物理智能、通用機器人等相關話題。在深入交流前,能否先向觀眾簡要介紹一下物理智能的定義以及你們追求的使命?
Karol Hausman:好的。Physical Intelligence的核心是構建機器人基礎模型。理論上,這類模型應能讓任何機器人完成任何任務。在過去一年半左右的時間里,我們已搭建起支撐模型規模化應用的核心組件。我們的研究表明,這些模型能夠控制多種形態、不同類型的機器人,并且具備泛化能力——可適配全新環境,我們也已明確其泛化所需的條件。
我們剛剛發布的π*0.6版本(后續會詳細介紹),其性能已達到可部署水平。這對我們而言意義重大:一方面,我們希望這項技術能真正落地到現實世界;另一方面,由于互聯網上缺乏現成的機器人動作數據,我們必須自行構建數據集。因此,我們聚焦于物理智能領域的核心挑戰,致力于打造機器人基礎模型,并已取得顯著進展。
Sonya Huang:非常出色。我想追問一下,為何選擇構建基礎模型,而非像其他公司那樣打造全垂直整合的機器人產品?比如我記得上個月的周日午餐話題——現在已有可購買的家用小型輔助機器人,還有公司在研發烹飪機器人,人形機器人領域也有不少參與者。你們為何選擇專注于基礎模型,而非親自研發機器人?
Karol Hausman:回顧機器人技術的發展歷程,我和許多機器人專家都清晰地認識到,智能始終是行業的瓶頸。無論是家用還是工業場景,機器人硬件早已具備完成復雜任務的能力。十多年前就有機器人在遠程操控下完成全屋清潔的案例——關鍵在于遠程操控:只要有人類智能介入,就能證明硬件具備多樣化任務執行潛力。長期以來,多數機器人公司都采用你提到的模式:設計針對單一任務或應用場景的專用機器人。
但我們認為,推動行業發展的關鍵是突破智能瓶頸。因此,我們成立公司專注于解決這一核心問題——只有突破智能限制,才能真正實現機器人技術的普及。若選擇其他路徑,很難在智能領域取得實質性進展。我們希望直面這一挑戰,聚焦智能技術研發,未來有望催生出各類垂直領域產品,讓機器人走進家庭、工業等更多場景。
Sonya Huang:我想進一步探討這個問題。硬件方面,我看到了最新的Optimus機械臂視頻,設計堪稱精湛,宛如藝術品。雖然我沒見過十年前遠程操控機器人清潔房屋的視頻,但很好奇是否存在一些如今才剛具備實現條件的任務?例如烹飪,或是剝洋蔥、切洋蔥這類過去硬件無法完成的操作。你認為當前硬件水平對技術落地的推動作用有多大?
Karol Hausman:硬件領域確實取得了長足進步,尤其是人形機器人硬件,比如你提到的靈巧手,現在的性能比幾年前提升了很多。但這并未解決核心瓶頸。即便使用簡單的夾具,機器人理論上早就能完成切菜、烹飪等任務,問題的關鍵在于缺乏操控這些硬件的智能。而且硬件越復雜,反而越無法規避這一瓶頸——它或許能拓展任務邊界,但機器人智能不足的根本問題仍未解決。
Sonya Huang:明白了。也就是說,硬件可能提升了任務執行的上限,但我們目前還未達到基礎能力的下限。
Karol Hausman:沒錯。即便是簡單的機器人,其性能也尚未達到人類操作者的水平。
機器人技術發展演進:從拆解式架構到端到端學習革新
Alfred Lin:既然限制在于智能層面,那么研發智能的瓶頸又是什么?是數據收集嗎?還是低成本數據獲取?我們會不斷追問,深入核心。所以,解決智能問題的下一層瓶頸是什么?是泛化能力嗎?
Karol Hausman:這是個好問題。我們將其歸結為三個關鍵因素:能力、泛化性和性能。關于能力,我們的目標是:只要能為某項任務或某類機器人收集數據,模型就能復現并自動化該任務。這一點我們已快速實現——大約一年前發布的π0版本就證明了其可行性:任何任務、任何機器人,只要有數據支持,模型就能學習并自動化執行。下一個挑戰是泛化性,這仍是未完全解決的難題。我們希望機器人能實現零樣本學習,例如將其帶入全新的家庭環境,它就能自主適應并開展工作。這難度極大——新環境中,物品擺放、臺面布局、光線條件都與訓練數據存在差異。雖然這一問題尚未完全解決,但我們已摸索出可行的解決思路和規模化路徑。
機器學習中,泛化能力的核心在于數據多樣性——接觸足夠多的多樣化數據,模型就能適配相似的新場景。今年4月發布的π*0.6版本已實現這一突破:機器人能夠在從未去過的家庭環境中運行,雖未臻完美,但已具備完成廚房清潔等簡單任務的常識。最后一個尚未完全解決的挑戰是性能:如何讓模型性能達到可部署標準?部署至關重要,正如我之前提到的,我們需要通過部署收集數據。這是最具規模化的數據收集方式——讓機器人在現實世界中執行具有經濟價值的任務,數據收集成本幾乎為負。技術部署范圍越廣,獲取的數據就越多,最終可能成為比互聯網數據更龐大的數據源。
Alfred Lin:你認為我們距離實現泛化能力,或是達到可部署的性能水平還有多遠?這里的場景可以是受控環境,也可以是家庭、辦公室等通用場景,不一定是整個世界。若限定場景,泛化能力和性能需要達到什么程度,這類機器人才能實現部署?
Karol Hausman:實際上,我們已非常接近部署階段,并且已經開始自主部署。原本預計需要五年時間才能讓技術達到商業部署標準,具備實際應用價值,但我們在兩個月前就已實現這一目標。目前,模型的實用性、性能和任務覆蓋范圍都已達到臨界點,這是一個非常令人興奮的時刻。
不過,部署場景的廣度仍有待觀察。有些任務的失敗代價極高,目前并非最佳部署選擇;還有些任務對泛化能力要求極高,如家庭場景部署;或涉及隱私、安全問題,這些場景可能也暫不適合部署。但可以肯定的是,部署范圍正在不斷擴大。隨著數據積累和模型優化,我們將能把機器人部署到更多場景中,現在正處于這一進程的起步階段。
Alfred Lin:目前你們的部署場景主要集中在哪些領域?
Karol Hausman:這是個很難準確回答的問題。對于這些基礎模型,其能力邊界往往超出我們的預期,類似大型語言模型的發展——內部訓練優化后,最終的模型效果難以預測,必須通過實際測試驗證。因此,我們選擇開源模型,避免僅依靠內部團隊測試導致的認知局限。通過開源,我們發現模型的應用場景遠超想象,涵蓋駕駛、手術機器人、農業等多個領域。所以,我無法準確界定當前的部署范圍,但可以確定它比我們預期的更廣泛,且會隨著時間推移持續擴大。模型獲取的數據越多、越成熟,部署場景就會越豐富。
Tobi Springenberg:我想補充一下性能層面的觀點。如你所說,模型的應用起點比我們預想的更廣泛。但同時,要讓每個應用場景都達到商業級日常使用標準——例如作為核心業務支撐,性能方面仍有很長的路要走。
即將詳細介紹的π*0.6版本,在利用經驗數據學習方面取得了突破——模型部署后,能通過數據反饋持續優化。但坦率地說,許多場景中仍存在大量長尾問題和潛在故障點,我們尚未完全掌握解決方案。
核心技術架構解析:VLM基礎與動作模塊的融合設計
Sonya Huang:你們一直非常透明地公開研究成果,并選擇開源。如果方便的話,能否介紹一下你們的整體技術架構?你認為通往終極目標的架構是否已基本定型,未來只需在現有基礎上微調并積累大量數據?還是說,架構仍處于探索階段?
Tobi Springenberg:我們可以先談談當前的架構,再探討其未來可能的變化。目前,我們的架構與大家日常接觸的VLM非常相似——輸入文字和圖像,模型就能完成圖像內容識別等任務。我們以同樣的思路為基礎:模型先在互聯網規模的數據上進行預訓練,吸收圖像和文本信息,再融入大量機器人數據。目前,訓練數據以我們自行收集的機器人數據為主,僅包含少量互聯網數據。整體架構基于視覺語言模型,同時增加了動作模型(或稱動作專家)模塊,這部分負責驅動機器人——接收圖像輸入和任務指令后,生成并向機器人發送動作指令。
從技術層面看,這是一個參數規模達十億級別的Transformer模型,通過機器人數據和互聯網數據進行預訓練,初始訓練主要基于人類演示數據(Karol之前也提到過)——即人類遠程操控機器人執行任務的相關數據。目前,模型的性能提升主要依賴數據規模的擴大,技術架構與VLM領域的主流方案類似。至于未來的變化,這仍是一個開放性問題。我們正在探索為模型增加更多能力,例如拓展上下文理解范圍、支持更多攝像頭輸入、提升對物理世界的認知——如識別房間內的物品、判斷物品是否易碎、是否便于移動等。
因此,無論是能力拓展還是架構調整,都仍有很大的優化空間。我預計,五六年后回顧現在,當前基于VLM的模型基礎架構可能會發生變化,我們或許會采用全新的技術方案。但核心的數據理念和輸入方式,大概率會保持不變。
Sonya Huang:明白了。是否可以理解為,模型的輸入是像素或信號,輸出是動作?這是否屬于一個大型神經網絡?
Tobi Springenberg:沒錯,是一個大型模型。目前本質上就是圖像輸入、文本輸入,然后輸出文本和動作。
Sonya Huang:你們是否將移動和操作模塊分開設計?或許現在可以聊聊機器人技術的歷史演進,以及不同學習浪潮與你們技術架構的關聯。
Karol Hausman:好的。在機器學習廣泛應用之前,人們普遍認為,只要投入足夠的人力和工程師,深入研究就能編寫代碼,讓機器人完成世界上任何任務。人們曾為此付出巨大努力,但最終發現,現實世界的復雜性遠超想象——無法為所有可能出現的場景編寫規則。同時,在嘗試解決這一問題的過程中,人們習慣性地將機器人技術拆解為多個子問題:感知、控制、規劃。這甚至催生了不同的學術社群,每個社群都有自己的會議和研究重點。后來,人們意識到無法通過手寫規則覆蓋所有場景,于是轉向數據驅動的學習方法——這與人類的學習方式相似,本是個不錯的思路。但實際操作中,人們仍延續了子問題拆解的模式,分別對感知層、控制層、規劃層進行獨立的機器學習訓練。這種方式確實取得了一定進展,效果優于傳統方法,但最終證明,子問題拆解的思路本身存在缺陷。例如,當我試圖拿起這杯水時,不會刻意區分感知、規劃、控制等步驟,而是自然地完成動作。
傳統的流水線式架構——感知模塊輸出物體位置,規劃模塊生成軌跡,控制模塊執行動作中,各模塊間的接口設計是失敗的關鍵。我們原本對機器人工作原理的認知,從根本上就是錯誤的。于是,我們進入了下一個發展階段:意識到子問題拆解可能從一開始就是錯誤的,轉而采用端到端訓練模式——將傳感器輸入直接作為網絡輸入,動作作為輸出。我們稱之為端到端方法,即從像素直接映射到動作,讓網絡或學習算法自行決定是否需要拆分模塊,如果可行的話。
但在實踐中,我們發現這種方法需要海量數據,且在需要常識判斷的場景中容易失效——通過第一人稱動作數據集積累常識極其困難,因為需要覆蓋世界上所有可能的場景。就在這時,我們發現了視覺語言動作模型:利用在互聯網數據上預訓練的模型,即已具備一定的世界認知的,在其基礎上添加動作模塊,將通用世界知識與物理世界的任務執行能力相結合。這大致就是我們當前的技術路線。
在Physical Intelligence,我們還解決了其他關鍵問題:如何實現模型規模化?如何提升泛化能力?如何優化性能和運行速度?如何推進部署落地?但總體而言,我們仍處于利用互聯網預訓練模型的常識知識,構建適用于各類機器人、具備通用動作執行能力的階段。
Sonya Huang:關于推理能力——大型語言模型在推理領域取得了諸多突破。你們的VLA基礎架構是否能受益于這些進展?端到端訓練過程中,推理能力是否會自然涌現?或者說,大型語言模型領域的進展對你們是否有幫助?
Tobi Springenberg:目前我們的模型已經具備一定的動作規劃能力,不僅能預測即時動作,還能規劃后續約50個時間步的動作(約1-2秒)。同時,模型已能在語言層面將任務分解為子任務。例如,當指令為清潔廚房時,模型會自動拆解出“移動到臺面→拿起杯子→將杯子放入水槽”等子步驟。所以,一定程度的推理能力已經存在,未來還會進一步強化。
我完全預計,強化學習在推理領域的所有進展,最終都會應用到機器人技術中。這一過程很有趣,因為它與人們針對數學問題的強化學習研究有所不同。數學問題對人類而言更像是文本類任務——可以在腦海中通過文本邏輯思考,例如調整公式以得到結果。但對于物理智能而言,推理過程會更復雜。例如,當我最近學習打網球時,不會在腦海中刻意思考拿起球拍→移動到某個位置→做出擊球動作,而是專注于動作本身——身體的移動方式,以及對周圍物體軌跡的預判。這類推理能力,未來會越來越多地融入到模型中。
Karol Hausman:目前,我們確實從視覺語言模型中獲益良多。但這種受益關系未來很可能會逆轉。當前大型語言模型的許多缺陷,本質上是由于其聚焦于文本類任務,如數學、編程。而機器人技術將提供一個全新的視角,促使我們重新思考推理的本質——推理可能需要在抽象空間中進行,結合文本、圖像、軌跡等多種信息來源得出結論。機器人技術為這種新推理模式提供了絕佳的測試平臺:它扎根于物理世界,雖然目前數據有限,面臨諸多挑戰,但由此產生的新發現,未來很可能反哺大型語言模型領域。
數據與泛化能力:機器人技術落地的關鍵挑戰與突破路徑
Alfred Lin:談到數據,能否介紹一下你們目前已收集的數據規模,以及明年的收集目標?當然,數據越多越好,但具體量級是怎樣的?
Karol Hausman:這是一個相當復雜的問題,不能僅以數量衡量。數據質量和多樣性同樣重要,而機器人數據的質量和多樣性目前尚無嚴格定義。例如,用10種不同方式完成同一任務,這是否屬于多樣化數據?與10種不同杯子相關的數據相比,哪種多樣性更高?
Alfred Lin:確實如此。
Karol Hausman:整個行業目前尚未完全搞清楚如何描述數據的特征、多樣性和質量,也缺乏嚴謹的評估標準。我們還發現,數據的某些特定屬性至關重要。例如,要在某項任務上達到特定性能,僅靠增加現有數據的數量是無法實現的。在π*0.6版本的研發過程中,我們針對三個不同任務進行了測試,早期就發現:如果沿用現有數據收集方式持續積累數據,性能會進入平臺期,無法進一步提升。因此,我們需要尋找新的數據收集方法,或思考什么樣的數據能推動性能提升。而強化學習等技術,正是解決這一問題的關鍵。
Sonya Huang:我們來談談強化學習和π*0.6。這個星號是在致敬π-star嗎?
Tobi Springenberg:沒錯,本質上是這樣。我們希望接近最優策略。
Sonya Huang:最優策略。好的,非常好。能否先簡要介紹一下π*0.6的核心內容,然后再深入探討強化學習在你們領域的意義?
Tobi Springenberg:當然可以。與我們之前的模型相比,核心區別在于:在此之前,我們所有的機器人基礎模型訓練都基于演示數據,即遠程操控數據,模型的訓練目標本質上是模仿這些數據。而新模型π*0.6采用了基于經驗的強化學習:機器人通過運行初始策略——基于演示數據訓練的策略——執行任務,自行收集經驗數據。在這一過程中,人類會提供獎勵信號,也會進行干預修正,例如指出這樣做不對,應該換種方式。這些數據會被回收,模型利用這些數據判斷哪些行為需要強化(多執行),哪些需要弱化(少執行),從而實現持續自我優化。這就是核心差異。正如Karol之前提到的,這種真實數據的持續輸入,是幫助我們突破性能平臺期的關鍵。
Sonya Huang:我理解強化學習就像是在獎勵信號的引導下“爬坡”。那么,在針對特定任務“爬坡”時,如何確保模型的泛化能力?
Tobi Springenberg:針對這個問題,我們的思路是:現有通用模型已具備一定性能(雖非最優),初期目標并非進一步泛化,而是先攻克特定任務。我們選擇了三四個任務進行部署,模型本身需要具備跨任務泛化能力,但強化學習過程的核心是確保在特定任務上的表現。部署并啟動強化學習時,首要目標是精準完成該任務——例如,能從不同位置啟動任務,能應對各類長尾故障。從表面上看,專注于單一任務似乎與泛化能力相悖,但本質上,我們采用相同的方法和流程應對每個任務:提升單個任務的性能,收集所有任務的數據并回收,最終實現整體泛化能力的提升。所以,兩者并非對立關系。
強化學習的實踐探索:真實場景優先與泛化能力的平衡
Sonya Huang:明白了。你們的強化學習是在真實場景中進行的嗎?能否談談你們在仿真環境和真實環境中強化學習的應用比例?
Tobi Springenberg:我們采取了“真實世界優先”的策略,而非依賴仿真。當然,我們也將仿真作為研究工具進行探索,但π*0.6論文中的所有強化學習實驗均在真實系統中完成。原因在于,真實場景中的長尾故障極難通過仿真建模。以我們此次針對的任務為例,很多故障模式在仿真環境中完全無法預見。例如,其中一個任務是組裝盒子——這是一個實際部署場景,目標是將紙板組裝成巧克力包裝盒,以便后續包裝和運輸。初期,機器人組裝效果很好,但當新一批紙板到貨后,問題出現了:這些扁平的紙板穿孔不夠規整,容易粘連在一起。機器人抓取紙板放置到臺面準備組裝時,會發現臺面上有兩個粘連的紙板——這種情況在仿真環境中(假設紙板都是獨立的)是不會出現的。而我們的方法能夠讓機器人學會處理這種問題:識別粘連情況,將兩個紙板分開,再繼續組裝。如果僅在仿真環境中訓練,機器人永遠無法應對這類真實場景中的突發狀況。
Karol Hausman:強化學習在仿真環境中應用于移動領域已取得不少成功,模型遷移到真實場景的效果也不錯,但在操作領域尚未見到類似的成功案例。原因在于,移動領域的核心問題是機器人對自身身體的建模——只要能精準建模自身,就能較好地完成移動任務。這種建模在仿真環境中只需進行一次(針對特定機器人),若建模足夠精準,就能實現有效遷移。但操作領域的核心并非機器人自身的移動,而是與外部世界的交互——如何通過動作影響物體。例如,將手從A點移動到B點并不難,難的是預判這一動作對所操作物體的影響。此時,問題就從“建模機器人自身”擴展到“建模整個世界”——包括所有可能交互的物體和任務,這在仿真環境中幾乎無法實現規模化建模,因此這類方法在操作領域的效果有限。
Sonya Huang:π*0.6的核心成果是什么?經過強化學習后,模型在你們關注的測試任務上表現如何?這對你們未來的訓練方案有何啟示?
Tobi Springenberg:對我而言,最令人印象深刻的是,這些模型能夠連續運行數小時,從各類故障中自主恢復,并持續工作。同時,其運行效率相比初始模型有了大幅提升。核心數據如下:在三個任務(之前提到的組裝巧克力盒、用工業級濃縮咖啡機制作咖啡、折疊衣物)中,模型的任務吞吐量提升了兩倍多。與僅基于演示數據訓練的基礎模型相比,新模型不僅運行速度更快,故障恢復能力也顯著增強。你可以在我們的官網查看相關視頻:機器人連續13小時制作咖啡,或連續4小時折疊衣物。親眼目睹這些場景,會徹底改變你對模型的認知——它不再是僅能演示一次的“玩具”,而是具備實際部署價值、能持續完成真實任務的技術。
Karol Hausman:這正是機器人技術領域一個鮮為人知的巨大挑戰。你能在網上看到很多機器人完成酷炫任務的視頻(我們也會發布這類視頻),幾乎任何你能想到的任務,都能找到對應的機器人演示視頻。但這些視頻往往是經過多次拍攝、篩選出的完美片段。行業內普遍面臨的問題是模型的可靠性、性能、運行速度,以及長時間部署的穩定性。這是機器人技術落地的最大瓶頸——如果模型每兩次嘗試就失敗一次,根本不具備實際部署價值。而π*0.6的最大突破,正是讓模型具備了可部署性:我們的辦公室里已有機器人為員工制作咖啡,公司員工也能將機器人帶回家折疊衣物,還有機器人在真實場景中組裝盒子。這真的非常令人興奮。
Sonya Huang:你們的強化學習是否主要聚焦于提升客戶部署場景中的可靠性?例如,確保咖啡制作模型在客戶現場能夠穩定運行,速度足夠快,長時間無故障。這更像是客戶部署層面的創新,還是基礎能力層面的突破?或者兩者兼具?
Tobi Springenberg:兩者兼具。正如Karol之前所說,我們理想中的機器人(無論是家用的洗衣、洗碗、烹飪機器人,還是小型企業用于解決特定問題——如組裝巧克力盒——的機器人),既需要具備可靠性和高性能,也需要能夠應對訓練階段未見過的新任務。僅依靠擴大人類演示數據規模,無法無限提升初始模型的性能和泛化能力——數據收集存在上限。因此,部署是必要的(這也是你提到的客戶部署層面的創新),但從長遠來看,我預計未來幾年,部署過程中收集的數據將成為模型預訓練的重要數據源,助力模型持續優化。我們會越來越依賴自主數據收集,構建覆蓋各類任務的龐大數據集。從這個角度來說,這也是一種新能力的突破。
Karol Hausman:此前,行業內尚未實現模型從自身經驗中學習的規模化應用——雖有諸多嘗試,但均未取得足以支撐部署的令人信服的成果。這正是π*0.6成果的重要性所在:我們首次實現了模型從自身經驗中學習。這與人類的學習方式相似:你可以通過觀看視頻或向他人學習獲得初步知識,但最終必須通過親身實踐才能真正掌握技能——嘗試、觀察動作的結果、總結經驗、持續改進。π*0.6正是朝著這個方向邁出的第一步。
Sonya Huang:這讓我想到了今年Rich Sutton的《經驗時代》論文,非常深刻。你們認為這一技術會開啟機器人領域的持續學習時代嗎?它會成為持續學習的重要組成部分嗎?
Karol Hausman:這取決于人們對“持續學習”的定義。與過去的訓練模式相比,它無疑更具持續性:過去,我們通常是進行一次大規模預訓練(可能加一次后續訓練),然后輸出一個固定的模型,后續幾乎無法調整。而現在,模型部署后仍能持續學習——嘗試新動作、從自身經驗中總結、不斷優化。從這個角度來說,它更接近持續學習。但未來仍有很大的提升空間:例如,通過這種方式快速獲取新技能,或在學習過程中融入推理能力。持續學習是一個梯度光譜,我們目前的成果證明了其可行性,但還有很大的優化潛力。
Tobi Springenberg:我同意。我們目前還處于起步階段。這并非傳統意義上的持續學習(例如通過數據流持續訓練,最終走向通用人工智能等),但這是關鍵的第一步,方向是正確的,未來還有很多工作要做。僅從π*0.6的成果來看,我個人對模型從少量數據中學習的能力感到驚訝。例如,制作濃縮咖啡過程中有一個“壓粉”步驟——將咖啡粉放入濾杯后壓實。我們的機器人初期壓粉力度過大,甚至在壓粉時差點把自己抬離臺面。后來,人類僅進行了30-50次修正,將這些數據反饋給模型后,機器人就學會了更輕柔、更準確地壓粉。這讓我非常意外:模型已經過數百萬次預訓練,而少量的人類修正就能帶來顯著改進。這正是持續學習的潛力所在,令人印象深刻。
Sonya Huang:我仍關心泛化能力。例如,我學會了更好地壓粉,這會讓我更擅長折疊盒子嗎?
Tobi Springenberg:在這個具體案例中,不會。但背后的學習機制是通用的——你可以用同樣的方式修正“盒子粘連時需要分開“盒子折疊不整齊”等問題。30次壓粉修正、30次盒子分離修正、30次折疊對齊修正,這些數據積累起來,就能帶來整體泛化能力的提升。
Sonya Huang:所以這是一種可重復的方案,但不同任務的學習成果不會直接交叉遷移?
Tobi Springenberg:是的。不過,隨著規模擴大,如果不同任務存在相似的動作模式,我預計會出現一定的遷移效應。但目前來看,它更像是一種可重復應用的通用方案。
Karol Hausman:我們發現,通過在更多任務、更多數據上進行預訓練,模型的泛化能力會顯著提升——新任務的適配難度降低,甚至會出現未預期的零樣本任務執行能力。我們會定期開展預訓練,每次都會發現模型性能因數據積累和預訓練流程優化而持續提升。我堅信,隨著模型部署范圍擴大、任務類型增多,回收的數據會進一步推動泛化能力提升,形成“部署→數據→優化→更廣泛部署”的正向循環。
Tobi Springenberg:關于你提到的泛化能力,有一個關鍵細節值得補充。π*0.6的方案包含兩個核心部分:一是通過修正和強化學習反饋持續優化的策略;二是強化學習反饋的獲取方式。我們之前提到了人類修正,而強化學習反饋的獲取方式本身就蘊含泛化潛力。
具體來說,我們首先讓人類判斷機器人執行任務(如制作咖啡、組裝盒子)的成功與否,為每個任務片段打上標簽;然后訓練一個價值函數,用于預測當前任務狀態下成功或失敗的概率;最后,以這個價值函數為基準,決定是否強化或弱化當前數據。我們發現,當價值函數在更多不同任務的數據上進行訓練時,其性能會顯著提升——例如,對于某些任務,模型能提前30-40個時間步預判失敗(甚至早于人類通過視頻觀察到的失敗信號)。例如,機器人嘗試將濾杯插入咖啡機時,價值函數會提前預判角度不當導致的失敗,并拒絕使用這類數據進行訓練。隨著數據和任務的增加,這種預判能力會不斷增強。
Sonya Huang:這很有趣。
Tobi Springenberg:而且數據和任務越多,效果越好。
Sonya Huang:這與Karpathy所說的“從末端獲取信號”形成了鮮明對比——你們并非等待最終結果,而是在過程中獲取大量信號。
Karol Hausman:強化學習是一個廣闊的領域,包含多種不同方法。人們通常會將強化學習與策略梯度法或特定的在線學習方法關聯,但對我而言,強化學習更像是一種問題定義。針對你提到的“僅能在任務末端獲取獎勵”的問題,已有多種解決方案,例如價值函數、時序差分學習等——通過持續的序列預測來規避長時程任務的獎勵信號稀疏問題。這或許是機器人技術能為整個AI社區帶來的重要貢獻:由于我們無法像語言模型那樣擁有完美的仿真環境(可進行無限次模擬),必須在真實世界中高效學習,因此需要依賴價值函數等技術。這些技術將在更廣泛的AI領域發揮重要作用。
Sonya Huang:我想再深入探討一下——互聯網視頻似乎是你們訓練方案的一部分,但目前并非重點。你認為互聯網視頻中仍有未被挖掘的價值嗎?另外,當前視頻模型、世界模型的發展,是否會為機器人模型能力帶來突破性提升,并成為你們技術pipeline的重要組成部分?
Karol Hausman:這其實包含兩個問題:一是數據層面,如何通過數據積累實現部署突破;二是視頻模型和世界模型的作用。關于數據,我們目前處于“啟動階段”——任何有助于模型提升的數據源(仿真數據、人類視頻、手持設備數據、人類遠程操控數據等)都值得嘗試。我們需要通過各種方式積累數據,達到部署門檻。因為從長遠來看,啟動階段的數據積累無論規模多大,都無法與部署階段獲取的海量真實數據相提并論。我們現在正全力沖刺部署階段,希望通過在更多任務、更多環境中的部署,構建強大的數據引擎。
關于世界模型:世界模型和強化學習本質上都在解決同一個問題——反事實推理或信用分配問題,即如何判斷哪些動作對任務成功至關重要,以及若采取不同動作,世界會如何演變。世界模型的解決思路是預測未來(例如,若濾杯插入角度不同,結果會是成功還是失敗,通過完整視頻序列呈現);強化學習則通過更隱含的機制解決這一問題,但兩者的核心目標一致。我們正在探索所有這些方法,試圖找到解決反事實推理問題的最佳路徑。目前尚無明確答案,但π*0.6的成果表明強化學習已取得顯著進展,未來也可能有更多其他方法涌現。
行業洞察與技術反思:從拆解到通用,數據驅動的智能本質
Sonya Huang:非常精彩。能否談談,度過啟動階段后,你們的客戶部署模式會是怎樣的?你們會為客戶提供什么?如何收費?未來會如何演變?例如,是提供全垂直整合的機器人解決方案,還是僅提供模型,由客戶自行整合到其業務流程中?具體又會如何運作?
Karol Hausman:說實話,我們目前還不確定,仍在探索中。技術還處于早期階段,正如你所知,我們才剛剛達到部署的門檻。因此,我們認為當前應優先聚焦技術本身——提升模型的通用性和部署便捷性,擴大之前提到的應用場景范圍。回顧機器人創業公司的歷史,很多公司都經歷過這樣的階段:先研發技術,懷揣著通用化的宏偉愿景,但一旦選定某個應用場景,就會陷入局限——為適配特定場景而妥協,開發專用解決方案,最終淪為專注于單一領域(如倉庫揀選機器人)的應用公司。我們希望避免這種結局。解決物理智能問題的價值,遠超過當前任何單一應用場景的商業價值。
因此,我們希望確保技術盡可能通用、易于部署,應用場景盡可能廣泛,之后再考慮商業化模式。正如你所說,商業化可能有多種路徑,甚至包括一些我們目前無法預見的方式(取決于技術的發展方向)——例如提供模型服務、全垂直解決方案、機器人硬件銷售等。但現在回答這個問題還為時過早,雖然明確一個方向會讓人更安心,但現階段我們必須專注于技術本身。
Sonya Huang:Alfred肯定會希望有明確答案。
Karol Hausman:是的,Alfred會很高興,但確實還太早。
Alfred Lin:不,你們的愿景非常宏大。感謝你們致力于物理智能研究,這是一項非凡的進步。僅π*0.6就堪稱重大突破。祝賀你們取得的所有成就。
Tobi Springenberg:謝謝。
Alfred Lin:我能問一個尖銳的問題嗎?
Karol Hausman:當然可以。
Alfred Lin:正如你們所說,你們的愿景宏大而廣泛,涉及多個領域。我相信你們研究過以往的機器人技術嘗試,正如你所說,它們大多最終聚焦于單一應用,范圍越來越窄。自動駕駛是其中最成功的大規模應用案例之一,Waymo和特斯拉都取得了巨大成就。但回顧歷史,我在2009年、2010年左右聽Sebastian Thrun在TED演講時第一次了解到自動駕駛——他提到了2007年贏得DARPA挑戰賽的經歷。而現在已經是2025年,自動駕駛技術仍只能在舊金山等局部地區應用,僅能行駛在普通道路上,甚至無法上高速公路。如果你們追求如此通用的目標,那么在泛化能力和性能提升方面,你們設想的時間線是怎樣的?
Karol Hausman:這個問題很有價值。機器人技術的落地,有些方面比自動駕駛更容易,有些方面則更難。更容易的一點是,我們不需要達到100%的可靠性才能部署。很多任務只要達到95%的可靠性就完全可行——例如,家用折疊衣物機器人,即使每100件衣物中有1件折疊不完美,用戶也能接受。
Alfred Lin:可以讓孩子去折疊那1件,這反而成了額外的好處。家務還是需要的。
Karol Hausman:沒錯。但自動駕駛完全不同——每100次行駛中出現1次災難性故障,后果不堪設想。因此,機器人技術的部署門檻可能更低。同時,我們也受益于技術時代的進步——現在已進入視覺語言模型和基礎模型的時代,這些模型本身具備一定的常識,而且我們從2009年到2025年期間積累了大量經驗教訓,這些都為我們提供了助力。我們的解決方案比以往更具通用性。
但另一方面,挑戰也同樣存在:機器人技術并非單一應用,而是適用于駕駛、操作、移動、飛行等多個領域的通用解決方案,其難度仍有待觀察。但根據我們目前的經驗,說實話,它并沒有想象中那么難。如果從一開始就以通用化為目標進行設計,模型的泛化能力其實相當出色。物理智能中存在一些我們尚未完全理解的特性,使得模型能夠在駕駛、制作咖啡、無人機飛行、手術機器人操作等看似毫無關聯的任務中實現泛化。
盡管這些任務差異巨大,看似需要不同的模型和應用方案,但我們的模型卻能從這些多樣化的數據中提煉出共性。這讓我充滿信心,或許這個問題并沒有那么難,甚至可能比自動駕駛更容易解決。這是一個合理的質疑,但我們不應從自動駕駛的發展歷程中得出錯誤的結論。
Alfred Lin:非常精彩。祝賀你們。除了自己的成果,還有哪些領域的進展讓你們印象最深刻?
Karol Hausman:我先來回答。你之前提到的視頻模型讓我印象深刻。幾年前我曾參與過相關研究,從未想過其發展速度會如此之快——現在的視頻模型生成的內容幾乎與真實場景無異,能完成各種令人驚嘆的任務。這真的非常令人意外和震撼。
Tobi Springenberg:我至今仍對一個現象感到驚嘆:僅通過下一個Token預測,我們竟然能構建出具備一定通用智能的模型。無論是模型在國際數學奧林匹克挑戰賽中獲勝,還是在科學研究中輔助發現新成果,每一個進展都讓我感到意外。今年有很多這樣的案例,年初時我還以為大型語言模型的預訓練可能已經進入瓶頸期,但沒想到會迎來如此強勁的“第二春”。
Karol Hausman:我想補充的是,這整套技術的可行性本身就令人難以置信。我們或許并未完全意識到這有多不可思議:構建一個松散受大腦啟發、具備通用學習能力的算法,輸入數據后,它不僅能理解,而且表現遠超以往任何技術。這一技術適用于機器人、計算機視覺、語言、聲音等多個領域。仔細想想,它的工作原理及其實際效果,確實令人嘆為觀止。例如,機器人能夠在從未去過的家庭環境中自主工作,能夠連續13小時制作咖啡——這些都是由一個端到端訓練的通用模型完成的,我們雖未完全理解其原理,但它確實開始展現出強大的能力。這對我來說,簡直太神奇了。
Sonya Huang:我們是不是生活在一個模擬世界里?
Alfred Lin:Sonya就是這么認為的,覺得我們身處模擬環境中。但這確實很有趣——科學研究中,人們通常會將大問題拆解為小問題,但最終發現,這種方法可能并不適用于機器或機器人的訓練。
Tobi Springenberg:說實話,機器學習和AI領域在某種程度上也犯了同樣的錯誤。長期以來,人們都在深入研究單個具體問題,后來才意識到,如果能將這些問題整合起來,實現多任務學習,效果可能會好得多。但令人意外的是,僅僅通過切換到通用預訓練目標,這一切就自然實現了——這正是最令人驚訝的地方。
Alfred Lin:你認為這會不會像手風琴一樣,在兩種框架之間來回切換?先將大問題拆解為小問題,在一段時間內有效,然后失效;再回到大問題,嘗試更通用的解決方案。如此循環往復。
Tobi Springenberg:我們不會再回到拆解問題的老路上去。
Karol Hausman:我也這么認為。有些人提出“兩全其美”的思路:將已知規則(如牛頓物理定律)融入模型,無需讓模型重新學習。但我們的經驗表明,這種方法行不通——強行融入已知規則會限制模型學習新事物的能力。所謂“兩全其美”可能并不存在,我們必須堅持完全的數據驅動學習。這很有趣,試想一下,如果存在一種預加載所有智能的方式,進化過程應該早已找到它——生物出生時就會具備所有知識。但我們觀察到,有些物種(如鹿)出生時就已具備成年個體的智能,終生無需學習;而人類、烏鴉等智能物種則有漫長的童年和青春期,初期并不聰慧,必須通過自身經驗持續學習。
這說明,通過親身體驗世界并從中學習,是智能形成的關鍵。機器學習和AI領域也正在吸取這一教訓:我們自以為了解人類的思考方式,但實際上并非如此。我們需要做的,是讓算法從數據中自行學習。
Alfred Lin:養育孩子也是如此。我以為自己了解兒子的想法,但其實并不完全了解。
Karol Hausman:我有一個小女兒,她的學習速度和認知發展真的非常令人驚訝。
Alfred Lin:孩子學得太快了。
Karol Hausman:是的,而且你根本不知道他們的知識來自哪里。
Alfred Lin:希望是來自父母。
Karol Hausman:希望如此。但她確實知道一些我從未教過她的東西。
Alfred Lin:非常感謝你們。
Sonya Huang:你們追求的使命非常偉大。感謝你們的分享。
Karol Hausman/Tobi Springenberg:謝謝,感謝邀請。
原文:Training General Robots for Any Task: Physical Intelligence’s Karol Hausman and Tobi Springenberg
https://www.youtube.com/watch?v=OJCT-HGxPjk
編譯:Lingyun Xu
歡迎掃碼加群參與討論
我們相信認知能夠跨越階層,
致力于為年輕人提供高質量的科技和財經內容。
稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。
我們正在招募新一期的實習生
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.