![]()
屏幕里,一把電鋸正切向機器人的腿。
這段乍看之下像是科幻驚悚片的畫面,實則是 Skild AI 今年發布的一段核心技術測試。但令人驚訝的不只是暴力的破壞場景,而是接下來的反轉:那只失去了腿的四足機器人,僅僅在原地踉蹌了幾下,便重新找回平衡,穩步前行。它從未在訓練數據中見過“半截腿”的形態,卻展現出了近乎生物本能的適應力。
(來源:X)
![]()
這段視頻在社交媒體上激起了不小的水花,也將這家成立不到兩年的公司推向了聚光燈下。
2024 年 7 月,Skild AI 以 15 億美元估值完成 3 億美元 A 輪融資,投資方名單堪稱硅谷“頂配”:杰夫·貝索斯、軟銀、Lightspeed 和紅杉資本悉數在列。不到一年后的 2025 年 6 月,公司又完成由軟銀領投的 B 輪融資,估值飆升至約 45 億美元,英偉達和三星等科技巨頭也參與了這輪投資。
Skild AI 的創始團隊主張:真正的 AGI 必須扎根于物理世界。
在匹茲堡東區的一棟辦公樓里,機器人正在爬樓梯、跳躍間隙、精確抓取 AirPods 裝進充電盒。控制這些形態各異機器人的,是同一個“大腦”——Skild Brain。這是一個號稱能跨越任何硬件形態、執行任何物理任務的基礎模型。Skild AI 聲稱其訓練數據規模是競爭對手的 1,000 倍以上,而支撐這一切的核心技術路徑,正是大規模仿真訓練。
而在這支由卡內基梅隆大學(CMU)資深教授領銜的團隊中,有一位年僅 26 歲的創始研究員格外突出。當 Skild AI 于 2024 年 7 月走出隱身模式時,Ananye Agarwal 在社交媒體上寫道:“我們換了三次辦公室,人員和機器人數量增長了 10 倍,在不到一年的時間里成為了獨角獸。”
從高中物理奧賽金牌得主,到讓機器狗在極限地形上“跑酷”的博士生,Ananye 的研究直接催生了 Skild AI 的核心技術。2025 年,他因在機器人和 AI 領域的突出貢獻入選《麻省理工科技評論》“35 歲以下科技創新 35 人”亞太區(TR35 Asia Pacific)榜單。
美東時間凌晨 12 點半,在這位年輕研究者即將結束一天工作時,他在線上接受了我們的采訪,向我們講述了一個關于物理世界、機器人大腦和 AGI 的故事。
從物理金牌到機器人學
DeepTech:Ananye,非常高興你能來參加我們的 "Deeptalk" 播客。你今年 26 歲就入選了亞太區 TR35,這真的很了不起。能簡單介紹一下自己嗎?
Ananye:非常感謝邀請。我很榮幸能入選,能和這些優秀人才在一起非常棒。我現在是 Skild AI 的創始研究員,從公司成立之初就在這里工作,差不多兩年了。在這之前,我在卡耐基梅隆大學攻讀博士,主要研究如何利用模擬數據來訓練機器人。
機器人領域的一個大問題是,不像大型語言模型有海量現成數據,機器人必須自己想辦法創建訓練數據。我的很多研究都圍繞著如何利用模擬數據來訓練機器人,使其在各種環境中都能保持魯棒性。這也是我在 Skild AI 所做的工作——將其規模化并部署到不同客戶環境中。
DeepTech:你當初選擇 AI 或計算機科學作為專業時,是什么吸引你進入這個領域的?
Ananye:高中時我對數學很感興趣,但數學會變得非常理論化、抽象。后來我轉向物理,因為物理幾乎就是應用數學。高中時我做了很多物理研究,甚至入選了國際物理奧林匹克競賽的印度隊并獲得金牌。但大學物理和高中物理很不同,有很多量子力學內容,又變得非常抽象。
所以我想做其他類型的應用數學。當時看來,最好的方式就是計算機科學,因為它既有大量數學知識,又非常實用——你可以寫程序,看到它實際運行。這是 2017 到 2018 年的事。
DeepTech:那你當時對 AI 了解多少?
Ananye:不多。2017 年正是 AI 開始起飛的時候,Transformer 論文也在那時問世。但我個人當時沒太關注,更感興趣的是理論計算機科學。我的大二、大三都在研究布爾電路、算術電路這些非常理論化的東西。
但我從小讀了很多艾薩克·阿西莫夫的科幻小說,比如《基地系列》、《機器人系列》。他提出的“機器人三定律”特別有意思。大約在 2018 年,我看到 AI 開始騰飛,語言模型、圖像分類、圖像生成都很有趣。你輸入數據,機器能生成一些你沒有編程讓它做的事情——這是一種“涌現行為”,感覺像某種智能正在形成。
我的 MSR(微軟研究院)導師們也鼓勵我嘗試機器學習。所以在大四,也就是 20、21 歲時,我完全轉向了機器學習。
從 IIT 到 CMU 的選擇
DeepTech:你畢業于 IIT Delhi,對嗎?你獲得了國際物理奧林匹克金牌,為什么選擇留在印度讀本科,而不是去其他國家?
Ananye:我當時收到了麻省理工學院的錄取通知,可以去 MIT。但我意識到我已經在 IIT 待了一年,這里顯然是個很棒的地方。而且四年后,我多半還是會想出國。IIT 以培養杰出人才而聞名,在全球擁有非常強大的校友網絡。所以我想,也許留在印度是個好主意,可以從不同國家獲得不同視角。之后再出國,仍會有類似機會。
DeepTech:你在本科做了神經符號 AI 和極端分類的研究。這些話題相當多樣化,你做出這些改變的心態是什么?
Ananye:神經符號 AI 和極端分類都是在 2021 年轉向機器學習時開始的。我對神經符號 AI 很感興趣,因為當時的想法是,神經網絡不擅長學習高度結構化的算法,比如 Dijkstra 算法。那么,能否將神經網絡與硬編碼算法結合,創造出更好的東西?我當時認為這種技術可能引領下一代神經網絡。但后來它不再流行了,因為很難以無縫方式結合。
至于極端分類,我想做一些非常應用性的工作。我和 MSR 的 Monic 一起工作。極端分類是一個很有趣的轉變:假設你有 100 萬種產品推薦給用戶,你把它們視為 100 萬個標簽,這就像一個有 100 萬個類別的分類問題。這類算法會在必應上每隔六個月部署一次,能看到收入因此增加。我也想體驗這種有實際產出的感覺。
DeepTech:你當初是如何選擇學術導師和實習公司的?
Ananye:對于實習,我沒有過多考慮研究主題,主要關注能和哪些人一起工作。我在 MSR 實習時,和一些非常優秀的研究員一起工作,其中一位參與了 AKS 素數測試,證明了可以在多項式時間內檢查一個數是否為素數。Monic 也是一位很有趣的人,他有計算機視覺博士學位,后來轉向推薦算法,在兩個領域都非常成功。
后來在選擇博士導師時,Monic 也給了我很大幫助。他推薦了一些優秀的人,讓我與他的學生取得聯系。從你的話中可以看出,人脈關系非常重要——與聰明人建立聯系,因為與他們一起工作讓我感到愉快。
博士階段:讓機器狗“看見”世界
DeepTech:現在我們來談談 Skild AI。是什么讓你加入這家公司?
Ananye:本科畢業后,我真的很想做強化學習。當時的問題是,所有工作都只在模擬環境中,比如讓蜘蛛機器人或獵豹機器人在模擬中爬行或行走。我感覺那非常無聊。我想應用強化學習到真實的東西上,很自然的想法就是應用到機器人技術。
所以我申請了 CMU 并成功入學。我的現任導師 Deepak 當時做了一個演講,非常酷。他談到強化學習和適應性,展示了一只小型、低成本的機器狗,可以在任何地方行走——泥地里、崎嶇地形、油膩地面,你推它,它都能適應。這一切都是通過強化學習實現的。我覺得太神奇了,于是聯系了 Deepak,他成了我的導師。
我們一起工作了三年,做了很多很棒的研究。之后我覺得時機已經成熟,我們應該把它做成初創公司。我加入 Skild AI,因為這是一個很好的機會,可以將博士期間的所有工作進行規模化,而且我能從一開始就處于核心位置。
DeepTech:你和 Deepak 具體做了些什么?
Ananye:我博士的第一篇論文就是關于這種機器狗的。之前它雖然能在很多地方工作,但是“盲的”,看不見前方。想象一下,如果前面出現樓梯,它就會卡住。所以我的工作就是給它增加視覺。
這非常具有挑戰性。一個“盲”機器人只有 12 個關節角度作為輸入,但圖像是高維的,有成千上萬的像素。為了做到這一點,我們基本上需要完全重寫整個系統,換用全新技術棧,并將訓練規模擴大十倍。
完成之后,我們得到了這個機器人,它真的可以在任何地方工作。你把它放在樓梯前,它會爬上去;放在溝壑前,它會跨過去;放在踏腳石前,它也會走過去。
這在當時是非常驚人的成果,因為我們只用了一個安裝在機器人上的單深度攝像頭,非常便宜,只需 300 美元。而在此之前,如果你想讓波士頓動力的機器人做到這一點,他們需要非常昂貴的硬件,比如激光雷達,還需要工程師編寫并調整地圖軟件,需要大量時間和資金。但我們只是一個小團隊,兩個人,就建立起了這個非常魯棒的系統。
這篇論文獲得了最佳論文獎。更有趣的是,波士頓動力的創始人 Marc Raibert 真的來到 CMU,我們向他展示了這個系統,他非常驚訝,拍了照片和視頻說要拿給他的工程師看。
DeepTech:他當時決定買下你們的研究成果嗎?
Ananye:當時這是一篇研究論文,不是用于出售的。他確實提議了合作,但后來沒有實現。不過最終發生的是,波士頓動力過去只做經典控制,但現在他們已經轉向了強化學習。
DeepTech:你們只使用了一個非常便宜的傳感器,那它有什么特定的角度嗎?
Ananye:我們用的是機器人自帶的攝像頭,直視前方。制造商裝它時可能沒多想。但我們發現這個攝像頭很有用,雖然非常具有挑戰性——如果攝像頭在你面前,它看不到你的腳下,更看不到后腳下。
所以機器人上運行的模型需要建立某種對過去所見事物的記憶。我們訓練了一個有記憶的循環網絡,不是前饋網絡。當你用大規模模擬數據訓練它時,模型學會了記住半秒或兩秒前看到的東西,而不需要在當下立刻看到它。
DeepTech:它是如何通過模擬來工作的?
Ananye:通過強化學習訓練。你在模擬中生成數千個機器人,讓它們執行隨機動作。你設置一個獎勵函數,明確你想要什么行為。在這種情況下,我們想要機器人不摔倒,服從指令,并盡量減少能量消耗。
僅僅通過這三個簡單的獎勵函數,機器人就能學會非常有用的行為。一開始它總是摔倒,但隨后會開始穩定自己,開始向前移動,學會以指定速度移動。隨著訓練時間增加,它會學會爬樓梯、跳過溝壑、爬過踏腳石。你用大量 GPU 訓練,可以在短短一天內模擬大約 6 年的時間。
DeepTech:但模擬世界和真實世界之間存在差距。你們如何克服這個困難?
Ananye:如果只是天真地進行模擬訓練然后遷移,是行不通的。我們的解決方案是進行“模擬隨機化”。我們在仿真中并不是訓練一個環境,而是訓練成千上萬個“平行宇宙”。每個模擬都是輕微擾動的版本。你會隨機化物理參數(比如摩擦力)、機器人參數(比如剛度、阻尼、重量)、攝像頭參數(比如位置、延遲)。
但光有隨機化還不夠,否則機器人會因為環境太混亂而無所適從。所以還需要訓練“自適應”的策略,它們能觀察與環境互動的歷史。例如,如果摩擦力很高,機器人的腿可能會卡在地面上,策略應該意識到并改變動作。
當你將機器人轉移到現實世界時,現實世界就處在策略所見過的隨機化集合中,策略能夠適應它。傳統做法是“系統辨識”,工程師坐在機器人上弄清楚電機工作原理,然后在模擬中輸入參數,編寫針對特定電機的控制器。但問題是,你需要非常昂貴的電機,需要可靠、可重復的系統,需要花費大量時間調整模擬器。
而我們這種策略是具有“自適應性”的。如果出了問題,它們仍然可以適應并繼續工作。
從移動到操作:SPIN 和跑酷
DeepTech:這是你跟 Deepak 合作的第一個成果。之后你還做了什么?
Ananye: 是的,這是關于移動(locomotion)的。但這種技術可以應用到許多其他領域。例如,我將它應用到“移動操作”(mobile manipulation)上。我們有一個名為“Stretch”的機器人,有帶輪子的底座,上面有可以移動的“脖子”。有趣的是,這個機器人的攝像頭可以移動,你可以控制它看哪里。
我們遇到了一個非常有趣的問題:機器人觀察到的東西取決于你發送給“脖子”電機的動作。我們用這個機器人做的工作是讓它在雜亂空間中導航,去清理桌子或撿起物體。這里有三個同時發生的問題:感知、導航和交互。它們相互關聯,很難分開解決。
我們發表的論文叫“SPIN”,即“同時感知、交互、導航”(Simultaneous Perception, Interaction, Navigation)。我們訓練了一個模型,同時解決所有這些問題。有趣的是,我們解決它的方式非常像“苦澀的教訓”風格——把機器人放在模擬環境中,給它有限視野,用大量 GPU 長時間訓練。結果表明,機器人會自動學會朝正確方向看。
另一個工作是“跑酷”。我們想把機器人推到極限,給它更具挑戰性的障礙物,比如兩倍于身長的溝壑,或兩倍于身高的樓梯。
面對高臺,機器人學會了沖刺、用后腿猛力蹬地、前腿攀住邊緣,再把后腿甩上去的動作。這不是我們編程教它的,完全是它為了滿足“向前走”的獎勵函數而自己創造出的復雜動作。在這個項目期間,我們甚至燒壞了好幾個電機,因為算法真的把硬件性能逼到了極限。
打造開源靈巧手 Leap Hand
Ananye:我還做了另一項稍微不同的工作。那段時間,我對靈巧機械手開始感興趣,就是那種有四根或五根手指的機械手。但市場上所有可用的機械手都非常糟糕。Shadow Hand 售價十萬美元,需要雇工程師維護。還有 Allegro Hand,售價一萬六千美元,但電機不好,如果在遠程操作時撞到東西就會壞掉,得運到韓國去修,需要兩個月時間。
所以,我和我的朋友 Shikhar、Kenny 開始研發一款新機械手,有三根手指,非常便宜,只需一到兩千美元,而且完全開源。我們開源并發表了這款名為“Leap Hand”的機械手,它非常受歡迎。現在幾乎每個學術實驗室都在使用它,因為它的價格只有 16,000 美元的零頭,而且如果有東西壞了,可以用 3D 打印新零件替換。
之后,我們用 Leap Hand 解決了“靈巧功能性抓取”問題。比如桌上有把錘子,如果只關心拿起它,從手柄或頭部都能穩固抓取。但拿起錘子的正確方式是從手柄,因為你想用它敲東西——這就是“功能性”方面。
僅靠模擬無法解決這個問題,因為在模擬中,從手柄或頭部都能提供很好的抓取效果。于是,我們想到了一個辦法:將仿真和互聯網數據結合起來。
我們引入了‘可供性’(Affordance)這個概念。互聯網上成千上萬張圖片告訴我們,人類總是握著錘柄來使用錘子——這就是錘柄的‘可供性’。我們的模型先從這些真實數據中學會判斷物體的功能區域,然后再調用在仿真中練就的精細抓取動作去執行。
最終的效果非常出色:機器人不僅能準確地從手柄拿起錘子,甚至在錘子滑動或被外力干擾時,它也能動態調整,始終以正確的方式牢牢抓住目標。
為大規模并行訓練設計新算法
Ananye:大約在同一時間,我意識到我們在所有這些項目中使用的算法叫 PPO,是 2017 年的算法,是在計算量非常低的情況下設計的。當時可能只能模擬 128 個機器人。而今天我們可以并行模擬數萬個機器人,但仍然使用 PPO。
我意識到這里有很大空間來構建新算法。所以我們開始研究 SAPG (Scaled-up Asynchronous Policy Gradients)。SAPG 的核心思想是,如果你在 10,000 個環境中運行 PPO,最終 PPO 只是讓所有 10,000 個機器人做大致相同的事情,沒有嘗試真正不同的東西,這浪費計算資源。
理想的做法是,如果你有大量機器人可以嘗試,它們應該嘗試非常不同的事情,這樣也許會發現新東西,獲得巨大性能提升。SAPG 運行多個不同的 PPO 實例,它們獨立運行但也相互共享數據。所以如果其中一個發現了有用的東西,它們都可以利用。
我們發現這與 PPO 相比,具有很好的擴展性。比如在一個非常有挑戰性的任務上,有兩個機械臂和一個立方體,目標是將立方體移動到工作空間中的某個期望點。這個任務具有挑戰性,因為你需要找到一整套復雜的動作序列。每個手臂有 22 個自由度,加起來是 44 個自由度。有時立方體靠近一個手臂,但目標點靠近另一個手臂,所以它需要想辦法把立方體扔出去,讓另一個手臂接住并移動到目標點。
我們發現 SAPG 這類算法比 PPO 做得好得多。PPO 甚至無法在這個任務上取得任何進展。
DeepTech:這讓我想起了莫拉維克悖論——對人類簡單的任務,對機器人卻很難。
Ananye:確實如此。一旦開始做這些事情,在模擬中訓練它們需要大量計算資源。而對我們人類來說,這簡直是小菜一碟。你看到物體,扔過去,即使是年幼的嬰兒都能做到。
構建“全具身大腦”
DeepTech:我們知道 Skild AI 正在努力構建通用型機器人大腦。能詳細說明一下嗎?
Ananye:通用型機器人大腦是一種不同的方法。傳統方法通常是:假設你想制造清潔地板的機器人或吸塵器,你會為此特定問題構建特定的軟硬件堆棧。你制造一個會走路的小機器人,構建 SLAM 系統,然后構建算法來導航、覆蓋所有區域等。這是專門針對該機器人的非常特定的堆棧。
現在,假設你有不同應用,你可能成立另一家公司,從零開始構建另一個堆棧,需要人類編程完成所有工作。如果你有大量不同任務,這種方法就很難擴展。
通用型機器人大腦是我們的目標。我們想構建的是單一模型,它可以從各種跨機器人數據中學習。由于是單一模型,它可以共享所有這些不同任務的信息。如果有人制造了吸塵器機器人,有人制造了購買雜貨的機器人,有人制造了清洗碗碟的機器人,所有這些問題都有某種共同結構和知識。
如果你訓練單一模型,Skild Brain 就可以利用所有這些不同任務的共享結構。我們希望,如果用足夠多的多樣化任務數據進行訓練,就能得到“具身通用人工智能”(Physical AGI),它是一個單一大腦,可以零樣本完成各種任務,控制各種機器人。它就像一個真正理解物理世界的大腦。
DeepTech:Skild Brain 現在能做些什么?
Ananye:我們已經訓練了許多不同技能。它具有非常好的運動能力,可以在任何地方導航和移動,可以像人形機器人一樣移動,也可以像任何四足機器人一樣。它具有很強的適應性——假設你的機器人失去了一個馬達,或它的腿被砍斷了,它仍然具有導航能力。
它可以在大空間中導航,可以構建周圍世界的地圖,導航到不同地點。它具有非常靈活的避障能力,如果你跳到機器人前面,它會迅速避開。它還具有非常精確的操作能力。例如工廠里的任務,比如將 AirPods 放入保護套中——有人會日以繼夜地重復做這個任務。我們的 Skild Brain 可以完成,而且這是非常精細的操作:拿起保護套,打開它,拿起 AirPods,放入保護套。
DeepTech:你說它可以用于人形機器人和四足機器人。你們需要收集特定類型機器人的數據才能將其納入模擬世界嗎?
Ananye:我們不是將特定機器人放入模擬中。例如,如果你使用宇樹(Unitree)的機器人,我們不會將宇樹放入模擬。相反,我們生成了大量隨機機器人,不是真實的,只是在模擬中隨機生成的,比如隨機化腿的長度、寬度。
因為這與我前面提到的想法一樣,我們的“大腦”已經學會了適應所有這些不同類型的機器人。所以當你看到一個真實的機器人,比如宇樹,即使它以前從未見過這個特定機器人,它仍然能夠穩定地適應并良好工作。
DeepTech:這聽起來有點像人類。你為什么認為機器人的這種大腦是可能實現的?
Ananye:有很多原因。從根本上說,所有機器人都要遵循相同的物理定律,它們都必須遵循牛頓三定律。如果一個模型真正理解了物理定律,原則上它應該能夠控制任何類型的機器人。所以理論上應該可行。
第二點是,我們在自然界中有很多非常強有力的存在性證明,比如動物。有些動物一出生就能學會走路。在短短幾分鐘內,動物即使失去肢體,例如失去一條腿,也能適應并用三條腿走路。
更普遍地說,即使在人腦中,我們也看到了非常強大的適應性。例如,有一種叫“大腦半球切除術”的手術,如果有人癲癇發作,有時需要切除大腦的一個半球。然后你看到的是,像那些失去的部分,比如本來負責聽覺的大腦區域丟失了,另一個半球就會出現新區域來負責聽覺。
所以你看到人腦和動物身上發生的這種極端適應性,這似乎有很強的存在性證明。在 Skild AI,我們也取得了一些非常有希望的早期成果。我們有一篇名為 "Localformer" 的論文,也被提名為 Best Paper。你們肯定看過我們用電鋸鋸機器人腿的視頻,那在 Twitter 上很火。
但我們發現的本質是,我們可以構建一個跨越不同“具身”的單一“大腦”。這個大腦也具有很強的適應性。即使你砍掉機器人的腿,即使它在模擬中從未見過被砍掉腿的機器人,它仍然能夠適應。
另一個非常有趣的結果是,你可以禁用機器人的其中一條腿,它變成三條腿的機器人。同樣,我們在模擬中從未見過三條腿的機器人,我們只模擬四條腿或兩條腿,但它仍然能夠適應并工作得很好。
這些結果對我們來說非常令人驚訝。即使我們訓練了模型,也沒想到它能運作得這么好。我們看到了這種“涌現適應性”的強大早期跡象。所以我認為構建這種能跨越不同“具身”的大腦是可能的。我們稱之為“全具身大腦(omnibodied brain)。
數據來源:模擬、視頻與遠程操作
DeepTech:你提到你們通過模擬工具創建了大量數據。那么這些工具是你們自己制作的,還是使用了像 NVIDIA 這樣的其他平臺?
Ananye:我們使用了一些不同的物理模擬器,但我們有自己的工具集在其之上。物理正向動力學部分我們會使用各種不同模擬器,但其他機器人特有的東西,比如如何從這些數據中訓練、使用什么樣的模型、什么樣的算法,我們有很多專有的軟件和基礎設施。
DeepTech:你認為模擬訓練會存在瓶頸嗎?因為很多公司正試圖建立“數采工廠”,他們使用真人遠程控制來獲取數據。
Ananye:我認為最大的瓶頸在于,很難模擬非常豐富的“語義”。在現實世界中有很多多樣性,每間廚房看起來都不同,每個客廳、每條道路都不同。此外還有很多語義信息,比如錘子應該從手柄抓取,嬰兒知道這一點因為它看到過爸爸媽媽是這樣抓的。所有這些語義信息也很難模擬。
所以模擬數據的局限性在于,你無法模擬所有這種多樣性和語義信息。但模擬數據真正擅長的是:為你提供非常好的數據,用于閉環高頻控制。比如我們人類擁有的反射動作——當我們抓住東西時,如果它快掉了,我們會立即調整并重新抓穩。如果我們走路時有人推我們,可以很快調整過來。這些事情很難通過口頭指令來獲得,每個人都是通過模擬來訓練走路的。
DeepTech:Skild AI 是如何解決這個瓶頸的?
Ananye:我們不只關注模擬。我們還有其他數據來源。一個很大的幫助是“視頻”。視頻很容易收集,你可以從 YouTube 上獲取,或給某人裝上攝像頭。它的可擴展性很高,收集成本非常低。
視頻非常好,因為它能提供模擬所不具備的信息,即“語義”和“多樣性”。例如,你可以給建筑工人裝上攝像頭,你會看到他們如何使用不同種類的工具。你可以清楚看到他們如何抓取電鉆。這將幫助機器人知道:“哦,這是一個新電鉆,但我見過建筑工人像這樣使用它,所以我應該嘗試這樣抓取。”
但視頻數據不包含任何力量信息,所以僅靠視頻是不夠的。一個很好的例子是網球:想象你是費德勒的鐵桿粉絲,你上 YouTube 看費德勒的所有視頻。你可能會在網球策略上變得很厲害,知道“如果對方在這個位置給我一球,我應該斜線回球或直線回球”。但如果有人給你一個球拍,告訴你現在像費德勒那樣發球,你做不到。你甚至可能連球都打不到,因為視頻不包含任何力量信息。所以你需要親身實踐和練習,模擬允許你進行這種練習。
但隨后你可以將兩者結合。一旦你擁有了很好的正手擊球,你觀看的視頻就會幫助你,因為你現在對網球策略有了很好理解。這里的想法和模擬是一樣的。你可以在模擬中學到像抓取這樣的技能,然后觀看大量視頻,知道“哦,這個電鉆應該像這樣被抓取”,然后你就可以利用在模擬中學到的抓取技能,快速、準確、可靠地完成任務。
Ananye:目前使用視頻的一個很好方法是使用“以自我為中心”的視頻——將攝像頭安裝在人類身上,從人類視角錄制。然后你可以看到人類的雙手,現在有很好的模型可以計算出手的位置。這基本上為你提供了人類在做什么、手在哪里抓取物體的信息。
但這顯然存在一些問題,比如如果手就在你臉前,手指可能被遮擋,你就無法確定手指位置。所以目前的方法是不僅使用人類視頻,還使用一些“遠程操作數據”。你會有一個人來精確告訴你如何操作機器人。這是最高質量的數據。
DeepTech:在美國,機器人公司有兩種發展路徑。一種像 Skild AI,使用模擬方式訓練機器人。還有其他公司,他們使用真實數據,比如遠程控制數據來訓練機器人。你對此有什么看法?
Ananye:我的觀點是:幾乎不可能大規模擴展遠程控制數據。想一想,將機器人帶到新家并遠程操作需要做什么。首先,我需要弄清楚如何運輸機器人。然后,我需要說服房主:“請讓我把這臺大機器放在你家里。”然后,我需要確保機器人不會出故障,需要確保網絡連接良好、延遲低,所有這些不同挑戰。
但如果你只是想獲取人類視頻,就很容易了,“你可以戴上這個攝像頭,我們會付錢給你。”它具有無限可擴展性。人類視頻比遠程操作數據更具可擴展性。
所以我們的觀點是,僅僅依賴遠程操作不是成功策略,因為人類視頻中包含了一些非常有用的信號。你絕對應該使用人類視頻,并盡可能擴大其規模。而遠程操作數據就像“櫻桃頂”(錦上添花)。就像語言模型中的 SFT 微調數據集一樣,它與預訓練數據集的規模相比非常小。預訓練不能依賴遠程遙操作,因為它難以擴展。它必須來自視頻,然后遠程操作數據只是錦上添花。
安全與應用場景
DeepTech:你們如何處理“安全問題”?
Ananye:最大的問題在于,經典機器人學界的人非常喜歡談論深度學習沒有“保證”。如果你是經典機器人學家,有些人會試圖通過數學證明“哦,我的系統不會做任何不安全的事情”。但對于深度學習來說,沒有這樣的保證。
那么如何構建安全呢?我們觀察到一個有趣趨勢,這在語言模型中也可以看到:隨著你不斷擴大數據規模,不斷訓練模型,不斷收集越來越多高質量數據,失敗開始變得不那么頻繁,而且失敗也變得更容易解釋。
比如 ChatGPT,兩年前你需要對它進行大量幫助,但現在他們收集了更好的監督微調數據集,它不再那么容易產生幻覺,也不太可能胡言亂語。我認為在機器人學領域也會發生類似事情。隨著你不斷擴大數據規模,不斷向模型提供更多數據,失敗會變得越來越少,模型會變得越來越安全。
最終,構建安全的方式是通過建立“信任”。人類也是如此。假設你雇傭了一個新員工,你不會保證他們是安全的,不會向你的服務器推送糟糕的代碼。但你建立信任的方式是先給他們小任務,然后慢慢地、逐漸地給他們更大更重要的任務。機器人也將如此。你會從簡單任務開始,慢慢地測試它們,并逐步擴大你賦予機器人的責任范圍。
這在自動駕駛汽車上也得到了體現。例如,Waymo 先在幾個城市推出,現在正在擴張。特斯拉仍然有安全駕駛員,但也在努力擴張。機器人也會是這樣。
DeepTech:你認為機器人應用的良好切入點或應用場景是什么?
Ananye:我認為最好的切入點是那些無法用經典機器人技術自動化的“裝配線任務”。今天有很多裝配線機器人,比如你在汽車裝配線上看到的那些,它們進行焊接或噴漆。但它們非常有限,因為這是用經典機器人實現的。有人精確地編碼了機器人:“去這個精確坐標點,焊接半秒,然后移動到那個坐標點。”這只適用于產品完全相同、公差非常小的情況。
但還有很多其他任務,它們的公差沒那么嚴格。所以即使任務本身非常重復, 也需要人來完成。比如 iPhone 的組裝,富士康的 iPhone 組裝就是如此。所有工作都是由人完成的,即使所有 iPhone 都是一樣的,但它們之間存在微小差異。機器無法真正做到這一點,所以需要人來做。
但有了 AI,AI 可以適應這些微小差異。所以希望它能夠自動化所有這些今天人類 24 小時都在做的重復性工作。我認為工廠是機器人最先應該去的地方。好處是通用化問題更容易解決,你沒有那么多多樣性。而且你還能非常快速地創造價值。
未來展望:后稀缺世界
DeepTech:如果 Skild Brain 最終成功了,它將對世界產生什么樣的影響?
Ananye:成功的標志是,你將擁有一個可以放入任何機器的單一模型。而且那臺機器應該能夠完成你可能想要的任何物理任務。今天,AI 擅長編寫代碼或創作藝術。
但即使現在,每天仍有數十億人在進行繁重的體力勞動,人類整體的生產力受到人力勞動的制約。例如,如果人們想要更多的食物、衣服,或任何其他商品,這一切都受到人力勞動的制約,因為我們沒有足夠的熟練勞動力。
但在一個擁有這種基礎模型的世界里,這個瓶頸將不復存在。你基本上只需要投入原材料。比如你想制造新芯片,你只需要弄清楚從哪里獲取硅,然后所有體力勞動都由機器人大腦完成,你就能得到成品。這才是真正能讓你進入那種“后稀缺世界”的方式,你不再受制于物質需求。
DeepTech:那么,機器人取代人類,人們心中會產生一種焦慮。你認為這是一個問題嗎?
Ananye:我不認為這是問題,因為回顧過去,工業革命時期人們也很擔心,“所有工作都會消失,人們會失業”。但最終發生的是,工業革命中被機器取代的工作,又創造了許多其他比以前好得多的工作。所以現在你可以從事營銷或咨詢等各種工作,這些工作如果沒有工業革命創造的財富和效率,是不可能存在的。
有趣的是,在艾薩克·阿西莫夫的小說中,所有機器人就應該為你完成所有體力任務。那么問題是,人類做什么呢?人類會做的事情就是創造藝術、體育運動、寫詩等等。我認為隨著社會變得越來越富裕,人們不再受到限制,不再擔心食物、衣服或住所,越來越多的人會開始從事藝術、音樂、詩歌等活動。我認為這才是人類應該花費時間做的事情,而不是擔心那些沒有人真正喜歡的繁重體力勞動。
DeepTech:你認為離 Skild Brain 的終極模型還有多遠?
Ananye:終極模型?我認為至少還需要 10 年。這似乎是一個非常具有挑戰性的問題。它不僅僅是解決機器人技術問題,而是真正解決 AGI(通用人工智能)。如果你想想,很多 AI 公司都在談論要構建 AGI,但他們所做的都是軟件領域的工作,所有東西都存在于服務器上。
但我們真正關心的大部分問題,如果你想解決物理世界中的問題,比如氣候變化或太空探索,都需要對物理世界有了解。所以你真的需要構建這種能與現實世界互動的大腦。我認為通過機器人技術是實現這一目標的一種方式。
給年輕人的建議
DeepTech:假設終極夢想會在 10 年內實現。如果讓你給那些現在仍在讀高中的年輕人一些建議,你會說什么?他們應該如何準備?
Ananye:要構建這個“大腦”或 AGI,我們還沒有掌握所有“配方”。我們缺少一些關鍵部分,需要更多突破才能實現目標。因此,我們需要真正聰明的人提出新想法。要做到這一點,就是對世界保持好奇心,質疑一切。
在高中,人們通常通過教科書學習,他們會說:“哦,這是某人寫的,你只需要記住它,這是對的。”但你應該真正批判性地思考,并質疑一切。比如,如果有人教你牛頓運動定律是這樣那樣的,為什么會是這樣?我能從第一性原理推導出它們嗎?而不是簡單地接受別人告訴你的東西。
因為今天我們認為理所當然的很多事情,也許十年后會被證明是錯誤的。那些質疑這些假設的人,才是會帶來突破的人。一個很好的例子是深度學習。二十年前,人們認為深度學習根本不酷,會永遠行不通。每個人都有理由解釋為什么行不通。但后來 Geoffrey Hinton 和 Ilya 等人嘗試將其規模化,結果成功了。這引發了深度學習革命。
所以你需要有這種思維方式:質疑他人在做什么,傾聽自己的直覺,但要有所論證,而不是盲目聽從,也不能盲目跟隨他人腳步。
DeepTech:這種批判性思維是你從榜樣或父母那里學來的嗎?
Ananye:我認為很多是在博士階段學到的。我以前也有一些,但大部分是從我的導師 Deepak 那里學到的。他總是告訴我:“你應該喜歡某些東西。”我記得我當時還是個年輕學生,對深度學習基本一無所知。他說:“我們應該做這個項目。”我說:“你看,已經有五篇其他論文嘗試過這個,但都沒有成功。所以這可能行不通。”
他會告訴我:“不,你不應該那樣想。如果別人沒成功,不代表它行不通。你仍然應該去嘗試,除非你有強烈理由相信它行不通。”他是對的。如果你真的去嘗試,并從第一性原理去論證,你通常可以做得比別人更好。
這也是我們第一個項目,就是那個能結合感知、適當避障并在任何地方行走的機器人。之前也有其他論文嘗試過,但結果都沒有我們做得好。
DeepTech:我們聊了很多問題。如果你要用一句話來概括你所有工作的最終目標和使命,你會怎么說?
Ananye:最終目標是建立真正的 AGI,即能夠解決人類所有問題的通用人工智能。
DeepTech:太棒了。我們非常期待那一天的到來。也許十年,也許五年,誰知道呢?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.