![]()
![]()
![]()
具身智能是通往AGI的必經之路。
作者|劉楊楠
編輯|王博
“你認為具身智能是通往AGI(通用人工智能)的必經之路嗎?3、2、1——請舉牌!”
話音剛落,臺上的八位行業頂尖專家毫不猶豫,齊刷刷舉牌——全場一致同意。
這不僅是一次簡單的共識,更是當前AI浪潮轉向物理世界的一個縮影。隨著大模型在虛擬世界的潛力被不斷挖掘,如何讓智能擁有身體,能夠理解、決策并改變真實的物理環境,已成為全球科技競爭的下一個前沿。
具身智能,正從機器人產業的專屬,演進為構建下一代通用AI的基石。
在11月20日舉辦的智源具身OpenDay上,甲子光年創始人、CEO張一甲主持的這場BAAI具身模型會客廳,正是一次對這一前沿領域的集中叩問。她與八位來自產業界與學術界的核心踐行者展開對話,他們代表了推動具身智能落地的關鍵力量:
招商局集團AI首席科學家 張家興
清華大學助理教授、星海圖聯合創始人 趙行
智元機器人合伙人、首席科學家,上海創智學院導師 羅劍嵐
智源研究院院長 王仲遠
北京大學助理教授、銀河通用創始人及首席技術官 王鶴
加速進化創始人&CEO 程昊
自變量創始人&CEO 王潛
中國科學院大學教授 趙冬斌
在這場深度討論中,共識是清晰的——具身智能是通往AGI的必經之路。
但非共識是存在的,挑戰也是現實的。宏偉的愿景之下,是數據、模型與機器人本體之間相互掣肘的現實困境。全行業都在共同摸索:如何找到一條高效、低成本的道路,打破枷鎖,讓智能真正“身”“心”合一。
本文為“BAAI具身模型會客廳”對話實錄,經「甲子光年」整理編輯,在不改變原意的基礎上略有刪改。
1.世界模型是實現具身智能的關鍵嗎?
張一甲:今年世界模型概念很熱,和世界模型的結合是實現具身智能的關鍵嗎?
王鶴:我目前持中立態度。因為它其實取決于我們如何定義“世界模型”。在強化學習里,世界模型最早是指根據當前狀態和我采取的動作,來預測下一步狀態的變化。但這一概念經過Sora等視頻生成模型的不斷演變,如今已經變得越來越模糊了。
今天我們常常希望用人類的視頻數據去訓練模型,再教機器人像人一樣去“想象”人類的行為并照著做。但這并不完全成立。原因在于,機器人的本體,比如輪式、雙臂結構,都和人類身體存在很大差異。即便是最像人的人形機器人,在操作的靈巧度、手臂活動范圍等方面,與真人動作仍有明顯差距。因此,即使機器人能像人一樣“聯想”,這類數據也不一定對我們的具身智能有實質幫助。
不過從長遠來看,具身機器人和人類一樣,都需要具備一種對未來狀態的預測和預判能力,都需要根據我想要達成的目標,反向推導現在該執行什么動作——既有前向推理,也有反向規劃。所以我認為,世界模型作為一種對未來預測的機制,是不可或缺的。只不過,它的訓練數據中必須包含更多機器人本身的數據,才能真正學出一個屬于機器人自己的世界模型。
王仲遠:我是認同的。目前世界模型的定義確實還沒有形成完全的共識。如果世界模型僅僅指視頻生成,那它雖然可能對具身智能有一定作用,但未必是后者必須依賴的基座。
而我們所理解的世界模型,更多是指“下一個狀態預測”,也就是基于先前的時空狀態,去預測下一個時空狀態。
舉個例子,剛才我要回答時,需要基于一甲提出的問題、王鶴老師的回應,來決定我如何回應、是否要拿起話筒,這本身就是一個決策過程。我們所認知的世界模型,需要基于已有的時空狀態,理解現場的環境與上下文,進而給出下一步的行動與響應,這才是核心。
張一甲:Transformer這類統一架構催生了ChatGPT這樣的爆款應用。你們認為具身智能未來也會收斂到某一種統一架構之下嗎?換句話說,具身智能是否需要自己的“Transformer”?
(現場舉牌,除了趙冬斌,其他嘉賓都認為“會收斂到某一種統一架構之下”)
趙冬斌:我持觀望態度。目前來看,具身模型的訓練方法比較多樣化。除了模型架構本身的探索之外,我們也通過預訓練、后訓練以及思維鏈推理等方式來持續提升模型性能,在制作咖啡、擺放碟子、整理盒子、折疊衣物等中多個任務上展現出通用能力。隨著技術不斷發展,未來有可能會出現一個收斂的單一模型,但也可能繼續保持模型多樣化的路徑。兩者皆有可能。
張一甲:最有可能成為那個“Transformer”的技術路徑會是什么?
張家興:就像人類智能的演進過程:我們是先有動作能力,再發展出視覺,最后才誕生語言。而今天的VLA結構,恰恰是在視覺和動作之間插入了一個語言模塊,這其實并不符合我們人類在實際操作中的本質邏輯。比如當我們開車時,可以一邊說話一邊駕駛,這說明視覺(Vision)和動作(Action)之間本身就有直接通路,并不一定需要語言(Language)的全程參與。
因此,我們應該思考構建一個完全面向具身智能的、獨立的系統架構,而不必非得從當前以語言模型為核心的技術體系中脫胎。
張一甲:你心目中那個理想的“具身智能Transformer”,目前出現了嗎?
張家興:目前還沒有真正出現。實際上,我們確實仍在期待大模型領域能帶來一些根本性的創新。目前硅谷的一些頂尖團隊正在探索新型多模態大模型架構,在這些架構中,語言(L)將不再占據那么核心的位置。這是一個重要的方向。
坦白說,目前確實是大模型團隊在率先進行這類探索,而他們的方向恰好與我們具身智能所追求的目標不謀而合。本質上,我們期待的是大模型領域能夠實現一次范式轉換:從過去三年一直堅持的“language first”,轉向“vision first”或“vision-action first”。
趙行:我非常同意這個觀點。我們確實需要一個與大語言模型平行的基礎模型,它更有可能是一個“大型行動模型”(Large Action Model)。這個模型首先應建立在視覺基礎上,因為視覺是世界上最通用的感知信息來源;隨后再融入語言能力。這與生物進化的規律高度吻合——世界上先出現能夠運動的生物,隨后它們演化出視覺,最終才誕生像人類這樣的高級智能生命。
因此,我們期待的是一種“行動優先、視覺隨后、語言最后”的模型構建路徑。這個模型與大語言模型有一個關鍵區別,它必須是一個閉環系統。大語言模型更多是開環的——用戶提問,模型給出回答,若答案正確,流程就結束了,中間的處理過程完全在模型內部完成。
但具身智能不同。它不是經過一番思考后執行單一動作,而是每執行一個動作,就立即獲得來自世界的反饋,隨即調整自身行為,并繼續執行下一步。因此,我希望未來具身智能的“基礎行動模型”是一個能夠與環境實時交互、持續調整的閉環模型。
羅劍嵐:目前還沒有出現一個能夠統一所有智能形態的“大一統模型”。智能問題更可能被一個完整系統所解決,而非依賴單一模型。這個系統包括幾個核心要素。除了VLA,系統中還需要一個世界模型,能夠進行反思、預測,并在隱空間中進行推演和想象。當然,也離不開強化學習。這些組件整合在一起,形成一個真正的閉環系統,數據在其中流動,推動系統不斷自我提升。
王仲遠:首先,智源研究院肯定相信,從終極狀態來看,一定要有一個相對統一架構的模型,來解決預訓練、世界模型等各種問題。這也是我們在布局像多模態世界模型的一個很重要原因。
當然,這種模型所需要的數據量顯然是非常非常大的,甚至不一定三年、五年就一定能夠完全實現。它可能需要等到更多機器人真正落地,開始解決很具體的問題,累積起足夠的數據量,出現“具身智能的互聯網”之后,有了這樣的數據基礎,才有可能出現更好的大一統模型。
從架構上來講,我們正在探索一系列具有潛力的大一統架構,當然未來是否會出現別的架構,我們也樂見其成。所以從長期來看,我相信這是一個我們必須突破、必須解決的關鍵問題。
王鶴:關于“具身Transformer”這個問題,其實它更偏向架構層面。
具身智能的復雜性在于,人類擁有視覺、聽覺、觸覺等多種感知方式,就像我們常說的“眼耳口鼻舌”。從注意力機制的角度,所有這些感知信號理論上都可以被token化并輸入Transformer。目前主要的瓶頸在于輸出部分還不夠理想,動作的生成與響應還不夠自然。
因此,如果我們能逐步解決輸出層面的問題,從架構上講,是有可能形成一個統一范式的。但相比之下,數據問題以及與之對應的學習范式,才是更長期、更根本的挑戰。
目前我們的數據還遠遠不夠。無論是視頻生成模型還是對話模型,本質上都依賴海量的互聯網數據。而今天我們若想研發出一個“行動優先”的模型,面臨的核心問題是:全球可能僅有約一千臺、甚至更少的人形機器人處于前沿場景中運行。如此少的數量,遠不足以支撐我們探索出一個成熟的“行動優先”架構與模型。
因此我的看法是:短期內,我們更需要依靠仿真模擬與合成數據來推進探索,這比受限于少量真實數據會走得更快;而從長期來看,地球上的“人形機器人口”必須實現持續高速增長。當然,這也與其能力提升相輔相成。只有當這個“人口基數”足夠大時,才有可能孕育出真正強大的大模型。
程昊:過去一年多來,幾乎所有人形機器人的運動控制都在朝著同一個方向努力:只要獲取到人體各種運動軌跡數據,機器人就能夠復現執行。相應地,我們也希望能有一個具身模型,可以基于任務需求與環境狀態,實時輸出未來數十幀內機器人該如何動作,就像在腦海中生成一段動畫,機器人隨之執行,并自主判斷是該拿起鏟子、杯子,還是去開門。一旦這樣的模型跑通,具身智能的落地就會順利很多,但目前來看,這樣的模型尚未出現。
我們之所以特別關注世界模型,核心原因之一就是“預測”能力——既要預測“我打算做什么”,也要預測“外部環境會發生什么”。當然,團隊內部也認為這個目標挑戰很大、路徑較長,因此我們也在考慮分階段推進:先通過分層方法構建一些智能體(agent),在相對簡單的場景中實現落地,比如拿快遞、搬箱子這類任務,而像做飯就是一件非常非常難的事情。
這樣做的好處是,一旦在真實場景中部署,就能采集到大量機器人實際運行數據。正如剛才王鶴老師所說,一旦機器人真正落地創造價值,大家就會有意愿、有資源去部署更多機器人,形成“機器人公民”規模的擴大。這些數據回流后,將反哺整個具身智能大模型的研發。
王潛:“Transformer”這個說法可能稍微有些誤導性,因為它本質上是一種架構。事實上,如今在語言模型中也不一定全都采用Transformer。由于超長序列處理等需求,很多團隊已經開始轉向類似狀態空間模型(State Space Model)等其他架構。所以,語言模型領域也未必都是Transformer。
當然,我理解這個問題的實質是:我們是否會形成一整套完整的方法論與模型體系,就像當年GPT那樣成為基礎模型范式?從這個角度看,我認為這樣的體系是可能出現的。至于它具體采用哪種架構形式——是決策型、自回歸、狀態空間還是其他注意力變體——其實并沒有那么重要。就像建造一棟大樓,Transformer可能只是其中的磚塊或鋼筋,我們可以替換為其他材料,而不影響整體功能。更重要的是設計整座建筑的結構、外觀與功能,并通入水電、完成內裝,最終才能成為真正可用的建筑。
從語言模型的發展中,我們可以汲取幾點重要經驗:
第一是數據規模的重要性。這一點剛才多位老師都提到了。但大家對“數據規模”可能存在一些誤解,第一反應往往是“大力出奇跡”。確實,我們需要海量數據,但光有數量是不夠的。就像家興老師和仲遠老師在大語言模型時代的實踐所證明的:單純堆數據未必能帶來理想結果,反而是更高效、更高質量的數據才能實現突破。這也是為什么我們堅持以物理世界真實數據為主——我們相信數據質量優先于數據總量,這能在數據效率上帶來數量級的提升。
第二是通用模型(通才模型)的價值。這正是我開場時提到的:我們正在構建的是一個平行于虛擬世界的、屬于物理世界的基礎模型。根本原因在于虛擬世界與物理世界的基本屬性,或者說“統一性原理”,差異太大。
核心差異在于,物理世界中存在大量的接觸、摩擦、碰撞等高度隨機的過程,這些過程通常難以用語言完整描述,也難以通過圖像準確表達。盡管目前已有一些利用圖像進行描述的嘗試,但在我看來,這些嘗試效果有限,因為它們難以捕捉其中涉及的大量精細物理現象。
正因如此,我們認為在當前階段,這方面仍存在不少障礙。最主要的原因在于,我們對這些物理過程的認知與建模方法仍不成熟,對其內在機制的理解尚不完善。因此,我們最終仍需要一個平行且獨立于虛擬世界的物理模型,來精確刻畫這些細致而復雜的物理過程。
這樣一個模型究竟應該具備哪些功能?它當然要能控制機器人,這一點毋庸置疑。但與此同時,它還應具備更多元的輸出能力。在我們看來,世界模型、VLA等概念之爭意義有限,因為從我們的實踐來看,所有這些能力都被集成在同一個模型中:它既能輸出動作指令,也能生成視頻;既能做隱藏狀態的預測,也能完成三維重建,甚至輸出體積信息等任意形式的內容。
我們將其視為一個“物理世界的基礎模型”,背后的邏輯是什么?這源于我們從語言模型發展中獲得的啟示:為什么一定要做通用模型?關鍵在于,通用模型學習到的內容與專用模型完全不同。它捕捉的是所有任務之間的交集,可稱為“共同結構”、常識,或是本質規律。
因此,從語言模型中我們能夠習得邏輯推理能力、常識認知等關鍵要素——這些確實是語言模型帶給我們的核心價值。但回到現實問題:我們是否應該直接繼承現有的多模態模型作為主干,將其作為基礎來推進具身智能領域的工作?
對此我的看法可能與主流觀點相左。我認為在不久的將來,或許不用十年,甚至五年內,真正主導的多模態模型,反而會是由具身智能推動發展的那類模型。當前僅依靠從物理世界采集數據構建的模型路徑可能難以走通,而基于具身智能發展的多模態體系,反而很可能反過來主導甚至取代我們今天所見的多模態范式。
這是一個符合發展規律的大趨勢,也呼應了人類認知世界的基本方式。人類在學習理解物理世界這類“不靠堆數據”的領域時,其實并不需要海量樣本。從進化歷程來看,我們實際經歷過的交互場景遠不如今天AI模型訓練的數據規模,卻依然能構建出強大的認知系統。
這其中最關鍵的一點在于“動作”帶來的改變。行動本身是一個關鍵信號,它能幫助我們篩選出哪些信息是真正重要的。此外,正如剛才其他嘉賓提到的“交互感知”或“主動感知”,我們通過與環境的實時互動,能夠從時間和因果維度更深入地把握物理世界的運行規律。
這也就引回到我們今天討論的核心:什么才是真正的基礎模型?或者說,具身智能領域的“Transformer”應該是什么?當然,我仍堅持之前的看法,Transformer這個比喻并不十分貼切,它終究只是一種架構組件,就像磚塊或鋼筋,完全可以被更合適的結構所替代。
趙冬斌:確實,當前我們對于模型規模的定義可能不是一成不變的。未來的大模型也不一定非要依賴海量數據,就像人類學習一樣,也許只需少量樣本就能掌握,而不是單純依靠海量數據和算法堆砌。所以對于未來的發展方向,我個人還持觀望態度。
從模型架構的角度來看,我們討論的重點往往在于輸入和輸出。在具身智能領域,輸入模態遠比互聯網大模型豐富,不僅有文字和視覺,還包括力矩、觸覺等物理交互信號,這些都需要被處理,也必然會影響模型的架構設計。
至于輸出方面,剛才多位嘉賓也提到了多種實現路徑,例如混合專家模型(MoE)、多模態生成等。有些場景可能并不需要復雜輸出。目前整個業界發展非常迅速,從學界角度來看,依然處于百花齊放的狀態。具體到機器人控制,如果場景相對簡單,或許一個狀態空間模型就足夠應對了。
2.數據的解法
張一甲:面對數據這種“既重要又難搞”的情況,你們各自采取了什么樣的應對策略?目前實際在做的有哪些工作?
張家興:第一,我們堅信要從真實物理世界中采集數據,這最為關鍵。第二,在整個數字金字塔的構建中,我們希望通過最低成本的方式,直接以人自身作為本體來采集數據,這樣成本最低,也最容易實現規模效應。這些數據主要用于人工智能領域。我們的目標,是構建一個質量最高、成本最低的數據金字塔。
趙行:我們同樣以真實數據為基礎,主要從三個層面入手。首先,是保證數據的真實性,因此我們用真實機器人素材作為起點。其次,我們注重多樣性,這意味著數據采集不局限于自有工廠,而是深入各類真實場景。最后,我們再追求數量,通過優化方法(如從依賴機器人轉變為無機器人方案)來降低采集成本、擴大規模。
羅劍嵐:我們也是堅持真實數據,并且非常重視數據質量。有兩點我們想突出一下:第一,我們會去真實場景里采集,而不只是在數據工廠。第二,未來整個數據生態的構建和運轉,將主要依靠機器人自主產生數據。具體來說,就是把大量機器人部署到真實場景中,讓它們與環境交互,從而產生范圍極廣、非常多樣化的數據。然后利用這些數據,我們可以去獲取更多的機器人,這樣就形成了一個完整的正向反饋。
王仲遠:我們還是堅持從海量的視頻數據中去進行基座模型的學習。因為視頻數據既能夠海量獲得,又能模擬真實世界。然后,我們通過真機采集的數據做半自動處理,再通過強化學習做反饋,來不斷提升它的能力。這套邏輯其實跟現在很多小朋友刷手機認識世界是一個原理:他們通過視頻學習這個世界,再通過真實的交互體驗來提升技能。
王鶴:在座各位中,我可能是很強調仿真的。這并不是說我們故意要用仿真去替代真實世界的數據,而是我們發現,很多底層的控制都是通過大量的強化學習獲得的,而這在真實世界里進行非常困難。比如,我們今天看到的所有人形機器人的足式行走、跳舞,包括各種復雜的身體控制,全都是通過仿真器習得的。真實數據在其中的作用,一是提取人類的行為形態(比如舞蹈),二是在真實世界進行少量的微調。
我們最近與清華大學合作的靈巧手工作也印證了這點。至今為止,所有真正的手內操作都是通過模仿學習實現的,而不是遙控。因為當你不清楚靈巧手的手指是否碰到物體、受力如何時,連遙操作都無法進行。
所以,仿真的意義并非否定真實世界,而是這些豐富的物理交互可以從仿真開始。它能提供一個很好的基礎控制器,使我們在真實世界里能把“數據飛輪”轉起來。這就是合成數據的使命。
程昊:我們現在實際上用仿真數據確實比較多,因為它比較快。但我們用仿真數據訓練的一個目標,是讓機器人接下來能獲得更多真實數據,有了真實數據,整體能力才能再提升。
這很可能是一個螺旋上升的過程:落地后獲得真實數據,會發現很多“corner case”搞不定,而真實世界又采不到那么多,那就可能又得回頭大量用仿真數據。
所以我們的大思路是,一定要讓機器人落地后能獲得真實數據。我們堅信最終這些數據都得用上,大概率是一種融合的狀態。視頻數據長遠看肯定是最多的,只不過現在它的訓練效果還不那么理想。總之,哪個階段哪個數據好用,我們就先用哪個。
張一甲:這可能不是應不應該的問題,而是能不能做到的問題。
王潛:我們是什么數據都用,但用的地方有側重點。就像我剛才說的,不同數據本身的分布差異是很大的。
比如,我們用大量的互聯網數據,基本上每晚能爬的都會爬一遍。這部分主要用來做知識鏈,學習一些常識,這是大家現在普遍都在做的基礎工作。
再比如,我們仿真也做,但可能不會用它來做接觸式的抓取這類任務,而是用來做智能體的決策、推理。那種物理抓取的遷移學習,主要還是以物理世界的真實數據為主。
所以,所有數據本質上都可以用起來,但說實話,把任何一種數據用好都挺難的,里面涉及大量核心的工程問題,這才是我們日常工作和注意力的重點。數據肯定是多多益善,我們能從各種各樣的數據里都學到東西。
趙冬斌:我想,自動駕駛應該是具身智能一個非常重要的落地例子。從它的經驗來看,把車賣給C端用戶后,每個司機每天開車就把數據收回來了,這個真實數據的反饋閉環用得非常好。
我其實一直在想,我們其他的機器人什么時候也能這樣?比如把服務機器人賣到旅館,讓它在無人環境下打掃衛生、疊被子。這樣就能持續回收數據,出了問題可以遠程接管,這些接管數據也非常重要。
再比如一個廚房機器人,如果能根據菜單做各種菜,隨著部署規模上去,數據量自然就起來了。我們期待的就是這種數據自然而然涌現的時刻。
3.決策的“第一性原理”
張一甲:具身智能這個問題,真是越聊越覺得比我們想象中更復雜。就好像各位嘉賓在一個復雜的森林里,從不同的地點出發。我們不知道這個森林有多少物種,也不知道它的全貌,但我們知道大概會有寶藏。至于寶藏什么樣、在哪里,都需要我們去摸索。在面對這么多開放和復雜的問題時,你們做決策的“第一性原理”是什么?
張家興:我認同去年圖靈獎得主的理念——讓機器自己去發現,讓機器自己去探索。
趙行:星海圖創立時就有一句格言:“In scaling law we trust.” 我們相信,數據的規模化將反向驅動模型的進化與智能的實現。
羅劍嵐:我們堅持做正確的事,正所謂“風物長宜放眼量”。很多事情短期看是負擔,長期看卻會產生巨大價值。
王仲遠:人類如何學習,機器人就可以如何學習。
王鶴:我們始終致力于讓“數據飛輪”轉起來。即便當前所做的,未必是外界眼中最炫酷的事情。
程昊:我們決策時始終關注一件事:它能否真正落地。只要方向對落地有幫助,我們就會推進。
王潛:我們的金標準是:能否長期為客戶與消費者創造真實價值。
張一甲:具身智能領域,大家是在“戴著鐐銬起舞”,它很吸睛,但也很花錢。如果你手里有100億元來推進具身智能發展,這筆錢你會怎么花?
趙冬斌:這是錢的問題,給他們來回答(笑)。
王潛:我首先把市場上能吸納的好人才都吸納過來,這是第一位的。那其次肯定是算力和數據啊。
王鶴:100億其實并不重要,重要的是你怎么能夠用你的事業和你堅定的進步,吸引到人才加入。我們不希望大家為了錢每天睜開眼睛,而是為了一個未來人與機器人共生的世界。
程昊:首先,100億不夠。如果我只有100億的話,我肯定不會自己埋頭落地,而是找更多的朋友一起,比如投到智源研究院,吸引全球的研究人才,讓他們可以心無旁騖地去搞比較長期的技術突破。
王仲遠:我特別喜歡程昊總的這個回答。100個億其實也就聽起來很多,實際上也不多,也就10億多美元。GPT-3真的要開始訓練的時候,微軟投資的規模也就是這個量級,這正是一個關鍵研究周期所需要的。
羅劍嵐:我會去構建世界上最大的能夠自我進化、自我閉環的數據系統。100億可以說很多,也可以說不多,但關鍵是,第一個投入百億去做這件事的個人或機構,現在還不存在。
趙行:我也會去構建一個最大的“data engine(數據引擎)”,目標是把物理世界的信息全部數字化下來。
張家興:我是希望能夠設計出屬于我們自己的、具身智能的“黃金式模型”,然后進行大規模預訓練,讓能力真的能夠scale up上去,找到我們最正確的那條路徑。
(封面圖來源:智源研究院)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.