![]()
作者 | 山竹
出品 | 鋅產業
兩周前,銀河通用官宣完成5億元戰略融資。
成立一年半,拿到30多個知名基金投資,北京、上海、深圳、香港政府基金加持,累計融資額12億元,銀河通用創始人王鶴又在近日公開表示,“銀河通用正在沖刺獨角獸。”
這是2024年國內具身智能熱潮的真實寫照。
實際上,早在今年年初,優質機器人團隊已經成了全球投資人瘋搶的標的。
先是有美國Figure AI B輪拿到了6.75億美元(約合49億元)巨額融資,后又有國內宇樹科技拿到10億元B2輪融資。
這兩家機器人公司,如今已經是具身智能領域準獨角獸。
此外,據GGII統計數據顯示,2024年1月-10月,全球人形機器人行業共發起了69起融資,融資總額高達110億元。
在具身智能這波歷史大機遇下,2024年注定將成為機器人總動員的一年。
不過,就具身智能而言,2024年是大幕拉開的一年,是百家爭鳴的一年,也是產業熱切期望的一年,但卻不是成為產業規模化落地的一年。
對于大模型+人形機器人這一關注度最高的具身智能模式,我今年在和從業者交流中聽到最多的一個關鍵詞是,“還很遙遠”。
那么,在具身智能被推上全球科技競爭制高點、這么多熱錢涌入這一賽道的這一年里,具身智能究竟怎么樣了?
01具身智能的數據難題
數據成就了OpenAI,數據成就了大模型,作為奧特曼眼中通用人工智能的終極形態,數據如今也正在成就具身智能。
ICRA是由IEEE機器人與自動化協會主辦的全球性機器人學術會議,也是全球機器人領域最權威的學術會議之一,在今年5月日本橫濱舉辦的ICRA 2024上,會議的最佳論文獎最終給到了一個名為Open X-Embodiment。
Open X-Embodiment包含兩項成果,其一是一個機器人學習數據集,其二是基于該數據集訓練的機器人運動控制模型RT-X。
![]()
其中,最為稀缺的是機器人學習數據集,這篇論文中的數據集是由21個高校和研究機構收集的22個不同機器人的數據集,這個數據集最終包含100多萬條機器人的真實運動軌跡數據,并由此展現出了527種機器人技能。
基于這一成果,谷歌在今年還訓練出了一個數據規模達到7B的視覺-語言-動作大模型OpenVLA,后者是今年具身智能領域一個標志性事件。
不過,即便如此,OpenVLA依然無法實現普遍的泛化性。
銀河通用團隊就曾就OpenVLA模型在實驗室中進行過一系列測試,王鶴發現,“當在實驗室換一種擺放方式讓基于OpenVLA的機器人執行抓取任務時,機器人幾乎無法抓取任何物體。”
小樣本學習,高成功率部署,成了擺在具身智能機器人面前的第一道難題。

實際上,現在行業中就連要打造“小樣本學習,高成功率部署”的VLA模型究竟需要多少數據量,依然爭議頗多。
在前不久的一場機器人主題圓桌論壇上,這個問題就曾成為焦點。
千尋智能聯合創始人高陽就指出,“我們在做具身智能Scaling Law研究時發現,僅需要2000條數據,就可以讓機器人在任意場景、對任何物體進行(對精確度要求不高的)泛化操作。”
作為清華大學交叉信息研究院助理教授,高陽和他的學生針對這一問題的研究,也在今年的一個機器人頂級學術會議CoRL 2024上獲得了最佳論文獎。
![]()
不過,對此,跨維智能創始人賈奎教授提出了不同的看法,他指出:
“無論是機器人倒水、開冰箱,還是其他任何動作,如果僅僅需要2000條、乃至20000條數據就能實現泛化,我們其實現在就能立刻將這類機器人進行落地并賺到錢,但實際上我們并沒有看到這樣的情況發生。
這是因為具身智能的數據類型是異構多樣的,有視覺、力覺、觸覺等不同傳感器的數據,有基于不同機器人本體自身的狀態數據,也有不同動作軌跡數據,由此形成的異構數據的信息量、復雜度差別是巨大的,任何一項技能的泛化沒有上億條數據是不可能實現的。”
這是具身智能仍處于混沌初開、百家爭鳴時期的具象化體現,與人工智能技術發展不同,現在的具身智能還需要一個像ImageNet一樣的基準數據集。
2010年,斯坦福大學李飛飛教授基于ImageNet數據集,在全球發起了ImageNet挑戰賽,在這一為期八年的針對視覺識別的AI挑戰賽中,人工智能算法識別物體的準確率從71.8%提升到了97.3%。
![]()
在這之中,今年的諾獎得主Geoffrey Hinton的團隊成名作之一AlexNet,正是2012年ImageNet挑戰賽的冠軍。
李飛飛用數據重新定義了人們對模型的看法,ImageNet挑戰賽背后的統一基準測試則推動了人工智能技術又向前邁了一步。
那么,如今的具身智能有這樣的統一基準嗎?
答案是,沒有。
不過,我們能夠看到的是,李飛飛團隊再次構建了具身智能基準測試環境BEHAVIOR-1K,國內則有通研院朱松純團隊搭建了通用人工智能標準、評級、測試與架構。
![]()
此外,包括北京、上海等地涌現出的具身智能創新中心,已經在構建具身智能數據集,甚至公版人形機器人。
無論是學術界,還是產業界,身在其中的科學家們正在加緊邁出benchmark這一步,讓具身智能能夠從分散作戰歸于集中發力。
基準測試固然重要,但模型發展更為關鍵。
02將世界模型裝入機器人
什么是具身智能?
我經常舉的一個例子是:
一群研究人工智能的科學家發現,人工智能技術已經發展到一定階段,已經能夠將人工智能算法加載到硬件產品上來更直接地在現實世界中工作,于是就有了具身智能。
所以,在我的理解中,具身智能本身是人工智能技術發展到一定階段的產物,這個階段的一個重要起點是大模型,或者說是世界模型。
將大模型與機器人結合,是具身智能的第一要義。
![]()
由于機器人本身是一個擬人設計產品,我們能夠看到,現在具身智能大模型有一條主流設計路線是基于人類大腦快慢系統邏輯——快系統模擬人類進行快速直覺反應,慢系統模擬人類進行反思、推理。
作為國內人工智能領域的頂級研究機構,智源研究院內部在研發具身智能大模型時,正是基于這一設計路線,并在同步跟進端到端、分層結構兩條技術路線,這里我們可以以智源基于兩條路線已經公開的研究成果有一個直觀理解。
針對復雜長程任務,智源團隊設計的端到端具身大模型任務執行邏輯為:
首先智源團隊設計了一個快系統,用于產生快速直覺的動作,當通過快系統執行任務失敗時,再通過慢系統檢測、定位任務失敗節點,并進行糾正。
在這個系統中,另一個關鍵程序是快系統的持續知識更新模塊,將慢系統在執行失敗任務過程中積累下來的知識持續轉移到快系統中,提升快系統的任務執行能力。
![]()
針對端到端目前無法勝任的更為復雜的長程任務時,基于分層結構的具身大模型將會起到更好的效果。
智源團隊設計的分層結構具身大模型任務執行邏輯為:
首先通過大腦系統進行長程任務拆解、推理,并為小腦提示關鍵點、規劃操作路徑。
為了訓練這樣一個大腦大模型,智源團隊為大腦大模型收集、標注了一個專門的數據集,設計了多階段的訓練策略。
![]()
然后再通過小腦模型執行拆解后的原子任務。
作為一個可以執行端到端任務的小腦,既需要高效,也要具備一定的推理能力,智源團隊選用RoboMamba作為小腦的大模型底座。
![]()
為了跨越不同機器人本體使用,智源團隊還特別為小腦設計了一個高效微調算法,當面臨不同本體、場景、任務時,只選擇一些有代表性的參數進行微調,從而讓它適配相應本體、任務和場景。
據智源官方透露,相較于OpenVLA需要重新微調70億參數,該模型需要微調的參數只有300萬左右的參數,效率可以達到9Hz。
這是大模型帶給機器人的新思路,也讓機器人在大腦層面有了進一步擬人的可能性,當然也是現在具身智能高潮迭起的誘因。
加速進化創始人程昊就曾指出,“這次我們遇到的歷史機遇和以往不同的是,過去的歷史機遇更多是通過結合AI算法讓硬件變得更自動化,這波機遇是快速發展的人工智能已經開始對真實世界有較強的感知并影響這個世界,而現有的硬件載體無法很好地感知世界、影響世界,人工智能亟需一個新的應用載體。”
什么是這個新載體呢?
程昊和與他同樣選擇這兩年在機器人領域創業的不少創業者有一個相同的觀點,那就是:
這個新載體是人形機器人。
03“遙遠的”人形機器人
要不要做人形機器人,在2024年似乎已經不再是一個問題。
早在2023年10月20日,工信部就印發了《人形機器人創新發展指導意見》,意見中指出,到2025年,要初步建立人形機器人創新體系,“大腦、小腦、肢體”等一批關鍵技術取得突破,確保核心部組件安全有效供給。
不過,我們這里談到的具身智能不只有人形機器人。
前文提到,具身智能是一個廣義概念,凡是符合「大模型+硬件」的組合,都可以算作智能體,就連智能汽車,本質上也屬于具身智能。
本文提到的具身智能定義稍微收窄一些,專指「大模型+機器人」,即便如此,四足機器人、輪式機器人、人形機器人都屬于具身智能的機器人載體。
而之所以大家對人形機器人關注度如此之高,是因為人形機器人是具身智能的終極載體。
![]()
然而,正因人形機器人是具身智能的終極形態,人形機器人無論是大腦、小腦,還是肢體,都還存在著標準形成、技術迭代、成本下降的一個長期過程。
就現在來看,大模型+人形機器人(我們且稱之為具身智能人形機器人)在商用領域落地還不是最好的時機。
在2024年,我們看到的是具身智能人形機器人兩大中間形態正在嘗試率先走入商用場景:
首先是輪足底盤+機械臂+靈巧手形態。
這種形態用輪式底盤代替了人形機器人的下肢,保留了人形機器人的靈巧手,重點在于充分發揮機器人靈巧手在分揀、搬運等方面的工作能力,銀河通用的GALBOT G1是這一形態的典型代表。
據銀河通用官方消息顯示,GALBOT G1已經在北京大型的奔馳車廠、極氪汽車車廠、美團前置倉執行轉運和搬運任務。
![]()
其次是經典控制算法+人形機器人形態。
這種形態保留了人形機器人的形態,但背后支撐人形機器人的算法并非大模型,而是經典的機器人控制算法,優必選Walker S是這一形態的典型代表。
據優必選官方消息顯示,優必選已經與東風柳汽、吉利汽車、比亞迪、北汽新能源、富士康、順豐等企業合作,借助經典控制算法的Walker S正在進入這些企業工廠的裝配、轉運、檢測、維護等工序中。
![]()
更多真正的具身智能人形機器人,如今是被賣到了科研領域。
例如,宇樹科技的人形機器人備受全球頂級高校、實驗室所追捧,加速進化也選擇了將科研、教育作為當下自家人形機器人商用落地的主賽道。
2024年,具身智能人形機器人兩個現狀是:
一方面,只有人形可以兼容所有復雜地形,可以執行人類生活環境中的所有任務;
另一方面,大模型+人形機器人這條具身智能之路,依然很遙遠。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.