近期,波士頓動力Atlas機器人重磅升級,已經具備3D空間感知和實時物體追蹤能力,讓人形機器人真正擁有開始“看”世界的能力。
同時,Atlas表現出超乎尋常的運動流暢性,其背后涉及到的部分技術、理念讓人著迷。
![]()
▍從浮夸走向實際
人形機器人在工廠、倉庫甚至家中執行的大量復雜任務,涉及的核心能力包括幾個方面:1)感知其與環境的接觸狀態。2)估計其基礎框架的姿態和速度。3)計劃何時移動其末端執行器。4)計劃將其末端執行器移動到哪里。5)計劃如何移動其末端執行器、質心和身體。
為了靈活且適應性強地完成這些任務,人形機器人需要一個同樣靈活且適應性強的感知系統,需要理解世界的幾何和語義屬性——即與其交互的物體的形狀和關聯。目前除了Atlas,還沒有任何一個人形機器人,能長期、反復在一個工位上執行動態任務,敢于一鏡到底的展示幾乎看不到。這表明了在這些領域,全球人形機器人的技術仍然還遠未達到極致。
全電動版人形機器人Atlas在波士頓動力2024年4月正式推出以來,陸續推出的多個視頻少了很多浮夸的動作展示,而是嘗試聚焦在一個固定的場景上,新Atlas進行一個看似非常簡單的任務:拿起汽車零件并將其放入到移動料箱正確的位置上。也就是從零件排序開始,解決真實問題。
![]()
這種零件排序其實是汽車工廠及類似制造環境中常見的物流任務。在汽車工廠中,許多不同車型和內飾級別的汽車在同一條生產線上組裝;安裝人員需要按正確的順序為每輛車配備正確的單個零件。排序是一個預處理步驟,用于根據當天組裝的汽車正確排列這些零件。
數以千計的零件從供應商處流入這些制造工廠,裝在單個 SKU 容器中,每個容器都包含一個零件變體;然后,工作人員取出這些零件,并根據生產線的需要,按照正確的順序將它們重新分類到輸出小車上。
Atlas近期展示的視頻中,其實每一次都有不足,但每一次卻也都有進步。減少浮夸,真實探索落地場景的更多細節,將技術持續推到極致,這或許才應該是人形機器人的實際路徑。
▍長程任務難點拆解
讓人形機器人全自主在一個場景長期進行任務,難度除了精度、魯棒性、續航等基本物理性能要求,更進一步是對于任務執行步驟的持續打磨優化,也就是讓機器人能更好這個任務,最終真正像人類一樣。
但這并非易事,零件排序涵蓋了許多核心問題,這種實際場景任務落到人形機器人上,需要分解成多個步驟,每個步驟都需要機器人對環境有深入的了解。例如任務的多樣性。完整的零件排序解決方案需要 Atlas 能處理數千個不同的零件,并完成不同類型的拾取、搬運和放置任務。這些零件尺寸各異、形狀不規則,重量也各不相同。
又例如抓取行為的復雜性。排序是一個長程多步驟行為,需要高度可靠性,Atlas 需要了解拾取、傳輸或插入過程中可能出現的所有不同錯誤,識別其中任何一種情況,并知道如何處理。還有例如環境復雜性。真實的工業環境中,可能混亂且復雜,涉及許多移動的部件和意外的狀況。
但如果一個人形機器人需要耗費大量精力來編寫每個邊緣情況的程序,需要頻繁的人工協助,或者容易損壞零件,那它就毫無價值!
![]()
想要執行零件排序這類長程任務,將任何一個環節不斷趨于最優值,才有希望組合達到更完美的機器人任務方案。而波士頓動力一直就在做這件事。
首先,Atlas會檢測并識別所抓取物體。但問題在于工廠里的許多零件要么是閃亮的金屬,要么是低對比度的暗色物體,這使得機器人的攝像頭難以清晰區分。其次,Atlas需要推斷物體的位置以便抓取它。最后,Atlas會在拾取物體后,決定將其放置在哪里,以及如何將其送到那里。
因為工廠環境是動態變化的,所以工作人員還會不斷調整變量。而且Atlas必須精準地放置物體,因為任何方向只要有幾厘米的偏差,物體就可能卡住或掉落。所以Atlas還需要能夠在出現問題時,采取糾正措施。這也是人形機器人必須達到的目標,但是國內少有人重視這些細節環節。例如,如果插入失敗,人形機器人是否可以從地面搜索并拾取掉落的部件,并且重新撿起來?
想要突破這些工廠環境的挑戰,人形機器人需要在感知系統進一步升級。例如需要更具通用性的基礎視覺模型,能識別處理各類工廠零件,又例如機器人本體需要更強的機器學習感知模型,以及強大的位置、狀態估計能力。
![]()
▍波士頓動力的“傳統”解法
波士頓動力怎么解決類似物料搬運插片類似問題?
從視頻中可以看到,他們采用了機器人視覺引導技術,這是一種在工業機器人與傳送帶協同較為成熟的技術,也就是多個二維像素標記點的使用。但正是這種并不復雜點線面的系統重構與使用,融合視覺語言模型(VLM),提高Atlas人形機器人的實時感知能力。
Atlas將障礙物或者抓取物的角點視為關鍵點,為每個物品分配邊界框和關鍵范圍,從而基于外部關鍵點捕捉物體的包絡線,能夠將感知到的世界與其固定裝置外觀的內部模型進行匹配,從而計算物體類型、所占的體積、形狀、尺寸和抓取力。再結合內部多個標記點,判斷區隔、分布、堆疊等信息,重構拾取和放置位置的參考坐標。為了執行固定裝置分類和關鍵點預測,Atlas還使用了一種輕量級網絡架構,在性能和實時感知之間取得了平衡,防止過熱風險。
![]()
除了基礎的位置識別,導航與抓取更需要3D模型的建立。為了抓取固定裝置內的物體,Atlas首先會估算自身相對于該特定固定裝置的位置。Atlas依然是使用基于關鍵點的固定裝置定位模塊來判斷自身相對位置和方向。
這套固定裝置定位系統從物體檢測流程中提取內部和外部關鍵點,并通過最小化它們的重投影誤差,將它們與預期空間分布的先驗模型對齊。同時系統提取運動里程計,用于測量Atlas的移動速度和方向,以將固定裝置姿態估計融合到一致的幀中,從而提高關鍵點噪聲預測的可靠性。
實現可靠固定裝置姿態估計的關鍵挑戰在于處理頻繁的遮擋和視野外的關鍵點。例如,當Atlas靠近固定裝置時,一些外部關鍵點可能不在視野范圍內。傾斜視圖也具有挑戰性,因為較遠的關鍵點通常不可靠。定位系統通過感知固定裝置內部(插槽分隔線之間的角點)的大量關鍵點來解決這個問題,這些關鍵點與物體的插入或提取方式直接相關。
這就產生了2D關鍵點和3D角點之間的關聯挑戰——圖像中每個關鍵點對應哪個角點?Atlas根據外部關鍵點進行初步近似,從而可以對內部關鍵點關聯做出初步猜測。然后,內外關鍵點的組合可以對固定裝置及其所有插槽的姿態進行更可靠的估計。
Atlas強大的物體操控技能依賴于準確、實時的以物體為中心的感知,評估該零件的拓撲結構確定如何操作以及將其放置在何處。Atlas的物體姿態追蹤系統SuperTracker融合了不同的信息流:機器人運動學、視覺以及必要時的力。來自Atlas關節編碼器的運動學信息使其能夠確定Atlas的夾持器在空間中的位置。
![]()
例如當Atlas識別出它已經抓住了一個物體時,這些信息可以為Atlas在移動身體時物體應該在的位置提供強有力的先驗信息。通過融合運動學數據,Atlas可以處理物體在視覺上被遮擋或超出其攝像頭視野的情況,并在物體從其抓握中滑落時通知Atlas預判具體情況。
萬一當物體滑落時,或者物體位于攝像頭視野范圍內時,機器人會被動地運行相同的視覺模型,通過物體姿態估計模型,也就是如果在正常運行過程中檢測到物體脫離夾具,則可以觸發前述相同的行為,采用渲染與比較方法,從單目圖像中估計姿態再次抓取物體。
![]()
該模型使用大規模合成數據進行訓練,并基于CAD模型將零樣本模型推廣到新物體。也就是未來在物體的識別以及抓取環節,機器人會使用3D姿態先驗進行初始化,而后該模型會迭代地對其進行優化,以最小化渲染的CAD模型與捕獲的攝像頭圖像之間的差異。
姿態估計器也可以使用二維感興趣區域先驗進行初始化,之后,Atlas會生成一批姿態假設,并將其輸入到評分模型中,最終優化出最佳擬合假設。簡單來說,當物體位于攝像頭視野范圍內時,Atlas會使用一個物體姿態估計模型,該模型采用渲染和比較的方法,從單目圖像中估計姿態。
當使用3D姿態先驗進行初始化時,該模型會迭代地對其進行優化,并使用一系列過濾器來驗證這些姿態估計,以最大限度地減少渲染的CAD模型與捕獲的攝像頭圖像之間的差異,從而最終使得機器人能夠應對其運行環境的細微變化和宏觀變化。
![]()
▍老方法的新作用
在這套動作展示中,我們看到了機器人前所未有的流暢性,減少了大部分的抖動。一般而言,多傳感器融合后,會導致多系統的耦合出現較多的冗余,因為機器運算速率很難跟上快速處理先進傳感器的數據量。但波士頓動力相對采取了一套成熟的老方法,精簡代碼集以提高運算速率。這種雙層分析架構使 Atlas 能夠以驚人的精度定位單個槽位。感知模型實時運行,確保 Atlas 能夠在性能和速度之間保持平衡,這對其動態運動至關重要。
通過為每個物品分配邊界框和關鍵點,Atlas 可以有效地繪制其環境地圖。在工業環境中,它經常會遇到形狀和尺寸各異的存儲裝置。這些裝置使用關鍵點進行剖析,外部關鍵點定義物體的大致形狀,內部關鍵點則精確定位內部槽位。
為了使不同層級架構數據匹配,官方的解釋是依然使用了較為傳統的機器人固定滯后平滑器進行運動學和相機輸入的異步處理。該平滑器會收集來自Atlas關節編碼器的高速運動學輸入歷史記錄,以及來自機器學習模型的低速視覺姿態估計,使用一批擾動初始化而不是單一姿勢先驗,并確定最佳擬合的6自由度物體軌跡即可。
![]()
為了確保人形機器人動作與視覺相機建圖的一致性,Atlas還有一個類似工業機器人的額外類似校準程序。也就是在執行排序等精確操作任務時,Atlas會有一個短暫的類似工業機器人重定向流程。這背后是一套精心設計的攝像頭和運動校準程序,用于補償機器人身體制造和組裝過程中的不精確性,以及由于溫度變化或反復物理沖擊等外部因素造成的物理變化。
![]()
良好校準的手眼協調有利于幫助Atlas將所看到的內容與Atlas的行為方式之間達成精確可靠的映射,準確的手眼校準也是實現高性能操作和感知驅動自主的關鍵因素。Atlas 的空間記憶和上下文理解能力更進一步增強了該系統,使其能夠區分看似相同的夾具,這在雜亂的工業環境中至關重要。
![]()
▍結語與未來
波士頓動力依然旨在“開發世界上最先進的機器人”。
但人形機器人是一個新技術迭出的跨時代產品,如何將這些新技術更好融合在機器人系統中,真正以目標為導向實現匹配,幫助人形機器人跨越從實驗室到物理現實任務的障礙,可能仍需要機器人研發工程師能夠持續將機器人技術推到更極致的水平。
那么在探索階段,我們是否也應該考慮,最先進的技術與產品有時候并不意味著最好用,尤其在面對陌生場景探索時,傳統但成熟且穩定的技術,有時候在機器人工程學的大視角下,整合應用到極致,或許依然可以帶來超乎想象的能效。
更多關于人形機器人賽道深度文章可在“人形機器人發布”公眾號中查看,歡迎前來關注。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.