過去十年,人形機器人技術取得了長足進步,但要實現大規模普及,或許需要回歸技術本源重新探索。
![]()
上一次關注人形機器人領域的技術進展時,當時的行業現狀用奧威爾式的話語來形容再貼切不過——也就是那句“四條腿好,兩條腿糟”。那是2015年,波士頓動力公司的首款四足機器人“斑點”在油管上爆紅,它能穩穩地爬樓梯,即便被狠狠一腳踹倒也能迅速恢復平衡。而當時的人形機器人則是另一番光景:頻頻摔倒,摔得鼻青臉腫。比起“斑點”,我更心疼那些搖搖晃晃的金屬“鐵疙瘩”。畢竟,雙足行走的技術難關,實在太難攻克。
轉眼到了如今,人形機器人的技術似乎已經成熟到了這樣的地步:特斯拉為研發“擎天柱”人形機器人,不惜將多款電動車型停產;一眾初創企業也一本正經地開啟了人形機器管家的預售。拋開這些炒作不談,我心中滿是好奇:在我未曾關注的這些年里,這個領域是否發生了范式轉變?當然,人工智能的爆發式發展是有目共睹的(也就是后ChatGPT時代的人工智能技術),這一點我自然不會忽略,但我實在想不到,這項技術究竟是如何讓人形機器人擺脫動輒摔倒的窘境的。
在哲學領域,“感受質”指的是我們主觀體驗的特質:比如愛麗絲眼中藍色的模樣,或是鮑勃感受到喜悅時的心境。正如已故哲學家丹尼爾·丹尼特所言,感受質是“事物在我們眼中的樣子”。在本專欄的文章中,專欄作家們將追隨好奇心的腳步,探索那些重要卻未必有答案的科學問題。
為了摸清真實的行業現狀,我采訪了兩位專家:剛從波士頓動力公司離職的斯科特·昆德斯馬,以及敏捷機器人公司的喬納森·赫斯特。兩人都親身經歷了人形機器人“屢摔屢敗”的那段歲月。如今的雙足機器人技術已然堪稱奇跡,想必爬幾段樓梯、開一扇門對它們來說已是輕而易舉,再也不會像十年前那樣費盡九牛二虎之力了。我向兩位研究者提出了同一個問題:你們的旗艦機器人——波士頓動力的“阿特拉斯”和敏捷機器人的“迪吉特”,這兩款目前全球技術最成熟、背景最深厚的人形機器人,能否應對任意規格的樓梯和房門?
赫斯特的回答是:“無法做到穩定應對。”
昆德斯馬則表示:“我認為這個問題至今仍未被徹底解決。”
別誤會我的意思,我從未指望那些面無表情的人形機器人能很快接手我的家務。但爬樓梯、開門這樣的小事呢?現在已經是2026年了,為何人形機器人連這些事都依舊難以做好?
高效、低成本,且基本可控
平心而論,人形機器人領域確實發生了范式轉變,而且是三次。
第一次是深度學習的突破——運行在高速圖形處理器上的神經網絡,讓計算機視覺和強化學習技術實現了質的飛躍,機器人感知環境、與環境互動的速度和精準度都得到了極大提升。2016年,驅動技術領域迎來了一場革命(在機器人專家的語境中,驅動技術就是“讓機械部件動起來的技術”):笨重的液壓機械裝置被體積更小的“本體感受式”電動馬達取代,讓足式機器人擁有了堪比動物的靈活度。而最近的一次突破,則是大型語言模型的問世。事實證明,將聊天機器人技術適配到機器人領域后,機器人能夠自主規劃并完成多步驟任務,比如給蘋果去核、清空洗碗機(至少在演示視頻中是如此)。
這些技術突破,讓人形機器人的性能發生了天翻地覆的變化。2015年DARPA機器人挑戰賽中,波士頓動力的“阿特拉斯”身形龐大、動作僵硬,最終只獲得第二名;而如今的“阿特拉斯”身形輕盈、動作流暢,不僅能跳霹靂舞,還能自主將形狀不規則的物品從一個箱子搬到另一個箱子,即便面對手持曲棍球棍的人類的干擾也能從容應對。
比如,“阿特拉斯”那流暢的步態,就得益于深度強化學習技術。過去,機器人專家需要通過各種手工設計的算法協調機器人的每一個動作,用數學方程模擬機器人的物理運動(且做了大量簡化)。而現在,他們通過讓人形機器人在數字仿真環境中進行無數次訓練,讓神經網絡成為機器人的“全身控制器”。這個過程會讓神經網絡習得一套“行為策略”,指導機器人如何將環境反饋轉化為具體的動作。
昆德斯馬說:“我們利用強化學習技術構建了一套行為策略,由它來負責身體協調、避障、保持平衡等所有工作。”比如,研究人員再也不需要將機器人的腿部建模為“線性倒立擺”,他說:“這種建模方式早已被淘汰。”
這一技術策略的落地,離不開麻省理工學院的桑貝·金在其“獵豹”系列機器人中首創的本體感受式驅動器。“強化學習技術其實已經存在很久了,此前也有人嘗試過,”金說,“但如果使用傳統的電動馬達,機器人在現實世界中一旦未能完美執行既定策略,或是遇到障礙物、受到干擾,就很容易損壞。”
麻省理工學院“不可思議人工智能實驗室”的普利克特·阿格拉瓦爾研究機器人學習領域,上個月我在實驗室采訪他時,他給出了這樣的答案:“想要讓機器人擁有人類一樣的行動能力,我認為我們必須掌握物理規律的精髓。”
他所指的并非廣義相對論、量子引力這類宇宙級的物理問題,也不是如今讓楊立昆等頂尖人工智能研究者著迷的虛擬“世界模型”,而是每一位高中生都應熟知的基礎物理知識:力與慣性。
畢竟,人形機器人被設計為人類形態的核心目的,就是實現金所說的“多用途移動操作能力”——能夠去到幾乎任何地方(包括爬樓梯、穿房門),操作幾乎任何物品(從卸托盤到擰燈泡),且在過程中不會傷害到任何人。簡單來說,就是完成我們人類每天都在做的事。“如果想讓機器人以人類的速度完成這些動作,核心就是對力的精準控制,”阿格拉瓦爾說,“力控技術在傳統機器人領域早已存在,但在現代機器學習領域,應用還并不廣泛。”
力控技術的原理其實很簡單。想象一下,機器人手臂拿著馬克筆在白板上寫字,同時要保證不會戳壞筆尖。40多年前,機器人專家就已經掌握了這項技術:他們為機器人手臂編寫程序,讓其仿佛在筆尖處連接了一根虛擬的彈簧和減震器。昆德斯馬解釋道:“可以將垂直指向白板方向的彈簧調得軟一些,將沿白板表面移動方向的彈簧調得硬一些,這樣機器人就能在精準書寫出各種線條和曲線的同時,保持馬克筆與白板之間的壓力恰到好處。”
這種反饋可以由機器人關節中內置的力傳感器提供,但問題在于,這種傳統的力控方法需要研究人員對機器人、環境和任務本身有充分的了解才能實現。
這種力控方法在執行特定任務的工業機器人身上效果極佳,也曾為人形機器人的行走技術提供過助力,但始終無法實現通用化。桑貝·金研發的本體感受式電動馬達(也被稱為準直驅馬達)簡化了這一問題。這種馬達不僅能承受意外的撞擊而不損壞,還具備高度的“力控透明度”——馬達將電流轉化為相應的力(反之亦然)時,誤差相對極小。本質上,馬達本身就成了力傳感器,昆德斯馬說:“這樣一來,我們就能去掉專門的力傳感器,降低機器人的成本和結構復雜度。”
隨著強化學習逐漸取代手動編程,成為控制人形機器人運動的主流方式,傳統的力控技術并未被拋棄,只是以一種抽象的方式,被分配到了硬件和人工智能系統中。
赫斯特說:“從人工智能的角度來看,研究者無需刻意去考慮力控的問題,只需要知道,要實現所需的力調節,得用準直驅馬達就行。之后在仿真環境中對神經網絡進行數百萬次迭代訓練,再將訓練好的模型部署到實體機器人上,就能實現各種靈活的動作。”
這些神經網絡習得的是控制機器人身體部件位置的通用策略,而力的調節在仿真訓練中往往只是間接實現的,有時則是通過視頻或人類演示學習時產生的附帶效果。
但這些方法目前都未能明確傳授機器人關于力的物理規律——至少現在還沒有。昆德斯馬說:“實現智能力控所需的諸多信號,在視頻和人類演示數據中都是缺失的。”谷歌深度思維的卡羅萊納·帕拉達也承認,視覺-語言-動作模型本質上只是學會了在特定的預設姿勢之間切換,不過這一方法的效果已經超出了預期。“我們自己也很驚訝,在沒有其他傳感數據的情況下,這一方法能發揮如此大的作用。”她說。
但這種方法的能力終究有限。與人類的身體相比,機器人的軀體依舊相對僵硬、笨重,阿格拉瓦爾說:“它們的慣性很大,柔順性也遠不如人類。”這意味著,如果沒有精準的力控技術,機器人在復雜環境中執行精細任務時會舉步維艱。“如果要觸碰易碎物品,哪怕只是一點點操作誤差,都可能造成嚴重的后果。”試想一下,一個普通的雞蛋和一個實心鋼蛋,拿起前者顯然需要遠比后者更小心。
許多性能出色的機器人系統,除了保證位置精度外,還會采用一種簡單的方法來規避力控難題——放慢動作速度。阿格拉瓦爾舉了個例子:“想象一下用汽車挪一把椅子,如果開得足夠慢,就能精準控制車身的位置,進而控制椅子的移動,力的問題也就迎刃而解了。”這也是為什么“阿特拉斯”抓取汽車零部件時動作慢如蝸牛,而在只接觸地面、不觸碰其他物品時,動作卻能像體操運動員一樣輕盈流暢。
昆德斯馬說:“如果說所有實用的操作任務都絕對需要力控技術,那未免言過其實,事實并非如此。”但他、赫斯特和帕拉達都一致認為,僅憑巧妙的力控替代方案,無法讓機器管家擁有我們所需要的通用移動操作靈巧性。即便是如今結合了強化學習、由視覺-語言-動作模型驅動的機器人,即便擁有“互聯網量級”的位置數據用于訓練,帕拉達說:“大概率還是需要進行額外的優化。”人類擰瓶蓋時,能清晰感受到阻力的存在,而人形機器人大多還做不到這一點。這意味著,它們尚未掌握物理規律的精髓——至少未能像人類這樣,通過進化賦予的極其復雜的肌肉骨骼和神經系統,在與環境的終身互動中習得對物理規律的掌控。
這也是時至今日,人形機器人依舊無法徹底解決爬樓梯、開門這類問題的重要原因。某一段樓梯、某一扇門,它們或許能應對,但所有的樓梯、所有的門,再加上其他各式各樣的任務呢?昆德斯馬說:“只依靠位置控制,永遠不可能造出真正實用、能自主工作的人形機器人,力控技術必須成為核心技術。”
尋求突破,還是推倒重來?
那么,從科學角度來看,我們該如何突破這一技術壁壘?我采訪的大多數專家都認為,這需要硬件和軟件技術的全新融合與突破。能更精準收集數據的觸覺傳感器、兼具高功率、高柔順性、高力控透明度且低慣性的機器人手,將極大推動技術發展,而且沒有人認為,必須實現真正的材料突破(比如用人造肌肉替代馬達)才能解決問題。
我采訪的另一位麻省理工學院資深機器人專家拉斯·特德雷克說:“如今的硬件技術已經非常出色,如果把問題歸咎于硬件,那不過是在找借口。”“比如通過遠程操控,將人類的大腦與如今的機器人硬件結合,其性能會超乎想象。”因此,找到更智能的控制方式,才是問題的關鍵。
當被問及如何實現這一目標時,專家們各有見解。阿格拉瓦爾正在研究如何將力控技術與強化學習結合,讓機器人在仿真環境中習得柔順的動作模式,而非在固定的預設姿勢之間切換。特德雷克研發的“大型行為模型”(視覺-語言-動作模型的姊妹模型),打造出了能給蘋果去核的機器人演示原型,他最近在《科學·機器人學》上發文,主張借鑒ChatGPT的發展模式,通過“大規模數據收集和大型預訓練模型”推動技術進步。而弗蘭克·帕克——現代機器人學領域的經典教材《現代機器人學》的作者,則認為當前的人工智能方法應該被徹底推翻,取而代之的是能在基礎層面學習力、加速度等物理本源知識的新方法。他對我說:“視覺-語言-動作的架構從根本上就是錯誤的,我認為這種方法注定會失敗。”
在與這些專家的交流中,最讓我觸動的并非他們關于哪種傳感器、數據或人工智能架構能“解決”人形機器人難題的爭論,而是我感受到,這個領域的科學理念已經發生了轉變。我第一次采訪赫斯特時,他剛從俄勒岡州立大學的實驗室孵化出敏捷機器人公司,如今他對此有著深刻的見解。
他說:“我記得吉爾·普拉特曾說過,他最擔心的是,我們還沒真正弄明白機器人行走和奔跑的原理,就靠著強化學習和人工智能技術讓機器人實現了這些動作。”吉爾·普拉特曾任麻省理工學院腿部實驗室主任,后擔任DARPA機器人挑戰賽的項目負責人。“而如今,我們在很大程度上正走著這樣的路。”(編者注:吉爾·普拉特對這段對話的回憶有所不同,他承認機器學習技術能讓機器人實現超出人類理論認知的性能,但并不認為這是一件值得擔憂的事。)
特德雷克認同這一觀點,但他表示,人類在科學和工程領域,早已不止一次在尚未完全掌握基礎原理的情況下實現技術突破。“回顧電磁學的發展歷程,volta時代的科學家只是將電極插進青蛙體內做實驗,之后法拉第做了一系列關鍵實驗,最終麥克斯韋總結出了電磁學的基本方程。我認為,如今的人形機器人領域,正處于volta時代。”
那么,人形機器人技術究竟何時才能成熟?
特德雷克說:“如今的機器人性能依舊不盡如人意,要實現成熟還需要時間,但技術框架已經搭建得很好了。這兩點都是事實,而且,這個領域的探索之路,依舊充滿挑戰。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.