網易首頁 > 網易號 > 正文申請入駐

人形機器人為何仍在小事上栽跟頭？

2026-03-21 21:04:29　來源: 超級AI時代

天津舉報

分享至

過去十年，人形機器人技術取得了長足進步，但要實現大規模普及，或許需要回歸技術本源重新探索。

上一次關注人形機器人領域的技術進展時，當時的行業現狀用奧威爾式的話語來形容再貼切不過——也就是那句“四條腿好，兩條腿糟”。那是2015年，波士頓動力公司的首款四足機器人“斑點”在油管上爆紅，它能穩穩地爬樓梯，即便被狠狠一腳踹倒也能迅速恢復平衡。而當時的人形機器人則是另一番光景：頻頻摔倒，摔得鼻青臉腫。比起“斑點”，我更心疼那些搖搖晃晃的金屬“鐵疙瘩”。畢竟，雙足行走的技術難關，實在太難攻克。

轉眼到了如今，人形機器人的技術似乎已經成熟到了這樣的地步：特斯拉為研發“擎天柱”人形機器人，不惜將多款電動車型停產；一眾初創企業也一本正經地開啟了人形機器管家的預售。拋開這些炒作不談，我心中滿是好奇：在我未曾關注的這些年里，這個領域是否發生了范式轉變？當然，人工智能的爆發式發展是有目共睹的（也就是后ChatGPT時代的人工智能技術），這一點我自然不會忽略，但我實在想不到，這項技術究竟是如何讓人形機器人擺脫動輒摔倒的窘境的。

在哲學領域，“感受質”指的是我們主觀體驗的特質：比如愛麗絲眼中藍色的模樣，或是鮑勃感受到喜悅時的心境。正如已故哲學家丹尼爾·丹尼特所言，感受質是“事物在我們眼中的樣子”。在本專欄的文章中，專欄作家們將追隨好奇心的腳步，探索那些重要卻未必有答案的科學問題。

為了摸清真實的行業現狀，我采訪了兩位專家：剛從波士頓動力公司離職的斯科特·昆德斯馬，以及敏捷機器人公司的喬納森·赫斯特。兩人都親身經歷了人形機器人“屢摔屢敗”的那段歲月。如今的雙足機器人技術已然堪稱奇跡，想必爬幾段樓梯、開一扇門對它們來說已是輕而易舉，再也不會像十年前那樣費盡九牛二虎之力了。我向兩位研究者提出了同一個問題：你們的旗艦機器人——波士頓動力的“阿特拉斯”和敏捷機器人的“迪吉特”，這兩款目前全球技術最成熟、背景最深厚的人形機器人，能否應對任意規格的樓梯和房門？

赫斯特的回答是：“無法做到穩定應對。”

昆德斯馬則表示：“我認為這個問題至今仍未被徹底解決。”

別誤會我的意思，我從未指望那些面無表情的人形機器人能很快接手我的家務。但爬樓梯、開門這樣的小事呢？現在已經是2026年了，為何人形機器人連這些事都依舊難以做好？

高效、低成本，且基本可控

平心而論，人形機器人領域確實發生了范式轉變，而且是三次。

第一次是深度學習的突破——運行在高速圖形處理器上的神經網絡，讓計算機視覺和強化學習技術實現了質的飛躍，機器人感知環境、與環境互動的速度和精準度都得到了極大提升。2016年，驅動技術領域迎來了一場革命（在機器人專家的語境中，驅動技術就是“讓機械部件動起來的技術”）：笨重的液壓機械裝置被體積更小的“本體感受式”電動馬達取代，讓足式機器人擁有了堪比動物的靈活度。而最近的一次突破，則是大型語言模型的問世。事實證明，將聊天機器人技術適配到機器人領域后，機器人能夠自主規劃并完成多步驟任務，比如給蘋果去核、清空洗碗機（至少在演示視頻中是如此）。

這些技術突破，讓人形機器人的性能發生了天翻地覆的變化。2015年DARPA機器人挑戰賽中，波士頓動力的“阿特拉斯”身形龐大、動作僵硬，最終只獲得第二名；而如今的“阿特拉斯”身形輕盈、動作流暢，不僅能跳霹靂舞，還能自主將形狀不規則的物品從一個箱子搬到另一個箱子，即便面對手持曲棍球棍的人類的干擾也能從容應對。

比如，“阿特拉斯”那流暢的步態，就得益于深度強化學習技術。過去，機器人專家需要通過各種手工設計的算法協調機器人的每一個動作，用數學方程模擬機器人的物理運動（且做了大量簡化）。而現在，他們通過讓人形機器人在數字仿真環境中進行無數次訓練，讓神經網絡成為機器人的“全身控制器”。這個過程會讓神經網絡習得一套“行為策略”，指導機器人如何將環境反饋轉化為具體的動作。

昆德斯馬說：“我們利用強化學習技術構建了一套行為策略，由它來負責身體協調、避障、保持平衡等所有工作。”比如，研究人員再也不需要將機器人的腿部建模為“線性倒立擺”，他說：“這種建模方式早已被淘汰。”

這一技術策略的落地，離不開麻省理工學院的桑貝·金在其“獵豹”系列機器人中首創的本體感受式驅動器。“強化學習技術其實已經存在很久了，此前也有人嘗試過，”金說，“但如果使用傳統的電動馬達，機器人在現實世界中一旦未能完美執行既定策略，或是遇到障礙物、受到干擾，就很容易損壞。”

麻省理工學院“不可思議人工智能實驗室”的普利克特·阿格拉瓦爾研究機器人學習領域，上個月我在實驗室采訪他時，他給出了這樣的答案：“想要讓機器人擁有人類一樣的行動能力，我認為我們必須掌握物理規律的精髓。”

他所指的并非廣義相對論、量子引力這類宇宙級的物理問題，也不是如今讓楊立昆等頂尖人工智能研究者著迷的虛擬“世界模型”，而是每一位高中生都應熟知的基礎物理知識：力與慣性。

畢竟，人形機器人被設計為人類形態的核心目的，就是實現金所說的“多用途移動操作能力”——能夠去到幾乎任何地方（包括爬樓梯、穿房門），操作幾乎任何物品（從卸托盤到擰燈泡），且在過程中不會傷害到任何人。簡單來說，就是完成我們人類每天都在做的事。“如果想讓機器人以人類的速度完成這些動作，核心就是對力的精準控制，”阿格拉瓦爾說，“力控技術在傳統機器人領域早已存在，但在現代機器學習領域，應用還并不廣泛。”

力控技術的原理其實很簡單。想象一下，機器人手臂拿著馬克筆在白板上寫字，同時要保證不會戳壞筆尖。40多年前，機器人專家就已經掌握了這項技術：他們為機器人手臂編寫程序，讓其仿佛在筆尖處連接了一根虛擬的彈簧和減震器。昆德斯馬解釋道：“可以將垂直指向白板方向的彈簧調得軟一些，將沿白板表面移動方向的彈簧調得硬一些，這樣機器人就能在精準書寫出各種線條和曲線的同時，保持馬克筆與白板之間的壓力恰到好處。”

這種反饋可以由機器人關節中內置的力傳感器提供，但問題在于，這種傳統的力控方法需要研究人員對機器人、環境和任務本身有充分的了解才能實現。

這種力控方法在執行特定任務的工業機器人身上效果極佳，也曾為人形機器人的行走技術提供過助力，但始終無法實現通用化。桑貝·金研發的本體感受式電動馬達（也被稱為準直驅馬達）簡化了這一問題。這種馬達不僅能承受意外的撞擊而不損壞，還具備高度的“力控透明度”——馬達將電流轉化為相應的力（反之亦然）時，誤差相對極小。本質上，馬達本身就成了力傳感器，昆德斯馬說：“這樣一來，我們就能去掉專門的力傳感器，降低機器人的成本和結構復雜度。”

隨著強化學習逐漸取代手動編程，成為控制人形機器人運動的主流方式，傳統的力控技術并未被拋棄，只是以一種抽象的方式，被分配到了硬件和人工智能系統中。

赫斯特說：“從人工智能的角度來看，研究者無需刻意去考慮力控的問題，只需要知道，要實現所需的力調節，得用準直驅馬達就行。之后在仿真環境中對神經網絡進行數百萬次迭代訓練，再將訓練好的模型部署到實體機器人上，就能實現各種靈活的動作。”

這些神經網絡習得的是控制機器人身體部件位置的通用策略，而力的調節在仿真訓練中往往只是間接實現的，有時則是通過視頻或人類演示學習時產生的附帶效果。

但這些方法目前都未能明確傳授機器人關于力的物理規律——至少現在還沒有。昆德斯馬說：“實現智能力控所需的諸多信號，在視頻和人類演示數據中都是缺失的。”谷歌深度思維的卡羅萊納·帕拉達也承認，視覺-語言-動作模型本質上只是學會了在特定的預設姿勢之間切換，不過這一方法的效果已經超出了預期。“我們自己也很驚訝，在沒有其他傳感數據的情況下，這一方法能發揮如此大的作用。”她說。

但這種方法的能力終究有限。與人類的身體相比，機器人的軀體依舊相對僵硬、笨重，阿格拉瓦爾說：“它們的慣性很大，柔順性也遠不如人類。”這意味著，如果沒有精準的力控技術，機器人在復雜環境中執行精細任務時會舉步維艱。“如果要觸碰易碎物品，哪怕只是一點點操作誤差，都可能造成嚴重的后果。”試想一下，一個普通的雞蛋和一個實心鋼蛋，拿起前者顯然需要遠比后者更小心。

許多性能出色的機器人系統，除了保證位置精度外，還會采用一種簡單的方法來規避力控難題——放慢動作速度。阿格拉瓦爾舉了個例子：“想象一下用汽車挪一把椅子，如果開得足夠慢，就能精準控制車身的位置，進而控制椅子的移動，力的問題也就迎刃而解了。”這也是為什么“阿特拉斯”抓取汽車零部件時動作慢如蝸牛，而在只接觸地面、不觸碰其他物品時，動作卻能像體操運動員一樣輕盈流暢。

昆德斯馬說：“如果說所有實用的操作任務都絕對需要力控技術，那未免言過其實，事實并非如此。”但他、赫斯特和帕拉達都一致認為，僅憑巧妙的力控替代方案，無法讓機器管家擁有我們所需要的通用移動操作靈巧性。即便是如今結合了強化學習、由視覺-語言-動作模型驅動的機器人，即便擁有“互聯網量級”的位置數據用于訓練，帕拉達說：“大概率還是需要進行額外的優化。”人類擰瓶蓋時，能清晰感受到阻力的存在，而人形機器人大多還做不到這一點。這意味著，它們尚未掌握物理規律的精髓——至少未能像人類這樣，通過進化賦予的極其復雜的肌肉骨骼和神經系統，在與環境的終身互動中習得對物理規律的掌控。

這也是時至今日，人形機器人依舊無法徹底解決爬樓梯、開門這類問題的重要原因。某一段樓梯、某一扇門，它們或許能應對，但所有的樓梯、所有的門，再加上其他各式各樣的任務呢？昆德斯馬說：“只依靠位置控制，永遠不可能造出真正實用、能自主工作的人形機器人，力控技術必須成為核心技術。”

尋求突破，還是推倒重來？

那么，從科學角度來看，我們該如何突破這一技術壁壘？我采訪的大多數專家都認為，這需要硬件和軟件技術的全新融合與突破。能更精準收集數據的觸覺傳感器、兼具高功率、高柔順性、高力控透明度且低慣性的機器人手，將極大推動技術發展，而且沒有人認為，必須實現真正的材料突破（比如用人造肌肉替代馬達）才能解決問題。

我采訪的另一位麻省理工學院資深機器人專家拉斯·特德雷克說：“如今的硬件技術已經非常出色，如果把問題歸咎于硬件，那不過是在找借口。”“比如通過遠程操控，將人類的大腦與如今的機器人硬件結合，其性能會超乎想象。”因此，找到更智能的控制方式，才是問題的關鍵。

當被問及如何實現這一目標時，專家們各有見解。阿格拉瓦爾正在研究如何將力控技術與強化學習結合，讓機器人在仿真環境中習得柔順的動作模式，而非在固定的預設姿勢之間切換。特德雷克研發的“大型行為模型”（視覺-語言-動作模型的姊妹模型），打造出了能給蘋果去核的機器人演示原型，他最近在《科學·機器人學》上發文，主張借鑒ChatGPT的發展模式，通過“大規模數據收集和大型預訓練模型”推動技術進步。而弗蘭克·帕克——現代機器人學領域的經典教材《現代機器人學》的作者，則認為當前的人工智能方法應該被徹底推翻，取而代之的是能在基礎層面學習力、加速度等物理本源知識的新方法。他對我說：“視覺-語言-動作的架構從根本上就是錯誤的，我認為這種方法注定會失敗。”

在與這些專家的交流中，最讓我觸動的并非他們關于哪種傳感器、數據或人工智能架構能“解決”人形機器人難題的爭論，而是我感受到，這個領域的科學理念已經發生了轉變。我第一次采訪赫斯特時，他剛從俄勒岡州立大學的實驗室孵化出敏捷機器人公司，如今他對此有著深刻的見解。

他說：“我記得吉爾·普拉特曾說過，他最擔心的是，我們還沒真正弄明白機器人行走和奔跑的原理，就靠著強化學習和人工智能技術讓機器人實現了這些動作。”吉爾·普拉特曾任麻省理工學院腿部實驗室主任，后擔任DARPA機器人挑戰賽的項目負責人。“而如今，我們在很大程度上正走著這樣的路。”（編者注：吉爾·普拉特對這段對話的回憶有所不同，他承認機器學習技術能讓機器人實現超出人類理論認知的性能，但并不認為這是一件值得擔憂的事。）

特德雷克認同這一觀點，但他表示，人類在科學和工程領域，早已不止一次在尚未完全掌握基礎原理的情況下實現技術突破。“回顧電磁學的發展歷程，volta時代的科學家只是將電極插進青蛙體內做實驗，之后法拉第做了一系列關鍵實驗，最終麥克斯韋總結出了電磁學的基本方程。我認為，如今的人形機器人領域，正處于volta時代。”

那么，人形機器人技術究竟何時才能成熟？

特德雷克說：“如今的機器人性能依舊不盡如人意，要實現成熟還需要時間，但技術框架已經搭建得很好了。這兩點都是事實，而且，這個領域的探索之路，依舊充滿挑戰。”

聲明：取材網絡，謹慎辨別

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.