機(jī)器之心原創(chuàng)
作者:吳昕
翻車是真的,希望也是真的。
香港中文大學(xué)的一處山間小道,流水小橋,樹影斑駁,青苔攀附在陡峭連綿的石梯上。
![]()
無人機(jī)視野下500 米的定向越野路線。
一只人形機(jī)器人跨過三十度的小橋,走上一段石路,邁過兩段臺(tái)階。好不容易來到一個(gè)九十度的彎,重心一歪,仰面倒下。
全程 500 米的定向越野,它只能走完開頭。
![]()
到了90度分叉路口,就躺平罷工。
第二天,它又出現(xiàn)在大學(xué)的嶺南體育場(chǎng),嘗試戶外分揀垃圾。
草地禿嚕,每一步都像踩進(jìn)人生陷阱,還沒碰到桌上的垃圾,就撲通倒地。
![]()
在第五屆 ATEC 科技精英賽——全球首個(gè)全自主、全真實(shí)戶外場(chǎng)景的機(jī)器人競(jìng)技場(chǎng)上,類似畫面不斷上演。離開遙控器、走到戶外,機(jī)器人還能不能工作?
其實(shí),跳舞、空翻、端咖啡,這些「展臺(tái)神跡」從來不是真實(shí)水平。離開溫室和遙控器,一塊禿草地、一只普通水壺就能瞬間「放倒」它們。

1X NEO,別說讓它親手洗碗了,就連把干干凈凈的鍋碗瓢盆放進(jìn)洗碗機(jī)里,都挺艱難。
過去兩三年,人們普遍高估了人形機(jī)器人的通用能力。很多人喊著,它們將走進(jìn)家庭,承擔(dān)家務(wù),「這個(gè)事情絕對(duì)是高估的。」 ATEC 2025 專家委員會(huì)主席、香港工程院院士劉云輝認(rèn)為,「五年之內(nèi)實(shí)現(xiàn)都相當(dāng)困難。」
但「丟掉遙控器」并不是未來加分項(xiàng),而是具身智能能否真正落地的必選項(xiàng)
一些選手表示,機(jī)器人應(yīng)該去做「人做不了或不該做的事」,在這些場(chǎng)景里,沒人能用遙控器替機(jī)器人做判斷。
必須丟掉遙控器,也不是太難。劉云輝認(rèn)為,從技術(shù)路徑上看,感知與決策是關(guān)鍵。機(jī)器人能不能正確看到世界?能不能自己決定下一步怎么做?
![]()
劉云輝院士(左)在觀看自主澆花的比賽。
感知之困
為了理解并與三維世界溝通、互動(dòng),人類花費(fèi) 5.4 億年進(jìn)化出感知智能。如今,它正困擾著具身智能。在嶺南體育場(chǎng),陽(yáng)光成了機(jī)器人頻繁翻車的罪魁禍?zhǔn)住?/p>
早上七點(diǎn)場(chǎng)地還籠罩在陰影中,一小時(shí)后光照明顯增強(qiáng),到了中午,陽(yáng)光直射,連人類選手都看不清電腦屏幕。
深度相機(jī)(如 RealSense)的主動(dòng)光結(jié)構(gòu)在強(qiáng)光下幾乎失效:透明的礦泉水瓶在機(jī)器人眼里宛隱身,機(jī)械臂照常伸過去,結(jié)果直接把水瓶撞掉。
![]()
終于抓住啦。
澆花任務(wù)同樣困難重重。黃色水壺被曬得發(fā)白,白色桌面又強(qiáng)烈反光,導(dǎo)致點(diǎn)云嚴(yán)重散射,抓取動(dòng)作屢屢失敗。而在 3D 識(shí)別中,那 6 朵形狀不規(guī)則的白色假花,本身就是高難度目標(biāo)。原本規(guī)劃自主完成的隊(duì)伍,無奈選擇遙操。
![]()
選手遙操人形機(jī)器人拿水壺。
吊橋穿越也不省心。視覺定位被陽(yáng)光帶偏,機(jī)器人一步步靠近吊橋邊沿,踩空跌落。
![]()
機(jī)器人走偏后,踩空,掉下橋。
如今,機(jī)器人的移動(dòng)、視覺和導(dǎo)航都令人驚嘆,但操作能力依然相對(duì)原始。英國(guó)皇家工程院院士、意大利技術(shù)研究院(IIT)創(chuàng)始人、IEEE會(huì)士 Darwin Caldwell 說。
為什么操作如此難?因?yàn)椋苿?dòng)的底層難題,本質(zhì)上就是「站穩(wěn) + 邁步」。涉及的物理變量較為固定,也能在仿真中完整構(gòu)建,大規(guī)模強(qiáng)化學(xué)習(xí)因此收斂迅速,進(jìn)展飛快。
操作任務(wù)涉及的變量,卻極其復(fù)雜——
透明與反光、材質(zhì)差異、顏色變化、光照波動(dòng),哪怕只是抓香蕉和抓礦泉水瓶,對(duì)機(jī)器人來說都是完全不同的任務(wù)。
更關(guān)鍵的是,機(jī)器人目前缺乏真實(shí)的物理信息,觸覺反饋幾乎為零。而在人類操作行為中,觸覺和視覺同樣重要。
這也是為何 ATEC 會(huì)在垃圾分揀任務(wù)中選擇玩具香蕉:軟、可變形,但不會(huì)被機(jī)器人捏爛。
![]()
盡管如此,仍有兩支四足機(jī)器人隊(duì)伍像是開了掛,全自主「通關(guān)」垃圾分揀與吊橋穿越。
分揀任務(wù)中,浙江大學(xué) wongtsai 賽隊(duì)沒有依賴大模型,而是回到 「?jìng)鹘y(tǒng)視覺 + 幾何」的老牌路線,并打磨到極致。
![]()
吊橋穿越之前,他們就在模擬器里高度還原真實(shí)場(chǎng)景:不僅復(fù)刻吊橋結(jié)構(gòu),還模擬了 RealSense 在戶外可能遇到的各類噪聲(視差誤差、散斑點(diǎn)云、紋理缺失等),sim2real 部署很順利。
![]()
智能決策之難:20 歲身體,3 歲智商
不少機(jī)器人從業(yè)者都說過類似扎心的真話。
在開放環(huán)境下,讓機(jī)器人自主從桌上拿瓶水都很難。稍微復(fù)雜一點(diǎn)的操作,全靠遙操或同構(gòu)臂。
但我們想外包出去的家務(wù),哪一件不是長(zhǎng)鏈任務(wù) + 工具使用的組合?做早餐不是煎個(gè)雞蛋,而是一套流程:找鍋 → 開火 → 備料 → 下鍋 → 裝盤 → 洗碗……
要讓機(jī)器人做這件事,它必須要有一個(gè)能規(guī)劃、會(huì)決策、有記憶的大腦。但多數(shù)機(jī)器人現(xiàn)在只有「20 歲身體,3 歲智商」。
ATEC2025 賽事組專家、松靈機(jī)器人具身智能部門負(fù)責(zé)人謝志強(qiáng)在直播里舉了個(gè)例子:掃地機(jī)。它能自主移動(dòng),但一旦被卡住,只會(huì)等待人類救援。
這也是為什么自主澆花會(huì)難倒一溜兒機(jī)器人,因?yàn)槿蝿?wù)鏈實(shí)在太長(zhǎng)了——
找到水壺 → 拿起 → 開水龍頭 → 接水 → 關(guān)龍頭 → 找花盆 → 澆花 → 放回原處
相比單步抓取、視覺分類,它考驗(yàn)的是機(jī)器人是否真正具備長(zhǎng)程任務(wù)的能力。結(jié)果,沒有機(jī)器人可以做到全自主。
![]()
浙江大學(xué) wongtsai 賽隊(duì)告訴我們,實(shí)驗(yàn)室里還能泛化的 VLA(視覺-語(yǔ)言-動(dòng)作)模型,一旦到真實(shí)場(chǎng)景就不行了。
大模型能聽懂圖像和指令,但無法真正理解物理世界的細(xì)節(jié),抓水壺、澆花,精度完全不夠。他們選擇了遙操。
![]()
浙江大學(xué)wongtsai賽隊(duì)通過遙操的方式完成了自主澆花的大部分子任務(wù)。
有的隊(duì)伍嘗試混合模式。先用遙控器把機(jī)器人挪到最佳位置,再讓機(jī)械臂自主完成抓壺、接水、澆花。
即便如此,一旦流程中某個(gè)環(huán)節(jié)出現(xiàn)異常,機(jī)器人的腦子就轉(zhuǎn)不過來了。
例如,手拿水壺打開水龍頭,萬(wàn)一卡住,就會(huì)一直停在那里。
垃圾分揀里的道具香蕉,暴曬后會(huì)發(fā)生不可逆的形變,有的機(jī)器人明明已經(jīng)夾住,卻仍堅(jiān)持判定為失敗。
![]()
各出奇招,用水壺撞開水龍頭。
成績(jī)一度領(lǐng)先的機(jī)器人,也在定向越野最后一段失控:反復(fù)掉入同一處排水溝,無法自主調(diào)整,最終只能切回遙操。
![]()
最有意思的是,吊橋穿越。
機(jī)器人先跨過 5cm、10cm 的縫隙,最后迎面撞上一道 50cm 的間隙。
「機(jī)器人要自己做思考、做決策,比如拿起板來填充,從而改變環(huán)境,適應(yīng)自己的運(yùn)動(dòng)。」 劉云輝解釋說,這不再是簡(jiǎn)單的行走,而是包含了環(huán)境評(píng)估、工具使用、任務(wù)規(guī)劃的高級(jí)智能行為。
結(jié)果,四足機(jī)器人根本不考慮這些復(fù)雜操作,直接跳過去。
雙足機(jī)器人先靠物理外掛撐過前兩個(gè)小縫。到了 50cm 大間隙,多半會(huì)把拉繩碰掉,原地等救援。
![]()
各種物理外掛登場(chǎng)
![]()
這臺(tái)雙足機(jī)器人成功拿住了繩子,移動(dòng)木板,邁過去了。
豪華的大模型,毛坯的硬件
和如今的主流路線一樣,今年參賽隊(duì)伍的系統(tǒng)架構(gòu)大多采用「大模型 + 小模型」協(xié)同范式:
大模型負(fù)責(zé)高層語(yǔ)義理解、任務(wù)拆解與策略規(guī)劃;小模型面向前端感知、運(yùn)動(dòng)控制等即時(shí)執(zhí)行;兩者再通過管線化與反饋回路完成閉環(huán)。
但隨之而來的現(xiàn)實(shí)問題是——
一臺(tái)機(jī)器人身上同時(shí)掛著 CPU、GPU、NPU 等一堆異構(gòu)算力,怎么把它們擠進(jìn)一塊體積足夠小、功耗足夠低的板子里,還能高效協(xié)同?
浙江大學(xué) wongtsai 賽隊(duì)以全自主方式,出色完成了三項(xiàng)任務(wù)(包括定向越野)。其端側(cè)配置堪稱豪華。
他們給機(jī)器人掛了三臺(tái)小電腦,一臺(tái) Intel NUC 當(dāng)主控,兩塊英偉達(dá)算力板(一大一小)跑不同規(guī)模的神經(jīng)網(wǎng)絡(luò),比如用 Segment Anything 做圖像分割。
但要支撐更大規(guī)模模型推理,算力還是明顯不夠,延遲高、耗電大。
![]()
浙江大學(xué)wongtsai賽隊(duì)接受采訪,談到 15 萬(wàn)美金獎(jiǎng)金,隊(duì)長(zhǎng)一句話總結(jié):先還債,補(bǔ)貼昂貴設(shè)備成本。
隊(duì)伍成員也提到,要真正走向現(xiàn)實(shí)世界,機(jī)器人必須擁有順勢(shì)而為的自適應(yīng)能力。定向越野時(shí),腳和石頭不會(huì)硬碰硬;澆花時(shí),身體會(huì)隨著水壺重量變化,實(shí)時(shí)調(diào)整重心。
這些都考驗(yàn)著整機(jī)的力控能力與自適應(yīng)控制。而想在復(fù)雜場(chǎng)景中做這種高質(zhì)量感知和控制,目前的算力和本體都還差了一截。
「我們現(xiàn)在有一個(gè)巨大的問題,漂亮的算法無法在機(jī)器人內(nèi)部運(yùn)行。」ATEC2025 賽事組專家、卡里法大學(xué)(Khalifa University)自主機(jī)器人系統(tǒng)教授、機(jī)器人感知研究負(fù)責(zé)人 Jorge Manuel Miranda Dias 指出。要讓機(jī)器人的身體能承載其大腦的智能,低功耗、高性能的專用芯片和輕量化模型是關(guān)鍵。
翻車是真的,希望也是真的
有一件趣事。在比賽前,不少人認(rèn)為機(jī)器人要全自主跑完定向越野,幾乎不可能。ATEC2025 賽事組專家、香港中文大學(xué)機(jī)械與自動(dòng)化工程學(xué)系教授兼系主任、新加坡工程院院士陳本美甚至放下「豪言」,如果真有人做到,香港的餐廳任對(duì)方挑,他請(qǐng)客。
結(jié)果比賽第一天,就有兩臺(tái)四足機(jī)器人完成了全自主定向越野。
500 米級(jí)自然地形導(dǎo)航,信號(hào)差、多窄梯、多彎道、強(qiáng)光擾動(dòng)……在成熟RL控制器支撐下,只依靠自身傳感器去構(gòu)建地圖、完成定位、穩(wěn)定前行。
![]()
劉云輝認(rèn)為,機(jī)器人要真正進(jìn)入人類世界,必須同時(shí)具備三大能力:能走、能操作、能改造環(huán)境。過去十年,四足機(jī)器人在「能走」這一維度已經(jīng)有了質(zhì)變。但「能操作、能改造環(huán)境」仍有巨大的研究空間。
相比四足機(jī)器人,雙足機(jī)器人和人形機(jī)器人還有更長(zhǎng)的路要走。雙足形態(tài)重心高、支撐面小,平衡、力控、地形適應(yīng)都遠(yuǎn)比四足困難,更不用說在行走中完成操作。
它們面對(duì)的,是一個(gè)更陡峭、但也更貼近未來生活場(chǎng)景的技術(shù)坡度。
![]()
雙足、人形機(jī)器人面臨的挑戰(zhàn),比四足機(jī)器人多得多。
翻車很正常,翻車也是一種進(jìn)步。劉云輝說。沒有失敗,也就永遠(yuǎn)沒有成功的可能。
也正因如此,ATEC 組委才會(huì)讓機(jī)器人面對(duì)真實(shí)世界的擾動(dòng)。設(shè)計(jì)的每一道題,都不是為了讓它完成得好看,而是對(duì)這三大能力的系統(tǒng)級(jí)驗(yàn)收,讓它在碰撞中暴露真正的弱點(diǎn)。
畢竟,只有真問題,才能讓行業(yè)知道下一步要突破什么。
AGI 的未來,注定是機(jī)器智能與物理世界的深度融合。作為賽事發(fā)起單位之一,螞蟻集團(tuán)技術(shù)戰(zhàn)略部負(fù)責(zé)人表示,AI 必須從數(shù)據(jù)認(rèn)知走向環(huán)境交互和行動(dòng)執(zhí)行,大家正期待下一次真正意義上的技術(shù)突破。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.