![]()
不知不覺,2026年已經過去了四分之一了。。。
不知道大伙兒是啥感覺,反正自從開年以來,世超總能刷到各種機器人。今天開幕式上露個臉,明天路演現場走兩步,到處刷存在感。
尤其是從春晚那波機器人武術出圈之后,很多人都覺得,這玩意兒的發展速度是不是有點太快了,去年還在轉手絹,今年已經能給人類上強度了。。。
![]()
不過,我也看到有人說,這些走兩步路、跳個舞的機器人其實沒啥技術含量,說白了就是個大型遙控玩具。
誒,原來讓機器人動起來很容易嗎,那豈不是我上我也行?
為了搞清楚這事兒,這回世超干脆借來了一臺雙足機器人,準備親自訓練點新動作,看看這個類人形機器人,能玩出多少花活兒。
剛一搬進屋,新同事就被好奇的老登們圍了個水泄不通。
大伙兒四足的、人形的在辦公室里見怪不怪,全身只有兩條腿的還是第一次見,紛紛主動列隊歡迎。
![]()
世超 py 來的這個機器人叫 TRON 1,是目前構型最精簡的雙足機器人。翻了翻說明書,這家伙每條腿上各有三個關節,對應三個電機。
相比那些動輒幾十個關節的人形機器人,這種雙足機器人,更適合拿來研究一個最底層的問題:
兩條腿,怎么在真實世界里穩定地走。
按理說,我只要把這兩條腿上,6 個電機安排明白,就能控制它做出想要的動作。比如電機轉得快一點,腿就抬得快一點;角度大一點,腿就抬高一點。
![]()
看起來沒啥難度對吧,搞清楚基本工作原理,咱先從最基本的走路學起,練個手。
想訓練一個機器人在現實里做動作,第一步,得先讓它在虛擬環境里動起來。
創建一個 Isaac Gym 仿真環境,在這里,你可以一次性拉出成千上萬個一模一樣的機器人,讓它們同時摔、同時犯錯,快速成長,訓練效率直線提升。
![]()
而有了訓練的環境,咱又來到了第二關。讓機器人成功走起來的核心,其實是一套合理的獎懲機制。
在這里,世超采用了比較基礎的強化學習 PPO 算法。大伙兒可以把這個過程理解成蘿卜紙巾真蚌,做好了,及時給獎勵,做錯了,就得懲罰。
而機器人和人一樣,學習,是一個循序漸進的過程。要想學花活兒,得先把走路學明白,穩定不摔倒。未經訓練的機器人非常怠惰,只會迅速陷入嬰兒般的睡眠。
所以,一套訓練程序里,十八個獎勵函數,只有三個是給糖吃的:站穩、按給定方向移動、按固定方向移動,其它十五個全負責抽皮鞭。
![]()
雙腿并攏,罰。腳沒著地,罰。頭著地了,罰。
![]()
訓練了一會兒,不走直線,罰。走得太慢,罰。方向錯了,罰。
![]()
什么,你問獎勵給這么少是不是虐待機器人?真不是我們不想給,這么做也是為它好。
獎勵給得太多,很容易讓機器人鉆空子,學不到有用的本事。比如,要是不摔就給獎勵,那機器人大概率會避開走路摔倒的風險,原地罰站。
很快,只要兩三個小時的訓練,機器人順利地走起來了。
![]()
其實直到這里,世超已經通過 TRON 1,完整地體驗了一遍機器人走路的強化學習入門級流程。
有一說一,確實不算難。只要大伙兒有點編程基礎,摸索摸索,做出點好看的成果還是很快的,還相當有成就感。
如果事情只停在這里,那機器人可能確實是個大玩具。
然而,當世超想開始第二階段的拷打,搞點新東西的時候,事情就沒那么簡單了。。。
這一次,我們設計了 3 個新的獎勵函數來讓它走得更有難度:機器人的腿離地面過近、膝蓋彎曲的角度不對、每步走得太短都不行。
![]()
有了這些函數,機器人走路的時候腿會抬得更高,走路的姿勢會變得完全不一樣。
大概四五個小時后,世超給機器人準備的新動作也誕生了。以后它走路得邊跳邊走,年輕人,有活力一點。
![]()
模型準備就緒,模擬世界里一切正常,機器人學得很好。
接下來,只要把這個訓練好的模型,通過一根網線,傳遞到機器人的身上。。。
等等,事情開始不對勁了。
把虛擬環境里的算法移植給現實里的真機器人,才是地獄的開端。
![]()
當那套在模擬器里跑得一點沒毛病的模型注入真機,你會發現電腦里絲滑的步態,到現實里全變成了水土不服。
真實物理世界里,地面變化的摩擦力、機器人重心變化、傳感器的延遲。。。這些微小的變量在幾十斤重的鐵疙瘩身上會無限放大。
世超試了五六次,它依然腳抬不起來,腿邁不開,時不時原地抽搐。
![]()
巨大的聲響,甚至還把金毛火鍋嚇哭了。。。
![]()
沒招了,咱只好向場外求救。聽完逐際動力工程師 Brandon 的解釋,我才意識到,這就是具身智能最難的地方 —— 把看似完美的虛擬模型,搬到殘酷復雜的現實世界。
往好里說,現在這套模型也許不是完全沒戲。
它就像買彩票,你反復跑上成百上千次實驗,只要有一次,環境、參數、運氣全對上了,機器人也能站起來、踉踉蹌蹌走兩步。
但更常見的情況,是模型本身有問題。這時候,我們得把模型回爐重造,修改獎懲機制繼續練習。
甚至存在很大可能,我們再花幾十小時搞出來的新東西,還不如老模型效果好。例如你可能設置了抬高腿的新獎勵,結果直接導致機器人重心不穩。一個 bug 的修復,往往會引入更多的 bug。
另外,很反直覺的是,即使在模擬環境里做到 100% 好,對真機也不一定是好事。
因為它可能早早地過擬合,只在嚴格的特定環境下才好用。
![]()
跑完整個機器人培訓流程,世超才發現我們對它有很多誤解。即使是一個簡單重復的走路動作,一旦要讓它在真的機器人上絲滑運行,也絕對不是一朝一夕的事。
而大伙兒平常快看膩了的各種跳舞、導覽、巡邏功能,往往需要更多的數據、更復雜的訓練手法、面對更變幻莫測的真機反應。
機器人看起來像個大遙控玩具,并不是因為它技術含量低,而是因為真正難的那部分很少被拍出來。
不管是昂貴的數據采集,還是模型一遍又一遍以小時為計的訓練調整,亦或是彌合虛擬世界到真實機器人的巨大鴻溝,都需要有經驗的工程師來反復實驗,反復調試,花費大量金錢和時間,才能保證次次成功,穩定運行。
當然,肯定有差友忍不住問一句:這機器人就兩條腿,能干的事這么少,就算真把它做成了,又有什么用?
逐際動力團隊是這樣向我們解釋的,像 TRON 1 這類機器人,一方面能在游樂園里讓已經滅絕的恐龍“動起來”,在火車站、機場這種人多的環境去巡邏,在大型設備進不去的危險環境作業,用小小很可愛的優勢補位;
![]()
但更重要的價值,并不在立刻能干多少活,而是在科研本身。
同樣是研究兩條腿怎么走,在 TRON 1 這種只有兩條腿的機器人上實驗,成本更低、迭代更快。一旦這些底層規律被跑通,就能類比遷移到更復雜的人形機器人上,相當于先用小號模型把坑都踩完。
科研離生活很遠,但沒有科研機器人,它們永遠不可能走進生活。
![]()
如果把時間拉長一點看,這些機器人的確談不上有用,但研究過程中留下來的方法、經驗、模型和理論依據不會消失,它們會一層層墊在所有后來機器人腳下。
![]()
機器人能走到今天,本身就是一條漫長又不容易的技術積累之路。
我們不如換個角度想,人類進化到可以直立行走,至少經過了幾百萬年。早期想造出一個會走路的機器人,以早稻田大學 WABOT 為例,也是數以年計。而現在,就像世超這樣的非專業工程師,只需要不到一天,就能教會一個鐵疙瘩穩穩走起來。
![]()
從這個意義上說,看似干啥啥不行的機器人,已經超過人了。
所以,趁著這幫鐵疙瘩現在還只會點地板 breaking,世超建議大伙兒還是對它們客氣點。
畢竟當機器人學啥都只要一天不到的時候,被嚇哭的可能就不止是火鍋了。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.