“我們正從感知智能邁向行動(dòng)智能的新紀(jì)元。”
這是斯坦福大學(xué)HAI聯(lián)合主任、具身智能領(lǐng)域先驅(qū)李飛飛教授所前瞻的下一個(gè)機(jī)器人時(shí)代節(jié)點(diǎn),其認(rèn)為機(jī)器人的下一個(gè)挑戰(zhàn),不是如何看得更準(zhǔn),而是如何根據(jù)所見做出正確的決策和行動(dòng),而這需要一種全新的、通用化的AI能力框架。
![]()
過去數(shù)十年,機(jī)器人被牢牢禁錮在固定范圍之內(nèi),執(zhí)行著精準(zhǔn)卻單一的重復(fù)性任務(wù)。如今,源于以大模型為代表的AI技術(shù)的突破性進(jìn)展,全球機(jī)器人產(chǎn)業(yè)在具身智能等新理念的驅(qū)動(dòng)下,正迎來一個(gè)歷史性的“奇點(diǎn)時(shí)刻(singularity)”,即從專用到通用的范式轉(zhuǎn)移。
人們開始希望,機(jī)器人不再是為特定流水線量身定制的工具,而是一種能夠適應(yīng)復(fù)雜、非結(jié)構(gòu)化環(huán)境,并執(zhí)行多種任務(wù)的通用型智能體,或者稱其為通用機(jī)器人(General-Purpose Robots)。
▍機(jī)器人如何加速進(jìn)入“通用化”臨界點(diǎn)?
機(jī)器人想要實(shí)現(xiàn)這一宏大的“通用化”愿景,產(chǎn)業(yè)對底層支撐技術(shù)提出了前所未有的苛刻要求,四大技術(shù)支柱或許缺一不可。
因?yàn)橛?xùn)練一個(gè)能夠理解千變?nèi)f化物理世界的機(jī)器人通用“大腦”,需要處理遠(yuǎn)超以往的視覺、語言和動(dòng)作數(shù)據(jù)。這要求算力規(guī)模從當(dāng)前的千卡集群向萬卡乃至更大規(guī)模演進(jìn)。
正如NVIDIA創(chuàng)始人兼CEO黃仁勛多次強(qiáng)調(diào)的:“機(jī)器人時(shí)代的ChatGPT時(shí)刻即將到來,而它的實(shí)現(xiàn)必須建立在加速計(jì)算的基礎(chǔ)之上,這種大腦模型需要前所未有的算力密度。”
與此同時(shí),現(xiàn)實(shí)世界中訓(xùn)練機(jī)器人成本高昂且效率低下。高保真度的仿真平臺成為了必不可少的“訓(xùn)練場”。
因?yàn)樗軌驑?gòu)建一個(gè)與物理世界高度一致的數(shù)字孿生環(huán)境,讓機(jī)器人在其中進(jìn)行數(shù)以億次計(jì)的試錯(cuò)學(xué)習(xí),快速積累“經(jīng)驗(yàn)”。這構(gòu)成了機(jī)器人商業(yè)化落地的前提。
![]()
在2024年,學(xué)術(shù)界進(jìn)一步發(fā)現(xiàn),“通用化”的核心是機(jī)器人對物理世界基本規(guī)律,如重力、摩擦力、材質(zhì)特性和因果關(guān)系的深刻理解。
為此,世界模型的理念逐漸盛行,其正是賦予機(jī)器人這種“常識”的關(guān)鍵:它能讓機(jī)器人進(jìn)行邏輯推理和想象,預(yù)測自身動(dòng)作將帶來的后果,從而規(guī)劃出安全、高效的行為路徑。
想要保證世界模型的前提,還有更豐富的感知系統(tǒng),因?yàn)樵诜墙Y(jié)構(gòu)化的動(dòng)態(tài)環(huán)境中,單一的視覺信息遠(yuǎn)不足以支撐可靠的行動(dòng)。
觸覺、力覺、聽覺乃至熱感知等多模態(tài)傳感信息的實(shí)時(shí)融合與處理變得至關(guān)重要。
此前Google DeepMind機(jī)器人部門前負(fù)責(zé)人、Vincent Vanhoucke就曾指出:“傳感與學(xué)習(xí)的結(jié)合,是解開機(jī)器人通用化之鎖的鑰匙。我們需要的不是更精確的傳感器,而是能讓機(jī)器人像嬰兒一樣通過多感官交互來學(xué)習(xí)和理解世界的算法。”
這些傳感器的融合,才能最終使得機(jī)器人能夠像人類一樣“手眼協(xié)調(diào)”,實(shí)現(xiàn)抓取易碎物品、與人類安全協(xié)作等精細(xì)操作。
▍新技術(shù)帶來的機(jī)器人范式轉(zhuǎn)變
雖然全球機(jī)器人技術(shù)路線尚未完全收斂,但我們正站在從“工具”到“伙伴”的具身智能奇點(diǎn)門前,不可否認(rèn)已經(jīng)開始在機(jī)器人上不由自主地融合各類新理念、新技術(shù),這其實(shí)使得機(jī)器人的底層技術(shù)范式正經(jīng)歷一場深刻的架構(gòu)性重構(gòu)。
最為典型的就是在人形機(jī)器人等具身智能產(chǎn)品上。傳統(tǒng)的、依賴手工編程和預(yù)設(shè)規(guī)則的方法已無法應(yīng)對現(xiàn)實(shí)世界的無限復(fù)雜性,取而代之的是仿真、世界模型與邊緣計(jì)算三者深度融合的新范式。
![]()
這一轉(zhuǎn)變不僅提升了機(jī)器人的能力,更重新定義了機(jī)器人的開發(fā)、訓(xùn)練與部署方式。
例如“仿真優(yōu)先”正成為引領(lǐng)下一代機(jī)器人開發(fā)的核心理念。它不再是產(chǎn)品完成后用于驗(yàn)證的輔助環(huán)節(jié),而是貫穿于設(shè)計(jì)、訓(xùn)練、測試全生命周期的基礎(chǔ)。
在這一范式下,機(jī)器人的“數(shù)字孿生”已經(jīng)能在高保真虛擬環(huán)境中進(jìn)行數(shù)十億次的試錯(cuò)學(xué)習(xí),其效率與安全性遠(yuǎn)超物理世界。
NVIDIA的Omniverse與仿真技術(shù)副總裁Rev Lebaredian對此曾提到:“未來,我們將在虛擬世界中訓(xùn)練所有自主機(jī)器,然后再將它們部署到現(xiàn)實(shí)世界。仿真不是一個(gè)可選項(xiàng),而是構(gòu)建能在復(fù)雜人類環(huán)境中安全可靠運(yùn)行的機(jī)器人的唯一可擴(kuò)展路徑。”
這恰恰標(biāo)志著開發(fā)模式從“物理優(yōu)先”到“仿真優(yōu)先”的根本性轉(zhuǎn)變。
如果說仿真平臺提供了無限的數(shù)據(jù),那么世界模型就是理解和利用這些數(shù)據(jù)的“統(tǒng)一大腦”。它是一個(gè)能夠?qū)W習(xí)和模擬如動(dòng)力學(xué)、因果關(guān)系等物理世界基本規(guī)律的計(jì)算模型。
不少學(xué)術(shù)界的研究已經(jīng)證明,通過世界模型,機(jī)器人能在“腦海”中預(yù)演行動(dòng)的結(jié)果,進(jìn)行推理和規(guī)劃,從而獲得應(yīng)對未知場景的泛化能力,而非僅僅依賴過去見過的數(shù)據(jù)。
有研究科學(xué)家在相關(guān)論文中強(qiáng)調(diào):“世界模型是通向具身智能的關(guān)鍵。它使機(jī)器人能夠進(jìn)行想象式推理,通過內(nèi)部模擬來評估不同行動(dòng)策略的價(jià)值,這是實(shí)現(xiàn)常識和高效學(xué)習(xí)的基石。”這個(gè)世界模型將成為所有機(jī)器人共享的、統(tǒng)一的認(rèn)知架構(gòu)。
除了軟件架構(gòu),在傳輸和存儲技術(shù)上也有著變革發(fā)生。
近年來,人們發(fā)現(xiàn)當(dāng)人形機(jī)器人開始進(jìn)入動(dòng)態(tài)、且可能斷網(wǎng)的真實(shí)環(huán)境時(shí),將算力完全寄托于云端是不切實(shí)際的。毫秒級的反應(yīng)延遲和網(wǎng)絡(luò)可靠性問題,都要求關(guān)鍵決策必須在本地完成。
因此,另一趨勢則是,算力正加速從云端遷移至邊緣,強(qiáng)大的邊緣計(jì)算能力成為機(jī)器人實(shí)時(shí)感知、決策和行動(dòng)的先決條件。
英特爾首席執(zhí)行官帕特·基辛格在談及邊緣AI時(shí)曾指出:“智能的本質(zhì)正從云端走向邊緣,這是下一次范式轉(zhuǎn)移。對于自主機(jī)器人而言,在數(shù)據(jù)產(chǎn)生的地方即時(shí)進(jìn)行處理,是實(shí)現(xiàn)其反應(yīng)能力、可靠性和隱私保護(hù)的必然選擇。”這確保了機(jī)器人在任何情況下都保有最基本的“自主性”。
▍NVIDIA的三臺計(jì)算機(jī)
當(dāng)全球機(jī)器人產(chǎn)業(yè)在“通用化”的臨界點(diǎn)前徘徊,苦于算法、算力與數(shù)據(jù)的割裂時(shí),作為最早一批押注具身智能趨勢的企業(yè),NVIDIA的做法無疑具備一定代表性。
其以強(qiáng)大的產(chǎn)品和技術(shù)整合能力,提出了一套覆蓋云、邊、端的全棧式解決方案,這套以“三臺計(jì)算機(jī)”為核心的架構(gòu),正在快速更新軟硬件能力,試圖為整個(gè)行業(yè)設(shè)定新的游戲規(guī)則。
![]()
在2023年5月黃仁勛首次提出“具身智能是人工智能下一個(gè)浪潮”的觀點(diǎn)后,NVIDIA的野心,早已超越了單純的硬件供應(yīng)商。近年來其推出的“DGX(訓(xùn)練)- Omniverse/Cosmos(仿真)- Jetson Thor(部署)”技術(shù)鏈,構(gòu)成了一個(gè)近乎完整的機(jī)器人與具身智能開發(fā)閉環(huán),滿足了當(dāng)下機(jī)器人朝著具身智能范式轉(zhuǎn)變的各類需求。
例如NVIDIA Isaac平臺提供基于物理定律的高保真仿真環(huán)境,支持從合成數(shù)據(jù)生成到全棧軟件在環(huán)測試。初創(chuàng)公司可以基于NVIDIA的Isaac平臺和GR00T基礎(chǔ)模型,快速啟動(dòng)研發(fā),無需從零開始搭建耗資巨大且技術(shù)密集的基礎(chǔ)架構(gòu)。
同時(shí),通過Omniverse的高保真物理引擎和Isaac Lab的強(qiáng)化學(xué)習(xí)優(yōu)化,開發(fā)者可以利用GR00T-Mimic和GR00T-Dreams等技術(shù),從少量人類示范中生成海量的合成運(yùn)動(dòng)軌跡和訓(xùn)練數(shù)據(jù),將數(shù)月的數(shù)據(jù)采集工作壓縮至數(shù)十小時(shí),這是方法論層面的顛覆。
這意味著,過去需要耗時(shí)數(shù)月進(jìn)行實(shí)物采集的數(shù)據(jù),現(xiàn)在可在數(shù)十小時(shí)內(nèi)于虛擬世界中自動(dòng)生成。
![]()
這不僅極大地加速了開發(fā)周期,更解決了機(jī)器人學(xué)習(xí)中最核心的數(shù)據(jù)稀缺與長尾難題,實(shí)現(xiàn)了技能從仿真到現(xiàn)實(shí)世界的安全、可靠遷移。
為了支撐高算力,Jetson AGX Thor無疑是NVIDIA布局中的關(guān)鍵落子。
正如前文所提到,在通用機(jī)器人的落地中,邊緣算力是自主性的生命線。NVIDIA Jetson AGX Thor正是為此而生的里程碑式產(chǎn)品。
它基于新一代Blackwell架構(gòu),其模塊化設(shè)計(jì)可同時(shí)運(yùn)行多個(gè)并行的感知、語言、世界模型和動(dòng)作任務(wù),為復(fù)雜的“世界模型+多傳感器融合+實(shí)時(shí)控制”提供了統(tǒng)一的、高能效的承載平臺。
基于Blackwell架構(gòu),Jetson AGX Thor解鎖了在機(jī)器人本體上運(yùn)行如GR00T等大型基礎(chǔ)模型的能力,使其能夠理解自然語言指令、感知復(fù)雜環(huán)境并生成自適應(yīng)行為,從而有望解決人形機(jī)器人對“世界模型”實(shí)時(shí)推理和多模態(tài)傳感融合的苛刻算力需求,讓在機(jī)器人本體上運(yùn)行千億參數(shù)級的模型成為可能。
此外,NVIDIA開源Isaac GR00T系列模型,也是其最高明的戰(zhàn)略之一。
作為機(jī)器人的“統(tǒng)一大腦”,這一開源基礎(chǔ)模型家族實(shí)現(xiàn)了機(jī)器人認(rèn)知與運(yùn)動(dòng)技能的跨越式發(fā)展。其雙系統(tǒng)架構(gòu)完美模擬了人類的認(rèn)知方式,使機(jī)器人能完成從簡單抓取到多步驟邏輯任務(wù)的復(fù)雜操作,目前已經(jīng)成為業(yè)界普遍認(rèn)可的共識。
這種“開放核心”策略,一方面能吸引全球開發(fā)者豐富其生態(tài),反哺模型能力;另一方面,最優(yōu)化、最高效的部署很可能依然緊密綁定在NVIDIA的硬件和軟件生態(tài)之內(nèi)。這既是技術(shù)優(yōu)勢,也是商業(yè)上的精準(zhǔn)卡位。
![]()
▍全棧技術(shù)賦能,通用機(jī)器人走進(jìn)現(xiàn)實(shí)
技術(shù)的價(jià)值最終要通過產(chǎn)業(yè)落地來體現(xiàn)。
NVIDIA的全棧平臺與“三臺計(jì)算機(jī)”戰(zhàn)略,已在全球范圍內(nèi)得到眾多機(jī)器人企業(yè)的認(rèn)可。
無論是國際巨頭還是中國廠商,都在借助這套體系加速通用機(jī)器人的研發(fā)與商用。國外如波士頓動(dòng)力、Agility Robotics、Hexagon,國內(nèi)如銀河通用、宇樹科技、傅利葉智能到智元機(jī)器人和優(yōu)必選等行業(yè)領(lǐng)先企業(yè),不約而同地選擇NVIDIA Jetson Thor作為其下一代機(jī)器人的“大腦”。
![]()
例如作為人形機(jī)器人領(lǐng)域的標(biāo)桿企業(yè),波士頓動(dòng)力將Jetson Thor集成到Atlas機(jī)器人中。這讓Atlas得以在設(shè)備端搭載此前僅服務(wù)器才具備的計(jì)算能力,實(shí)現(xiàn)邊緣端AI工作負(fù)載加速、高帶寬數(shù)據(jù)處理及大容量內(nèi)存支持,進(jìn)一步提升其復(fù)雜動(dòng)作的精準(zhǔn)度與環(huán)境適應(yīng)性。
Agility Robotics的第五代機(jī)器人Digit已實(shí)現(xiàn)商用,在倉庫與制造環(huán)境中執(zhí)行堆疊、裝載等物流任務(wù),而第六代Digit將Jetson Thor作為計(jì)算核心,實(shí)時(shí)感知與決策能力將進(jìn)一步提升,能應(yīng)對更復(fù)雜的AI任務(wù)需求,推動(dòng)物流機(jī)器人的規(guī)模化應(yīng)用。
海克斯康(Hexagon)借助NVIDIA三臺計(jì)算機(jī)開發(fā)人形機(jī)器人AEON,通過Isaac Sim仿真快速掌握核心技能,通過GR00T模型提升推理能力,再通過Jetson平臺實(shí)現(xiàn)邊緣端實(shí)時(shí)自主運(yùn)行,AEON能在復(fù)雜動(dòng)態(tài)環(huán)境中精準(zhǔn)完成導(dǎo)航、行走和機(jī)械臂操作,成為工業(yè)場景的高效協(xié)作者。
銀河通用也將Jetson Thor部署至自研具身大模型機(jī)器人體內(nèi),其Galbot G1 Premium集NVIDIA Jetson Thor、銀河通用自研具身大模型及自主研發(fā)的機(jī)器人操作系統(tǒng)于一身,即便在人流密集、干擾頻繁的高強(qiáng)度連續(xù)任務(wù)中,也能保持穩(wěn)定運(yùn)行并實(shí)現(xiàn)閉環(huán)作業(yè)。
在仿真方面,銀河通用自主構(gòu)建了百億級規(guī)模的高質(zhì)量仿真數(shù)據(jù),在數(shù)據(jù)生成過程中結(jié)合英偉達(dá)渲染引擎加速優(yōu)化,在此基礎(chǔ)上,團(tuán)隊(duì)發(fā)布了多個(gè)自研VLA具身大模型,包括端到端具身抓取基礎(chǔ)大模型GraspVLA、產(chǎn)品級端到端具身導(dǎo)航大模型TrackVLA、端到端零售場景具身大模型GroceryVLA等。
![]()
而宇樹科技旗下H2等機(jī)器人搭載Jetson AGX Thor后,獲得了強(qiáng)大的本地實(shí)時(shí)推理能力,實(shí)現(xiàn)“思考與行動(dòng)分離”。在家庭與工業(yè)場景中,該機(jī)器人能自主識別環(huán)境、規(guī)避障礙物,根據(jù)語音指令完成精準(zhǔn)動(dòng)作,無需依賴云端算力,自主化水平大幅提升。
智元機(jī)器人精靈G2工業(yè)級機(jī)器人更是融入NVIDIA全棧技術(shù),通過Isaac Sim完成復(fù)雜場景仿真訓(xùn)練,借助Jetson Thor的邊緣算力實(shí)現(xiàn)實(shí)時(shí)決策。在工業(yè)車間中,精靈G2能自主應(yīng)對零件位置偏差、人員走動(dòng)等突發(fā)情況,提升了復(fù)雜環(huán)境中的自主性與作業(yè)效率。
Jetson Thor提供的強(qiáng)大邊緣算力,還支撐優(yōu)必選Walker X的多模態(tài)感知與世界模型推理,Isaac平臺則降低了其運(yùn)動(dòng)控制與AI算法的開發(fā)門檻,讓W(xué)alker X能在家庭、辦公等場景中實(shí)現(xiàn)自然的人機(jī)交互,動(dòng)作更流暢、響應(yīng)更快速。
可以發(fā)現(xiàn),全球機(jī)器人企業(yè)都在廣泛采用NVIDIA方案,這本質(zhì)上是一場“效率驅(qū)動(dòng)”和“風(fēng)險(xiǎn)規(guī)避”的集體決策,因?yàn)樵谕ㄓ脵C(jī)器人這片未知的、高風(fēng)險(xiǎn)的“無人區(qū)”中,NVIDIA憑借其全棧技術(shù)實(shí)力,鋪設(shè)了一條最清晰、最成熟的“高速公路”。
企業(yè)上車,并非因?yàn)檫@是唯一的路,而是因?yàn)樵诋?dāng)前階段,這是能夠以最高速度、最低確定性風(fēng)險(xiǎn)駛向目的地的最優(yōu)路徑。
![]()
▍結(jié)語:技術(shù)范式的匯聚與產(chǎn)業(yè)未來的拷問
全球機(jī)器人產(chǎn)業(yè)正屹立于一個(gè)史無前例的轉(zhuǎn)折點(diǎn)上,技術(shù)浪潮匯聚。
從“仿真優(yōu)先”的開發(fā)范式、作為認(rèn)知核心的世界模型,到保障自主性的“邊緣算力”,正共同將“通用機(jī)器人”從科幻敘事推向商業(yè)現(xiàn)實(shí)。
這一變革的本質(zhì),是機(jī)器人技術(shù)范式的深度融合與重構(gòu)。
它不再依賴于單一算法的突破,而是要求算力、數(shù)據(jù)、仿真與模型在一個(gè)協(xié)同的架構(gòu)中共生共進(jìn)。
在這幅宏大的技術(shù)藍(lán)圖中,如NVIDIA等行業(yè)巨頭所構(gòu)建的全棧式平臺,通過提供從云端訓(xùn)練到邊緣部署的完整閉環(huán),儼然成為了加速這一進(jìn)程的“催化劑”。
它們極大地降低了頂尖研發(fā)的門檻,使得初創(chuàng)公司得以站在巨人的肩膀上,專注于創(chuàng)新與應(yīng)用,從而催生了當(dāng)前百花齊放的產(chǎn)業(yè)探索。
可以預(yù)見,我們期待的那個(gè)通用機(jī)器人的未來,或許不會在一夜之間到來。但可以肯定的是,因?yàn)镹VIDIA Jetson AGX Thor等更先進(jìn)產(chǎn)品與技術(shù)的出現(xiàn),我們通往那個(gè)未來的道路,已經(jīng)變得更加清晰、堅(jiān)實(shí),且充滿無限可能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.