編輯:定慧
【新智元導(dǎo)讀】機(jī)器人終于迎來自己的「iOS時(shí)刻」,全球首個(gè)具身Agentic OS來了:不是裝個(gè)更聰明的大模型,而是給機(jī)器人配上一套真正的「操作系統(tǒng)」。
過去幾年,機(jī)器人視頻越來越多,但細(xì)看你會(huì)發(fā)現(xiàn)一個(gè)問題:
它們的動(dòng)作太「程序感」了。
抓一個(gè)水杯,必須放在固定位置;走一段路,路線早就畫好;面對(duì)突發(fā)狀況,要么站住不動(dòng),要么直接跌倒。
為什么不敢讓機(jī)器人「單獨(dú)行動(dòng)」?
這背后的根本原因,是傳統(tǒng)機(jī)器人的「大腦」和「小腦」是割裂的。
感知?dú)w感知,規(guī)劃歸規(guī)劃,執(zhí)行歸執(zhí)行。每個(gè)環(huán)節(jié)獨(dú)立工作,信息傳遞靠接口,響應(yīng)速度靠隊(duì)列。
一旦環(huán)境稍有變化,系統(tǒng)就容易失靈。
所以,現(xiàn)在很多看起來「自然」的機(jī)器人,其實(shí)背后都有一個(gè)「遙操」工作人員。
![]()
但不可否認(rèn)的是,具身智能正處于一個(gè)前所未有的爆發(fā)期。
如果說2025年是具身智能的量產(chǎn)元年,資本涌入,訂單簽下,還有好幾家公司沖刺IPO。
那2026年,則是人形場(chǎng)景落地元年。
但熱鬧背后,行業(yè)的競(jìng)爭(zhēng)格局正在發(fā)生微妙的變化。
可以從三個(gè)維度來看:
第一,硬件正在快速同質(zhì)化。
電機(jī)、關(guān)節(jié)、傳感器,國(guó)內(nèi)供應(yīng)鏈已經(jīng)非常成熟。
幾家頭部公司用的零部件大同小異,本體的差距正在迅速縮小。
硬件本身,越來越難拉開差距。當(dāng)然,本體的設(shè)計(jì)在性能和成本上依然會(huì)發(fā)揮重要作用。
![]()
第二,運(yùn)控能力出現(xiàn)了明顯的代際差距。
并不是所有公司都能做好「小腦」。
在運(yùn)動(dòng)控制這個(gè)領(lǐng)域,少數(shù)玩家已經(jīng)遙遙領(lǐng)先——比如逐際動(dòng)力、宇樹、Boston Dynamics。
它們的機(jī)器人能跑、能跳、能在復(fù)雜地形上穩(wěn)定移動(dòng),這背后是多年積累的運(yùn)控技術(shù)壁壘。

逐際動(dòng)力的機(jī)器人行走于崎嶇不平的建筑工地上
第三,「機(jī)器人大腦」仍在全球范圍內(nèi)探索。
如何讓大模型真正落地到物理世界?如何讓認(rèn)知決策轉(zhuǎn)化為穩(wěn)定的物理執(zhí)行?這些問題,全球都還沒有標(biāo)準(zhǔn)答案。
所以,競(jìng)爭(zhēng)的焦點(diǎn)正在轉(zhuǎn)移:光有好硬件不夠,光有好運(yùn)控也不夠,光有聰明的大腦更不夠——關(guān)鍵是誰(shuí)能把這三者真正融合起來。
這就是為什么「大小腦一體化」成了行業(yè)的關(guān)鍵命題。
誰(shuí)能先把機(jī)器人的大腦和小腦真正融合起來,誰(shuí)就能在這一輪競(jìng)爭(zhēng)中占據(jù)先機(jī)。
逐際動(dòng)力的回答:COSA
在這個(gè)行業(yè)拐點(diǎn)上,2026年1月12日,逐際動(dòng)力發(fā)布的COSA系統(tǒng),就是要打破這種割裂感!
COSA,全稱Cognitive OS of Agents,具身智能體系統(tǒng)。
![]()
它有一個(gè)更精準(zhǔn)的定位:具身Agentic OS。
COSA的本質(zhì)是一個(gè)面向物理世界原生的具身Agentic OS。
COSA不是一個(gè)模型,而是一個(gè)為人形機(jī)器人設(shè)計(jì)的操作系統(tǒng)。
為什么強(qiáng)調(diào)「Agentic原生」?
因?yàn)槲磥淼牟僮飨到y(tǒng)——無論是手機(jī)、電腦還是其他智能設(shè)備——都將升級(jí)為Agentic的形態(tài)。
而人形機(jī)器人的OS,必須從一開始就是Agentic原生的。它不能是傳統(tǒng)系統(tǒng)加上AI功能的「改裝版」,而必須從底層就具備自主感知、理解、決策、行動(dòng)的能力。
簡(jiǎn)單說,這是一套讓機(jī)器人能夠同時(shí)想、同時(shí)動(dòng)、邊思考邊干活的操作系統(tǒng)。
聽起來很抽象?讓我舉個(gè)例子。
逐際動(dòng)力的全尺寸人形機(jī)器人Oli,搭載COSA系統(tǒng)后,正在執(zhí)行一個(gè)送水任務(wù)。
走到一半,它突然收到了新的指令。

它沒有停下來,也沒有放棄原來的任務(wù)。
它暫停了一下,把新指令納入規(guī)劃,重新調(diào)整了優(yōu)先級(jí)和路線,然后繼續(xù)走,把水送到了目的地。

這一「暫停」看起來很機(jī)械,卻是機(jī)器人最不「機(jī)器」的一刻。
機(jī)器人Oli一鏡到底
為什么這個(gè)動(dòng)作了不起?
讓我們拉高視角,先看看全球機(jī)器人的競(jìng)爭(zhēng)態(tài)勢(shì)和技術(shù)路線。
被低估的中國(guó)力量
說到全球具身智能的頭部玩家,F(xiàn)igure AI是一個(gè)離不開的名字。
2025年,F(xiàn)igure AI估值飆升至390億美元,成為全球具身智能初創(chuàng)企業(yè)中估值最高的公司。
它的明星背書、資本能量、話題熱度,幾乎代表了美國(guó)市場(chǎng)對(duì)人形機(jī)器人的最高期待。
從技術(shù)維度來看,逐際動(dòng)力的COSA與Figure AI正在解決同一個(gè)核心問題:
如何讓機(jī)器人的「大腦」和「小腦」真正協(xié)同工作。
但這里有一個(gè)重要的區(qū)分:
Figure AI的Helix是一個(gè)模型:端到端的VLA(視覺-語(yǔ)言-動(dòng)作)模型,試圖用「快慢腦」系統(tǒng)融合感知與動(dòng)作。
而逐際動(dòng)力的COSA是一套Agentic OS:從架構(gòu)底層出發(fā),構(gòu)建了一套面向物理世界原生的操作系統(tǒng)。
這是兩條不同的技術(shù)路徑:
- Helix更像是給機(jī)器人裝了一顆「超級(jí)大腦」;
- COSA更像是給機(jī)器人建了一套完整的「神經(jīng)系統(tǒng)」。
技術(shù)路徑有差異,但目標(biāo)高度一致——讓機(jī)器人不再是「背課文」,而是「邊想邊動(dòng)」。
但是兩者之間有著本質(zhì)的差異,有三個(gè)值得關(guān)注的地方。
第一,移動(dòng)操作存在差距。
如果你仔細(xì)看Figure AI目前公開的Demo,會(huì)發(fā)現(xiàn)一個(gè)細(xì)節(jié):
移動(dòng)歸移動(dòng),操作歸操作——兩件事是分開演示的。
在演示中,F(xiàn)igure的整個(gè)操作過程中沒有移動(dòng)。
![]()
而搭載COSA的Oli,做到了「移動(dòng)-操作-移動(dòng)」的一鏡到底。
它在移動(dòng)的過程中完成抓取,邊走邊調(diào)整,沒有明顯的停頓切換。
這不是剪輯技巧,而是運(yùn)控能力的真實(shí)差距。逐際動(dòng)力在運(yùn)動(dòng)控制領(lǐng)域的積累,讓它能夠?qū)崿F(xiàn)更流暢、更自然的動(dòng)作融合,更符合場(chǎng)景落地的真實(shí)需求。

第二,技術(shù)路線的本質(zhì)不同。
Helix是一個(gè)大模型——端到端的VLA模型,本質(zhì)上是一個(gè)App。
COSA是一個(gè)具身Agentic OS——從底層架構(gòu)設(shè)計(jì)的操作系統(tǒng)。
App和操作系統(tǒng),是完全不同的物種。
第三,估值的巨大落差。
Figure AI的390億美元估值,遠(yuǎn)超逐際動(dòng)力。
但從技術(shù)能力的呈現(xiàn)來看,逐際動(dòng)力的COSA與Oli的表現(xiàn),已經(jīng)站在了世界第一梯隊(duì)。
這或許說明一件事:中國(guó)具身智能企業(yè),正在被嚴(yán)重低估。
不是技術(shù)不夠好,而是市場(chǎng)定價(jià)還沒跟上。
至少?gòu)腃OSA的愿景來看,逐際動(dòng)力已經(jīng)用產(chǎn)品證明了一件事——
中國(guó)團(tuán)隊(duì),已經(jīng)證明了自己,完全有能力站在具身智能的世界前沿。
COSA做了什么?技術(shù)深度解析
那么,COSA是如何解決機(jī)器人「大小腦」融合問題的?
我們需要先看看傳統(tǒng)機(jī)器人的「神經(jīng)系統(tǒng)」是怎么工作的。
你可以把機(jī)器人的智能分成兩部分:
一個(gè)是「大腦」,負(fù)責(zé)理解指令、規(guī)劃任務(wù)、做出決策;
![]()
一個(gè)是「小腦」,負(fù)責(zé)控制身體、執(zhí)行動(dòng)作、保持平衡。
![]()
聽起來分工明確,對(duì)吧?問題就出在這里。
傳統(tǒng)的做法,是讓大腦和小腦各干各的。
大腦想好了,輸出一條指令;小腦接到指令,執(zhí)行動(dòng)作。
這種架構(gòu)有一個(gè)致命缺陷:中間斷層了。
不是說大腦和小腦配合得慢,而是它們之間缺少一個(gè)關(guān)鍵的「中間層」:能夠把認(rèn)知決策真正轉(zhuǎn)化為復(fù)雜物理行為的高階技能層。
什么意思?
大腦說「去那邊拿杯子」,這是一個(gè)高層意圖。小腦能做的是控制關(guān)節(jié)、保持平衡,這是底層動(dòng)作。
但從「去拿杯子」到「怎么繞過障礙物、怎么邊走邊調(diào)整姿態(tài)、怎么在移動(dòng)中完成抓取」——這一整套復(fù)雜行為的調(diào)度和融合,傳統(tǒng)架構(gòu)里沒有人管。
大腦的想法,「一下子」夠不著物理世界。
所以我們看到的很多機(jī)器人演示,其實(shí)都是在精心控制的環(huán)境里完成的。杯子放在固定位置,路線提前規(guī)劃好,沒有意外,沒有干擾。
一旦放到真實(shí)場(chǎng)景,問題就暴露了:不是某個(gè)模塊不行,而是模塊之間沒有真正打通。
這同樣也是目前一些看起來夸張的視頻的機(jī)器人,其實(shí)背后大概率是依賴于遙操作。
![]()
COSA的三層架構(gòu)
COSA的發(fā)布,是逐際動(dòng)力給出的答案——一個(gè)讓大腦和小腦真正融合的系統(tǒng)。
讓我們深入技術(shù)層面——看看COSA究竟是如何成為那個(gè)「補(bǔ)上拼圖」的答案。
COSA的核心突破,可以用一句話概括:把大腦和小腦融合成一個(gè)系統(tǒng)。
這不是簡(jiǎn)單的「接口對(duì)接」,而是從架構(gòu)底層重新設(shè)計(jì)。
在COSA的體系里,運(yùn)動(dòng)能力不再是認(rèn)知的「輸出」,而是認(rèn)知的「基礎(chǔ)」。
機(jī)器人的決策也不再是一次性的規(guī)劃,而是與環(huán)境持續(xù)交互的反饋和響應(yīng)的過程。
![]()
打個(gè)比方:
傳統(tǒng)的方式像是「先想后做」——我想好了所有步驟,然后一步步執(zhí)行。
COSA的方式像是「邊想邊做」——我一邊執(zhí)行,一邊根據(jù)反饋調(diào)整計(jì)劃。
這就是所謂的大小腦一體化。
具體來說,COSA有三層架構(gòu):
第一層,是一個(gè)叫「小腦基礎(chǔ)模型」的東西。
它不是提前訓(xùn)練好的一套固定動(dòng)作,而是一個(gè)能實(shí)時(shí)生成任意全身動(dòng)作的基礎(chǔ)模型。
這意味著機(jī)器人可以隨時(shí)調(diào)整姿態(tài),而不是從動(dòng)作庫(kù)里調(diào)一個(gè)預(yù)設(shè)的走路、抬手和轉(zhuǎn)身。
第二層,是大小腦融合的高階技能層。
打通導(dǎo)航、避障、移動(dòng)操作、上下樓梯等復(fù)雜行為和全身運(yùn)控基礎(chǔ)模型間的對(duì)齊。
真正讓大腦能力觸達(dá)物理世界,這是運(yùn)動(dòng)智能與認(rèn)知智能之間的橋梁。
第三層,是認(rèn)知與決策。
理解自然語(yǔ)言、拆解任務(wù)、動(dòng)態(tài)規(guī)劃、調(diào)整優(yōu)先級(jí)——這些「大腦」的工作,都在這一層完成。
但關(guān)鍵不在于這三層本身,而在于它們是如何連接的。COSA讓這三層實(shí)時(shí)耦合。
上層的決策可以直接影響底層的動(dòng)作,底層的感知可以即時(shí)反饋給上層。
COSA讓他們?nèi)哌\(yùn)行如一體。
大模型落地到物理世界,最大的挑戰(zhàn)不是算力,而是「脫節(jié)」。
再聰明的大腦,如果不懂得調(diào)度身體的各種能力,不理解來自身體和物理世界的反饋,就只會(huì)臆想出理想的方案——卻在執(zhí)行的那一刻失敗。
![]()
COSA解決的就是這個(gè)問題。
它讓大腦真正「感知」到身體在做什么、環(huán)境發(fā)生了什么變化;也讓身體知道大腦想要什么,并且能夠靈活調(diào)整去實(shí)現(xiàn)它。
上層的決策可以影響底層的動(dòng)作,底層的感知可以反饋給上層,中間的技能層負(fù)責(zé)把兩邊對(duì)齊。
三層能力各自提升,會(huì)帶動(dòng)COSA整體水平提高;而COSA作為樞紐,把不同的技術(shù)和能力整合在一個(gè)系統(tǒng)里管理,保證這套系統(tǒng)能適應(yīng)物理世界的真實(shí)環(huán)境。
這是一個(gè)還沒有人做過的事情。
實(shí)現(xiàn)「知行合一」,即理解任務(wù)、感知環(huán)境、調(diào)整決策、組合技能、物理執(zhí)行的完整閉環(huán)。
![]()
![]()
三個(gè)能力,讓機(jī)器人真正「知行合一」
基于COSA的三層架構(gòu),COSA能夠賦予機(jī)器人三大核心能力:
第一,理解「模糊指令」
「幫我拿兩瓶水到前臺(tái)給客人。」
這句話對(duì)人來說很簡(jiǎn)單。但對(duì)機(jī)器人來說,里面全是未知數(shù):
水在哪?前臺(tái)在哪?客人是誰(shuí)、坐在哪?怎么走過去?
傳統(tǒng)機(jī)器人需要你一步步告訴它:先找到水、拿起水、轉(zhuǎn)向、去到前臺(tái)、找到客人、走到沙發(fā)旁邊、遞水……
COSA讓機(jī)器人能自己「填空」。
它會(huì)理解你的意圖,拆解成子任務(wù),規(guī)劃執(zhí)行路徑,并且在過程中根據(jù)環(huán)境變化動(dòng)態(tài)調(diào)整。
這不是簡(jiǎn)單的語(yǔ)音識(shí)別,而是真正的意圖理解和自主規(guī)劃。
第二,擁有「記憶」
更厲害的是,Oli記得東西。
它會(huì)記住「剛才那個(gè)人是誰(shuí)」、「那個(gè)柜子里有什么」、「上次走這條路遇到了什么障礙」。
這種跨時(shí)間的語(yǔ)義記憶,讓機(jī)器人從「響應(yīng)式」變成了「認(rèn)知式」。
它不只是看到什么就反應(yīng)什么,而是能基于過去的經(jīng)驗(yàn)做出判斷。
機(jī)器人開始真正「認(rèn)識(shí)」這個(gè)世界了。
第三,想到就能做到
最后一點(diǎn),也是最關(guān)鍵的:COSA讓機(jī)器人的「想法」能變成「動(dòng)作」。
這聽起來理所當(dāng)然,但其實(shí)是具身智能最大的瓶頸。
很多機(jī)器人大腦很聰明,規(guī)劃得頭頭是道,但執(zhí)行的時(shí)候一塌糊涂。要么動(dòng)作不穩(wěn),要么反應(yīng)太慢,要么遇到干擾就歇菜。
COSA的大小腦一體化,解決的就是這個(gè)問題。
逐際動(dòng)力用了一個(gè)很準(zhǔn)確的說法:「想得到,更做得到。」
具身智能的中國(guó)答案
從逐際動(dòng)力COSA這一具身Agentic OS,與Figure AI的大模型對(duì)比中,我們可以清晰地看到:
中國(guó)具身智能,正在從「跟跑者」變成「定義者」。
放眼全球,具身智能的競(jìng)爭(zhēng)正在加速收斂為「系統(tǒng)能力」的競(jìng)爭(zhēng)。
美國(guó)有Figure AI、Physical Intelligence這樣的頭部玩家,依托資本和技術(shù)優(yōu)勢(shì)快速迭代。
中國(guó)企業(yè)的機(jī)會(huì)在哪?
逐際動(dòng)力給出的答案是:具身智能的全棧能力。
包括:本體硬件、小腦運(yùn)控智能、大小腦融合的系統(tǒng)——三層能力,全部自研。
中國(guó)工廠能造出全球性價(jià)比的關(guān)節(jié)、最穩(wěn)定的電機(jī),而COSA的發(fā)布證明,中國(guó)團(tuán)隊(duì)也能做出世界級(jí)的具身Agentic OS。
「想得到,做得好」——這不只是COSA的技術(shù)口號(hào),也是逐際動(dòng)力對(duì)「中國(guó)方案」的一次作答。
逐際動(dòng)力的愿景很明確:服務(wù)于人,而非服務(wù)于工序。
機(jī)器人的價(jià)值,最終要體現(xiàn)在它能為人做什么。
![]()
![]()
從「機(jī)械表演」到「智能覺醒」
回到之前Oli停了一下的那個(gè)畫面:等待接收新的任務(wù),然后把水送到了目的地。
![]()
這個(gè)動(dòng)作不復(fù)雜,但它背后代表的能力鏈條是:實(shí)時(shí)感知、記憶調(diào)取、意圖理解、任務(wù)規(guī)劃、動(dòng)態(tài)調(diào)整、穩(wěn)定執(zhí)行。
過去,這是六個(gè)獨(dú)立的模塊。
現(xiàn)在,這是一次連貫的「思考-行動(dòng)」。
這或許就是COSA最想說明的一件事:
機(jī)器人,終于不只是在執(zhí)行指令了,它開始有了一點(diǎn)自己的「想法」。
而這一刻,正是具身智能從Demo到產(chǎn)品的真正分水嶺。
回顧計(jì)算機(jī)的歷史,每一次「操作系統(tǒng)」的誕生,都意味著一個(gè)新時(shí)代的開啟。
Windows讓個(gè)人電腦走進(jìn)千家萬(wàn)戶,Android和iOS讓智能手機(jī)成為人手一臺(tái)的生活必需品。
操作系統(tǒng)的意義,從來不只是技術(shù)本身——它定義了一個(gè)生態(tài)的玩法,決定了未來幾十年的產(chǎn)業(yè)格局。
今天,人形機(jī)器人正站在同樣的十字路口。
硬件漸漸成熟,算法快速迭代,但行業(yè)仍然缺少一個(gè)真正意義上的「操作系統(tǒng)」:
一個(gè)能讓機(jī)器人像智能手機(jī)一樣,在各種場(chǎng)景中穩(wěn)定運(yùn)行、靈活應(yīng)變的底層基座。
COSA的發(fā)布,或許正是補(bǔ)上這塊拼圖的開始。
具身Agentic OS的時(shí)代,來了。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.