![]()
熱熱鬧鬧了一整年,機(jī)器人在真實(shí)場(chǎng)景中干活的水平怎么樣了?
昨天,具身智能領(lǐng)域傳來(lái)的一則消息,或許能為我們帶來(lái)一個(gè)更為清晰的信號(hào)。
1月12日,千尋智能宣布開(kāi)源自研的VLA(視覺(jué)-語(yǔ)言-動(dòng)作)基礎(chǔ)模型Spirit v1.5。就在前一天,該模型在全球具身智能模型評(píng)測(cè)平臺(tái)RoboChallenge的綜合評(píng)測(cè)中一舉登頂,超越美國(guó)具身智能明星公司Physical Intelligence的Pi0.5。
![]()
在過(guò)去的2025年里,千尋智能旗下人形機(jī)器人Moz1頻繁活躍在北上廣深杭的各大展會(huì)上,疊衣服、串奶皮子糖葫蘆、搭積木、賣(mài)飲料、端盤(pán)子……而就在上個(gè)月下旬,它們的小伙伴“小墨”,正式成為寧德時(shí)代中州基地的“員工”,在生產(chǎn)線上開(kāi)展實(shí)際工作。

![]()
全球榜單中
唯一成功率破50%的模型
Spirit v1.5是什么?
Spirit v1.5是千尋智能自主研發(fā)并開(kāi)源的VLA基礎(chǔ)模型,將視覺(jué)感知、語(yǔ)言理解與動(dòng)作生成整合在同一決策流程中,減少多模塊串聯(lián)帶來(lái)的信息損耗,并提升長(zhǎng)程任務(wù)中的整體穩(wěn)定性。
RoboChallenge又是什么?
它是一個(gè)面向真實(shí)機(jī)器人執(zhí)行場(chǎng)景的標(biāo)準(zhǔn)化評(píng)測(cè)基準(zhǔn),由Dexmal(原力靈機(jī))、Hugging Face(抱抱臉)等全球知名機(jī)構(gòu)聯(lián)合發(fā)起,聚焦具身智能模型的跨平臺(tái)能力驗(yàn)證。
這個(gè)平臺(tái)強(qiáng)調(diào)真實(shí)機(jī)器人執(zhí)行能力,評(píng)測(cè)維度涵蓋復(fù)雜指令理解、多步驟操作、跨場(chǎng)景穩(wěn)定性等,被業(yè)界視為當(dāng)前具身智能領(lǐng)域最接近真實(shí)落地場(chǎng)景的基準(zhǔn)測(cè)試之一。
具體測(cè)些什么?
本次測(cè)試包括30項(xiàng)操作任務(wù)(Table 30),像是插花、掛牙刷杯、尋找指定顏色的物體、貼膠條、將筆放入筆盒等。
在這些操作任務(wù)的測(cè)試中,Spirit v1.5綜合得分為66.09分,成功率達(dá)到50.33%,是唯一一個(gè)成功率超過(guò)50%的模型。
![]()
此前數(shù)月,在這份榜單上霸榜的是Pi0.5模型。它由Physical Intelligence于2025年4月發(fā)布,曾因能讓機(jī)器人在全新環(huán)境中完成復(fù)雜家務(wù)而引發(fā)網(wǎng)友熱議。
此次登頂,也意味著國(guó)產(chǎn)具身智能企業(yè),正式躋身全球核心第一梯隊(duì)。
為了證實(shí)榜單成績(jī)?cè)从谧匝心P颓艺鎸?shí)可信,千尋智能已同步開(kāi)源Spirit v1.5的基模權(quán)重、推理代碼和使用樣例,并表示接受公眾與研究社區(qū)的獨(dú)立檢驗(yàn)。
![]()
成功率100%的是疊碗
從榜單能不能看出機(jī)器人現(xiàn)在能做些什么?
先來(lái)看一些具體任務(wù)中的對(duì)比表現(xiàn):
插花任務(wù):Pi05夾起一枝花,但沒(méi)能插進(jìn)花瓶,而是橫放在了瓶口;Spirit v1.5通過(guò)靈活調(diào)整關(guān)節(jié),保證花枝豎直,并被插入花瓶中。
Pi05
Spirit v1.5
清理碗碟:Spirit v1.5可以準(zhǔn)確夾起碗放入透明收納箱,同時(shí)將廢紙巾扔進(jìn)前方綠桶;Pi0.5雖也能完成放碗動(dòng)作,但偶爾會(huì)出現(xiàn)“機(jī)械式執(zhí)行”——無(wú)法判斷是否已抓取物品,僅按固定步驟操作。
Pi05
Spirit v1.5
尋找綠盒:Spirit v1.5能從彩色方塊中鎖定綠色目標(biāo),準(zhǔn)確夾取(該項(xiàng)任務(wù)成功率高達(dá)90%,在所有參與測(cè)試的模型中位列第一);Pi05錯(cuò)選了其中一個(gè)黃色方塊。
Pi05
Spirit v1.5
貼膠帶:Spirit v1.5可協(xié)調(diào)雙臂撕下一段膠帶,貼于快遞盒上;Pi0.5則未能成功撕下膠帶,僅做出一個(gè)貼附的“假動(dòng)作”。貼膠帶屬于典型的閉環(huán)觸覺(jué)接觸任務(wù),對(duì)機(jī)械臂協(xié)同與觸覺(jué)感知要求極高,常會(huì)出現(xiàn)“空抓”現(xiàn)象。
Pi0.5
Spirit v1.5
根據(jù)RoboChallenge官網(wǎng)公布的成績(jī),在“疊碗”(將三只小碗疊放)任務(wù)中,Spirit v1.5獲得98分,成功率100%;將鋼筆放入筆盒、鞋子擺上架子、杯子放置杯墊等任務(wù),成功率也都達(dá)到了90%。
為何要參與此類(lèi)測(cè)試?
看完上面這些任務(wù)的內(nèi)容,大抵就明白了。它們大多模擬人類(lèi)日常生活中的常見(jiàn)操作,既能檢驗(yàn)機(jī)器人在真實(shí)環(huán)境中的感知、抓取與協(xié)同操作能力,又能直觀暴露技術(shù)短板,為后續(xù)產(chǎn)品優(yōu)化與技術(shù)迭代提供真實(shí)、可復(fù)現(xiàn)的測(cè)試依據(jù),因此對(duì)推動(dòng)機(jī)器人技術(shù)落地具有重要意義。
![]()
擁抱多樣化甚至是“混亂”的數(shù)據(jù)
“未來(lái)10年,這個(gè)世界上10%的人可以擁有自己的機(jī)器人。”在此前專(zhuān)訪中,千尋智能創(chuàng)始人兼CEO韓峰濤這樣告訴九千光年。
(新聞回顧?)
這位浙大背景的80后,與清華背景的高陽(yáng)(聯(lián)合創(chuàng)始人兼首席科學(xué)家、“伯克利歸國(guó)四子之一”)攜手,于2024年初創(chuàng)辦千尋智能。
![]()
![]()
韓峰濤和高陽(yáng)
團(tuán)隊(duì)自起步便堅(jiān)定走端到端的“視覺(jué)-語(yǔ)言-動(dòng)作”(VLA)全自研路線。在他們看來(lái),數(shù)據(jù)質(zhì)量決定模型上限,而當(dāng)前VLA大模型的訓(xùn)練關(guān)鍵和挑戰(zhàn),恰恰在于數(shù)據(jù)多樣性。
千尋智能在昨日發(fā)布的技術(shù)博客中,這樣寫(xiě)道:“許多業(yè)界頂尖的模型主要在高度精選的,即所謂的‘干凈’數(shù)據(jù)集上進(jìn)行訓(xùn)練。”“雖然這種‘干凈’的路徑提供了一個(gè)穩(wěn)定的起點(diǎn),但它限制了機(jī)器人的泛化能力。如果機(jī)器人只在一切都清晰可見(jiàn)且觸手可及的世界中學(xué)習(xí),那么當(dāng)它在開(kāi)放世界中面對(duì)不可預(yù)測(cè)性時(shí),很可能會(huì)失敗。”
因此,千尋智能選擇在預(yù)訓(xùn)練階段引入大量多樣化、很大程度上不受控的真實(shí)數(shù)據(jù)。數(shù)據(jù)采集不再?lài)?yán)格限定任務(wù)腳本,而是以“完成有意義目標(biāo)”為導(dǎo)向,允許操作過(guò)程中自然串聯(lián)多個(gè)子任務(wù)與原子技能。“如果我們希望機(jī)器人能應(yīng)對(duì)人類(lèi)家庭環(huán)境中的不可預(yù)測(cè)性,它們就需要從像真實(shí)世界一樣混亂的數(shù)據(jù)中學(xué)習(xí)。”
就在2025年12月下旬,全球首條實(shí)現(xiàn)人形具身智能機(jī)器人規(guī)模化落地的新能源動(dòng)力電池PACK生產(chǎn)線,在寧德時(shí)代中州基地正式投入運(yùn)行。千尋智能研發(fā)的人形機(jī)器人“小墨”搭載寧德時(shí)代自研電池,已能精準(zhǔn)完成電池接插件插接等復(fù)雜作業(yè)。
![]()
附:
技術(shù)博客:
https://www.spirit-ai.com/en/blog/spirit-v1-5
RoboChallenge榜單地址:
https://robochallenge.cn/home
文 | 童蔚
VIEW MORE
@紐約時(shí)報(bào)這篇報(bào)道,讓美國(guó)網(wǎng)友破防了>>
@當(dāng)AI眼鏡陷作弊疑云>>
@他用20年時(shí)間打破腔鏡手術(shù)機(jī)器人的進(jìn)口壟斷>>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.