henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
事情開始變得有趣起來了。
剛剛,來自千尋智能的具身智能基礎(chǔ)模型Spirit v1.5,在RoboChallenge真機評測榜上,以總分,成功率50.33%的成績,超越美國明星公司Physical Intelligence的Pi0.5(π0.5),登頂榜首。
![]()
基于多樣化的預訓練數(shù)據(jù)采集范式,Spirit v1.5在插花、把水果放進籃子、掛牙刷杯等多項任務中,拿下第一,刷新榜單紀錄。
![]()
經(jīng)此一役,Spirit v1.5不僅是RoboChallenge自去年10月上線以來,首個擊敗baseline模型Pi0.5的國產(chǎn)具身模型,同時也是首個在RoboChallenge上成功率超過50%的具身智能模型
在此之前,RoboChallenge榜單上,模型間的競爭已逐漸進入白熱化階段,Pi系列基線模型不斷被逼近。
而現(xiàn)在,Spirit v1.5直接越過Pi0.5,拿下榜首。
這種密集、連續(xù)的刷榜節(jié)奏,多少有點讓人想起當年AlexNet、VGG、GoogLeNet、ResNet刷新ImageNet的那段時間——
基準在被不斷打破,模型天花板被一再抬高。
也正如當年CV的開源景象,Spirit v1.5同步開源了基模權(quán)重、推理代碼以及使用樣例,方便后續(xù)的研究者復現(xiàn)和進一步探索。
而正是在這被譽為具身智能「ImageNet」的RoboChallenge上,開源模型正以可驗證、可復現(xiàn)的方式,持續(xù)推動具身能力向前發(fā)展。
開源具身模型能力,全球領(lǐng)先
截至2026年1月12日,Spirit v1.5在RoboChallenge上取得了當前最優(yōu)的性能,超越了Pi0.5等之前的全球領(lǐng)先開源模型。
在RoboChallenge的Table30任務中,Spirit v1.5表現(xiàn)堪稱 “碾壓級”,不僅在下列多項任務中奪得第一:
- 插花(arrange flowers)
- 水果入籃(arrange fruits in basket)
- 掛牙刷杯(hang toothbrush cup)
- 薯條倒碗(pour fries into plate)
- 開瓶器入抽屜(put opener in drawer)
- 筆入筆盒(put pen into pencilcase)
- 尋找綠盒(search green boxes)
- 澆花(water potted plant)
還在貼膠帶(stick tape to box)、清掃垃圾(sweep the rubbish)、開關(guān)燈(turn on light switch)等任務上實現(xiàn)絕對領(lǐng)先。
其中 “尋找綠盒” 任務堪稱高光時刻——Spirit v1.5直接將成功率拉至90%
![]()
演示畫面中,它能快速從一堆彩色方塊中鎖定綠色目標,穩(wěn)穩(wěn)放入指定籃子,整個過程干脆利落,沒有絲毫拖泥帶水。
在水果入籃任務中,Spirit v1.5更是以80%的成功率,領(lǐng)先Pi0.5整整一倍。
![]()
在演示中,Spirit v1.5能夠輕松地拿起香蕉,放進籃子(下圖經(jīng)5倍加速)。

而在插花任務中,雖然兩款模型成功率均 50%,但實際執(zhí)行中,Spirit v1.5的穩(wěn)定性碾壓Pi0.5,沒有出現(xiàn)極端的失敗案例。
在演示中,Spirit v1.5基本上可以穩(wěn)穩(wěn)地將鮮花放入花瓶。
而Pi0.5有時則會出現(xiàn)突然卡死的情況,從而導致任務中斷。
在最考驗技術(shù)功底的貼膠帶任務中,即便Spirit v1.520%的成功率不算特別突出,但對比Pi0.5僅10%的表現(xiàn),仍實現(xiàn)了翻倍領(lǐng)先。
貼膠帶屬于典型的閉環(huán)觸覺接觸任務(機器人手指 / 夾爪間隙極小),對機械臂協(xié)同與觸覺感知要求極高,機器人經(jīng)常會出現(xiàn)空抓的現(xiàn)象。
在演示中,Spirit v1.5憑借雙機械臂精準配合,能流暢完成撕膠、貼盒全流程。
而相比之下,Pi0.5雖然能很快的定位到膠帶的位置,但卻難以感知到是否撕到膠帶,頻頻出現(xiàn)了空貼的現(xiàn)象。
透過上述任務我們不難看出,Spirit v1.5在復雜長指令任務中的穩(wěn)定發(fā)揮,意味著其已經(jīng)進化為一個具備出色邏輯推理與空間感知能力的“具身大腦”。
而這份實力的認證,正來自具身智能領(lǐng)域的標桿級 “試煉場”——RoboChallenge。
RoboChallenge由Dexmal原力靈機聯(lián)合Hugging Face發(fā)起,是首個在真實物理環(huán)境中,由真實機器人執(zhí)行操作的大規(guī)模、多任務基準測試。
它的Table30任務集,通過30個高頻桌面及周邊日常場景,從VLA難點、機器人形態(tài)、任務流程與物體屬性等維度考察模型真實世界通用操作能力。
考試機型覆蓋ARX5、UR5e、ALOHA、Franka、UR5等;測試任務涵蓋抓取、放置、堆疊、打開、按壓、分類等復雜動作。
除上述任務設(shè)置外,RoboChallenge它的核心創(chuàng)新,在于Remote Robot Paradigm(遠程機器人范式)
參賽者在本地運行模型,只需通過HTTP接口向機器人發(fā)送控制指令,機器人被視作一個可遠程調(diào)用的“外設(shè)”。
![]()
這一設(shè)計顯著降低了參賽門檻,同時避免了復雜環(huán)境配置帶來的不確定性,使不同團隊的算法能夠在同一套真實硬件條件下接受統(tǒng)一評測。
所有參賽者均可通過官方頁面查看比賽實況,全程保障賽事的公平與透明。
不過,由于推理發(fā)生在用戶側(cè),模型的具體實現(xiàn)仍主要依賴參賽者自律與社區(qū)共識——
例如是否始終保持與所聲明方案的一致性,是否在多任務通用型模型(multi-task generalist model)的設(shè)定下,避免針對單一任務的特殊化調(diào)優(yōu)。
![]()
(注:RoboChallenge區(qū)分任務特定與通用型兩種訓練協(xié)議:前者針對單一任務單獨訓練,后者用少量混合數(shù)據(jù)訓練一個多任務統(tǒng)一模型。榜單中帶有/multi 后綴的模型,如Pi0.5/multi,遵循的正是這一更具挑戰(zhàn)性的通用型設(shè)定。)
也正是在這一背景下,Spirit v1.5此次選擇同步開源,其意義不僅在于成績本身,也契合了RoboChallenge鼓勵通過可復現(xiàn)、可驗證的方式,共同推動具身智能基準向前發(fā)展的初衷。
那么,Spirit v1.5具體是怎么做到的呢?
數(shù)據(jù)多樣性成制勝法寶
Spirit v1.5的核心創(chuàng)新,主要體現(xiàn)在預訓練階段的數(shù)據(jù)策略上。
它將具身模型的預訓練數(shù)據(jù),從高度精選、強控制的「干凈數(shù)據(jù)」,轉(zhuǎn)向多樣化、開放式、弱控制的數(shù)據(jù)采集范式。
這里所說的「干凈數(shù)據(jù)」,通常指動作模式相對單一、物體擺放位置與視角高度固定的精選數(shù)據(jù)集。
例如Open X-EmbodimentAgibotRoboCOIN等具身模型訓練的主流數(shù)據(jù)集。
△Open X-Embodiment
這類數(shù)據(jù)的優(yōu)勢在于:數(shù)采成本低、學習難度可控;
但代價同樣明顯——動作模式的多樣性被顯著壓縮,模型對真實世界不確定性的適應能力因此受限。
針對這一問題,Spirit v1.5采取了相反的策略。
在數(shù)據(jù)采集階段,它鼓勵數(shù)采員只圍繞任務目標行動,而不強制遵循固定的動作流程。
例如,在為假人頭部化妝時,采集員并不會嚴格復現(xiàn)某一套標準操作,而是以更接近真實人類行為的方式自由完成任務。
這樣做的結(jié)果是采集來的數(shù)據(jù)不再是單任務、單目標的單成功軌跡。
而是在自然執(zhí)行過程中,連續(xù)覆蓋了抓取、插入、整理、雙臂協(xié)作、異常處理等大量原子技能,并以真實世界的時序關(guān)系串聯(lián)在一起。
這種開放式采集顯著擴大了動作分布,使模型在預訓練階段“見過更多可能性”,從而具備更強的遷移與泛化能力。
在工程層面,這一策略同樣帶來了可觀收益:人均有效采集時長提升約200%,對算法專家深度介入的需求降低約60%
而在實驗驗證中,這種以多樣性為核心的數(shù)據(jù)策略,同樣得到了印證。
一方面,在RoboChallenge Table30的真機評測中,Spirit v1.5已經(jīng)在整體能力層面證明了該范式是成立的(相關(guān)結(jié)果已在前文展開)。
另一方面,在消融實驗中,研究團隊在預訓練數(shù)據(jù)規(guī)模完全一致的前提下,對比了兩種策略:
- 基于腳本化任務演示的預訓練;
- 基于多樣化、開放式采集的預訓練。
結(jié)果顯示,多樣化預訓練的模型在新任務上的微調(diào)效率顯著更高:在達到相同性能時,所需迭代次數(shù)減少約40%
![]()
進一步擴大多樣化數(shù)據(jù)規(guī)模后,模型的驗證誤差仍在持續(xù)下降,并未出現(xiàn)明顯的早期飽和現(xiàn)象。
![]()
這些發(fā)現(xiàn)表明,對具身模型而言,任務多樣性比單一任務的演示數(shù)量更為關(guān)鍵
模型真正學到的,并非某個任務的最優(yōu)動作序列,而是一套可遷移的通用策略,使其能夠用更少的步驟適應新任務。
由此,使用高多樣性、弱控制的數(shù)據(jù)進行預訓練不僅可行,而且顯著優(yōu)于文獻中常見的利用“干凈”數(shù)據(jù)的做法。
也正因為并非針對單一任務優(yōu)化,Spirit v1.5更適合作為一個通用具身智能的基礎(chǔ)模型被復用。
對學界而言,它提供了一條不同于Pi系列且更優(yōu)的開源技術(shù)路徑。
對產(chǎn)業(yè)團隊而言,這種以真實世界多樣性為起點的預訓練方式,顯著降低了新場景的遷移與適配成本。
隨著模型權(quán)重與代碼同步開源,Spirit v1.5在RoboChallenge上的成績不再只是一次展示,而成為一個可驗證、可復現(xiàn)、可繼續(xù)推進的起點。
Spirit v1.5背后的團隊:千尋智能在做什么
最后,再把視角拉回到Spirit v1.5背后的團隊——千尋智能(Spirit AI)
成立于2024年1月的千尋智能,是一支非常“年輕”的隊伍,卻已經(jīng)成長為國內(nèi)少數(shù)具備AI+機器人全棧、生產(chǎn)力級技術(shù)能力的具身智能公司。
簡單概括,千尋的路線非常明確——通用人形機器人+具身大模型(VLA)一體推進,因此常被外界稱為“中國版 Figure”。
![]()
創(chuàng)始人兼CEO韓峰濤:機器人行業(yè)連續(xù)創(chuàng)業(yè)者,曾任珞石機器人聯(lián)合創(chuàng)始人兼CTO,在機器人行業(yè)擁有十余年經(jīng)驗,主導交付過超2萬臺工業(yè)機器人。
聯(lián)合創(chuàng)始人兼首席科學家高陽:清華交叉信息研究院助理教授,“伯克利歸國四子之一”,師從具身智能權(quán)威學者Pieter Abbeel,其提出的ViLa算法被Figure采用。
在融資方面,2025年千尋智能狂攬超15億元融資,6月PreA+輪由京東領(lǐng)投6億元,浙江省科創(chuàng)母基金、華泰紫金等新勢力跟投,順為資本、華控基金等老股東更是繼續(xù)跟投。
在商業(yè)落地方面,其通用人形機器人 “小墨”(Moz1)已于2025年底在寧德時代電池產(chǎn)線規(guī)模化落地,精細作業(yè)成功率突破99%,用工業(yè)級場景完成了一次硬核驗證。
![]()
而在技術(shù)路徑上,從Spirit v1攻克柔性物體長程操作,到開源「邊想邊做」的OneTwoVLA,再到如今基于多樣化真實數(shù)據(jù)采集的Spirit v1.5——
千尋始終在做一件事:把具身智能從“實驗效果”,推進到“可復現(xiàn)、可量產(chǎn)、可落地”的工程體系中。
而這次Spirit v1.5在RoboChallenge上的登頂,并不僅僅意味著一次榜單上的領(lǐng)先。
它更像是千尋具身智能模型快速迭代周期中,一次在同一公開基準下完成的、具有標志意義的性能對標:
在真實機器人、真實任務、統(tǒng)一評測條件下,對現(xiàn)有的技術(shù)路線進行了一次階段性驗證。
從結(jié)果來看,Spirit v1.5在泛化性、穩(wěn)定性與魯棒性等系統(tǒng)層面的能力,已經(jīng)出現(xiàn)了整體躍遷,而不僅是單點任務的“刷分”。
更重要的是,這一成績并未停留在展示層面。
Spirit v1.5同步開源模型權(quán)重、推理代碼和使用樣例,使得這一結(jié)果可以被復現(xiàn)、被檢驗、也可以被后續(xù)研究繼續(xù)推進。
正如當年ImageNet之于計算機視覺,只有在一個可復現(xiàn)、公正、開放的基準之上,模型能力的進步才具備真正的參考價值。
而模型的開源也進一步方便后續(xù)研究者的快速迭代優(yōu)化與創(chuàng)新探索。
在被不少研究者視作具身智能「ImageNet」的RoboChallenge上,這次登頂既是一次能力確認,也是一種明確表態(tài)——
千尋選擇將技術(shù)進展放入開源體系之中,與社區(qū)一起,把具身智能的天花板持續(xù)往前推。
正如千尋首席科學家高陽針對Spirit v1.5在開源模型賽道斬獲全球第一時說所的:
- 它不僅是一次技術(shù)上的突破,也意味著我們在追尋智能的道路上,再次站到了當下人類智能所能企及的高度之一。更重要的是,這個模型是開源的。我們選擇把它交到更多人手中,讓大家一起使用、一起驗證、一起推進這條路。智能不應該被少數(shù)人壟斷,而應該被共同建設(shè)。
開源地址:
Code: https://github.com/Spirit-AI-Team/spirit-v1.5
Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
Blog:https://www.spirit-ai.com/en/blog/spirit-v1-5
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.