網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

用冠冕重塑規(guī)則：千尋智能開源Spirit v1.5，告別追隨者敘事

2026-01-14 11:00:56　來源: 具身研習(xí)社

北京舉報(bào)

分享至

作者：呂鑫燚出品：具身研習(xí)社

具身智能大模型的排位發(fā)生了關(guān)鍵轉(zhuǎn)移。

近日，具身智能大模型全球首個(gè)大規(guī)模多任務(wù)的真機(jī)基準(zhǔn)測試平臺(tái)RoboChallenge榜單發(fā)生新變化，千尋智能自研VLA基礎(chǔ)模型Spiritv1.5以66.09分，超50%的成功率超越pi0.5，奪得第一。且在RoboChallenge的Table30榜單上均位列第一。

為了證明榜單成績來自自研模型且真實(shí)有效，Spirit v1.5同步開源了基模權(quán)重、推理代碼以及使用樣例，接受公眾檢驗(yàn)，也方便社區(qū)在Spiritv1.5的基礎(chǔ)上創(chuàng)新。

在統(tǒng)一基準(zhǔn)線下和pi0.5正面對(duì)標(biāo)，千尋的成績已經(jīng)遠(yuǎn)超于“分?jǐn)?shù)價(jià)值”。其不僅標(biāo)志著具身大模型的驅(qū)動(dòng)下，具身智能機(jī)器人在任務(wù)操作成功率上取得真實(shí)突破，更有力地解決了年初縈繞在產(chǎn)業(yè)內(nèi)的焦慮：具身大腦“國內(nèi)缺位”的結(jié)論，已經(jīng)成為過去式。

作為具身智能大模型不可忽視的玩家之一，千尋智能的技術(shù)迭代與生態(tài)布局始終精準(zhǔn)發(fā)力：從Spiritv1率先突破柔性物體處理難題，攻克復(fù)雜長序列任務(wù)，實(shí)現(xiàn)從疊衣服到辦公室整理的場景落地；到Spiritv1.5升級(jí)強(qiáng)大跨任務(wù)、跨本體泛化能力，適配真實(shí)場景的連續(xù)任務(wù)執(zhí)行，同時(shí)達(dá)成操作目標(biāo)與結(jié)果的穩(wěn)定精確控制；再到通過開源釋放技術(shù)紅利，降低開發(fā)者復(fù)現(xiàn)與落地門檻，助力產(chǎn)業(yè)生態(tài)繁榮。

這套“技術(shù)突破+開源共享”的組合拳，迅速引發(fā)海外知名人士高度關(guān)注。英偉達(dá)具身智能負(fù)責(zé)人Jim Fan（范麟熙）主動(dòng)點(diǎn)贊、Hugging Face官方發(fā)文祝賀，多位海外行業(yè)大V紛紛轉(zhuǎn)發(fā)。

更為關(guān)鍵的是，千尋智能的模型能力并非是“視頻僅供參考”，而是已經(jīng)過真實(shí)場景中的嚴(yán)苛審視，能成為真正的生產(chǎn)力。前不久，寧德時(shí)代官宣千尋智能的moz1已經(jīng)成為生產(chǎn)線一員，在電池生產(chǎn)線上完成相應(yīng)的工作。

可見，千尋智能在“基礎(chǔ)模型”側(cè)的投入，不是在秀“花架子”，而是始終回答外界對(duì)于具身智能的靈魂拷問：什么時(shí)候才能成為生產(chǎn)力？

而這個(gè)答案就藏在千尋智能的蛻變路徑中。

RoboChallenge榜單由Dexmal原力靈機(jī)、Hugging Face等全球知名機(jī)構(gòu)聯(lián)合發(fā)起。通過全方位還原真實(shí)場景的統(tǒng)一測試，檢驗(yàn)?zāi)Ｐ吞幚碚鎸?shí)工作任務(wù)的能力。這有點(diǎn)像馬拉松之于本體結(jié)構(gòu)設(shè)計(jì)的極限測驗(yàn)，RoboChallenge也在一定程度上解決了具身模型難有對(duì)比基準(zhǔn)線的困境，更直觀地讓外界感受各家模型的真實(shí)應(yīng)用能力。

RoboChallenge榜單除了總分之外，還有30個(gè)桌面操作任務(wù)的Table30，通過單臂、雙臂的操作表現(xiàn)，多維度考察VLA的實(shí)際應(yīng)用能力。例如長序列復(fù)雜任務(wù)的完成情況，以及新任務(wù)在多構(gòu)型的遷移效率。

由此可見，這是一個(gè)具身模型“拉出來溜溜”的平臺(tái)，成績也不是千尋智能的“自說自話”，而是真的在模型能力上超過了最強(qiáng)（過去式）模型Pi0.5。

從桌面插花、清理等任務(wù)表現(xiàn)來看，Spirit v1.5都能從容應(yīng)對(duì)精細(xì)化操作，也沒有出現(xiàn)失誤導(dǎo)致的宕機(jī)情況。（pi0.5抓取紙盒失敗后，不再執(zhí)行任務(wù)，而是轉(zhuǎn)去和紙盒“玩”）

尤其是在桌面清理任務(wù)上，該任務(wù)的桌面隨意擺放著不同尺寸、不同形狀、不同材質(zhì)的極易形變操作物體。透明的塑料瓶、碗碟、亂糟糟的紙巾每一項(xiàng)單獨(dú)抓取放置都是對(duì)模型的較高難度考驗(yàn)，而Spirit v1.5并沒有被眼前的陣仗打敗，依舊有條不紊地將桌面垃圾分別收納進(jìn)垃圾桶或桌面上的整理箱中，還不忘貼心的和人類習(xí)慣一樣，把小碗疊起來放置。

Spirit v1.5執(zhí)行桌面清潔

從雙臂協(xié)同執(zhí)行來看，這是目前模型能力難度較高的操作，雖然實(shí)驗(yàn)室場景下的固定任務(wù)規(guī)劃（如預(yù)設(shè)軌跡的組裝）容易實(shí)現(xiàn)，但真實(shí)場景中物體的擺放位置、形狀、材質(zhì)存在不確定性，模型很難泛化出通用的協(xié)同策略。此外，連續(xù)任務(wù)中的子任務(wù)銜接（如從“抓取物體” 到“放置物體”的過渡）也容易動(dòng)作中斷或卡頓。

受限于“感知-決策-執(zhí)行”全鏈路的高精度協(xié)同門檻，雙臂協(xié)同類任務(wù)是評(píng)測榜單最難攻克的賽道。在物品整理任務(wù)中，Spirit v1.5做到了一邊固定透明塑料盒的位置，另一邊掀開蓋子，再將盒子中的薯?xiàng)l倒進(jìn)盤子中。（Pi0.5止步于拆蓋環(huán)節(jié)）

Spirit v1.5執(zhí)行桌面清潔

最考驗(yàn)極限操作的貼膠帶任務(wù)中，由于操作空間非常狹小，且對(duì)雙臂協(xié)同和觸覺感知反饋要求高，經(jīng)常出現(xiàn)難以完成的狀況。但Spirit v1.5依舊能完成撕膠、貼盒的雙機(jī)械臂精準(zhǔn)配合全流程任務(wù)。

透過具體執(zhí)行任務(wù)來看，Spirit v1.5在RoboChallenge榜單上的亮眼表現(xiàn)，標(biāo)志著具身智能模型已實(shí)現(xiàn)從“實(shí)驗(yàn)室演示”到“真實(shí)場景可用”的關(guān)鍵突破。

其在多任務(wù)、多場景下的穩(wěn)定執(zhí)行，證明千尋智能的模型技術(shù)成果并非依賴“溫室環(huán)境”的紙面實(shí)力，而是具備在辦公室整理、倉儲(chǔ)分揀、電子組裝等多場景落地的潛力。

Spiritv1.5是已經(jīng)在多個(gè)現(xiàn)實(shí)場景中驗(yàn)證過的，千尋智能Spiritv1基礎(chǔ)上進(jìn)化而來的“新面孔”。

其創(chuàng)新性意義在于以“做有用的事”為核心原則，走出一條全新范式。將聚光燈陰影下的“非干凈數(shù)據(jù)”推到臺(tái)前，摒棄絕大多數(shù)入局者保證數(shù)據(jù)“干凈”的原則，杜絕“腳本式”數(shù)據(jù)采集。（技術(shù)博客見文末)

聽起來很抽象，但卻是一個(gè)值得深思的范式。

首先，千尋智能認(rèn)為“干凈數(shù)據(jù)是打造卓越具身基礎(chǔ)模型的敵人”。誠然，將絕對(duì)干凈、任務(wù)流程操作、客觀環(huán)境、操作物體擺放位置都十分完美的數(shù)據(jù)拿來訓(xùn)練模型，是模型操作能力穩(wěn)定性的前置因素。但真實(shí)世界的魅力和難點(diǎn)正在于一切都不可預(yù)設(shè)，無論是光線還是操作物體都存在巨大不可控因。

例如，干凈數(shù)據(jù)天然受制于多樣性和可擴(kuò)展性。高度標(biāo)準(zhǔn)化的數(shù)據(jù)采集模式下，根據(jù)腳本走的數(shù)據(jù)采集員只能遵循既定指令。通過一個(gè)具象化案例可更直觀的感受到，在“擦桌子”任務(wù)中，這類數(shù)據(jù)集只會(huì)機(jī)械收錄標(biāo)準(zhǔn)化的擦桌動(dòng)作與桌面場景，與桌面關(guān)聯(lián)任務(wù)完全割裂，最終形成的是一個(gè)個(gè)彼此孤立的經(jīng)驗(yàn)孤島，而非能夠映射真實(shí)生活的連續(xù)經(jīng)驗(yàn)流形。自然無法捕捉現(xiàn)實(shí)場景的豐富性與復(fù)雜性。從可擴(kuò)展性瓶頸來看，每一個(gè)新場景、新任務(wù)的數(shù)據(jù)集構(gòu)建，都需要工程師團(tuán)隊(duì)從零開始設(shè)計(jì)任務(wù)流程、撰寫詳盡的采集指南，還要投入大量精力進(jìn)行數(shù)據(jù)篩選與質(zhì)量校驗(yàn)。

可見，吃慣了“細(xì)糠數(shù)據(jù)”的模型，難免在真實(shí)世界中出現(xiàn)“有心無力”的操作。

這正是Spiritv1.5突破的關(guān)鍵點(diǎn)，其選擇充滿隨機(jī)因素的數(shù)據(jù)訓(xùn)練，在數(shù)據(jù)采集階段就開始規(guī)避指令式操作，在目標(biāo)任務(wù)之下，由數(shù)據(jù)采集員自行決定子任務(wù)的流程。其帶來的結(jié)果是機(jī)器人體驗(yàn)現(xiàn)實(shí)生活中的一天，而不是高度腳本化的演示片段。

于是，這便不僅是單一動(dòng)作的重復(fù)，而是記錄了技能的連續(xù)流，機(jī)器人不再是孤立地學(xué)習(xí)如何執(zhí)行特定動(dòng)作，而是學(xué)習(xí)整套技能及其連接方式，使模型知識(shí)更加通用。（有點(diǎn)像會(huì)認(rèn)字和會(huì)寫作文的區(qū)別）此外多樣化數(shù)據(jù)采集讓提高了數(shù)據(jù)采集員的參與度，有效提升了效率。數(shù)據(jù)顯示，人均有效采集時(shí)長增加了200%，并將對(duì)算法專家的干預(yù)需求削減了60%。

從結(jié)果來看，使用多樣化采集訓(xùn)練的模型（B組）在微調(diào)階段的表現(xiàn)優(yōu)于演示驅(qū)動(dòng)采集（A組）的模型；多樣化模型達(dá)到相同性能所需的迭代次數(shù)比基線模型少了40%。

多樣化的數(shù)據(jù)采集還帶來了Scaling的涌現(xiàn)，除了比較數(shù)據(jù)類型外，千尋智能還研究了當(dāng)擴(kuò)大多樣化經(jīng)驗(yàn)的規(guī)模時(shí)模型的反應(yīng)。結(jié)果顯示遷移效率隨多樣化數(shù)據(jù)量的增加呈正相關(guān)。隨著數(shù)據(jù)集的增長，模型在新任務(wù)上的驗(yàn)證誤差持續(xù)下降。

總結(jié)來說，模型實(shí)際工作的結(jié)果表明，任務(wù)多樣性比單任務(wù)的演示數(shù)量更為關(guān)鍵。

畢竟，多樣化的數(shù)據(jù)喂養(yǎng)出來的模型，不再是動(dòng)作而是通用策略，可以用更少的步驟適應(yīng)新任務(wù)。這是一種范式轉(zhuǎn)變，也讓我們看到了具身智能成為生產(chǎn)力的充分必要條件，或許不僅僅是技術(shù)本身的突破，還有研發(fā)團(tuán)隊(duì)的思考轉(zhuǎn)移。

模型側(cè)推陳出新是千尋智能企業(yè)頂層設(shè)計(jì)的外顯。

透過千尋智能在模型側(cè)的進(jìn)展可見，其似乎有意再走一條深度挖掘模型能力價(jià)值的發(fā)展道路。

看起來和千尋智能最開始提出的“全棧自研”有些偏頗，硬件能力好像被模型的光環(huán)掩蓋。

但實(shí)際上，具身智能的本質(zhì)是AI驅(qū)動(dòng)，硬件服務(wù)于軟件模型。通過產(chǎn)業(yè)本質(zhì)來看，千尋智能的今天并非是軟硬“二選一”，而是選擇一種更聰明的方式，從結(jié)果導(dǎo)向倒推資源配置。

畢竟真正落地要的是聰明。

而這條路線也將成為千尋智能完成愿景的重要路徑：十年內(nèi)讓10%的人擁有自己的機(jī)器人。

時(shí)至今日，這句愿景仍高頻出現(xiàn)在千尋智能官方公眾號(hào)、產(chǎn)業(yè)交流論壇、媒體采訪等對(duì)外發(fā)聲中。千尋智能從未因行業(yè)周期波動(dòng)或技術(shù)攻堅(jiān)難度而動(dòng)搖。這份對(duì)未來的篤定，看似是對(duì)具身智能產(chǎn)業(yè)發(fā)展的樂觀預(yù)判，實(shí)則并非單純的行業(yè)樂觀，而是植根于團(tuán)隊(duì)底層基因與“非經(jīng)驗(yàn)主義”發(fā)展路徑的必然結(jié)論。

這份“非經(jīng)驗(yàn)主義”的內(nèi)核為，千尋智能并沒有單純套用以往的“成功經(jīng)驗(yàn)”。其創(chuàng)始人兼CEO韓峰濤曾為珞石機(jī)器人聯(lián)合創(chuàng)始人&CTO，曾帶領(lǐng)團(tuán)隊(duì)成功交付數(shù)十款型號(hào)產(chǎn)品超20000臺(tái)，具備極強(qiáng)的產(chǎn)品工程化能力，也是具身智能產(chǎn)業(yè)中為數(shù)不多邁過量產(chǎn)關(guān)經(jīng)驗(yàn)的領(lǐng)先者。

按照韓峰濤的履歷，千尋智能應(yīng)該會(huì)比現(xiàn)在走得步子更急。但千尋智能并沒有盲目擴(kuò)大規(guī)模，而是深入場景腹地，啃下最難的骨頭，把機(jī)器人送上了寧德時(shí)代的生產(chǎn)線。

千尋智能聯(lián)合創(chuàng)始人高陽也具備極強(qiáng)的模型能力，但其也并沒有躺在“功勞簿”上，而是持續(xù)創(chuàng)新。

簡單來說，千尋智能是遵從具身智能產(chǎn)業(yè)本身的發(fā)展邏輯行事，其每一步都非常扎實(shí)。不被過往經(jīng)驗(yàn)束縛，不被浮躁裹挾，以模型為核心引擎，以硬件為落地載體，以真實(shí)場景為試金石，在工業(yè)級(jí)應(yīng)用中打磨技術(shù)，在評(píng)測中驗(yàn)證實(shí)力，讓模型能力有用武之地，也讓硬件價(jià)值得到精準(zhǔn)釋放，最終形成“模型引領(lǐng)方向、硬件支撐落地”的正向循環(huán)。

而這，正是千尋智能能夠在激烈的行業(yè)競爭中脫穎而出，并且有底氣朝著“讓10%的人擁有自己的機(jī)器人”愿景穩(wěn)步邁進(jìn)的核心原因。用扎實(shí)的技術(shù)落地，一點(diǎn)點(diǎn)拉近機(jī)器人走進(jìn)大眾生活的距離。

技術(shù)博客：

https://www.spirit-ai.com/en/blog/spirit-v1-5

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.