RoboChallenge 的核心優勢在于 “真機實測”,支持單機械臂(Franka、Arx5 和 UR5)和雙臂系統(ALOHA) 等主流機型 7×24 小時運行,提供多視角 RGB 與深度信息,精準評估 VLA 算法在物理世界的泛化能力,其測試場景還涵蓋時間依賴性、多階段長序列任務等關鍵能力維度,同時考驗模型在多構型、全新任務上的遷移效率,是檢驗通用機器人策略的標準測試。該平臺的 Table30 任務集涵蓋插花、整理碗碟、開關水龍頭、制作三明治、插入網線等 30 個真實場景,全面考察 3D 定位、遮擋處理、多視角協同等技術難點,同時適配雙臂協作、軟體操作等不同機器人類型,兼顧物體形狀、材質等屬性差異。評估機制采用端到端任務成功率與過程評分結合的方式,即使任務最終失敗,完成關鍵步驟也能得分,客觀反映算法真實能力。
具身智能技術價值的評判到底應該在什么維度?
在剛剛過去的2025年,我們發現,機器人已經可以在實驗室里精準完成擦桌、澆花等復雜動作。但對于行業來講,它真的能走出實驗室在非結構環境下穩定作業嗎?另一側,當頂級具身模型登頂排行榜拿下高分的時候,市場更關心的是,這份成績能轉化為真實產業價值嗎?這兩個問題是對所有具身智能企業的靈魂拷問。
![]()
RoboChallenge最新排名情況(2026年1月11日 15:00)
2026 開年,具身智能領域爆出重磅消息。千尋智能自研VLA基礎模型Spirit v1.5在第三方機器人模型評測組織RoboChallenge的Table30榜單上位列第一,超過了之前最強模型Pi0.5。為了證明榜單成績來自自研模型且真實有效,千尋智能開源了Spirit v1.5的基模權重、推理代碼以及使用樣例。接受公眾檢驗,也方便社區在Spirit v1.5的基礎上創新。
開源鏈接如下:
Code: https://github.com/Spirit-AI-Team/spirit-v1.5
Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
Blog:https://www.spirit-ai.com/en/blog/spirit-v1-5
值得關注的是,搭載該模型的人形機器人“小墨”,已于 2025 年 12 月底落地寧德時代中州基地,正式投入新能源動力電池 PACK 生產線運行。這兩項成果的落地,標志著中國具身模型首次在 “可評測性能” 與 “真實工業場景可用性” 兩大核心維度完成雙重驗證,成功躋身行業性能第一梯隊。
▍30個真實任務遙遙領先Spirit v1.5到底強在哪兒?
在具身智能領域,評測榜單是檢驗技術實力的重要標尺,但并非所有榜單都具備同等含金量。RoboChallenge是國內目前為數不多甚至唯一一個具身模型評測榜單,2025年正式上線,該標準化評測體系由Dexmal、Hugging Face、智源研究院等機構聯合發起,直指傳統機器人測試場景碎片化、標準不統一的行業痛點。平臺通過統一任務標準、評估指標和跨模型對照機制,構建了開放公正的評測環境。
![]()
![]()
在最新公布的榜單中(截至 2026 年 1 月 13 日),千尋智能Spirit v1.5以66.09分50.33%成功率的成績超越此前領先的Pi0.5(61.84分、42.67%成功率),穩居榜首。值得一提的是,該成績基于統一硬件和真實任務的系統級評測,未依賴定制化優化,而是通過平臺開放資源實現性能突破,其技術核心源于開放式、目標驅動的多樣化數據采集范式—— 摒棄腳本化約束,以 “做有用的事” 為核心準則,鼓勵采集員即興完成目標任務,形成包含抓取、扭轉、插入、雙手協調等多樣化原子技能的連續數據流,而非孤立的單一動作演示。
![]()
Spirit v1.5部分子項評測分數一欄 (共30項具體評測項目)
![]()
Spirit v1.5堆疊彩色方塊任務分為10個評價維度,成功率80%,子項總分85分
這種訓練方式使模型積累了更全面的物理常識與技能連接能力,在遷移學習中表現突出:相比基于精選 “干凈數據” 訓練的模型,Spirit v1.5 達到相同性能所需的微調迭代次數減少 40%,且隨著多樣化數據規模擴大,模型在新任務上的驗證誤差持續下降,充分印證了模型在復雜環境中的泛化能力與技術普適性。
▍Spirit v1.5模型已能夠應對工業級應用的實戰考驗
中州新能源生產基地是寧德時代按“燈塔工廠”標準打造的全自動化電池生產基地,對駐場設備的生產節拍、連續作業穩定性及環境適應性要求極高。相較于實驗室測試環境,工業產線的復雜工況對具身智能設備的實戰能力提出嚴苛考驗。
![]()
在此背景下,打造千尋智能Spirit v1.5模型的人形機器人“小墨”已在該基地進行實戰作業。“小墨”主要負責電池包下線前終檢、耐壓測試等關鍵工序,具體完成高壓測試插頭精準插接、線束連接狀態檢測及作業間隙設備巡檢等任務。
根據官方披露的數據,小墨機器人在PACK生產線插接成功率超99%,作業效率較人工提升三倍,有效規避了人工操作的高壓安全風險,保障了生產質量穩定。由此可見,千尋智能Spirit v1.5模型在寧德時代產線的穩定運行,足以證明其已具備工業級場景的工程化應用能力。
▍具身智能產業需要推動實體革命的破局者
具身智能行業長期存在兩類技術錯配的現象。一類是算法在榜單上成績亮眼,卻缺乏工程化適配能力,難以落地真實應用場景;另一類是產品Demo 演示效果突出,卻扛不住標準化橫向評測,技術不具備規模化推廣的普適性。
這兩類現象催生行業技術泡沫,下游廠商選型時顧慮重重,更直接阻礙了具身智能技術的產業化進程。
千尋智能的差異化優勢十分明確,其技術能力同步通過了RoboChallenge評測的上限驗證與寧德時代產線的下限驗證。
![]()
RoboChallenge評測的登頂成績,證明了其技術在標準化評測體系下的領先性,寧德時代產線的穩定運行,則印證其具備工業級場景的工程化應用能力。這種“能比又能用”的雙重驗證,構成了具身智能領域真正具備產業價值的領先范式,更從根本上解決了行業技術與產業脫節的核心痛點。
▍國產具身模型是推動產業變革的關鍵鑰匙
可以確定的是,在這個急劇變化的2026年,國產化具身模型的突破從來不是技術問題,而是時間問題。敢為人先的是千尋智能提前做到了這一點。
![]()
對于機器人廠商而言,千尋智能的突破意味著國產具身模型已具備從“備選項”升級為“主選項”的條件。此前由于國產模型缺乏標準化驗證和真實場景落地案例,難以獲得本體廠商的認可,而隨著千尋智能Spirit v1.5奠定的技術成果,已能證明國產模型在技術實力上已能與國際頂尖產品抗衡,且在工程化適配、本地化服務等方面更具優勢。
對系統集成商來說,模型的不確定性曾是自動化項目推進的核心風險。千尋智能在寧德時代產線的成功落地,提供了可參考的工業級應用案例,證明國產具身模型的工程化可靠性,將顯著降低項目實施風險,加速自動化方案落地進程。
從產業來看,這是中國具身模型首次在“全球頂級評測+頭部制造業產線”雙重標準下獲得驗證。千尋智能的突破標志著中國在具身智能領域的技術實力和產業化能力已達到國際先進水平,行業正式從技術探索期邁入實用化階段。
![]()
千尋智能Spirit v1.5 模型的霸榜與技術落地,不僅是單一模型的突破,更是中國具身模型發展的重要里程碑。這一成果印證國產具身模型已實現性能與可用性的雙重達標,成為推動我國機器人產業關鍵技術自主可控的核心鑰匙,一個機器人規模化落地、能干活、干好活的時代正加速到來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.