網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

國產(chǎn)具身模型開源“屠榜”，首殺Pi0.5獲英偉達Jim Fan點贊！

2026-01-12 08:36:25　來源: AI科技評論

廣東舉報

分享至

Spirit v1.5 登頂 RoboChallenge，稀缺的不是“第一”，而是“統(tǒng)一基準下的第一”。

作者丨文俐亭

編輯丨馬曉寧

Spirit，靈魂，當下機器人亟需的東西。

但過去一年機器人們的靈魂，在兩個極端間橫跳。

一端是各種炫目視頻反復刷屏，高度結構化的實驗“溫室”不斷產(chǎn)出高成功率模型，Demo 里的 AI 是如此聰明；但另一端，當這些“滿分選手”走進現(xiàn)實，卻頻頻翻車。

演示視頻可以剪輯，實驗室環(huán)境可以特制，任務的難度可以自定義。這讓整個行業(yè)陷入了一種“關公戰(zhàn)秦瓊”的困惑：當場景、硬件、評測標準各不相同，我們究竟在比什么？是比技術，比智能，還是比誰家的運鏡和剪輯更專業(yè)？

這場失焦的競賽，在 2025 年底迎來了它的第一個“主裁判”。

這位“主裁判”，在 2026 年的第一個月，裁決出第一位中國冠軍。被 Pi0.5 霸占的榜首，易主了。

1 月 12 日，千尋智能開源了自研VLA模型Spirit v1.5，并在由Dexmal、hugging face聯(lián)合發(fā)起的第三方機器人模型評測組織 RoboChallenge 的Table30榜單上一舉登頂，超過了之前最強模型 pi0.5。

高陽在社交媒體X上官宣開源的帖子，立刻被英偉達機器人主管Jim Fan點贊，多位海外科技大佬相繼轉發(fā)。

本次千尋智能開源了Spirit v1.5的基模權重、推理代碼以及使用樣例，以接受公眾檢驗，并方便開源社區(qū)在此基礎上繼續(xù)創(chuàng)新。

01
一把“標尺”開啟的“度量衡時代”

在 RoboChallenge 出現(xiàn)之前，具身智能最大的問題并非“誰更強”，而是 “無從比起” 。

各家都宣布訓出了“領先的模型”，但所謂“領先”往往建立在三個脆弱的基座上：

? 場景無法復現(xiàn)的“溫室花朵”：很多令人驚嘆的演示，都發(fā)生在光線恒定、物體擺放規(guī)整、任務流程固定的“溫室”中。一旦環(huán)境出現(xiàn)絲毫變化，模型就可能“懵圈”。在 A 公司實驗室里流暢分揀的機器人，到了 B 公司的倉庫可能連門都找不到。

? 工程強依賴人的“臨場發(fā)揮”：一些復雜連續(xù)任務，背后可能是工程師編寫了大量“后門”代碼，或者遙操干預，機器人正在借助隱身幕后的人“作弊”。

? 任務不可對比的“自說自話”：A 公司展示擰螺絲，B 公司展示插花，C 公司展示疊衣服……這些碎片化的任務維度各異，根本無法判斷孰優(yōu)孰劣，就像讓體操選手和馬拉松跑者同臺競技，再用不同刻度的尺子度量他們的能力。

2025 年底，一把“標尺”終于姍姍來遲。

由 Dexmal、Hugging Face、智源研究院等聯(lián)合發(fā)起的 RoboChallenge，旨在用一套規(guī)則終結評測的混戰(zhàn)時代。它要回答是：剝離一切外援后，模型內(nèi)核——那個驅動機器人理解、規(guī)劃的“大腦”——究竟有多強？

RoboChallenge 堅持在真實物理世界中進行評測，并引入隨機擾動增加泛化挑戰(zhàn)，模擬現(xiàn)實中的不可預測性，考驗模型走出溫室的生存能力。并且，它使用統(tǒng)一硬件，讓所有算法在完全相同的“肉身”上比拼智力，擠掉了過度工程化和人為干預的“水分”。

此外，它提供了一套標準化的任務庫 Table30，讓所有模型在同一套“考題” 下作答。

從計算機視覺的 ImageNet，到自然語言處理的 GLUE，每一個技術領域的爆發(fā)式增長，都始于一個被廣泛認可的基準測試。它定義了問題，統(tǒng)一了度量。

2025 年 12 月，RoboChallenge 發(fā)布了首份評測榜單，Pi0、Pi0.5 霸榜前二；

2026 年 1 月，中國自變量的 WALL-OSS-Flow 反超 Pi0，但仍被榜首的 Pi0.5 甩開了七分多；

但很快，這個“代際”差距被千尋 Spirit v1.5 追平了。

02
從Pi0.5到Spirit v1.5：靜默的“代際交接”

在最近的評估中（截至 2026年1月12日），Spiritv 1.5 在 RoboChallenge Table30 測試上取得了當前最優(yōu)的性能，超越了 pi0.5 等之前的全球領先開源模型。

Table30 包含了 30 個桌面環(huán)境操作任務，這些任務在多種構型上進行評測，包括單臂（Franka, Arx5 和 UR5）和雙臂系統(tǒng)（ALOHA），全面考察了 VLA 的各項能力，比如精確的 3D 定位、遮擋處理、時間依賴性和多階段長序列任務，以及模型在多構型、全新任務上的遷移效率。

讓我們來看看 Spirit v1.5 在各項任務上的具體表現(xiàn)，以及和 pi0.5 的對比。

首先是插花，Spirit v1.5 驅動的機械臂抓起了纖細的花枝，隨后轉動機械臂，使花枝方向朝下，隨后精準插進了窄口花瓶中，依照同樣的流程，Spirit v1.5 一口氣插好了三朵花。

反觀 pi0.5，盡管也成功抓起了花枝，但由于葉片掛住夾爪，導致花枝被平放在了瓶口上。

插花任務，Spirit v1.5（上）和 pi0.5（下）表現(xiàn)對比

再來看看桌面清理，桌面上隨意放置著大大小小 10 個物體（碗碟、透明塑料瓶，揉皺的紙巾、士力架包裝等柔性物體），Spirit v1.5 在約 4 分鐘里，分門別類將它們放進垃圾桶和整理箱中，兩只小碗還被疊在一起。

而 pi0.5 在分揀了一只碗、瓶子和紙巾后，剩下的時間就和一直無法被夾起的紙盒“杠”上了。

桌面清理任務，Spirit v1.5（上）和 pi0.5（下）表現(xiàn)對比

在整理物品時，Spirit v1.5 先后抓起叉子、膠帶和刷子，準確移動到箱子上方，再松手把物品放進去；pi0.5 先是抓空，又因為夾爪舉得不夠高碰歪了箱子，松手將叉子掉到箱子外面，隨后重復拾取也沒能成功，叉子直接掉到了桌子下。

物品整理任務，Spirit v1.5（上）和 pi0.5（下）表現(xiàn)對比

當涉及到雙臂協(xié)的任務，Spirit v1.5 一爪固定住透明塑料盒，另一爪掀開蓋子，隨后將盒子中的薯條傾倒進一旁的盤子中；Pi0.5則對第一步——拆開盒蓋——就束手無策。

傾倒薯條任務，Spirit v1.5（上）和 pi0.5（下）表現(xiàn)對比

四項任務涉及了不同大小、形狀、材質的物品，寬口的整理箱，窄口的花瓶，極大考驗了模型精準定位、空間理解和力位混合控制的能力。

半年前，由美國頭部具身智能公司 Physical Intelligence（Pi）開源的 Pi0.5，代表了當時國際領先的開源 VLA 模型水平。在很長一段時間里，中國具身智能行業(yè)呈現(xiàn)“軀體強，大腦弱”的格局，尤其在 VLA 模型上，被認為落后美國一個身位。

有投資人曾頗感苦惱地告訴 AI 科技評論，資本——尤其是美元資本——仍不相信，一個領先的模型架構會在中國做出來，本質上，他們?nèi)匀恍叛龉韫取?/p>

Spirit v1.5 的登頂，因此更像是一次靜默的“代際交接”信號。

它意味著，中國具身模型，第一次不是在自家后院稱王，而是在一個全球公認的、可復現(xiàn)、可比較的規(guī)則下進入了核心競爭序列，具備了同國際頂尖玩家同場競技、正面抗衡的能力。從更大視角來看，中美之間的競爭在從過去明顯的“起跑線差距”過渡到 “同賽道、不同節(jié)奏” 的新階段，我們在策略泛化、任務穩(wěn)定性和學習效率上，完成了階段性追趕。

03
破除干凈數(shù)據(jù)的“詛咒”

過去一兩年來，VLA在快速進化，但泛化性一直是模型能力的最大痛處。

千尋智能的團隊發(fā)現(xiàn)，這種對泛化能力的制約，恰恰來自對訓練數(shù)據(jù)的篩選。

當研究人員著手教機器人一項新技能時，本能反應是讓學習環(huán)境盡可能簡單。這是由于，機器人領域的傳統(tǒng)經(jīng)驗表明，如果數(shù)據(jù)多樣性過高，模型將難以收斂，甚至無法完成基本任務。因此，大家會精心設計一切——動作被簡化、物體被放在易觸及的位置……結果就是產(chǎn)生了一個“干凈”的數(shù)據(jù)集。例如 Open X-Embodiment (OXE)、Agibot 等模型都是如此訓練而來。

這種數(shù)據(jù)集的初衷是提供一個容易的起點，但容易是有代價的。

由于數(shù)據(jù)被過度“凈化”，模型永遠學不會處理難以預測的現(xiàn)實世界。模型的泛化性、可擴展性都大打折扣。換句話說，一部分我們所追求的所謂“高質量數(shù)據(jù)”，反而“畫地為牢”圈住了模型。

因此，千尋認為，如果我們希望機器人能應對人類家庭環(huán)境中的不可預測性，從預訓練階段開始，它們就需要從像真實世界一樣混亂的數(shù)據(jù)中學習。

他們選擇了開放式、目標驅動的數(shù)據(jù)采集，即多樣化采集。理念很簡單：拋棄預設腳本，鼓勵操作員“即興發(fā)揮”。比如，數(shù)據(jù)采集員今天決定，教機器人清理廚房臺面，具體怎么做、涉及哪些子任務，完全由采集員個人決定。他們可能先隨機拿起某個容器，發(fā)現(xiàn)有碎屑并開始擦拭，隨后又去整理、洗滌餐具……

所有這些都在一個連續(xù)會話中完成，涵蓋了廣泛的微技能譜系，海量物體交互和環(huán)境轉換。它們不僅是單一動作的重復，而是連續(xù)的工作流，讓機器人能夠學習整套技能及連接方式。

從而，機器人開始能夠真正體驗現(xiàn)實生活，而不是活在一個被提前安排好的“楚門的世界”。

千尋設置了兩個對照組：A 組采用“凈化”數(shù)據(jù)；B 組則使用多樣化采集數(shù)據(jù)預訓練。

結果顯示，在微調(diào)階段，B 組無論是在收斂速度還是最終性能上都有更好表現(xiàn)，其達到相同性能所需的迭代次數(shù)比A組少了 40%。且遷移效率隨多樣化數(shù)據(jù)量的增加而提升，模型在新任務上的驗證誤差持續(xù)下降。

多樣化采集預訓練的模型比干凈數(shù)據(jù)采集訓練的模型有更快的收斂速度和更好的驗證誤差。

不同數(shù)據(jù)規(guī)模下的模型效果，擴大多樣化采集的數(shù)據(jù)規(guī)模可以持續(xù)降低模型的驗證誤差。

另一項驚喜的“附帶效果”是，由于無需精心設置每個場景并定義詳細的任務指導，數(shù)據(jù)采集效率大幅提升，人均有效采集時長增加了 200%，算法專家的干預需求削減了 60%。

從 Pi0.5 到 Spirit v1.5，我們看到的不是單點技術的“奇襲”，而是中國團隊在數(shù)據(jù)范式的一次根本性轉變。通過走出腳本化的環(huán)境，Spirit v1.5 證明了模型可以發(fā)展出一種基礎的“物理常識”，使其在現(xiàn)實世界中更具適應性和韌性。

在這場通往物理 AGI 的競賽中，中國模型沒有缺席，并準備好迎接下一輪關乎應用的沖刺。

04
尾聲：誰開始擁有“被長期綁定”的資格？

如果說 2025 年只是具身智能落地元年，產(chǎn)業(yè)界尚能對翻車報以寬和一笑；那么 2026 將會是量產(chǎn)爬坡元年，對于智能的真實性，下游廠商會看的更重。一個機器人模型能否成為產(chǎn)業(yè)的“默認選項”之一，恰恰取決于它是否可靠、可泛化遷移，且具備持續(xù)進化的潛力。

Spirit v1.5 登頂，釋放了一個信號：國產(chǎn)具身模型，已經(jīng)開始具備這種“被長期綁定”的資格。

放長時間線，這將引發(fā)三重連鎖反應：

? 產(chǎn)業(yè)合作格局將被重塑。過去，尋找先進模型的目光可能首先投向海外；但現(xiàn)在，一個經(jīng)過權威驗證的國產(chǎn)選項出現(xiàn)了，更多國內(nèi)產(chǎn)業(yè)巨頭會將其納入考量范疇。

去年底，千尋智能的人形機器人“小墨”進入寧德時代中州基地，在后者新能源動力電池PACK生產(chǎn)線批量落地，它能自主應對來料位置偏差和插接點位變化，實時調(diào)整操作姿態(tài)。在插拔柔性線束時，它還能動態(tài)調(diào)節(jié)力度，確保不損傷部件并連接可靠。把單日工作量提升了三倍，插接成功率超99%，作業(yè)節(jié)拍達到熟練工人水平。

接下來，這樣的合作模式將會被大量復制。

? 技術生態(tài)站隊開始。在操作系統(tǒng)、芯片等領域發(fā)生過的生態(tài)之爭，可能在具身智能領域重演。頭部模型會成為吸引開發(fā)者、硬件廠商、場景方共建生態(tài)的漩渦眼。誰能率先建立起圍繞自身模型的軟硬件開發(fā)生態(tài)，誰就可能在下一階段取得決定性優(yōu)勢。

? 開源體系將繼續(xù)良性循環(huán)。

有趣的是，贏得“鐵王座”的——發(fā)布即開源的Spirit v1.5，長期霸榜的Pi——無一例外是開源模型。具身智能領域，至少在短期內(nèi)，開源已經(jīng)成為不約而同的選擇。

Hugging Face聯(lián)合創(chuàng)始人兼首席科學家Thomas Wolf很早就觀察到：機器人的主要玩家?guī)缀跞渴情]源的，“像Tesla、Figure，它們做的機器人非常出色，但整個體系都是垂直封閉的閉源堆……你無法拿一個Optimus去改造成你自己的機器人?！?/p>

但在開源模型的集體勝利后，具身智能領域可能重演2025年初DeepSeek勝利后LLM領域開源復興的局面。它將拆除實驗室的高墻，將工具分發(fā)到每一個有想法的人手中。當研究者們能夠基于同一個強大的基礎模型進行二次開發(fā)時，創(chuàng)新的速度將以指數(shù)級提升，靠單一公司或機構無法窮盡的場景、數(shù)據(jù)和長尾問題也將能更快完成拼圖。

同時，透明，也是最高效的信任貨幣。開源模型將代碼、數(shù)據(jù)乃至架構設計完全公開，意味著其經(jīng)得起最挑剔的同行反復審視、驗證。

所有玩家回歸技術本源，用代碼說話，行業(yè)的浮夸與泡沫也將在這面“照妖鏡”前加速消散。

開源地址：

Code: https://github.com/Spirit-AI-Team/spirit-v1.5

Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5

Blog：https://www.spirit-ai.com/en/blog/spirit-v1-5

未經(jīng)「AI科技評論」授權，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.