![]()
作者:呂鑫燚 出品:具身研習(xí)社
具身智能大模型的排位發(fā)生了關(guān)鍵轉(zhuǎn)移。
近日,具身智能大模型全球首個(gè)大規(guī)模多任務(wù)的真機(jī)基準(zhǔn)測試平臺(tái)RoboChallenge榜單發(fā)生新變化,千尋智能自研VLA基礎(chǔ)模型Spiritv1.5以66.09分,超50%的成功率超越pi0.5,奪得第一。且在RoboChallenge的Table30榜單上均位列第一。
![]()
為了證明榜單成績來自自研模型且真實(shí)有效,Spirit v1.5同步開源了基模權(quán)重、推理代碼以及使用樣例,接受公眾檢驗(yàn),也方便社區(qū)在Spiritv1.5的基礎(chǔ)上創(chuàng)新。
在統(tǒng)一基準(zhǔn)線下和pi0.5正面對(duì)標(biāo),千尋的成績已經(jīng)遠(yuǎn)超于“分?jǐn)?shù)價(jià)值”。其不僅標(biāo)志著具身大模型的驅(qū)動(dòng)下,具身智能機(jī)器人在任務(wù)操作成功率上取得真實(shí)突破,更有力地解決了年初縈繞在產(chǎn)業(yè)內(nèi)的焦慮:具身大腦“國內(nèi)缺位”的結(jié)論,已經(jīng)成為過去式。
作為具身智能大模型不可忽視的玩家之一,千尋智能的技術(shù)迭代與生態(tài)布局始終精準(zhǔn)發(fā)力:從Spiritv1率先突破柔性物體處理難題,攻克復(fù)雜長序列任務(wù),實(shí)現(xiàn)從疊衣服到辦公室整理的場景落地;到Spiritv1.5升級(jí)強(qiáng)大跨任務(wù)、跨本體泛化能力,適配真實(shí)場景的連續(xù)任務(wù)執(zhí)行,同時(shí)達(dá)成操作目標(biāo)與結(jié)果的穩(wěn)定精確控制;再到通過開源釋放技術(shù)紅利,降低開發(fā)者復(fù)現(xiàn)與落地門檻,助力產(chǎn)業(yè)生態(tài)繁榮。
這套“技術(shù)突破+開源共享”的組合拳,迅速引發(fā)海外知名人士高度關(guān)注。英偉達(dá)具身智能負(fù)責(zé)人Jim Fan(范麟熙)主動(dòng)點(diǎn)贊、Hugging Face官方發(fā)文祝賀,多位海外行業(yè)大V紛紛轉(zhuǎn)發(fā)。
![]()
更為關(guān)鍵的是,千尋智能的模型能力并非是“視頻僅供參考”,而是已經(jīng)過真實(shí)場景中的嚴(yán)苛審視,能成為真正的生產(chǎn)力。前不久,寧德時(shí)代官宣千尋智能的moz1已經(jīng)成為生產(chǎn)線一員,在電池生產(chǎn)線上完成相應(yīng)的工作。
可見,千尋智能在“基礎(chǔ)模型”側(cè)的投入,不是在秀“花架子”,而是始終回答外界對(duì)于具身智能的靈魂拷問:什么時(shí)候才能成為生產(chǎn)力?
而這個(gè)答案就藏在千尋智能的蛻變路徑中。
![]()
RoboChallenge榜單由Dexmal原力靈機(jī)、Hugging Face等全球知名機(jī)構(gòu)聯(lián)合發(fā)起。通過全方位還原真實(shí)場景的統(tǒng)一測試,檢驗(yàn)?zāi)P吞幚碚鎸?shí)工作任務(wù)的能力。這有點(diǎn)像馬拉松之于本體結(jié)構(gòu)設(shè)計(jì)的極限測驗(yàn),RoboChallenge也在一定程度上解決了具身模型難有對(duì)比基準(zhǔn)線的困境,更直觀地讓外界感受各家模型的真實(shí)應(yīng)用能力。
RoboChallenge榜單除了總分之外,還有30個(gè)桌面操作任務(wù)的Table30,通過單臂、雙臂的操作表現(xiàn),多維度考察VLA的實(shí)際應(yīng)用能力。例如長序列復(fù)雜任務(wù)的完成情況,以及新任務(wù)在多構(gòu)型的遷移效率。
由此可見,這是一個(gè)具身模型“拉出來溜溜”的平臺(tái),成績也不是千尋智能的“自說自話”,而是真的在模型能力上超過了最強(qiáng)(過去式)模型Pi0.5。
從桌面插花、清理等任務(wù)表現(xiàn)來看,Spirit v1.5都能從容應(yīng)對(duì)精細(xì)化操作,也沒有出現(xiàn)失誤導(dǎo)致的宕機(jī)情況。(pi0.5抓取紙盒失敗后,不再執(zhí)行任務(wù),而是轉(zhuǎn)去和紙盒“玩”)
尤其是在桌面清理任務(wù)上,該任務(wù)的桌面隨意擺放著不同尺寸、不同形狀、不同材質(zhì)的極易形變操作物體。透明的塑料瓶、碗碟、亂糟糟的紙巾每一項(xiàng)單獨(dú)抓取放置都是對(duì)模型的較高難度考驗(yàn),而Spirit v1.5并沒有被眼前的陣仗打敗,依舊有條不紊地將桌面垃圾分別收納進(jìn)垃圾桶或桌面上的整理箱中,還不忘貼心的和人類習(xí)慣一樣,把小碗疊起來放置。
![]()
Spirit v1.5執(zhí)行桌面清潔
從雙臂協(xié)同執(zhí)行來看,這是目前模型能力難度較高的操作,雖然實(shí)驗(yàn)室場景下的固定任務(wù)規(guī)劃(如預(yù)設(shè)軌跡的組裝)容易實(shí)現(xiàn),但真實(shí)場景中物體的擺放位置、形狀、材質(zhì)存在不確定性,模型很難泛化出通用的協(xié)同策略。此外,連續(xù)任務(wù)中的子任務(wù)銜接(如從“抓取物體” 到“放置物體”的過渡)也容易動(dòng)作中斷或卡頓。
受限于“感知-決策-執(zhí)行”全鏈路的高精度協(xié)同門檻,雙臂協(xié)同類任務(wù)是評(píng)測榜單最難攻克的賽道。在物品整理任務(wù)中,Spirit v1.5做到了一邊固定透明塑料盒的位置,另一邊掀開蓋子,再將盒子中的薯?xiàng)l倒進(jìn)盤子中。(Pi0.5止步于拆蓋環(huán)節(jié))
![]()
Spirit v1.5執(zhí)行桌面清潔
最考驗(yàn)極限操作的貼膠帶任務(wù)中,由于操作空間非常狹小,且對(duì)雙臂協(xié)同和觸覺感知反饋要求高,經(jīng)常出現(xiàn)難以完成的狀況。但Spirit v1.5依舊能完成撕膠、貼盒的雙機(jī)械臂精準(zhǔn)配合全流程任務(wù)。
透過具體執(zhí)行任務(wù)來看,Spirit v1.5在RoboChallenge榜單上的亮眼表現(xiàn),標(biāo)志著具身智能模型已實(shí)現(xiàn)從“實(shí)驗(yàn)室演示”到“真實(shí)場景可用”的關(guān)鍵突破。
其在多任務(wù)、多場景下的穩(wěn)定執(zhí)行,證明千尋智能的模型技術(shù)成果并非依賴“溫室環(huán)境”的紙面實(shí)力,而是具備在辦公室整理、倉儲(chǔ)分揀、電子組裝等多場景落地的潛力。
![]()
Spiritv1.5是已經(jīng)在多個(gè)現(xiàn)實(shí)場景中驗(yàn)證過的,千尋智能Spiritv1基礎(chǔ)上進(jìn)化而來的“新面孔”。
其創(chuàng)新性意義在于以“做有用的事”為核心原則,走出一條全新范式。將聚光燈陰影下的“非干凈數(shù)據(jù)”推到臺(tái)前,摒棄絕大多數(shù)入局者保證數(shù)據(jù)“干凈”的原則,杜絕“腳本式”數(shù)據(jù)采集。(技術(shù)博客見文末)
聽起來很抽象,但卻是一個(gè)值得深思的范式。
首先,千尋智能認(rèn)為“干凈數(shù)據(jù)是打造卓越具身基礎(chǔ)模型的敵人”。誠然,將絕對(duì)干凈、任務(wù)流程操作、客觀環(huán)境、操作物體擺放位置都十分完美的數(shù)據(jù)拿來訓(xùn)練模型,是模型操作能力穩(wěn)定性的前置因素。但真實(shí)世界的魅力和難點(diǎn)正在于一切都不可預(yù)設(shè),無論是光線還是操作物體都存在巨大不可控因。
例如,干凈數(shù)據(jù)天然受制于多樣性和可擴(kuò)展性。高度標(biāo)準(zhǔn)化的數(shù)據(jù)采集模式下,根據(jù)腳本走的數(shù)據(jù)采集員只能遵循既定指令。通過一個(gè)具象化案例可更直觀的感受到,在“擦桌子”任務(wù)中,這類數(shù)據(jù)集只會(huì)機(jī)械收錄標(biāo)準(zhǔn)化的擦桌動(dòng)作與桌面場景,與桌面關(guān)聯(lián)任務(wù)完全割裂,最終形成的是一個(gè)個(gè)彼此孤立的經(jīng)驗(yàn)孤島,而非能夠映射真實(shí)生活的連續(xù)經(jīng)驗(yàn)流形。自然無法捕捉現(xiàn)實(shí)場景的豐富性與復(fù)雜性。從可擴(kuò)展性瓶頸來看,每一個(gè)新場景、新任務(wù)的數(shù)據(jù)集構(gòu)建,都需要工程師團(tuán)隊(duì)從零開始設(shè)計(jì)任務(wù)流程、撰寫詳盡的采集指南,還要投入大量精力進(jìn)行數(shù)據(jù)篩選與質(zhì)量校驗(yàn)。
可見,吃慣了“細(xì)糠數(shù)據(jù)”的模型,難免在真實(shí)世界中出現(xiàn)“有心無力”的操作。
這正是Spiritv1.5突破的關(guān)鍵點(diǎn),其選擇充滿隨機(jī)因素的數(shù)據(jù)訓(xùn)練,在數(shù)據(jù)采集階段就開始規(guī)避指令式操作,在目標(biāo)任務(wù)之下,由數(shù)據(jù)采集員自行決定子任務(wù)的流程。其帶來的結(jié)果是機(jī)器人體驗(yàn)現(xiàn)實(shí)生活中的一天,而不是高度腳本化的演示片段。
于是,這便不僅是單一動(dòng)作的重復(fù),而是記錄了技能的連續(xù)流,機(jī)器人不再是孤立地學(xué)習(xí)如何執(zhí)行特定動(dòng)作,而是學(xué)習(xí)整套技能及其連接方式,使模型知識(shí)更加通用。(有點(diǎn)像會(huì)認(rèn)字和會(huì)寫作文的區(qū)別)此外多樣化數(shù)據(jù)采集讓提高了數(shù)據(jù)采集員的參與度,有效提升了效率。數(shù)據(jù)顯示,人均有效采集時(shí)長增加了200%,并將對(duì)算法專家的干預(yù)需求削減了60%。
從結(jié)果來看,使用多樣化采集訓(xùn)練的模型(B組)在微調(diào)階段的表現(xiàn)優(yōu)于演示驅(qū)動(dòng)采集(A組)的模型;多樣化模型達(dá)到相同性能所需的迭代次數(shù)比基線模型少了40%。
![]()
多樣化的數(shù)據(jù)采集還帶來了Scaling的涌現(xiàn),除了比較數(shù)據(jù)類型外,千尋智能還研究了當(dāng)擴(kuò)大多樣化經(jīng)驗(yàn)的規(guī)模時(shí)模型的反應(yīng)。結(jié)果顯示遷移效率隨多樣化數(shù)據(jù)量的增加呈正相關(guān)。隨著數(shù)據(jù)集的增長,模型在新任務(wù)上的驗(yàn)證誤差持續(xù)下降。
![]()
總結(jié)來說,模型實(shí)際工作的結(jié)果表明,任務(wù)多樣性比單任務(wù)的演示數(shù)量更為關(guān)鍵。
畢竟,多樣化的數(shù)據(jù)喂養(yǎng)出來的模型,不再是動(dòng)作而是通用策略,可以用更少的步驟適應(yīng)新任務(wù)。這是一種范式轉(zhuǎn)變,也讓我們看到了具身智能成為生產(chǎn)力的充分必要條件,或許不僅僅是技術(shù)本身的突破,還有研發(fā)團(tuán)隊(duì)的思考轉(zhuǎn)移。
![]()
模型側(cè)推陳出新是千尋智能企業(yè)頂層設(shè)計(jì)的外顯。
透過千尋智能在模型側(cè)的進(jìn)展可見,其似乎有意再走一條深度挖掘模型能力價(jià)值的發(fā)展道路。
![]()
看起來和千尋智能最開始提出的“全棧自研”有些偏頗,硬件能力好像被模型的光環(huán)掩蓋。
但實(shí)際上,具身智能的本質(zhì)是AI驅(qū)動(dòng),硬件服務(wù)于軟件模型。通過產(chǎn)業(yè)本質(zhì)來看,千尋智能的今天并非是軟硬“二選一”,而是選擇一種更聰明的方式,從結(jié)果導(dǎo)向倒推資源配置。
畢竟真正落地要的是聰明。
而這條路線也將成為千尋智能完成愿景的重要路徑:十年內(nèi)讓10%的人擁有自己的機(jī)器人。
時(shí)至今日,這句愿景仍高頻出現(xiàn)在千尋智能官方公眾號(hào)、產(chǎn)業(yè)交流論壇、媒體采訪等對(duì)外發(fā)聲中。千尋智能從未因行業(yè)周期波動(dòng)或技術(shù)攻堅(jiān)難度而動(dòng)搖。這份對(duì)未來的篤定,看似是對(duì)具身智能產(chǎn)業(yè)發(fā)展的樂觀預(yù)判,實(shí)則并非單純的行業(yè)樂觀,而是植根于團(tuán)隊(duì)底層基因與“非經(jīng)驗(yàn)主義”發(fā)展路徑的必然結(jié)論。
這份“非經(jīng)驗(yàn)主義”的內(nèi)核為,千尋智能并沒有單純套用以往的“成功經(jīng)驗(yàn)”。其創(chuàng)始人兼CEO韓峰濤曾為珞石機(jī)器人聯(lián)合創(chuàng)始人&CTO,曾帶領(lǐng)團(tuán)隊(duì)成功交付數(shù)十款型號(hào)產(chǎn)品超20000臺(tái),具備極強(qiáng)的產(chǎn)品工程化能力,也是具身智能產(chǎn)業(yè)中為數(shù)不多邁過量產(chǎn)關(guān)經(jīng)驗(yàn)的領(lǐng)先者。
按照韓峰濤的履歷,千尋智能應(yīng)該會(huì)比現(xiàn)在走得步子更急。但千尋智能并沒有盲目擴(kuò)大規(guī)模,而是深入場景腹地,啃下最難的骨頭,把機(jī)器人送上了寧德時(shí)代的生產(chǎn)線。
千尋智能聯(lián)合創(chuàng)始人高陽也具備極強(qiáng)的模型能力,但其也并沒有躺在“功勞簿”上,而是持續(xù)創(chuàng)新。
簡單來說,千尋智能是遵從具身智能產(chǎn)業(yè)本身的發(fā)展邏輯行事,其每一步都非常扎實(shí)。不被過往經(jīng)驗(yàn)束縛,不被浮躁裹挾,以模型為核心引擎,以硬件為落地載體,以真實(shí)場景為試金石,在工業(yè)級(jí)應(yīng)用中打磨技術(shù),在評(píng)測中驗(yàn)證實(shí)力,讓模型能力有用武之地,也讓硬件價(jià)值得到精準(zhǔn)釋放,最終形成“模型引領(lǐng)方向、硬件支撐落地”的正向循環(huán)。
而這,正是千尋智能能夠在激烈的行業(yè)競爭中脫穎而出,并且有底氣朝著“讓10%的人擁有自己的機(jī)器人”愿景穩(wěn)步邁進(jìn)的核心原因。用扎實(shí)的技術(shù)落地,一點(diǎn)點(diǎn)拉近機(jī)器人走進(jìn)大眾生活的距離。
技術(shù)博客:
https://www.spirit-ai.com/en/blog/spirit-v1-5
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.