![]()
從2025年春晚的表演破圈到人形機(jī)器人馬拉松,再到年底的量產(chǎn)落地、商業(yè)閉環(huán),具身智能的風(fēng)向正在發(fā)生變化。
尤其當(dāng)具身智能進(jìn)入產(chǎn)業(yè)落地期,機(jī)器人表演式成功已經(jīng)不足以滿足業(yè)界對其能力的期待。產(chǎn)業(yè)端進(jìn)入更加看重“機(jī)器人大腦”及其相應(yīng)帶來的泛化能力的階段,因?yàn)檎鎸?shí)世界不存在完全標(biāo)準(zhǔn)化的場景,無論在工業(yè)分揀、養(yǎng)老護(hù)理還是倉儲(chǔ)物流等場景,機(jī)器人都要解決自主且穩(wěn)定地與真實(shí)物理世界交互的問題。
——這正需要強(qiáng)大的具身智能模型能力作為支撐。那么,大規(guī)模落地應(yīng)用到來前,我們?nèi)绾卧u估具身智能模型這一“機(jī)器人大腦”的能力?
和大語言模型一樣,具身智能模型同樣需要建立開放公正的評價(jià)體系,以測評推動(dòng)行業(yè)進(jìn)步。Robochallenge是全球首個(gè)大規(guī)模、多任務(wù)的真機(jī)基準(zhǔn)測試平臺(tái),意在為VLA模型在機(jī)器人上的應(yīng)用提供評估標(biāo)準(zhǔn)。
值得關(guān)注的是,具身智能模型測評和大語言模型測評有非常大的差異。大語言模型的測評多為“閉卷答題”,以靜態(tài)數(shù)據(jù)輸出與文本、圖像指標(biāo)為主,不涉及物理交互與連續(xù)動(dòng)作執(zhí)行。而具身模型的測評更加側(cè)重“感知-決策-執(zhí)行”的物理閉環(huán),在測評時(shí)需要提前公開任務(wù),核心驗(yàn)證對象為視頻動(dòng)作序列和任務(wù)成功率,類似于“開卷考試+實(shí)操考核”。
因此,用公開代碼的開源具身智能模型參與測評,才是是更貨真價(jià)實(shí)、更有價(jià)值的。
RoboChallenge最新發(fā)布的測評結(jié)果顯示,自變量開源端到端具身智能基礎(chǔ)模型wall-oss以46.43分超越pi0,總分排名第二,僅次于pi0.5。
Pi0、pi0.5背后的公司Physical Intelligence主要團(tuán)隊(duì)成員來自伯克利、斯坦福等高校和谷歌專家等。自變量機(jī)器人創(chuàng)始人王潛為南加州大學(xué)博士學(xué)位,是全球最早在神經(jīng)網(wǎng)絡(luò)中提出Attention機(jī)制的研究者之一;CTO王昊則主導(dǎo)開發(fā)國內(nèi)首個(gè)多模態(tài)開源大模型“太乙”、百億級大語言模型“燃燈”及千億級模型“姜子牙”。
具體來看,wall-oss在疊洗碗巾、掛口杯、按按鈕、澆盆栽、移物入盒及開瓶器進(jìn)抽屜等多個(gè)單任務(wù)中排名第一。
排名前三名,wall-oss是唯一一個(gè)國內(nèi)開源具身基礎(chǔ)模型。
開源模型把模型代碼、訓(xùn)練數(shù)據(jù)乃至架構(gòu)設(shè)計(jì)公開,讓測評過程可全程復(fù)現(xiàn),能夠規(guī)避通過微調(diào)其他模型來“刷榜”的行為,可以更客觀、真實(shí)地反映模型能力。這勢必將引導(dǎo)各個(gè)具身智能玩家回歸技術(shù)本身,用技術(shù)能力構(gòu)建自身的核心競爭力。
同時(shí),開源模型有助于技術(shù)透明迭代,能夠加速具身智能行業(yè)創(chuàng)新。開放協(xié)作的“集體智慧”,遠(yuǎn)比封閉開發(fā)更能應(yīng)對真實(shí)世界的復(fù)雜性、隨機(jī)性。
自變量從成立以來,就致力于樹立開源的標(biāo)桿,讓每次開源都對行業(yè)產(chǎn)生價(jià)值。去年9月,wall-oss模型正式開源,預(yù)訓(xùn)練模型權(quán)重、訓(xùn)練代碼、數(shù)據(jù)集接口以及詳細(xì)部署文檔全部公開,開發(fā)者可以在自己的機(jī)器人上直接跑通閉環(huán)流程。
自變量機(jī)器人聯(lián)合創(chuàng)始人兼CTO王昊此前曾公開談及自變量堅(jiān)持來源的初衷:“開源意味著我們可以站在巨人的肩膀上繼續(xù)前進(jìn)。我們可以基于已有成果做更多的改進(jìn),社區(qū)開發(fā)者的反饋也會(huì)幫助到開源的公司,開源公司可以從中吸取到經(jīng)驗(yàn),然后把這個(gè)技術(shù)路線思考得更加深入。一般的高校、或者一些小型的企業(yè),他們可能沒有能力去做基礎(chǔ)模型,但是如果能夠使用這些基礎(chǔ)開源模型,他們就可以去做應(yīng)用,把它用到各個(gè)方向,豐富整個(gè)生態(tài),這也是一個(gè)非常重要的事情。”
在RoboChallenge發(fā)布測評結(jié)果之后,wall-oss提交的復(fù)現(xiàn)結(jié)果示例、微調(diào)代碼也將在下周全部開源,讓模型展現(xiàn)出的泛化能力、推理能力等有據(jù)可查。除了檢驗(yàn)測試結(jié)果的真實(shí)性,開發(fā)者們也可以在平臺(tái)上根據(jù)源代碼和各個(gè)任務(wù)的微調(diào)代碼,結(jié)合自己的數(shù)據(jù)完成復(fù)現(xiàn)微調(diào)。
這意味著,自變量提供的不僅僅是一個(gè)模型,而是一整套完整可復(fù)現(xiàn)的方案,這對具身智能基礎(chǔ)模型的透明迭代和標(biāo)準(zhǔn)共建具有更深遠(yuǎn)的意義。
擁抱開源,是具身智能走向成熟的必經(jīng)之路。只有把技術(shù)從封閉的實(shí)驗(yàn)室里解放出來,讓更多人參與、驗(yàn)證、改進(jìn),才能真正突破單點(diǎn)創(chuàng)新的局限,具身智能才能真正從實(shí)驗(yàn)室走向真實(shí)世界。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.