近日,京東云JoyBuilder模型開發(fā)平臺(tái)迎來全新升級(jí),成功支撐業(yè)界頂尖模型GR00T N1.5的千卡訓(xùn)練,成為行業(yè)首家支持具身智能千卡級(jí)LeRobot開源訓(xùn)練框架的AI開發(fā)平臺(tái),且訓(xùn)練效率較開源社區(qū)版本提升3.5倍。基于軟硬件深度調(diào)優(yōu)和算法層面的突破,大幅提升了模型訓(xùn)練效率與穩(wěn)定性,1億+數(shù)據(jù)的千卡訓(xùn)練時(shí)間從15小時(shí)縮短至22分鐘,加速具身智能邁向規(guī)模化落地。
![]()
1、JoyBuilder三大優(yōu)勢,全面加速具身智能模型訓(xùn)練
近年來,具身智能成為AI領(lǐng)域的重要研究方向,但訓(xùn)練一個(gè)高效的具身模型,需要同步處理圖像、文本和連續(xù)動(dòng)作信號(hào)等眾多環(huán)節(jié),在工程落地方面存在著數(shù)據(jù)供給讀取慢、算力效率低下,以及數(shù)據(jù)預(yù)處理和存儲(chǔ)I/O與GPU計(jì)算等多個(gè)環(huán)節(jié)未能有效協(xié)同產(chǎn)生的性能瓶頸,是具身智能從實(shí)驗(yàn)室走向規(guī)模化落地的最大挑戰(zhàn)。
圍繞具身智能模型訓(xùn)練,京東云AI Infra及相關(guān)團(tuán)隊(duì)基于JoyBuilder模型研發(fā)平臺(tái)進(jìn)行了全棧優(yōu)化:
在具身數(shù)據(jù)鏈路優(yōu)化方面,通過重構(gòu)具身數(shù)據(jù)預(yù)處理與加載流程,JoyBuilder平臺(tái)實(shí)現(xiàn)CPU數(shù)據(jù)處理與GPU計(jì)算異步執(zhí)行,減少等待時(shí)間。針對(duì)海量具身小數(shù)據(jù)文件,自研的高性能并行文件系統(tǒng)云海JPFS通過分布式元數(shù)據(jù)管理與智能預(yù)取,支持高并發(fā)訪問。在1024卡集群上,讀取帶寬超過400GB/s,保障數(shù)據(jù)持續(xù)高速供給。
在具身模型計(jì)算優(yōu)化方面,針對(duì)主流開源的VLA(視覺-語言-動(dòng)作)模型的計(jì)算特點(diǎn)從Attention層、Token裁剪和訓(xùn)練后量化等多方位極致優(yōu)化,全方位提升模型的訓(xùn)練效率。
在具身模型基礎(chǔ)設(shè)施方面:通過搭建3.2T RDMA后端網(wǎng)絡(luò),基于多軌道優(yōu)化、拓?fù)涓兄{(diào)度與智能震蕩抑制,保障千卡間集合通信的高吞吐與低延遲,并在單點(diǎn)故障時(shí)快速恢復(fù),支持長周期訓(xùn)練穩(wěn)定運(yùn)行。同時(shí),基于云原生的AI數(shù)據(jù)湖優(yōu)化了數(shù)據(jù)調(diào)度與流水線,提升端到端處理效率。
2、行業(yè)首家支持具身模型千卡級(jí)開源訓(xùn)練框架
具身智能的發(fā)展依賴于算法、數(shù)據(jù)、算力及基礎(chǔ)設(shè)施的系統(tǒng)化協(xié)同,京東云JoyBuilder模型開發(fā)平臺(tái),基于在全鏈路數(shù)據(jù)處理、模型計(jì)算效率和AI基礎(chǔ)設(shè)施等的全面優(yōu)化,支持業(yè)界當(dāng)前最主流的LeRobot訓(xùn)練數(shù)據(jù)最新協(xié)議,并成為行業(yè)首家支持具身模型千卡級(jí)開源訓(xùn)練框架的AI開發(fā)平臺(tái)。
首先,支持業(yè)界最廣泛的訓(xùn)練數(shù)據(jù)新協(xié)議。早期LeRobot V2.1數(shù)據(jù)協(xié)議采用“單 episode 單文件”設(shè)計(jì),大規(guī)模樣本訓(xùn)練時(shí),海量小文件易導(dǎo)致數(shù)據(jù)加載瓶頸和存儲(chǔ)壓力。京東云JoyBuilder平臺(tái)支持一鍵升級(jí)至“多 episode 合并分片”的V3協(xié)議,同時(shí)解決原生框架訓(xùn)練過程中數(shù)據(jù)鏈路低效問題,經(jīng)過并行流水線和高效索引查詢優(yōu)化,將訓(xùn)練數(shù)據(jù)供給速度提升超10倍,顯著提升云側(cè)算力利用率和訓(xùn)練效率,滿足大規(guī)模分布式訓(xùn)練需求。
其次,作為行業(yè)首家支持具身模型千卡級(jí)的開源訓(xùn)練框架的AI開發(fā)平臺(tái),京東云JoyBuilder基于開源LeRobot框架,首次實(shí)現(xiàn)GR00T模型的千卡分布式高效訓(xùn)練,訓(xùn)練效率較開源社區(qū)版本提升3.5倍,1億+數(shù)據(jù)千卡訓(xùn)練時(shí)間從15小時(shí)縮短至22分鐘、提速40倍,大幅降低了千卡訓(xùn)練的使用門檻與運(yùn)行成本。
![]()
第三,基于對(duì)主流開源具身VLA模型效率的極致優(yōu)化,采用動(dòng)態(tài)計(jì)算優(yōu)化,引入變長Flash-Attention與Data Packing技術(shù)、訓(xùn)練提速188%;僅對(duì)有效token進(jìn)行計(jì)算,減少填充帶來的算力損耗,Token裁剪優(yōu)化訓(xùn)練提速165%以上;使用訓(xùn)練后細(xì)粒度FP8量化,在基本保持模型精度前提下,將權(quán)重壓縮超過36%、提速140%以上。
當(dāng)前,基于京東集團(tuán)復(fù)雜場景實(shí)踐,京東云已經(jīng)構(gòu)建了一站式大模型產(chǎn)品矩陣,從底層的智算基礎(chǔ)設(shè)施,到中間層的模型服務(wù)和工具,再到上層的Agent應(yīng)用開發(fā),支持具身智能企業(yè)快速部署大模型及AI應(yīng)用,共同推動(dòng)機(jī)器人更好地理解和服務(wù)物理世界,開啟人機(jī)協(xié)作的新篇章。
本文源自:金融界資訊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.