近日,具身智能真實(shí)數(shù)據(jù)采集技術(shù)取得重要突破。由螞蟻數(shù)科天璣實(shí)驗(yàn)室團(tuán)隊(duì)研發(fā)的AoE(Always-On Egocentric)持續(xù)性第一人稱(chēng)視頻采集框架,提出了一種輕量化且低成本的具身數(shù)據(jù)采集方案。通過(guò)一臺(tái)手機(jī)和一個(gè)低于 20 美元的頸掛式支架,就可以替代動(dòng)輒數(shù)萬(wàn)美元的專(zhuān)業(yè)設(shè)備,實(shí)現(xiàn)具身智能的高質(zhì)量數(shù)據(jù)采集。該技術(shù)方案的提出,有效化解了具身數(shù)據(jù)采集成本高、規(guī)模化難的困局。目前,這一技術(shù)論文已經(jīng)在 Arxiv 發(fā)布。
![]()
隨著基礎(chǔ)模型持續(xù)演進(jìn),模型的泛化能力和跨場(chǎng)景適應(yīng)能力,越來(lái)越依賴(lài)真實(shí)世界交互數(shù)據(jù)的規(guī)模、質(zhì)量與覆蓋范圍。AoE的核心突破在于將“人+手機(jī)”轉(zhuǎn)化為可持續(xù)運(yùn)行的數(shù)據(jù)節(jié)點(diǎn),其載體是一款符合人體工學(xué)的頸掛式支架,通過(guò)機(jī)械夾具、磁吸等方式能將手機(jī)穩(wěn)固于胸前,持續(xù)采集貼近用戶(hù)視角的第一人稱(chēng)畫(huà)面,從而完整記錄自然交互過(guò)程。
該方案在保持毫米級(jí)軌跡精度和90%以上手部關(guān)鍵點(diǎn)識(shí)別準(zhǔn)確率的同時(shí),實(shí)現(xiàn)了數(shù)千臺(tái)設(shè)備并發(fā)采集與云端自動(dòng)化處理。實(shí)測(cè)表明,針對(duì)Unitree G1機(jī)器人的關(guān)電腦任務(wù),僅靠50條遙操作數(shù)據(jù)時(shí)成功率為 45%,而引入200條AoE數(shù)據(jù)后,成功率躍升至95%。在數(shù)據(jù)匱乏時(shí),AoE承擔(dān)了“啟動(dòng)學(xué)習(xí)”的關(guān)鍵補(bǔ)位角色。
![]()
低成本采集只是起點(diǎn)。據(jù)論文介紹,螞蟻數(shù)科攻克了“長(zhǎng)視頻轉(zhuǎn)化為訓(xùn)練數(shù)據(jù)”的技術(shù)難題:該方案通過(guò)端側(cè)輕量級(jí)視覺(jué)模型自動(dòng)識(shí)別手物交互并觸發(fā)錄制,利用大語(yǔ)言 - 視覺(jué)模型將連續(xù)視頻切分為帶語(yǔ)義標(biāo)簽的原子動(dòng)作片段,最終經(jīng)云端自動(dòng)標(biāo)注、過(guò)濾與清洗,讓手機(jī)錄制的視頻自動(dòng)轉(zhuǎn)化為高質(zhì)量、標(biāo)準(zhǔn)化的訓(xùn)練數(shù)據(jù)。
此外,AOE 還構(gòu)建了一套端云協(xié)同的方案,實(shí)現(xiàn)了采集、預(yù)處理、清洗、篩選和調(diào)度的自動(dòng)化處理,在降低人工介入的基礎(chǔ)之上,提升了整體吞吐量。
記者注意到,螞蟻數(shù)科正大力投入 AI toB。以 AI 落地產(chǎn)業(yè)為方向,旗下天璣實(shí)驗(yàn)室重點(diǎn)布局 AI+數(shù)據(jù),AI+安全,AI+金融及AI+具身智能等領(lǐng)域,加速技術(shù)成果轉(zhuǎn)化和應(yīng)用。2026 開(kāi)年以來(lái),螞蟻數(shù)科 AI 動(dòng)作頻頻,此前宣布成立“大模型技術(shù)創(chuàng)新部” ,并計(jì)劃推出企業(yè)級(jí)大模型產(chǎn)品。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.