1月12日,在第九屆深商盛典 “AI 硬件論壇” 上,自變量機(jī)器人創(chuàng)始合伙人兼 COO 楊倩以 “基于具身大模型構(gòu)建可精細(xì)操作的通用機(jī)器人” 為主題發(fā)表演講。她深入剖析了機(jī)器人在物理世界應(yīng)用中的核心痛點,分享了自變量在具身智能大模型領(lǐng)域的技術(shù)探索與落地成果,提出具身智能大模型是賦予機(jī)器人 “自主” 能力的核心引擎,為行業(yè)突破技術(shù)瓶頸、實現(xiàn)規(guī)模化應(yīng)用提供了全新思路。
![]()
行業(yè)悖論:物理世界的復(fù)雜性挑戰(zhàn)傳統(tǒng) AI
“人工智能領(lǐng)域存在一個有趣的悖論:人類覺得最簡單的事情,對機(jī)器人來說往往最難;而人類認(rèn)為復(fù)雜的任務(wù),機(jī)器人卻能輕松完成。” 楊倩在演講開篇拋出的觀點引發(fā)了現(xiàn)場嘉賓的強烈共鳴。她舉例道,ChatGPT 等大語言模型能在幾秒內(nèi)完成詩歌創(chuàng)作、PPT 制作等復(fù)雜任務(wù),但卻無法完成清理垃圾、刷馬桶、疊衣服等人類習(xí)以為常的基礎(chǔ)勞動。
這一悖論的背后,是物理世界與數(shù)字世界的本質(zhì)差異。楊倩解釋道,數(shù)字世界的信息具有結(jié)構(gòu)化、可預(yù)測性的特點,而物理世界充滿了不確定性與復(fù)雜性。“同樣是抓取物體,一個圓形的硬盒子和一個柔軟的塑料袋,機(jī)器人需要采用完全不同的力度和方式;即使是同一個物體,在不同的擺放角度、不同的環(huán)境光照下,處理方式也需靈活調(diào)整。”
傳統(tǒng)技術(shù)難以應(yīng)對這種復(fù)雜性。工業(yè)場景中的機(jī)械臂雖然能實現(xiàn)毫秒級的精準(zhǔn)操作,但只能在固定場景下完成單一任務(wù),一旦更換操作對象或環(huán)境,就會完全失效;家庭場景中的掃地機(jī)器人,也需要人類提前清理障礙,無法自主應(yīng)對突發(fā)狀況。“這些問題的核心癥結(jié)在于,傳統(tǒng) AI 模型缺乏對物理世界的理解能力,無法像人類一樣‘感受’環(huán)境變化并做出適應(yīng)性決策。” 楊倩強調(diào),破解這一難題,必須依靠專門針對物理世界研發(fā)的具身智能大模型。
![]()
技術(shù)路徑:端到端路線構(gòu)建具身智能大腦
“如果說硬件是機(jī)器人的軀體,那么具身智能大模型就是賦予其感知、決策、執(zhí)行能力的大腦。” 楊倩表示,自變量機(jī)器人從成立之初就確立了 “以大模型為核心” 的技術(shù)路線,構(gòu)建了端到端的全棧自研模型。
與傳統(tǒng) AI 模型不同,自變量的具身智能大模型是平行且獨立于大語言模型的全新基礎(chǔ)模型。“它不是對現(xiàn)有大語言模型的簡單微調(diào),而是基于物理世界的特性從頭研發(fā)。” 楊倩介紹,該模型具備多模態(tài)輸入輸出能力,能夠整合視覺、觸覺、力覺等多種傳感器數(shù)據(jù),實現(xiàn)對物理世界的全方位感知。
在數(shù)據(jù)訓(xùn)練方面,自變量構(gòu)建了海量的真實場景數(shù)據(jù)集,涵蓋家庭服務(wù)、工業(yè)生產(chǎn)、養(yǎng)老等多個領(lǐng)域。“我們收集了數(shù)百萬條物體操作數(shù)據(jù),包括不同材質(zhì)、不同形狀物體的抓取、搬運、裝配等過程,讓模型能夠?qū)W習(xí)物理世界的基本規(guī)律。” 楊倩表示,通過持續(xù)的訓(xùn)練與優(yōu)化,模型已具備強大的泛化能力,能夠應(yīng)對未見過的場景與任務(wù)。
實時應(yīng)對能力是具身智能大模型的另一大優(yōu)勢。“物理世界的交互是實時進(jìn)行的,機(jī)器人必須在毫秒級時間內(nèi)做出決策。” 楊倩舉例道,當(dāng)機(jī)器人抓取一個易碎品時,需要實時感知物體的重量、硬度,動態(tài)調(diào)整抓取力度,避免物體損壞。自變量的具身智能大模型能夠?qū)崿F(xiàn)感知與決策的無縫銜接,確保機(jī)器人在復(fù)雜環(huán)境中高效、安全地完成任務(wù)。
![]()
落地成果:從技術(shù)突破到場景賦能
經(jīng)過兩年多研發(fā),自變量的具身智能大模型已實現(xiàn)多項世界性技術(shù)突破,成功賦能機(jī)器人完成一系列復(fù)雜任務(wù)。“柔性物體操作是行業(yè)公認(rèn)的技術(shù)難題,而我們的機(jī)器人已經(jīng)能夠自主完成晾衣、疊衣、切菜等任務(wù)。” 楊倩通過視頻展示了機(jī)器人的實操成果。
在家庭服務(wù)場景中,自變量機(jī)器人能夠根據(jù)衣物材質(zhì)調(diào)整晾曬方式,將襯衫、毛衣等不同衣物分類疊放整齊;在廚房場景中,機(jī)器人可以精準(zhǔn)控制刀具力度,完成切菜、配菜、倒果汁等操作,動作流暢度堪比專業(yè)廚師。“這些任務(wù)看似簡單,但需要機(jī)器人具備對物體屬性的精準(zhǔn)感知、對操作力度的精確控制,以及對任務(wù)流程的合理規(guī)劃,是具身智能大模型能力的綜合體現(xiàn)。” 楊倩介紹道。
工業(yè)場景中,自變量機(jī)器人成功解決了柔性生產(chǎn)的痛點。傳統(tǒng)自動化生產(chǎn)線難以應(yīng)對多品種、小批量的生產(chǎn)需求,而自變量的機(jī)器人能夠快速適應(yīng)不同規(guī)格、不同材質(zhì)的產(chǎn)品,完成裝配、檢測、包裝等工序。
更令人矚目的是,自變量機(jī)器人已實現(xiàn)高自由度靈巧手的精準(zhǔn)控制。“我們的靈巧手擁有20個自由度,能夠完成發(fā)牌、系鞋帶等精細(xì)操作,每一個手指的動作都能精準(zhǔn)模擬人類。” 楊倩表示,這一突破意味著機(jī)器人在精細(xì)操作等高端領(lǐng)域的應(yīng)用成為可能。
![]()
展望未來,楊倩表示,自變量將持續(xù)深耕具身智能大模型技術(shù),推動機(jī)器人在更多場景的落地應(yīng)用。“我們的目標(biāo)是讓機(jī)器人能夠真正融入人類的生產(chǎn)生活,成為無所不能的助手。” 她認(rèn)為,隨著技術(shù)的不斷進(jìn)步,具身智能將打通數(shù)字世界與物理世界的壁壘,在家庭服務(wù)、工業(yè)生產(chǎn)、醫(yī)療健康等領(lǐng)域引發(fā)深刻變革,讓 “機(jī)器人開始感受世界” 成為改變?nèi)祟惿畹闹匾α俊?/p>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.