![]()
當(dāng)機(jī)器人學(xué)會「為什么而抓」,智能才真正開始面對真實世界。
作者丨鄭佳美
編輯丨岑峰
![]()
在機(jī)器人研究中,抓取這一看似基礎(chǔ)的問題正在成為決定上層智能能走多遠(yuǎn)的關(guān)鍵變量。今天的大模型已經(jīng)能夠理解語言、分析圖像、規(guī)劃任務(wù),但在與世界發(fā)生真正物理接觸的那一刻,智能系統(tǒng)仍然顯得笨拙。
現(xiàn)有抓取研究大多停留在穩(wěn)定性層面,只要能夾住、不掉落,即視為成功。然而在人類的日常活動中,抓取從來不是目的本身,而是功能行為的起點。端起杯子是為了倒水,握住錘柄是為了敲擊,按住噴壺的扳機(jī)是為了噴灑。也正是在這一層意義上,功能性抓取比穩(wěn)定抓取更接近真實世界的智能。
難點在于,功能性抓取并不是簡單的幾何問題,而涉及對物體結(jié)構(gòu)、用途、操控部位以及抓取方式的綜合理解。尤其在靈巧手系統(tǒng)中,上百維的控制空間與復(fù)雜的接觸動力學(xué)疊加,使得傳統(tǒng)強化學(xué)習(xí)方法難以取得有效進(jìn)展。如何讓機(jī)器人自主學(xué)習(xí)到功能相關(guān)的抓取位置與合適的抓取姿態(tài),一直缺乏系統(tǒng)而可驗證的解決方案。
在這一背景下,北京大學(xué)盧宗青團(tuán)隊在論文《Universal Dexterous Functional Grasping via Demonstration-Editing Reinforcement Learning》中提出了一種名為 DemoFunGrasp 方法,對功能性抓取進(jìn)行了重新建模。
研究團(tuán)隊將關(guān)注點從單純是否抓住物體,提升到如何圍繞物體的具體功能進(jìn)行抓取。他們把功能相關(guān)的位置以及抓取時所采用的姿態(tài)風(fēng)格納入到統(tǒng)一的學(xué)習(xí)框架之中,使功能目標(biāo)直接參與到策略優(yōu)化過程中,并在大規(guī)模仿真環(huán)境和真實機(jī)器人平臺上對這一框架進(jìn)行了系統(tǒng)驗證,并取得了在仿真與真實場景中均表現(xiàn)穩(wěn)定、成功率超過70%的功能性抓取效果。
![]()
論文地址:https://arxiv.org/pdf/2512.13380v1
01
從「抓得住」走向「抓得對」
這項研究的實驗首先證明了一個核心結(jié)論:研究團(tuán)隊所提出的 DemoFunGrasp 方法可以在大量不同形狀、不同功能、不同抓取風(fēng)格的物體上,實現(xiàn)可控的、語義明確的功能性抓取,而且不僅在仿真環(huán)境中有效,還能夠直接遷移到真實機(jī)器人平臺上。
論文的第一個重要實驗結(jié)果,是在大規(guī)模仿真環(huán)境中取得了較高的抓取成功率。研究者在 IsaacGym 中構(gòu)建了包含三千多個不同物體的環(huán)境,這些物體來源于 DexGraspNet 和 YCB 數(shù)據(jù)集,形狀差異非常顯著,包括細(xì)長物體、球形物體、帶把手的容器、工具類物體等。
在這些場景中,機(jī)器人被要求在指定功能條件下完成抓取,例如抓住杯子的把手、抓住噴壺的扳機(jī)位置或抓住工具柄部。實驗表明,在這種功能約束條件下,提出的方法仍然能夠保持較高的抓取成功率,說明所學(xué)到的策略不僅關(guān)注穩(wěn)定性,而且兼顧功能需求。
![]()
第二個重要實驗結(jié)果是功能區(qū)域?qū)?zhǔn)精度明顯提高。傳統(tǒng)抓取方法通常只要抓住即可,而不關(guān)心具體位置。為評價功能性,研究團(tuán)隊還定義了“成功抓取情況下,目標(biāo)功能點與實際接觸點的距離”這一指標(biāo)。
實驗顯示,DemoFunGrasp 能夠顯著減小這兩者之間的距離,偏差在平均水平上大約降低到 3 厘米左右,而對比方法往往會偏離較遠(yuǎn),甚至抓在完全不符合功能要求的位置上。
在具體物體上可以清楚看到這種差別,例如在錘子場景中,基線方法的抓取多集中在錘頭等穩(wěn)定區(qū)域,而 DemoFunGrasp 的接觸點主要分布在錘柄位置,在噴壺場景中,前者常抓在瓶身表面,后者則更多落在扳機(jī)或握持柄部附近,整體抓取位置明顯更加貼近功能區(qū)域。
![]()
第三個重要實驗結(jié)果是抓取風(fēng)格的多樣性與可控性。研究首先依據(jù)人類手部抓取分類體系,定義了一系列具有語義含義的抓取風(fēng)格,例如捏持、側(cè)持、小直徑抓等,并將其輸入到策略模型中,作為控制條件。
在抓取風(fēng)格的多樣性與可控性方面,實驗首先在同一物體上施加不同的抓取風(fēng)格條件,例如捏持、側(cè)持、小直徑抓等,觀察由此產(chǎn)生的抓取結(jié)果。
實驗發(fā)現(xiàn),同一物體在不同風(fēng)格條件下,策略會主動生成截然不同的抓取姿態(tài),而不是簡單改變少量關(guān)節(jié)角或進(jìn)行微弱擾動,表現(xiàn)出明顯的風(fēng)格差異。進(jìn)一步地,將大量抓取姿態(tài)映射到低維嵌入空間進(jìn)行可視化分析時可以看到,不同抓取風(fēng)格在嵌入空間中形成清晰分離的聚類,說明風(fēng)格信號被穩(wěn)定地編碼并作用于控制過程,模型真正學(xué)到的是結(jié)構(gòu)化、可控的抓取風(fēng)格,而非無意義的數(shù)值波動。
![]()
第四個實驗結(jié)果體現(xiàn)在真實機(jī)器人平臺上。實驗中研究團(tuán)隊使用真實 7 自由度機(jī)械臂加靈巧手系統(tǒng),對日常物體進(jìn)行功能抓取測試,包括水壺、碗、噴壺、香蕉、玩具以及各種工具。
在此場景中,機(jī)器人只依賴攝像頭圖像,而不再獲得仿真中的完美狀態(tài)信息。研究者沒有進(jìn)行額外的真實世界微調(diào),而是將策略直接部署在現(xiàn)實環(huán)境中,仍取得了超過 70% 的抓取成功率。更重要的是,機(jī)器人不僅完成抓取行為,還能夠執(zhí)行功能相關(guān)的后續(xù)動作,例如提起壺柄倒水、抓住噴壺扳機(jī)進(jìn)行噴射等。這說明,策略不只是“抓住就好”,而是抓在真正能夠使用的位置。
![]()
此外,研究還通過消融實驗證明設(shè)計中的關(guān)鍵模塊都是必要的。例如,去掉可供性相關(guān)獎勵項后,成功率反而略有提升,卻明顯偏離功能區(qū)域,說明如果只追求穩(wěn)定,會犧牲功能正確性;去掉風(fēng)格擾動機(jī)制后,成功率大幅下降,表明風(fēng)格調(diào)節(jié)對策略探索具有重要意義;去掉尺寸歸一化后,大物體的學(xué)習(xí)變得極不穩(wěn)定,證明考慮尺度一致性至關(guān)重要。這些實驗共同證明,論文中提出的具體設(shè)計不僅是附加裝飾,而是支撐整體性能的關(guān)鍵因素。
![]()
02
把「怎么抓」提升到「為什么而抓」
為了得到上述實驗結(jié)果,研究團(tuán)隊設(shè)計了一條較為清晰的方法路線,這條路線的核心思想,就是把“功能抓取”從直覺概念變成了建模良好的問題,然后再利用強化學(xué)習(xí)和模仿學(xué)習(xí)進(jìn)行求解。
首先,研究團(tuán)隊在任務(wù)建模上做了非常關(guān)鍵的一步:它沒有直接把抓取看作一個簡單的“手與物體相互接觸”的幾何問題,而是明確提出,功能抓取應(yīng)該由兩個互補部分共同定義,即抓取的功能性位置以及抓取的姿態(tài)風(fēng)格。功能位置用三維空間中的可供性點來描述,例如茶壺的把手位置、噴壺的扳機(jī)位置或剪刀的握柄位置。
抓取風(fēng)格則使用類別標(biāo)簽來表示,例如捏持、環(huán)握或側(cè)持等。這種分解使得功能抓取問題可以被表達(dá)為:在給定物體形狀、功能點和風(fēng)格標(biāo)簽的條件下,計算一個完整的抓握動作。
![]()
接下來,研究引入了演示編輯強化學(xué)習(xí)方法。傳統(tǒng)強化學(xué)習(xí)在 dexterous hand 場景下非常困難,因為靈巧手具有二十多個甚至更多的自由度,動作空間極高,而且抓取涉及復(fù)雜的接觸動力學(xué),探索過程容易失敗。為此,研究團(tuán)隊不是讓策略從零生成整條抓取軌跡,而是先準(zhǔn)備一條基礎(chǔ)示范軌跡,然后讓策略學(xué)習(xí)如何在這條軌跡附近進(jìn)行修改。示范軌跡可以理解為一種“基本抓取動作骨架”,而策略只做殘差式調(diào)整。
具體來說,策略輸出包括手腕位姿的整體變換,以及手指關(guān)節(jié)角的小幅變化,這些變化直接作用于演示軌跡,得到新的執(zhí)行動作。這種方式將原本需要在長時間序列中持續(xù)決策的問題,轉(zhuǎn)化為一次性的單步?jīng)Q策,從而大大降低了搜索空間和學(xué)習(xí)難度。
![]()
在此基礎(chǔ)上,研究人員精心設(shè)計了獎勵函數(shù),使策略不僅追求抓取成功,還要遵循功能約束與姿態(tài)風(fēng)格。獎勵包含四個核心部分:抓取是否最終成功、抓取接觸點與功能性可供性點的距離、抓取過程中是否靠近功能區(qū)域以及最終手部姿態(tài)與目標(biāo)風(fēng)格的差異。
特別重要的是,他們還考慮到不同物體尺寸差異明顯,如果直接使用歐氏距離作為衡量標(biāo)準(zhǔn),尺寸大的物體會被不公平地懲罰。因此,研究中引入了按物體尺寸進(jìn)行歸一化的距離測量方式,從而保證獎勵尺度一致,這使強化學(xué)習(xí)更加穩(wěn)定。
![]()
之后,研究進(jìn)程并未停留在狀態(tài)級強化學(xué)習(xí)上,而是進(jìn)一步把策略遷移到視覺輸入空間。具體過程是,先利用上述狀態(tài)策略在仿真環(huán)境中大量收集成功的抓取軌跡,包括 RGB 圖像、手臂與手部的狀態(tài)、目標(biāo)功能點、抓取風(fēng)格標(biāo)簽以及控制動作。
然后,將這些數(shù)據(jù)作為監(jiān)督信號,訓(xùn)練一個視覺策略網(wǎng)絡(luò),使其直接從原始圖像預(yù)測控制信號。這一步實際上相當(dāng)于進(jìn)行了一次模仿學(xué)習(xí)或策略蒸餾,它將“理想信息下學(xué)得的策略”轉(zhuǎn)化為“真實感知條件下可執(zhí)行策略”。訓(xùn)練過程中,作者對光照、材質(zhì)、相機(jī)位置等因素進(jìn)行了大規(guī)模隨機(jī)化,使視覺策略不依賴特定環(huán)境特點,從而能夠在真實世界中運行。
![]()
研究團(tuán)隊還將視覺語言模型引入系統(tǒng)中,使機(jī)器人能夠從語言中理解功能性抓取要求。當(dāng)用戶說“抓住噴壺的扳機(jī)”或“拿茶壺的把手”時,視覺語言模型會在圖像中定位對應(yīng)的功能區(qū)域,并將其轉(zhuǎn)換為可供性點作為抓取策略輸入。這樣,系統(tǒng)構(gòu)建起完整的鏈條:從語言理解,到視覺感知,到功能位置推理,再到靈巧手抓取控制。
03
當(dāng)控制難題被真正降維
這項研究的意義可以從三個層面理解:抓取目標(biāo)的轉(zhuǎn)變、學(xué)習(xí)方法的突破以及具身智能系統(tǒng)整體能力的提升。
首先,它改變了傳統(tǒng)機(jī)器人抓取的目標(biāo)。以往大多數(shù)機(jī)器人抓取研究,只要物體被抬起、不掉落,就認(rèn)為任務(wù)完成。然而在人類日常生活中,大多數(shù)抓取并不只是“抓住”,而是“為了使用”。例如抓杯子是為了倒水,抓剪刀是為了剪東西,抓噴壺是為了噴灑。
這項研究將功能性要求明確引入抓取環(huán)節(jié),使機(jī)器人抓取從“幾何穩(wěn)定性問題”轉(zhuǎn)變?yōu)椤芭c物體功能緊密相關(guān)的語義問題”。這標(biāo)志著機(jī)器人操作從單純的物理行為向語義行為過渡,是邁向真正智能操作的關(guān)鍵一步。
其次,這項工作為dexterous hand的強化學(xué)習(xí)提供了新的解決路徑。靈巧手具有極高自由度和復(fù)雜接觸模式,直接在其動作空間上進(jìn)行強化學(xué)習(xí)往往極其困難,容易陷入探索失敗或收斂緩慢的問題。
論文提出的演示編輯式強化學(xué)習(xí),通過構(gòu)造演示軌跡作為參考,將多步連續(xù)控制轉(zhuǎn)化為單步殘差決策,大幅降低了學(xué)習(xí)難度。這種思想不僅適用于抓取,還可能推廣到多種復(fù)雜操作任務(wù),例如旋轉(zhuǎn)、插接、開合等,對整個 dexterous manipulation 領(lǐng)域具有啟發(fā)意義。
再次,論文提出的功能點 + 抓取風(fēng)格表達(dá)方式,本身就是一種重要概念建模創(chuàng)新。它把功能抓取從模糊概念轉(zhuǎn)化為可計算、可組合、可條件控制的形式,使得抓取策略能夠接受來自人類語言、任務(wù)規(guī)劃器或感知系統(tǒng)的條件輸入。這為未來多模態(tài)機(jī)器人系統(tǒng)與人類自然交互提供了基礎(chǔ)。
最后,這項研究實現(xiàn)了從語言、視覺到低層控制的完整閉環(huán),機(jī)器人不再只是執(zhí)行剛性預(yù)設(shè)程序,而是能夠在理解任務(wù)語義后自主決定如何抓取和使用物體。這種能力是通用家庭機(jī)器人、服務(wù)機(jī)器人以及具身人工智能系統(tǒng)的關(guān)鍵能力之一,因此具有非常重要的理論與應(yīng)用價值。
04
讓抓取擁有「目的」的研究者
本論文通訊作者盧宗青為北京大學(xué)計算機(jī)學(xué)院長聘副教授、國家級青年人才、智源學(xué)者。長期擔(dān)任 NeurIPS、ICML、ICLR 等國際頂級會議的領(lǐng)域主席,提出 Video Tokenizer 技術(shù)以及 Retriever–Actor–Critic 框架,推動多模態(tài)模型與強化學(xué)習(xí)在機(jī)器人領(lǐng)域的深度結(jié)合,其研究成果已在多家頭部機(jī)器人企業(yè)開展場景驗證與應(yīng)用合作。
盧宗青先后在東南大學(xué)獲得學(xué)士和碩士學(xué)位,2014 年于新加坡南洋理工大學(xué)獲得計算機(jī)博士學(xué)位,隨后于 2014 至 2017 年在美國賓州州立大學(xué)從事博士后研究。
2022 年,他擔(dān)任智源研究院多模態(tài)交互研究中心負(fù)責(zé)人,主持國家自然科學(xué)基金委原創(chuàng)探索計劃“通用智能體”項目。2023 年帶領(lǐng)團(tuán)隊研發(fā)通用智能體 Cradle,相關(guān)論文于 2025 年被 ICML 錄用。
2025 年 1 月,他創(chuàng)立北京智在無界科技有限公司(BeingBeyond),提出通過標(biāo)注 1500 萬條互聯(lián)網(wǎng)視頻中的人類關(guān)節(jié)動作數(shù)據(jù)構(gòu)建多模態(tài)姿態(tài)模型。同年 6 月,公司完成由聯(lián)想之星領(lǐng)投、智譜 Z 基金、燕緣創(chuàng)投和彬復(fù)資本跟投的數(shù)千萬元天使輪融資,資金主要用于模型迭代與產(chǎn)業(yè)化驗證。
![]()
參考鏈接:https://z0ngqing.github.io/
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.