在機器人研究中,抓取這一看似基礎的問題正在成為決定上層智能能走多遠的關鍵變量。今天的大模型已經能夠理解語言、分析圖像、規劃任務,但在與世界發生真正物理接觸的那一刻,智能系統仍然顯得笨拙。
現有抓取研究大多停留在穩定性層面,只要能夾住、不掉落,即視為成功。然而在人類的日常活動中,抓取從來不是目的本身,而是功能行為的起點。端起杯子是為了倒水,握住錘柄是為了敲擊,按住噴壺的扳機是為了噴灑。也正是在這一層意義上,功能性抓取比穩定抓取更接近真實世界的智能。
難點在于,功能性抓取并不是簡單的幾何問題,而涉及對物體結構、用途、操控部位以及抓取方式的綜合理解。尤其在靈巧手系統中,上百維的控制空間與復雜的接觸動力學疊加,使得傳統強化學習方法難以取得有效進展。如何讓機器人自主學習到功能相關的抓取位置與合適的抓取姿態,一直缺乏系統而可驗證的解決方案。
在這一背景下,北京大學盧宗青團隊在論文《Universal Dexterous Functional Grasping via Demonstration-Editing Reinforcement Learning》中提出了一種名為DemoFunGrasp方法,對功能性抓取進行了重新建模。
研究團隊將關注點從單純是否抓住物體,提升到如何圍繞物體的具體功能進行抓取。他們把功能相關的位置以及抓取時所采用的姿態風格納入到統一的學習框架之中,使功能目標直接參與到策略優化過程中,并在大規模仿真環境和真實機器人平臺上對這一框架進行了系統驗證,并取得了在仿真與真實場景中均表現穩定、成功率超過70%的功能性抓取效果。
![]()
論文地址:https://arxiv.org/pdf/2512.13380v1
從「抓得住」走向「抓得對」
這項研究的實驗首先證明了一個核心結論:研究團隊所提出的DemoFunGrasp方法可以在大量不同形狀、不同功能、不同抓取風格的物體上,實現可控的、語義明確的功能性抓取,而且不僅在仿真環境中有效,還能夠直接遷移到真實機器人平臺上。
論文的第一個重要實驗結果,是在大規模仿真環境中取得了較高的抓取成功率。研究者在IsaacGym中構建了包含三千多個不同物體的環境,這些物體來源于DexGraspNet和YCB數據集,形狀差異非常顯著,包括細長物體、球形物體、帶把手的容器、工具類物體等。
在這些場景中,機器人被要求在指定功能條件下完成抓取,例如抓住杯子的把手、抓住噴壺的扳機位置或抓住工具柄部。實驗表明,在這種功能約束條件下,提出的方法仍然能夠保持較高的抓取成功率,說明所學到的策略不僅關注穩定性,而且兼顧功能需求。
![]()
第二個重要實驗結果是功能區域對準精度明顯提高。傳統抓取方法通常只要抓住即可,而不關心具體位置。為評價功能性,研究團隊還定義了“成功抓取情況下,目標功能點與實際接觸點的距離”這一指標。
實驗顯示,DemoFunGrasp能夠顯著減小這兩者之間的距離,偏差在平均水平上大約降低到3厘米左右,而對比方法往往會偏離較遠,甚至抓在完全不符合功能要求的位置上。
在具體物體上可以清楚看到這種差別,例如在錘子場景中,基線方法的抓取多集中在錘頭等穩定區域,而DemoFunGrasp的接觸點主要分布在錘柄位置,在噴壺場景中,前者常抓在瓶身表面,后者則更多落在扳機或握持柄部附近,整體抓取位置明顯更加貼近功能區域。
![]()
第三個重要實驗結果是抓取風格的多樣性與可控性。研究首先依據人類手部抓取分類體系,定義了一系列具有語義含義的抓取風格,例如捏持、側持、小直徑抓等,并將其輸入到策略模型中,作為控制條件。
在抓取風格的多樣性與可控性方面,實驗首先在同一物體上施加不同的抓取風格條件,例如捏持、側持、小直徑抓等,觀察由此產生的抓取結果。
實驗發現,同一物體在不同風格條件下,策略會主動生成截然不同的抓取姿態,而不是簡單改變少量關節角或進行微弱擾動,表現出明顯的風格差異。進一步地,將大量抓取姿態映射到低維嵌入空間進行可視化分析時可以看到,不同抓取風格在嵌入空間中形成清晰分離的聚類,說明風格信號被穩定地編碼并作用于控制過程,模型真正學到的是結構化、可控的抓取風格,而非無意義的數值波動。
![]()
第四個實驗結果體現在真實機器人平臺上。實驗中研究團隊使用真實7自由度機械臂加靈巧手系統,對日常物體進行功能抓取測試,包括水壺、碗、噴壺、香蕉、玩具以及各種工具。
在此場景中,機器人只依賴攝像頭圖像,而不再獲得仿真中的完美狀態信息。研究者沒有進行額外的真實世界微調,而是將策略直接部署在現實環境中,仍取得了超過70%的抓取成功率。更重要的是,機器人不僅完成抓取行為,還能夠執行功能相關的后續動作,例如提起壺柄倒水、抓住噴壺扳機進行噴射等。這說明,策略不只是“抓住就好”,而是抓在真正能夠使用的位置。
![]()
此外,研究還通過消融實驗證明設計中的關鍵模塊都是必要的。例如,去掉可供性相關獎勵項后,成功率反而略有提升,卻明顯偏離功能區域,說明如果只追求穩定,會犧牲功能正確性;去掉風格擾動機制后,成功率大幅下降,表明風格調節對策略探索具有重要意義;去掉尺寸歸一化后,大物體的學習變得極不穩定,證明考慮尺度一致性至關重要。這些實驗共同證明,論文中提出的具體設計不僅是附加裝飾,而是支撐整體性能的關鍵因素。
![]()
![]()
把「怎么抓」提升到「為什么而抓」
為了得到上述實驗結果,研究團隊設計了一條較為清晰的方法路線,這條路線的核心思想,就是把“功能抓取”從直覺概念變成了建模良好的問題,然后再利用強化學習和模仿學習進行求解。
首先,研究團隊在任務建模上做了非常關鍵的一步:它沒有直接把抓取看作一個簡單的“手與物體相互接觸”的幾何問題,而是明確提出,功能抓取應該由兩個互補部分共同定義,即抓取的功能性位置以及抓取的姿態風格。功能位置用三維空間中的可供性點來描述,例如茶壺的把手位置、噴壺的扳機位置或剪刀的握柄位置。
抓取風格則使用類別標簽來表示,例如捏持、環握或側持等。這種分解使得功能抓取問題可以被表達為:在給定物體形狀、功能點和風格標簽的條件下,計算一個完整的抓握動作。
![]()
接下來,研究引入了演示編輯強化學習方法。傳統強化學習在dexterous hand場景下非常困難,因為靈巧手具有二十多個甚至更多的自由度,動作空間極高,而且抓取涉及復雜的接觸動力學,探索過程容易失敗。為此,研究團隊不是讓策略從零生成整條抓取軌跡,而是先準備一條基礎示范軌跡,然后讓策略學習如何在這條軌跡附近進行修改。示范軌跡可以理解為一種“基本抓取動作骨架”,而策略只做殘差式調整。
具體來說,策略輸出包括手腕位姿的整體變換,以及手指關節角的小幅變化,這些變化直接作用于演示軌跡,得到新的執行動作。這種方式將原本需要在長時間序列中持續決策的問題,轉化為一次性的單步決策,從而大大降低了搜索空間和學習難度。
![]()
在此基礎上,研究人員精心設計了獎勵函數,使策略不僅追求抓取成功,還要遵循功能約束與姿態風格。獎勵包含四個核心部分:抓取是否最終成功、抓取接觸點與功能性可供性點的距離、抓取過程中是否靠近功能區域以及最終手部姿態與目標風格的差異。雷峰網
特別重要的是,他們還考慮到不同物體尺寸差異明顯,如果直接使用歐氏距離作為衡量標準,尺寸大的物體會被不公平地懲罰。因此,研究中引入了按物體尺寸進行歸一化的距離測量方式,從而保證獎勵尺度一致,這使強化學習更加穩定。
![]()
之后,研究進程并未停留在狀態級強化學習上,而是進一步把策略遷移到視覺輸入空間。具體過程是,先利用上述狀態策略在仿真環境中大量收集成功的抓取軌跡,包括RGB圖像、手臂與手部的狀態、目標功能點、抓取風格標簽以及控制動作。
然后,將這些數據作為監督信號,訓練一個視覺策略網絡,使其直接從原始圖像預測控制信號。這一步實際上相當于進行了一次模仿學習或策略蒸餾,它將“理想信息下學得的策略”轉化為“真實感知條件下可執行策略”。訓練過程中,作者對光照、材質、相機位置等因素進行了大規模隨機化,使視覺策略不依賴特定環境特點,從而能夠在真實世界中運行。
![]()
研究團隊還將視覺語言模型引入系統中,使機器人能夠從語言中理解功能性抓取要求。當用戶說“抓住噴壺的扳機”或“拿茶壺的把手”時,視覺語言模型會在圖像中定位對應的功能區域,并將其轉換為可供性點作為抓取策略輸入。這樣,系統構建起完整的鏈條:從語言理解,到視覺感知,到功能位置推理,再到靈巧手抓取控制。
當控制難題被真正降維
這項研究的意義可以從三個層面理解:抓取目標的轉變、學習方法的突破以及具身智能系統整體能力的提升。
首先,它改變了傳統機器人抓取的目標。以往大多數機器人抓取研究,只要物體被抬起、不掉落,就認為任務完成。然而在人類日常生活中,大多數抓取并不只是“抓住”,而是“為了使用”。例如抓杯子是為了倒水,抓剪刀是為了剪東西,抓噴壺是為了噴灑。
這項研究將功能性要求明確引入抓取環節,使機器人抓取從“幾何穩定性問題”轉變為“與物體功能緊密相關的語義問題”。這標志著機器人操作從單純的物理行為向語義行為過渡,是邁向真正智能操作的關鍵一步。
其次,這項工作為dexterous hand的強化學習提供了新的解決路徑。靈巧手具有極高自由度和復雜接觸模式,直接在其動作空間上進行強化學習往往極其困難,容易陷入探索失敗或收斂緩慢的問題。
論文提出的演示編輯式強化學習,通過構造演示軌跡作為參考,將多步連續控制轉化為單步殘差決策,大幅降低了學習難度。這種思想不僅適用于抓取,還可能推廣到多種復雜操作任務,例如旋轉、插接、開合等,對整個dexterous manipulation領域具有啟發意義。
再次,論文提出的功能點+抓取風格表達方式,本身就是一種重要概念建模創新。它把功能抓取從模糊概念轉化為可計算、可組合、可條件控制的形式,使得抓取策略能夠接受來自人類語言、任務規劃器或感知系統的條件輸入。這為未來多模態機器人系統與人類自然交互提供了基礎。雷峰網
最后,這項研究實現了從語言、視覺到低層控制的完整閉環,機器人不再只是執行剛性預設程序,而是能夠在理解任務語義后自主決定如何抓取和使用物體。這種能力是通用家庭機器人、服務機器人以及具身人工智能系統的關鍵能力之一,因此具有非常重要的理論與應用價值。
讓抓取擁有「目的」的研究者
本論文通訊作者盧宗青為北京大學計算機學院長聘副教授、國家級青年人才、智源學者。長期擔任NeurIPS、ICML、ICLR等國際頂級會議的領域主席,提出Video Tokenizer技術以及Retriever–Actor–Critic框架,推動多模態模型與強化學習在機器人領域的深度結合,其研究成果已在多家頭部機器人企業開展場景驗證與應用合作。
盧宗青先后在東南大學獲得學士和碩士學位,2014年于新加坡南洋理工大學獲得計算機博士學位,隨后于2014至2017年在美國賓州州立大學從事博士后研究。
2022年,他擔任智源研究院多模態交互研究中心負責人,主持國家自然科學基金委原創探索計劃“通用智能體”項目。2023年帶領團隊研發通用智能體Cradle,相關論文于2025年被ICML錄用。
2025年1月,他創立北京智在無界科技有限公司(BeingBeyond),提出通過標注1500萬條互聯網視頻中的人類關節動作數據構建多模態姿態模型。同年6月,公司完成由聯想之星領投、智譜Z基金、燕緣創投和彬復資本跟投的數千萬元天使輪融資,資金主要用于模型迭代與產業化驗證。
![]()
參考鏈接:https://z0ngqing.github.io/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.