過去,如果想讓機器人布置餐桌,需要給它明確的指令,比如:往前走 2 米,抬起 45 度,食物需要擺在餐盤中,叉子擺到盤子的右側……
現在,只要對機器人說“把這些餐具以合理的形式擺好”,它就能通過與大語言模型交流,學到怎么擺的常識性知識,然后按照要求把餐具合理地擺出來。

(來源:https://sites.google.com/view/llm-grop)
這項研究來自美國紐約州立大學賓漢姆頓分校張世琦教授團隊與合作者,他們提出了一種名為 LLM-GROP 的方法,使機器人能夠在復雜環境中高效地完成多對象重新排列任務,在真實環境中的任務成功率達 84.4%。
張世琦對 DeepTech 表示:“我們首次將大語言模型的常識知識與任務與運動規劃(TAMP,Task and motion planning)任務結合。該系統表現出強適應能力,支持在動態障礙的環境中進行實時調整。”
該研究為服務機器人在開放世界中的語義任務執行提供了新思路,適用于移動操作平臺,即當機器人既需要在任務層面做離散規劃,把復雜任務分解成一步步動作,又需要在連續空間里做軌跡規劃的情況。
![]()
圖丨移動機械臂布置餐桌的場景(來源:IJRR)
研究團隊對移動操作(MoMa)領域進行研究,重點關注機器人同時執行導航和移動抓取的任務。他們還特別關注如何在給定未明確指定的目標的情況下,計算每個物體應該放置的位置和方式。
研究人員利用大模型的豐富常識知識,例如餐具的擺放方式,來促進任務級和運動級規劃。此外,他們還使用計算機視覺方法來學習選擇基礎位置的策略促進 MoMa 行為。
張世琦舉例說道:“這很像餐廳里服務員上菜的情景。一方面,服務員站得離桌子越近越好,另一方面又要與顧客、桌子、椅子以及其他障礙物保持一定的距離。我們用視覺方案來解決站位問題,以兼顧機械手臂和基座的性能表現。”
![]()
(來源:IJRR)
以具體場景為例,來理解機器人在任務規劃和運動規劃之間進行交互:假如機器人想要將餐具擺放到十人餐桌,有人已就座。
在任務層面,它需要判斷具體從桌子左邊還是右邊走過去更安全。與此同時,機器人在上菜時需要決策先放盤子還是杯子等。而運動規劃的問題則是:餐桌旁邊已有椅子,應該如何調整站姿,能讓放盤子的成功率和效率都比較高。
![]()
(來源:IJRR)
為驗證該系統的效果,該團隊分別在真實機器人和仿真環境中進行實驗。真實實驗涵蓋三個不同復雜度的任務,包括擺放不同數量的餐具物品,并在有無障礙物的情況下執行多次試驗。結果顯示,LLM-GROP 在可生成合理的對象布局的前提下,還能在復雜環境中高效地導航和操作。
其中,在真實世界對象重新排列試驗中,機器人的任務成功率達到 84.4%。通過主觀人類評估,LLM-GROP 在用戶滿意度方面比現有的對象重新排列方法表現更好。在仿真環境中,LLM-GROP 的執行時間比其他基線方法更短。
研究人員還對比了不同大模型在系統中的作用,發現 GPT-4 在多數任務中表現最佳,而 Gemini 和 Claude 則在某些特定任務中展現優勢。
![]()
圖丨相關論文(來源:IJRR)
近日,相關論文以《LLM-GROP:利用大語言模型實現可視化的機器人任務與運動規劃》(LLM-GROP: Visually Grounded Robot Task and Motion Planning with Large Language Models)為題發表在 International Journal of Robotics Research(IJRR)[1]。
紐約州立大學賓漢姆頓分校張笑寒博士(目前任職于波士頓動力 AI 機器人實驗室)、丁琰博士(目前任職于鹿明機器人)、博士生速水陽平(Yohei Hayamizu)和扎伊納布·阿爾塔韋爾(Zainab Altaweel)是共同第一作者,張世琦教授擔任通訊作者。這項研究的合作者還包括美國人形機器人廠家 Agility Robotics 克里斯?帕克斯頓(Chris Paxton)、美國得克薩斯大學奧斯汀分校彼得?斯通(Peter Stone)教授和朱玉可教授。
![]()
(來源:資料圖)
研究團隊計劃在未來的研究中繼續改進相關問題。例如,在實際環境中可能涉及控制等復雜的問題;進一步探索機器人在抓取時控制器是如何實現的;機器人犯錯后如何恢復;為機器人提供更好的攝像頭提供更豐富的視覺信息;考慮機器人邊走邊操作的情況等等。
“我們在這次研究中第一次把大模型用在任務運動規劃以及移動操作的問題上,未來我們還將探索在現實場景中更多有趣的問題。”張世琦表示。
參考資料:
1.https://doi.org/10.1177/02783649251378196
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.