VLMgineer讓大模型自己「發(fā)明工具」，從設(shè)計到使用全自動

2026-03-20 14:15:17　來源: 機(jī)器之心Pro

河北舉報

分享至

人類之所以能主宰地球，很大程度上歸功于一項獨特的認(rèn)知能力——制造和使用工具。從石器時代的燧石刀到現(xiàn)代的精密儀器，工具的發(fā)明一直是衡量智能水平的核心標(biāo)志。

然而，當(dāng)我們審視當(dāng)今最前沿的機(jī)器人研究，會發(fā)現(xiàn)一個有趣的不對稱：絕大多數(shù)工作都在追求更復(fù)雜的控制策略——讓機(jī)器人「手更巧」，卻很少有人思考一個更本質(zhì)的問題：能不能讓工具本身更合適，從而讓控制變得更簡單？

試想一下：如果你需要夠到遠(yuǎn)處的杯子蛋糕，與其訓(xùn)練機(jī)械臂做出高難度的伸展動作，不如直接設(shè)計一根形狀恰到好處的「取物鉤」——這才是另一種形式的「物理智慧」。

自然界中也有相應(yīng)的例子，新喀里多尼亞烏鴉可以自己制造并使用工具從狹小的縫隙中取出食物。

那么問題來了：今天的大模型，能否自動為機(jī)器人設(shè)計這樣的工具和相應(yīng)的使用動作？

來自賓夕法尼亞大學(xué)的研究者在這個方向上做了探索。他們提出了 VLMgineer，一個全自動的工具設(shè)計與使用框架，利用視覺語言模型（VLM）的創(chuàng)造力與進(jìn)化搜索，讓機(jī)器人從零開始自主設(shè)計工具并學(xué)會使用它們。該工作已被 ICLR 2026 接收。

論文：VLMgineer: Vision Language Models as Robotic Toolsmiths
項目主頁：https://vlmgineer.github.io
論文地址：https://arxiv.org/abs/2507.12644

VLMgineer 概念圖。當(dāng)機(jī)器人遭遇現(xiàn)實中物理限制困境時，他需要利用VLM思考如何設(shè)計合適的工具和相應(yīng)的動作來找到解決辦法

研究背景：為什么要讓機(jī)器人「造工具」？

在日常生活中，很多任務(wù)對于標(biāo)準(zhǔn)的機(jī)器人夾爪來說幾乎不可能完成：夠不到遠(yuǎn)處的物體、鏟不起一堆小球、撬不開密封管道中的方塊……傳統(tǒng)思路是設(shè)計更復(fù)雜的控制算法來彌補(bǔ)硬件的不足，但這往往事倍功半。

VLMgineer 提出了一種不同的范式：把問題的復(fù)雜度轉(zhuǎn)移到工具的幾何形狀中，讓控制變得更簡單。一個設(shè)計合理的工具，可以將原本需要精密操控才能完成的任務(wù)，變成簡單的「推一下」「勾一把」就能搞定的事情。

但此前的計算化工具設(shè)計方法面臨兩大瓶頸：

痛點一：依賴人工定義參數(shù)空間。現(xiàn)有方法通常要求研究者手動為每個任務(wù)指定工具的優(yōu)化參數(shù)模板，極度依賴領(lǐng)域?qū)＜抑R，難以擴(kuò)展到新任務(wù)。
痛點二：工具設(shè)計與使用策略割裂。大多數(shù)方法先優(yōu)化工具形狀，再單獨訓(xùn)練控制策略，無法實現(xiàn)工具幾何與操作動作的協(xié)同優(yōu)化。

VLMgineer 的核心方法

VLMgineer 的核心思想可以概括為一句話：讓大模型當(dāng)「工具設(shè)計師」，讓進(jìn)化搜索當(dāng)「質(zhì)檢員」。

值得一提的是，VLMgineer 是一個端到端由 VLM 驅(qū)動的框架——從理解任務(wù)場景、構(gòu)思工具幾何、到規(guī)劃使用動作，全部由 VLM 在統(tǒng)一的推理過程中完成，而非將流程拆解為多個獨立模塊再分別處理。這一設(shè)計選擇背后的核心問題是：VLM 自身是否已經(jīng)具備足夠的物理創(chuàng)造力，來端到端地完成從工具構(gòu)思到動作規(guī)劃的全過程？實驗結(jié)果對此給出了積極的信號。下圖描述了此方法的整體框架。

VLMgineer 核心模塊和運行框架

整個框架由三大核心模塊構(gòu)成：

1. 工具-動作聯(lián)合采樣（Joint Tool-Action Sampling）

與以往先設(shè)計工具、再優(yōu)化動作的串行模式不同，VLMgineer 讓 VLM 在單次推理中同時生成工具幾何（以 URDF 格式描述）和對應(yīng)的機(jī)器人動作序列（末端執(zhí)行器的 6-DoF 路徑點）。這種聯(lián)合采樣的關(guān)鍵洞察在于：工具的形狀天然約束并賦能了動作策略——一個設(shè)計合理的工具可以讓控制變得更加簡單。因此，同步優(yōu)化能讓 VLM 利用其內(nèi)在的物理直覺，在工具-動作的聯(lián)合設(shè)計空間中高效探索。

2. 仿真評估與適者生存（Simulation Evaluation & Selection）

每一對工具-動作設(shè)計方案都會被送入 PyBullet 仿真器進(jìn)行評估。系統(tǒng)通過任務(wù)特定的獎勵函數(shù)對每個方案打分，然后保留表現(xiàn)最優(yōu)的 top-k 個「精英設(shè)計」。

3. VLM 引導(dǎo)的進(jìn)化搜索（VLM-Guided Evolutionary Search）

這是 VLMgineer 中最有意思的環(huán)節(jié)。系統(tǒng)將精英設(shè)計反饋給 VLM，要求其通過歸納式上下文變異與交叉（Inductive In-Context Mutation & Crossover）來產(chǎn)生新一代設(shè)計：

變異：對單個精英工具做一處改變——調(diào)整某個組件的尺寸、增加或移除一個部件等。
交叉：從兩個精英工具中各取所長，組合出全新的設(shè)計。

關(guān)鍵之處在于，這里的變異和交叉操作完全由 VLM 的世界知識和物理直覺來驅(qū)動，而非手工定義的算子。這使得進(jìn)化過程能夠產(chǎn)生一些頗具創(chuàng)意的設(shè)計方案。

RoboToolBench：12 項工具設(shè)計挑戰(zhàn)

為了系統(tǒng)評估工具設(shè)計能力，研究團(tuán)隊同時推出了 RoboToolBench——一個包含 12 項多樣化機(jī)器人工具使用任務(wù)的仿真基準(zhǔn)。這些任務(wù)涵蓋了：

夠取遠(yuǎn)處物體（BringCube）、清掃桌面（CleanTable）、從密封管道中取出方塊（DislodgeCube）
舉起盤子（ElevatePlate）、收集小球（GatherSpheres）、從高處取物（HighObject）
搬運箱子（LiftBox）、移動球體（MoveBall）、抽取中間書本（OneBook）
射門得分（ScoreGoal）、從罐中取餅干（SnatchCookie）、轉(zhuǎn)移火雞腿（TurkeyLegs）

所有任務(wù)對標(biāo)準(zhǔn) Franka Panda 夾爪來說都極具挑戰(zhàn)性，迫使系統(tǒng)必須設(shè)計合適的工具才能成功。

圖中所有工具均由此方法設(shè)計

VLMgineer 生成的工具展現(xiàn)出了不錯的多樣性和創(chuàng)造力，側(cè)面體現(xiàn)了 AI 的「物理創(chuàng)造力」。從簡潔的鏟形工具到復(fù)雜的多組件結(jié)構(gòu)，從擁抱式抓取器到帶護(hù)欄的收集裝置——這些設(shè)計不是對現(xiàn)有工具的簡單復(fù)制，而是針對特定任務(wù)進(jìn)化出的定制化幾何形態(tài)。

其中幾個值得一提的任務(wù)：

DislodgeCube——復(fù)刻烏鴉的工具智慧。機(jī)器人需要從密封管道中取出方塊，這個任務(wù)的靈感來源于新喀里多尼亞烏鴉使用工具從狹小空間中取出物體的行為——VLMgineer 成功地為機(jī)器人找到了解決這類問題的工具方案。

MoveBall——用結(jié)構(gòu)降服動態(tài)。控制球體滾動是一個高度動態(tài)的行為，用夾爪直接推球?qū)刂凭纫髽O高。VLMgineer 的解法是讓工具幾何來吸收這種不確定性——進(jìn)化出的弧形護(hù)框?qū)⑶蚨底≡偻扑停岩粋€動態(tài)控制難題變成了簡單的平移操作。

ElevatePlate——用工具端盤子。桌面上放著一個白色盤子，機(jī)器人需要將其穩(wěn)定舉起。對于沒有工具的標(biāo)準(zhǔn)夾爪來說，盤子太扁太滑，上手比較困難。

CleanTable——提高打掃效率。桌面上散布著多個小物體，需要將它們清掃到指定區(qū)域。用夾爪逐個抓取效率極低，VLMgineer 進(jìn)化出了寬面推掃工具，能夠一次性將散落物體歸攏清理，把一個多步驟的抓取任務(wù)簡化為一次干脆的推掃動作。

誠然，上述任務(wù)本身都比較簡單。但換個角度看，VLMgineer 真正驗證的是一種可能性：在沒有任何人工提示的情況下，VLM 能夠從零開始進(jìn)化出功能合理的工具設(shè)計和使用動作。這意味著，當(dāng)未來的機(jī)器人面對開放環(huán)境中的未知任務(wù)時，它們或許不需要等待工程師手動設(shè)計專用工具，而是可以在自主行動和探索的過程中，按需為自己「發(fā)明」所需的工具。

實驗結(jié)果

與人類提示設(shè)計的對比

研究團(tuán)隊設(shè)置了一組對比實驗：讓不同背景的人類（機(jī)器人專家、LLM 專家、普通人）用自然語言向 VLM 描述他們設(shè)想的工具設(shè)計，然后與 VLMgineer 的全自動設(shè)計進(jìn)行對比。

實驗結(jié)果顯示：VLMgineer 在 12 項任務(wù)上的表現(xiàn)均優(yōu)于人類提示的設(shè)計方案，在最優(yōu)和平均表現(xiàn)上都有一致的提升。相比人類指定的 VLM 設(shè)計，VLMgineer 取得了平均64.7%的歸一化提升。

一個值得關(guān)注的現(xiàn)象是，人類設(shè)計的工具雖然在直覺上合理，但往往需要更精密的控制策略才能發(fā)揮作用；而 VLMgineer 的設(shè)計傾向于在幾何上做更多文章，使得下游控制更加簡單直接。

與現(xiàn)有 Benchmark 工具的對比

在從 RLBench 改編的 4 項任務(wù)中，VLMgineer 設(shè)計的工具在性能上也優(yōu)于原始的 Benchmark 工具，平均歸一化提升達(dá)24.3%

以 BringCube 任務(wù)為例：RLBench 提供的是一根簡單的棍子，對方塊的側(cè)向控制不足，導(dǎo)致操作不太穩(wěn)定；而 VLMgineer 進(jìn)化出了一個類似「籠子」的結(jié)構(gòu)，能更可靠地鎖住并移動方塊。

在 GatherSpheres 任務(wù)中，VLMgineer 設(shè)計了帶有側(cè)面護(hù)板和頂部條紋結(jié)構(gòu)的鏟子，有效防止小球在搬運過程中彈出——這種設(shè)計細(xì)節(jié)完全是進(jìn)化過程中自動涌現(xiàn)的。

進(jìn)化搜索的關(guān)鍵作用

消融實驗表明，進(jìn)化搜索是 VLMgineer 性能提升的重要來源。在同等采樣預(yù)算下（8000 次評估），進(jìn)化搜索策略比暴力隨機(jī)采樣平均高出119.2%

從定性角度看，進(jìn)化過程做出的改進(jìn)往往直覺上很合理：開口鏟子被加上了護(hù)欄以防止灑落，推球器被增加了擁抱式邊框以提升控制精度。這些案例體現(xiàn)了 VLM 的物理先驗知識在迭代優(yōu)化中被逐步激發(fā)和放大的過程。

從仿真到真機(jī)的驗證

為驗證實際部署效果，團(tuán)隊選取了 3 項任務(wù)（MoveBall、ElevatePlate、GatherSpheres），將 VLMgineer 在仿真中設(shè)計的最佳工具3D 打印出來，安裝在真實的 Franka Panda 機(jī)器人上，直接執(zhí)行仿真中優(yōu)化的動作路徑。

GatherSpheres

ElevatePlate

MoveBall

總結(jié)與展望

VLMgineer 的提出，為機(jī)器人物理智能提供了一個新的視角：不只是學(xué)會更靈巧地操控，還可以學(xué)會設(shè)計更合適的工具。實驗結(jié)果表明，視覺語言模型中蘊(yùn)含的物理世界知識，通過進(jìn)化搜索的引導(dǎo)，能夠產(chǎn)生有效且富有創(chuàng)意的工具設(shè)計方案。

當(dāng)然，VLMgineer 目前也存在一些局限：動作表示限于離散路徑點、工具幾何限于簡單形狀、尚未探索多任務(wù)泛化等。但作為首個全自動工具設(shè)計框架，它為未來更自適應(yīng)、更智能的機(jī)器人系統(tǒng)提供了一個值得探索的方向：

當(dāng)機(jī)器人不僅能使用工具，還能自主設(shè)計工具時，我們或許離真正通用的物理智能又近了一步。

作者團(tuán)隊（* 和 ** 表示共同作者排序）

George Jiayuan Gao*，目前 Dyna Robotics 技術(shù)人員，獲得賓夕法尼亞大學(xué) GRASP Lab 機(jī)器人碩士，導(dǎo)師為 Nadia Figueroa 和 Dinesh Jayaraman。研究方向為結(jié)合學(xué)習(xí)方法與控制理論，使機(jī)器人安全智能地與物理世界交互。

Tianyu Li*，賓夕法尼亞大學(xué) GRASP Lab 博士生，導(dǎo)師為 Nadia Figueroa。研究方向重點涵蓋高效的機(jī)器人操作策略學(xué)習(xí)、機(jī)器人安全物理交互與人機(jī)協(xié)作。

Junyao Shi，賓夕法尼亞大學(xué) GRASP Lab 博士生，導(dǎo)師為 Dinesh Jayaraman，目前在 Skild AI 擔(dān)任研究實習(xí)生。研究方向為機(jī)器人學(xué)習(xí)，重點關(guān)注利用人類數(shù)據(jù)和基礎(chǔ)模型構(gòu)建通用機(jī)器人。

Yihan Li**，賓夕法尼亞大學(xué) GRASP Lab 機(jī)器人碩士生，導(dǎo)師為 Nadia Figueroa，同時入選 ETH 2025 機(jī)器人學(xué)生 Fellow。研究方向為機(jī)器人控制與學(xué)習(xí)。

Zizhe Zhang**，賓夕法尼亞大學(xué) GRASP Lab 機(jī)器人碩士生，導(dǎo)師為 Nadia Figueroa。研究方向涵蓋控制理論、機(jī)器人學(xué)習(xí)與人機(jī)交互。

Nadia Figueroa，賓夕法尼亞大學(xué)機(jī)械工程與應(yīng)用力學(xué)系助理教授，隸屬于 GRASP Lab。研究聚焦于開發(fā)能與人和動態(tài)環(huán)境進(jìn)行物理交互的人機(jī)協(xié)作系統(tǒng)，融合機(jī)器人學(xué)、機(jī)器學(xué)習(xí)與控制理論。

Dinesh Jayaraman，賓夕法尼亞大學(xué)計算機(jī)信息與科學(xué)助理教授，隸屬于 GRASP Lab。研究方向處于機(jī)器人學(xué)、機(jī)器學(xué)習(xí)與計算機(jī)視覺的交叉領(lǐng)域，致力于讓機(jī)器人通過視覺感知來學(xué)習(xí)和行動。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.