<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      VLMgineer讓大模型自己「發(fā)明工具」,從設(shè)計到使用全自動

      0
      分享至



      人類之所以能主宰地球,很大程度上歸功于一項獨特的認(rèn)知能力——制造和使用工具。從石器時代的燧石刀到現(xiàn)代的精密儀器,工具的發(fā)明一直是衡量智能水平的核心標(biāo)志。

      然而,當(dāng)我們審視當(dāng)今最前沿的機(jī)器人研究,會發(fā)現(xiàn)一個有趣的不對稱:絕大多數(shù)工作都在追求更復(fù)雜的控制策略——讓機(jī)器人「手更巧」,卻很少有人思考一個更本質(zhì)的問題:能不能讓工具本身更合適,從而讓控制變得更簡單?

      試想一下:如果你需要夠到遠(yuǎn)處的杯子蛋糕,與其訓(xùn)練機(jī)械臂做出高難度的伸展動作,不如直接設(shè)計一根形狀恰到好處的「取物鉤」——這才是另一種形式的「物理智慧」。

      自然界中也有相應(yīng)的例子,新喀里多尼亞烏鴉可以自己制造并使用工具從狹小的縫隙中取出食物。

      那么問題來了:今天的大模型,能否自動為機(jī)器人設(shè)計這樣的工具和相應(yīng)的使用動作?

      來自賓夕法尼亞大學(xué)的研究者在這個方向上做了探索。他們提出了 VLMgineer,一個全自動的工具設(shè)計與使用框架,利用視覺語言模型(VLM)的創(chuàng)造力與進(jìn)化搜索,讓機(jī)器人從零開始自主設(shè)計工具并學(xué)會使用它們。該工作已被 ICLR 2026 接收。



      • 論文:VLMgineer: Vision Language Models as Robotic Toolsmiths
      • 項目主頁:https://vlmgineer.github.io
      • 論文地址:https://arxiv.org/abs/2507.12644



      VLMgineer 概念圖。當(dāng)機(jī)器人遭遇現(xiàn)實中物理限制困境時,他需要利用VLM思考如何設(shè)計合適的工具和相應(yīng)的動作來找到解決辦法

      研究背景:為什么要讓機(jī)器人「造工具」?

      在日常生活中,很多任務(wù)對于標(biāo)準(zhǔn)的機(jī)器人夾爪來說幾乎不可能完成:夠不到遠(yuǎn)處的物體、鏟不起一堆小球、撬不開密封管道中的方塊……傳統(tǒng)思路是設(shè)計更復(fù)雜的控制算法來彌補(bǔ)硬件的不足,但這往往事倍功半。

      VLMgineer 提出了一種不同的范式:把問題的復(fù)雜度轉(zhuǎn)移到工具的幾何形狀中,讓控制變得更簡單。一個設(shè)計合理的工具,可以將原本需要精密操控才能完成的任務(wù),變成簡單的「推一下」「勾一把」就能搞定的事情。

      但此前的計算化工具設(shè)計方法面臨兩大瓶頸:

      • 痛點一:依賴人工定義參數(shù)空間。現(xiàn)有方法通常要求研究者手動為每個任務(wù)指定工具的優(yōu)化參數(shù)模板,極度依賴領(lǐng)域?qū)<抑R,難以擴(kuò)展到新任務(wù)。
      • 痛點二:工具設(shè)計與使用策略割裂。大多數(shù)方法先優(yōu)化工具形狀,再單獨訓(xùn)練控制策略,無法實現(xiàn)工具幾何與操作動作的協(xié)同優(yōu)化。

      VLMgineer 的核心方法

      VLMgineer 的核心思想可以概括為一句話:讓大模型當(dāng)「工具設(shè)計師」,讓進(jìn)化搜索當(dāng)「質(zhì)檢員」。

      值得一提的是,VLMgineer 是一個端到端由 VLM 驅(qū)動的框架——從理解任務(wù)場景、構(gòu)思工具幾何、到規(guī)劃使用動作,全部由 VLM 在統(tǒng)一的推理過程中完成,而非將流程拆解為多個獨立模塊再分別處理。這一設(shè)計選擇背后的核心問題是:VLM 自身是否已經(jīng)具備足夠的物理創(chuàng)造力,來端到端地完成從工具構(gòu)思到動作規(guī)劃的全過程?實驗結(jié)果對此給出了積極的信號。下圖描述了此方法的整體框架。



      VLMgineer 核心模塊和運行框架

      整個框架由三大核心模塊構(gòu)成:

      1. 工具-動作聯(lián)合采樣(Joint Tool-Action Sampling)

      與以往先設(shè)計工具、再優(yōu)化動作的串行模式不同,VLMgineer 讓 VLM 在單次推理中同時生成工具幾何(以 URDF 格式描述)和對應(yīng)的機(jī)器人動作序列(末端執(zhí)行器的 6-DoF 路徑點)。 這種聯(lián)合采樣的關(guān)鍵洞察在于:工具的形狀天然約束并賦能了動作策略——一個設(shè)計合理的工具可以讓控制變得更加簡單。因此,同步優(yōu)化能讓 VLM 利用其內(nèi)在的物理直覺,在工具-動作的聯(lián)合設(shè)計空間中高效探索。

      2. 仿真評估與適者生存(Simulation Evaluation & Selection)

      每一對工具-動作設(shè)計方案都會被送入 PyBullet 仿真器進(jìn)行評估。系統(tǒng)通過任務(wù)特定的獎勵函數(shù)對每個方案打分,然后保留表現(xiàn)最優(yōu)的 top-k 個「精英設(shè)計」。

      3. VLM 引導(dǎo)的進(jìn)化搜索(VLM-Guided Evolutionary Search)

      這是 VLMgineer 中最有意思的環(huán)節(jié)。系統(tǒng)將精英設(shè)計反饋給 VLM,要求其通過歸納式上下文變異與交叉(Inductive In-Context Mutation & Crossover)來產(chǎn)生新一代設(shè)計:

      • 變異:對單個精英工具做一處改變——調(diào)整某個組件的尺寸、增加或移除一個部件等。
      • 交叉:從兩個精英工具中各取所長,組合出全新的設(shè)計。

      關(guān)鍵之處在于,這里的變異和交叉操作完全由 VLM 的世界知識和物理直覺來驅(qū)動,而非手工定義的算子。這使得進(jìn)化過程能夠產(chǎn)生一些頗具創(chuàng)意的設(shè)計方案。

      RoboToolBench:12 項工具設(shè)計挑戰(zhàn)

      為了系統(tǒng)評估工具設(shè)計能力,研究團(tuán)隊同時推出了 RoboToolBench——一個包含 12 項多樣化機(jī)器人工具使用任務(wù)的仿真基準(zhǔn)。這些任務(wù)涵蓋了:

      • 夠取遠(yuǎn)處物體(BringCube)、清掃桌面(CleanTable)、從密封管道中取出方塊(DislodgeCube)
      • 舉起盤子(ElevatePlate)、收集小球(GatherSpheres)、從高處取物(HighObject)
      • 搬運箱子(LiftBox)、移動球體(MoveBall)、抽取中間書本(OneBook)
      • 射門得分(ScoreGoal)、從罐中取餅干(SnatchCookie)、轉(zhuǎn)移火雞腿(TurkeyLegs)

      所有任務(wù)對標(biāo)準(zhǔn) Franka Panda 夾爪來說都極具挑戰(zhàn)性,迫使系統(tǒng)必須設(shè)計合適的工具才能成功。



      圖中所有工具均由此方法設(shè)計

      VLMgineer 生成的工具展現(xiàn)出了不錯的多樣性和創(chuàng)造力,側(cè)面體現(xiàn)了 AI 的「物理創(chuàng)造力」。從簡潔的鏟形工具到復(fù)雜的多組件結(jié)構(gòu),從擁抱式抓取器到帶護(hù)欄的收集裝置——這些設(shè)計不是對現(xiàn)有工具的簡單復(fù)制,而是針對特定任務(wù)進(jìn)化出的定制化幾何形態(tài)。

      其中幾個值得一提的任務(wù):

      DislodgeCube——復(fù)刻烏鴉的工具智慧。機(jī)器人需要從密封管道中取出方塊,這個任務(wù)的靈感來源于新喀里多尼亞烏鴉使用工具從狹小空間中取出物體的行為——VLMgineer 成功地為機(jī)器人找到了解決這類問題的工具方案。

      MoveBall——用結(jié)構(gòu)降服動態(tài)。控制球體滾動是一個高度動態(tài)的行為,用夾爪直接推球?qū)刂凭纫髽O高。VLMgineer 的解法是讓工具幾何來吸收這種不確定性——進(jìn)化出的弧形護(hù)框?qū)⑶蚨底≡偻扑停岩粋€動態(tài)控制難題變成了簡單的平移操作。

      ElevatePlate——用工具端盤子。桌面上放著一個白色盤子,機(jī)器人需要將其穩(wěn)定舉起。對于沒有工具的標(biāo)準(zhǔn)夾爪來說,盤子太扁太滑,上手比較困難。

      CleanTable——提高打掃效率。桌面上散布著多個小物體,需要將它們清掃到指定區(qū)域。用夾爪逐個抓取效率極低,VLMgineer 進(jìn)化出了寬面推掃工具,能夠一次性將散落物體歸攏清理,把一個多步驟的抓取任務(wù)簡化為一次干脆的推掃動作。

      誠然,上述任務(wù)本身都比較簡單。但換個角度看,VLMgineer 真正驗證的是一種可能性:在沒有任何人工提示的情況下,VLM 能夠從零開始進(jìn)化出功能合理的工具設(shè)計和使用動作。這意味著,當(dāng)未來的機(jī)器人面對開放環(huán)境中的未知任務(wù)時,它們或許不需要等待工程師手動設(shè)計專用工具,而是可以在自主行動和探索的過程中,按需為自己「發(fā)明」所需的工具。

      實驗結(jié)果

      與人類提示設(shè)計的對比

      研究團(tuán)隊設(shè)置了一組對比實驗:讓不同背景的人類(機(jī)器人專家、LLM 專家、普通人)用自然語言向 VLM 描述他們設(shè)想的工具設(shè)計,然后與 VLMgineer 的全自動設(shè)計進(jìn)行對比。

      實驗結(jié)果顯示:VLMgineer 在 12 項任務(wù)上的表現(xiàn)均優(yōu)于人類提示的設(shè)計方案,在最優(yōu)和平均表現(xiàn)上都有一致的提升。相比人類指定的 VLM 設(shè)計,VLMgineer 取得了平均64.7%的歸一化提升。

      一個值得關(guān)注的現(xiàn)象是,人類設(shè)計的工具雖然在直覺上合理,但往往需要更精密的控制策略才能發(fā)揮作用;而 VLMgineer 的設(shè)計傾向于在幾何上做更多文章,使得下游控制更加簡單直接。

      與現(xiàn)有 Benchmark 工具的對比

      在從 RLBench 改編的 4 項任務(wù)中,VLMgineer 設(shè)計的工具在性能上也優(yōu)于原始的 Benchmark 工具,平均歸一化提升達(dá)24.3%

      以 BringCube 任務(wù)為例:RLBench 提供的是一根簡單的棍子,對方塊的側(cè)向控制不足,導(dǎo)致操作不太穩(wěn)定;而 VLMgineer 進(jìn)化出了一個類似「籠子」的結(jié)構(gòu),能更可靠地鎖住并移動方塊。

      在 GatherSpheres 任務(wù)中,VLMgineer 設(shè)計了帶有側(cè)面護(hù)板和頂部條紋結(jié)構(gòu)的鏟子,有效防止小球在搬運過程中彈出——這種設(shè)計細(xì)節(jié)完全是進(jìn)化過程中自動涌現(xiàn)的。

      進(jìn)化搜索的關(guān)鍵作用

      消融實驗表明,進(jìn)化搜索是 VLMgineer 性能提升的重要來源。在同等采樣預(yù)算下(8000 次評估),進(jìn)化搜索策略比暴力隨機(jī)采樣平均高出119.2%

      從定性角度看,進(jìn)化過程做出的改進(jìn)往往直覺上很合理:開口鏟子被加上了護(hù)欄以防止灑落,推球器被增加了擁抱式邊框以提升控制精度。這些案例體現(xiàn)了 VLM 的物理先驗知識在迭代優(yōu)化中被逐步激發(fā)和放大的過程。

      從仿真到真機(jī)的驗證

      為驗證實際部署效果,團(tuán)隊選取了 3 項任務(wù)(MoveBall、ElevatePlate、GatherSpheres),將 VLMgineer 在仿真中設(shè)計的最佳工具3D 打印出來,安裝在真實的 Franka Panda 機(jī)器人上,直接執(zhí)行仿真中優(yōu)化的動作路徑。



      GatherSpheres



      ElevatePlate



      MoveBall

      總結(jié)與展望

      VLMgineer 的提出,為機(jī)器人物理智能提供了一個新的視角:不只是學(xué)會更靈巧地操控,還可以學(xué)會設(shè)計更合適的工具。實驗結(jié)果表明,視覺語言模型中蘊(yùn)含的物理世界知識,通過進(jìn)化搜索的引導(dǎo),能夠產(chǎn)生有效且富有創(chuàng)意的工具設(shè)計方案。

      當(dāng)然,VLMgineer 目前也存在一些局限:動作表示限于離散路徑點、工具幾何限于簡單形狀、尚未探索多任務(wù)泛化等。但作為首個全自動工具設(shè)計框架,它為未來更自適應(yīng)、更智能的機(jī)器人系統(tǒng)提供了一個值得探索的方向:

      當(dāng)機(jī)器人不僅能使用工具,還能自主設(shè)計工具時,我們或許離真正通用的物理智能又近了一步。

      作者團(tuán)隊(* 和 ** 表示共同作者排序)

      George Jiayuan Gao*,目前 Dyna Robotics 技術(shù)人員,獲得賓夕法尼亞大學(xué) GRASP Lab 機(jī)器人碩士,導(dǎo)師為 Nadia Figueroa 和 Dinesh Jayaraman。研究方向為結(jié)合學(xué)習(xí)方法與控制理論,使機(jī)器人安全智能地與物理世界交互。

      Tianyu Li*,賓夕法尼亞大學(xué) GRASP Lab 博士生,導(dǎo)師為 Nadia Figueroa。研究方向重點涵蓋高效的機(jī)器人操作策略學(xué)習(xí)、機(jī)器人安全物理交互與人機(jī)協(xié)作。

      Junyao Shi,賓夕法尼亞大學(xué) GRASP Lab 博士生,導(dǎo)師為 Dinesh Jayaraman,目前在 Skild AI 擔(dān)任研究實習(xí)生。研究方向為機(jī)器人學(xué)習(xí),重點關(guān)注利用人類數(shù)據(jù)和基礎(chǔ)模型構(gòu)建通用機(jī)器人。

      Yihan Li**,賓夕法尼亞大學(xué) GRASP Lab 機(jī)器人碩士生,導(dǎo)師為 Nadia Figueroa,同時入選 ETH 2025 機(jī)器人學(xué)生 Fellow。研究方向為機(jī)器人控制與學(xué)習(xí)。

      Zizhe Zhang**,賓夕法尼亞大學(xué) GRASP Lab 機(jī)器人碩士生,導(dǎo)師為 Nadia Figueroa。研究方向涵蓋控制理論、機(jī)器人學(xué)習(xí)與人機(jī)交互。

      Nadia Figueroa,賓夕法尼亞大學(xué)機(jī)械工程與應(yīng)用力學(xué)系助理教授,隸屬于 GRASP Lab。研究聚焦于開發(fā)能與人和動態(tài)環(huán)境進(jìn)行物理交互的人機(jī)協(xié)作系統(tǒng),融合機(jī)器人學(xué)、機(jī)器學(xué)習(xí)與控制理論。

      Dinesh Jayaraman,賓夕法尼亞大學(xué)計算機(jī)信息與科學(xué)助理教授,隸屬于 GRASP Lab。研究方向處于機(jī)器人學(xué)、機(jī)器學(xué)習(xí)與計算機(jī)視覺的交叉領(lǐng)域,致力于讓機(jī)器人通過視覺感知來學(xué)習(xí)和行動。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      伊朗又一重要人物遇害!戰(zhàn)事升級,胡塞武裝:可能封鎖曼德海峽

      伊朗又一重要人物遇害!戰(zhàn)事升級,胡塞武裝:可能封鎖曼德海峽

      策略述
      2026-03-20 19:16:37
      1982年血色使館:中國外交官唐健生為了生存殺光了所有同事

      1982年血色使館:中國外交官唐健生為了生存殺光了所有同事

      阿校談史
      2026-03-20 11:03:27
      成都“牽手門”事件女主現(xiàn)今狀況曝光,太慘了......

      成都“牽手門”事件女主現(xiàn)今狀況曝光,太慘了......

      許三歲
      2026-03-17 07:34:05
      重磅!導(dǎo)彈撕碎F-35神話,美智庫:中國殲20和殲35將穩(wěn)坐世界第一

      重磅!導(dǎo)彈撕碎F-35神話,美智庫:中國殲20和殲35將穩(wěn)坐世界第一

      軍機(jī)Talk
      2026-03-20 11:42:46
      60歲當(dāng)太奶奶,40歲當(dāng)奶奶!上海財經(jīng)博主稱,這四世同堂令人羨慕

      60歲當(dāng)太奶奶,40歲當(dāng)奶奶!上海財經(jīng)博主稱,這四世同堂令人羨慕

      火山詩話
      2026-03-20 09:20:56
      伊朗最高領(lǐng)袖發(fā)表新年致辭

      伊朗最高領(lǐng)袖發(fā)表新年致辭

      新華社
      2026-03-20 23:10:05
      馬斯克預(yù)言AI競賽格局:Google贏西方,中國贏地球,SpaceX贏太空

      馬斯克預(yù)言AI競賽格局:Google贏西方,中國贏地球,SpaceX贏太空

      頂級大佬思維
      2026-03-20 12:17:48
      特朗普宣布成功解決了伊朗問題,摧毀了全部核設(shè)施,美國大獲全勝?Fake news!

      特朗普宣布成功解決了伊朗問題,摧毀了全部核設(shè)施,美國大獲全勝?Fake news!

      回旋鏢
      2026-03-19 21:01:07
      女子7年前買的泡泡瑪特盲盒才發(fā)貨:59元購入現(xiàn)在二手平臺只要20多,收貨時“以為發(fā)錯了”,工作人員稱平臺之前不完善

      女子7年前買的泡泡瑪特盲盒才發(fā)貨:59元購入現(xiàn)在二手平臺只要20多,收貨時“以為發(fā)錯了”,工作人員稱平臺之前不完善

      瀟湘晨報
      2026-03-20 21:21:12
      邯鄲三姐妹上墳被炸死后續(xù)!家屬發(fā)聲,懷疑有共犯,被死亡威脅

      邯鄲三姐妹上墳被炸死后續(xù)!家屬發(fā)聲,懷疑有共犯,被死亡威脅

      180視角
      2026-03-20 14:24:32
      央媒點名批評!路虎車主被抓,受害者信息泄露,電話轟炸不敢出門

      央媒點名批評!路虎車主被抓,受害者信息泄露,電話轟炸不敢出門

      葉公子
      2026-03-20 16:22:14
      20歲黃多多曬國外海灘比基尼照,身材性感火辣,笑容燦爛活力滿滿

      20歲黃多多曬國外海灘比基尼照,身材性感火辣,笑容燦爛活力滿滿

      叨嘮
      2026-03-20 00:37:55
      美宜佳回應(yīng)假煙事件進(jìn)展:廣東是此次假煙問題集中區(qū),不存在“自設(shè)卷煙廠”,已出臺“四個零容忍”新規(guī),公開承諾假煙“假一賠十”

      美宜佳回應(yīng)假煙事件進(jìn)展:廣東是此次假煙問題集中區(qū),不存在“自設(shè)卷煙廠”,已出臺“四個零容忍”新規(guī),公開承諾假煙“假一賠十”

      大風(fēng)新聞
      2026-03-20 20:30:04
      5分鐘開通國家免費電視!不用機(jī)頂盒、不連網(wǎng),永久免費

      5分鐘開通國家免費電視!不用機(jī)頂盒、不連網(wǎng),永久免費

      叮當(dāng)當(dāng)科技
      2026-03-20 03:29:51
      剛剛,全線跳水!霍爾木茲,大消息!

      剛剛,全線跳水!霍爾木茲,大消息!

      中國基金報
      2026-03-20 19:38:00
      常州首富汪立平被留置,系千億市值龍頭恒立液壓董事長

      常州首富汪立平被留置,系千億市值龍頭恒立液壓董事長

      界面新聞
      2026-03-20 19:58:40
      大家有沒有莫名不喜歡一類長相?網(wǎng)友:面相這個東西,還真有學(xué)問

      大家有沒有莫名不喜歡一類長相?網(wǎng)友:面相這個東西,還真有學(xué)問

      另子維愛讀史
      2026-03-20 21:45:48
      GOAT!奧沙利文單桿轟出153分,再創(chuàng)斯諾克歷史紀(jì)錄

      GOAT!奧沙利文單桿轟出153分,再創(chuàng)斯諾克歷史紀(jì)錄

      全景體育V
      2026-03-20 14:43:09
      4S店賣一輛虧一輛?杭州經(jīng)銷商:一輛官方指導(dǎo)價12.59萬元的車,成交價已擊穿8.4萬元

      4S店賣一輛虧一輛?杭州經(jīng)銷商:一輛官方指導(dǎo)價12.59萬元的車,成交價已擊穿8.4萬元

      都市快報橙柿互動
      2026-03-20 19:36:04
      蔣介石未必是位合格的領(lǐng)導(dǎo),但追隨他到底的將領(lǐng),大多能安享晚年

      蔣介石未必是位合格的領(lǐng)導(dǎo),但追隨他到底的將領(lǐng),大多能安享晚年

      小院之觀
      2026-03-20 08:00:12
      2026-03-21 01:20:51
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12555文章數(shù) 142588關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機(jī)器人出貨量第一!

      頭條要聞

      向特朗普提問日記者遭瘋狂網(wǎng)暴 被罵幫中國讓高市難堪

      頭條要聞

      向特朗普提問日記者遭瘋狂網(wǎng)暴 被罵幫中國讓高市難堪

      體育要聞

      6年前的一場悲劇,造就了“法國瓦爾迪”

      娛樂要聞

      總臺首屆電影盛典,“沈馬”CP再合體

      財經(jīng)要聞

      金融法草案向社會公開征求意見

      汽車要聞

      何小鵬坦白局:每月3億的“慌”與通向L4的堅定

      態(tài)度原創(chuàng)

      教育
      手機(jī)
      本地
      旅游
      公開課

      教育要聞

      1979年高考題,x3=64,求x,簡單卻易錯

      手機(jī)要聞

      一加15T 再預(yù)熱,滿級防水大滿貫

      本地新聞

      春色滿城關(guān)不住|紹興春日頂流,這片櫻花海藏不住了

      旅游要聞

      新民視頻丨上海迪士尼度假區(qū)10周年慶典 夜間演出“奇夢之光幻影秀”升級

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版