網易首頁 > 網易號 > 正文申請入駐

谷歌推出機器人模型Gemini Robotics，附送一手小道消息

2025-03-16 18:08:08　來源: 親愛的數據

北京舉報

分享至

原創：親愛的數據

確實有些一手消息，

可惜不是很多。

機器人領域，谷歌來好消息了，

谷歌DeepMind團隊在把大模型的能力往機器人行動上用，用得很好，名字叫做Gemini Robotics。

一看名字就知道基礎模型肯定是Gemini 模型了。

GeminiRobotics官網上客觀地說，

當然也是冷冰冰地說：

“模型能使各種機器人執行，

比以往更廣泛實際任務。”

理解這句話要兵分兩路，

一路是以前在工廠參觀，

看到流水線上機械臂就挺震撼了，

機械臂在固定工位上做規定動作，

穩定性和精確性符合工業級別的標準。

盡管各式各樣的機器人均表現出在柔性上大幅超過機械臂，

當然也包括摔個狗吃屎，

站也站不穩等“柔性動作”。

但是，機器人讓機械臂大量下崗的“換代時刻”沒有到來，盡管機器人在抖音快手小視頻上都挺能，

但是，現實中動作并非如此絲滑自如，

任何可以驚呼“牛”的機器人技術，

距離高產售賣，尚有距離。

當下的機器人似乎進入了這樣一種敘事：

機器人能給完成簡單任務，

尚未進入一大堆細節指標，精度，比拼的階段，

還在描述，一件簡單的事，機器人能不能干，

你家機器人能干，我家的也能干，

谷歌Gemini Robotics顯然讓能力又上了一個臺階。

不過，現在還不是機器人的本事非常之高，

高到甚至可以肉眼高精度競賽的時候。

還是那句話，小步前進中，偶爾步子大。

前進都值得鼓勵，太小就算了；

另一路是，在我看來，

技術浪潮往往是成對或者成三出現的，

比如上一波的移動互聯網，超級APP，云計算，

不用證明哪種技術更好，

事實證明，不僅同樣重要，而且互為榫卯。

這一波技術浪潮，

人工智能已然占據C位，

而在我看來，人工智能與機器人技術，

也應該是“成對出現”。

機器人可以視為大模型的“超級APP”，

短期看來，機器人技術比人工智能大模型技術發展，稍慢幾拍。

放在歷史的長河里，它們肯定是一個時期的產物。

就好比，誰也不會使用一個沒有APP的智能手機。

畢竟，協同起來，有利雙方。

你甚至可以簡單地理解，

模型需要“身體”，機器人需要“腦子”。

不過真實物理世界充滿了未知和驚喜，

征服難度可想而知，

這兩路講完，后面就好聊了。

大模型的道路上，

一直是語言模型強勢，

多模態模型屈居，

為此我寫了一篇討論文章，幫多模態說了些好話：

AI大模型技術路線之爭：你可以信仰多模態，也可以無視多模態

說白了，有人就是認為大語言模型更有用，

發展大語言模型能讓模型更聰明。

不過，當我們把語境放在機器人里面，

多模態大模型則更受歡迎，

因為大語言模型僅擅長輸出文字，

“顯得”能力不全，

好比說，就算你“手快”，

可惜你“眼疾”，這樣也不行。

說白了，誰也不想要一個看也看不見，還啞巴，

又沒有行動能力的“機器人”。

所以，多模態對與機器人領域更實用。

谷歌的Gemini模型堅定走多模態技術路線，

文本、圖片都能輸入給大模型，

于是，就有了視覺語言大模型

（VL模型，或者是圖文模型），

2023年年為了觀察圖文大模型的發展，

猛寫了20000字，

是這篇：2023年終盤點：圖文大模型編年簡史

看上去，我是在用寫稿克服要被AI干掉的焦慮。

現在完全不焦慮了，

我只想少熬夜，身體健康，活得久些，

科技發展都這么加速了，要有機會享受到。

話說回來，

給機器人做底座模型的是多模態模型夠嗎？

也就是說，機器人看懂文字看懂圖。

當然，這還不夠。

機器人的特長是行動，也就是做出動作，

動作的英文就是Action，

無論是拿起，放下，站立還是蹲下，

你得做出動作，嘴上說的不算。

好消息是，現在的基礎大模型都很聰明了，

讓模型告訴機器人，下一個動作是啥。

模型有學習能力，機器人也有了學習能力，

于是，我們有了目標，就是給機器人一個“發令官”

這個發令官肯定得用視覺-語言-動作（VLA）模型來實現。理解了這點之后，你會發現Gemini Robotics就是一個VLA模型，這也是目前所有機器人技術公認的主流路線。

大家都認同的VLA模型的突破點在于：

用統一模型將視覺（環境），

語言與動作整合為單一模型，

直接建“觀察-理解-行動”的端到端閉環。

比如，機器人看見障礙物就拐彎，

這和自動駕駛的原理一樣，

不過機器人要求更靈活。

說白了，VLA模型就是一種眼觀六路，

耳聽八方的模型，

不過，將這種模型用在機器人身上，

各個技術團隊就各有高妙了。

好消息是，既然有一個學習能力的腦子了，

再讓機器人做動作，

它就可以在物理世界里找到一點自尊了。

讓我們再回到谷歌官網上的原話：

“機器人必須展示具身推理的能力，

即理解我們周圍世界并做出反應的人類能力，

并安全地采取行動來完成工作。”

原理是這樣，誰實現出來就牛氣了，

谷歌DeepMind團隊送上驚喜，Gemini Robotics。

真怕哪天哪個機器人搞出點驚嚇。

他們是如何搞出來的呢？

簡單說，設計了兩個大組件干這事。

先說，Gemini Robotics-ER是基礎模型，

（以下有時簡稱ER）

也是一個專門針對機器人的VL模型，

即視覺語言模型。

不過ER沒有自己上陣，

派出了ER模型的蒸餾版，

成為Gemini Robotics的兩大組件之一。

細說就是，

把模型軟件棧理解為垂直的，

越基礎的在越下面，

Gemini 2.0是最基礎最底座的模型。

在此之上，先發展出Gemini Robotics-ER，

這時候雖然ER還很基礎，

但是有了多模態推理能力，

如3D空間理解、物體關系分析，

最終都歸結為一種能力，推理能力。

怎么理解呢？

ER模型是為機器人推理能力建立的一個基礎模型，我打個比方，ER模型能先把任務分解了，機器人先站起來，然后拿到桌子上的衣服，再把衣服疊了，相當于解題思路，或者“思維鏈”，但是ER就在這個階段了，它可不管機器人的行動，而且是一點也不管。

就是說，ER模型本身不直接生成機器人動作。

要我說，ER模型工作性質屬于“腦補”，

是一個腦補型工作者，

就是“我光想想這事該怎么做”，

最多再把想法告訴別人。

這個設計很特別，當然也很合理，

于是，這個機器人對物理世界，

有了一個大概的理解。

然而，既然想做機器人，光有理解力不夠，

得執行，得行動。

于是，這時候，

增加了一個搞定機器人動作的重要組件：

action decoder。

它能將模型輸出結果轉化為機器人動作，

如機械臂軌跡、抓取力度。

目的是讓模型有直接輸出“行動”。

這兩部分組件是怎么結合？

這真是一個好問題，

也是人家的“硬核技術含量”之所在。

我把這個問題放在文末。

繼續講GeminiRobotics和ER模型的關系。

GeminiRobotics是在ER模型（蒸餾）的基礎之上，基于其輸出，直接生成一串具體動作，學術說法就是，具體動作的時間序列，如機械臂的角度調整、手指的抓取力度，完成任務。

這里當然是用的Diffusion Policy。

我寫了Diffusion Policy的解讀文章，但是還沒有寫完，GeminiRobotics就出來了，

真的太卷了，科技博主的命也是命。

只能發了這篇再發Diffusion Policy。

再聊回來，

比如：ER提供“思路”，

GeminiRobotics控制機械臂以最優路徑移動并執行抓取。

強調一下，GeminiRobotics的硬核能力就是，

可以做到端到端的動作生成，

比如，抓取葡萄、折疊紙、操作工具，

看得出來，它們支持好幾個步驟才能完成的靈巧任務，如，折紙直到折出個小動物。

還有個有趣的，我們已知，

Gemini Robotics這個模型有兩個部分，

一部分在云端（主干網絡），

一部分在機器人身上的芯片上，

Action decoder。

這種設計，既符合模型設計思路，

也符合硬件芯片的條件。

因為在大型視覺語言模型（如Gemini Robotics-ER）中，推理速度通常較慢且需要專用硬件，很棘手，很現實。無法在機器人本體上運行推理，就可能無法滿足實時控制需求。體現在硬件上就是，云上模型（主干網絡）提供“智力”，解碼器適配硬件特性。這也成為GeminiRobotics的特色之一。

技術報告里面也提到，

可以根據api生成代碼的形式，

生成控制機器人運動策略。

另外，我們的故事既然從VLA開始，

那也在VLA結束，

有了GeminiRobotics，

機器人也終于有了自己的知名VLA模型。

有一位“親愛的數據”讀者，

和DeepMind的GeminiRobotics技術組成員，

聊了聊，

于是，我們有了一些一手信息，

這次的技術發布大概經歷兩年時間，

團隊說有些資料還在撰寫，后面會更新技術報告。

他還問到一個技術細節：

“云端和本地端之間的信息是怎么交互的？

是按照latent code的形式嗎？”

得到的他們團隊成員的答復是：

“VLM首先單獨微調（finetune），

再凍結（freeze），

單獨訓練action decoder部分，

有計算方面的優化，

具體有些技術細節可能要稍后再發布。”

這個答復是非正式的，非官方的，

純屬技術交流，請勿濫用。

也就是說，他們提到的訓練方法是，

先把其中的主干網絡凍結（參數固定），

再訓練第二個重要組件（action decoder），

另外，云端和本地端之間的信息是怎么交互的？

是按照latent code的形式嗎？

這個問題就是前面提到的：

“這兩部分組件是怎么結合？”

那位讀者的理解是，

ER模型把所有的信息都壓縮成一個latent code，

傳遞給action decoder，

然后action decoder根據這些信息，

再用diffusion去生成動作。

我也有一個想不明白的點，

向谷歌機器人團隊舉手示意，

如果你也有，歡迎補充在評論區：

我的問題是，這種專為機器人設計的VLA大模型，

推理過程是隱式，還是顯式。

能不能做到顯式的推理？

我還挺想知道。

（完）

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

親愛的數據

《我看見了風暴：人工智能基建革命》一書作者

693文章數 219913關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

家居

游戲

旅游

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

谷歌推出機器人模型Gemini Robotics，附送一手小道消息

花200薅5千算力，Claude冷血斷供“龍蝦”

伊朗官員提開放霍爾木茲海峽條件

伊朗官員提開放霍爾木茲海峽條件

CBA最老球員，身價7500萬美元

王燦兮否認婆媳不和 曬與杜淳媽合影

誰造出了優思益這頭“怪物”？

家用SUV沒駕駛樂趣?極氪8X第一個不同意

態度原創

高考地理中的束水攻沙

溫馨多元 愛的具象化

三天鼠標干壞兩個，你這還是自走棋嘛？

文明旅游｜清明出游請注意！莫讓這些不文明行為煞風景！

王燦兮否認婆媳不和曬與杜淳媽合影

溫馨多元愛的具象化