<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌推出機器人模型Gemini Robotics,附送一手小道消息

      0
      分享至



      原創:親愛的數據



      確實有些一手消息,

      可惜不是很多。

      機器人領域,谷歌來好消息了,

      谷歌DeepMind團隊在把大模型的能力往機器人行動上用,用得很好,名字叫做Gemini Robotics。

      一看名字就知道基礎模型肯定是Gemini 模型了。

      GeminiRobotics官網上客觀地說,

      當然也是冷冰冰地說:

      “模型能使各種機器人執行,

      比以往更廣泛實際任務。”



      理解這句話要兵分兩路,

      一路是以前在工廠參觀,

      看到流水線上機械臂就挺震撼了,

      機械臂在固定工位上做規定動作,

      穩定性和精確性符合工業級別的標準。

      盡管各式各樣的機器人均表現出在柔性上大幅超過機械臂,

      當然也包括摔個狗吃屎,

      站也站不穩等“柔性動作”。

      但是,機器人讓機械臂大量下崗的“換代時刻”沒有到來,盡管機器人在抖音快手小視頻上都挺能,

      但是,現實中動作并非如此絲滑自如,

      任何可以驚呼“牛”的機器人技術,

      距離高產售賣,尚有距離。

      當下的機器人似乎進入了這樣一種敘事:

      機器人能給完成簡單任務,

      尚未進入一大堆細節指標,精度,比拼的階段,

      還在描述,一件簡單的事,機器人能不能干,

      你家機器人能干,我家的也能干,

      谷歌Gemini Robotics顯然讓能力又上了一個臺階。

      不過,現在還不是機器人的本事非常之高,

      高到甚至可以肉眼高精度競賽的時候。

      還是那句話,小步前進中,偶爾步子大。

      前進都值得鼓勵,太小就算了;

      另一路是,在我看來,

      技術浪潮往往是成對或者成三出現的,

      比如上一波的移動互聯網,超級APP,云計算,

      不用證明哪種技術更好,

      事實證明,不僅同樣重要,而且互為榫卯。

      這一波技術浪潮,

      人工智能已然占據C位,

      而在我看來,人工智能與機器人技術,

      也應該是“成對出現”。

      機器人可以視為大模型的“超級APP”,

      短期看來,機器人技術比人工智能大模型技術發展,稍慢幾拍。

      放在歷史的長河里,它們肯定是一個時期的產物。

      就好比,誰也不會使用一個沒有APP的智能手機。

      畢竟,協同起來,有利雙方。

      你甚至可以簡單地理解,

      模型需要“身體”,機器人需要“腦子”。

      不過真實物理世界充滿了未知和驚喜,

      征服難度可想而知,

      這兩路講完,后面就好聊了。



      大模型的道路上,

      一直是語言模型強勢,

      多模態模型屈居,

      為此我寫了一篇討論文章,幫多模態說了些好話:

      AI大模型技術路線之爭:你可以信仰多模態,也可以無視多模態

      說白了,有人就是認為大語言模型更有用,

      發展大語言模型能讓模型更聰明。

      不過,當我們把語境放在機器人里面,

      多模態大模型則更受歡迎,

      因為大語言模型僅擅長輸出文字,

      “顯得”能力不全,

      好比說,就算你“手快”,

      可惜你“眼疾”,這樣也不行。

      說白了,誰也不想要一個看也看不見,還啞巴,

      又沒有行動能力的“機器人”。

      所以,多模態對與機器人領域更實用。

      谷歌的Gemini模型堅定走多模態技術路線,

      文本、圖片都能輸入給大模型,

      于是,就有了視覺語言大模型

      (VL模型,或者是圖文模型),

      2023年年為了觀察圖文大模型的發展,

      猛寫了20000字,

      是這篇:2023年終盤點:圖文大模型編年簡史

      看上去,我是在用寫稿克服要被AI干掉的焦慮。

      現在完全不焦慮了,

      我只想少熬夜,身體健康,活得久些,

      科技發展都這么加速了,要有機會享受到。

      話說回來,

      給機器人做底座模型的是多模態模型夠嗎?

      也就是說,機器人看懂文字看懂圖。

      當然,這還不夠。

      機器人的特長是行動,也就是做出動作,

      動作的英文就是Action,

      無論是拿起,放下,站立還是蹲下,

      你得做出動作,嘴上說的不算。

      好消息是,現在的基礎大模型都很聰明了,

      讓模型告訴機器人,下一個動作是啥。

      模型有學習能力,機器人也有了學習能力,

      于是,我們有了目標,就是給機器人一個“發令官”

      這個發令官肯定得用視覺-語言-動作(VLA)模型來實現。理解了這點之后,你會發現Gemini Robotics就是一個VLA模型,這也是目前所有機器人技術公認的主流路線。

      大家都認同的VLA模型的突破點在于:

      用統一模型將視覺(環境),

      語言與動作整合為單一模型,

      直接建“觀察-理解-行動”的端到端閉環。

      比如,機器人看見障礙物就拐彎,

      這和自動駕駛的原理一樣,

      不過機器人要求更靈活。

      說白了,VLA模型就是一種眼觀六路,

      耳聽八方的模型,

      不過,將這種模型用在機器人身上,

      各個技術團隊就各有高妙了。

      好消息是,既然有一個學習能力的腦子了,

      再讓機器人做動作,

      它就可以在物理世界里找到一點自尊了。

      讓我們再回到谷歌官網上的原話:

      “機器人必須展示具身推理的能力,

      即理解我們周圍世界并做出反應的人類能力,

      并安全地采取行動來完成工作。”

      原理是這樣,誰實現出來就牛氣了,

      谷歌DeepMind團隊送上驚喜,Gemini Robotics。

      真怕哪天哪個機器人搞出點驚嚇。

      他們是如何搞出來的呢?

      簡單說,設計了兩個大組件干這事。





      先說,Gemini Robotics-ER是基礎模型,

      (以下有時簡稱ER)

      也是一個專門針對機器人的VL模型,

      即視覺語言模型。

      不過ER沒有自己上陣,

      派出了ER模型的蒸餾版,

      成為Gemini Robotics的兩大組件之一。

      細說就是,

      把模型軟件棧理解為垂直的,

      越基礎的在越下面,

      Gemini 2.0是最基礎最底座的模型。

      在此之上,先發展出Gemini Robotics-ER,

      這時候雖然ER還很基礎,

      但是有了多模態推理能力,

      如3D空間理解、物體關系分析,

      最終都歸結為一種能力,推理能力。

      怎么理解呢?

      ER模型是為機器人推理能力建立的一個基礎模型,我打個比方,ER模型能先把任務分解了,機器人先站起來,然后拿到桌子上的衣服,再把衣服疊了,相當于解題思路,或者“思維鏈”,但是ER就在這個階段了,它可不管機器人的行動,而且是一點也不管。

      就是說,ER模型本身不直接生成機器人動作。

      要我說,ER模型工作性質屬于“腦補”,

      是一個腦補型工作者,

      就是“我光想想這事該怎么做”,

      最多再把想法告訴別人。



      這個設計很特別,當然也很合理,

      于是,這個機器人對物理世界,

      有了一個大概的理解。

      然而,既然想做機器人,光有理解力不夠,

      得執行,得行動。

      于是,這時候,

      增加了一個搞定機器人動作的重要組件:

      action decoder。

      它能將模型輸出結果轉化為機器人動作,

      如機械臂軌跡、抓取力度。

      目的是讓模型有直接輸出“行動”。

      這兩部分組件是怎么結合?

      這真是一個好問題,

      也是人家的“硬核技術含量”之所在。

      我把這個問題放在文末。

      繼續講GeminiRobotics和ER模型的關系。

      GeminiRobotics是在ER模型(蒸餾)的基礎之上,基于其輸出,直接生成一串具體動作,學術說法就是,具體動作的時間序列,如機械臂的角度調整、手指的抓取力度,完成任務。

      這里當然是用的Diffusion Policy。

      我寫了Diffusion Policy的解讀文章,但是還沒有寫完,GeminiRobotics就出來了,

      真的太卷了,科技博主的命也是命。

      只能發了這篇再發Diffusion Policy。

      再聊回來,

      比如:ER提供“思路”,

      GeminiRobotics控制機械臂以最優路徑移動并執行抓取。

      強調一下,GeminiRobotics的硬核能力就是,

      可以做到端到端的動作生成,

      比如,抓取葡萄、折疊紙、操作工具,

      看得出來,它們支持好幾個步驟才能完成的靈巧任務,如,折紙直到折出個小動物。

      還有個有趣的,我們已知,

      Gemini Robotics這個模型有兩個部分,

      一部分在云端(主干網絡),

      一部分在機器人身上的芯片上,

      Action decoder。

      這種設計,既符合模型設計思路,

      也符合硬件芯片的條件。

      因為在大型視覺語言模型(如Gemini Robotics-ER)中,推理速度通常較慢且需要專用硬件,很棘手,很現實。無法在機器人本體上運行推理,就可能無法滿足實時控制需求。體現在硬件上就是,云上模型(主干網絡)提供“智力”,解碼器適配硬件特性。這也成為GeminiRobotics的特色之一。



      技術報告里面也提到,

      可以根據api生成代碼的形式,

      生成控制機器人運動策略。

      另外,我們的故事既然從VLA開始,

      那也在VLA結束,

      有了GeminiRobotics,

      機器人也終于有了自己的知名VLA模型。

      有一位“親愛的數據”讀者,

      和DeepMind的GeminiRobotics技術組成員,

      聊了聊,

      于是,我們有了一些一手信息,

      這次的技術發布大概經歷兩年時間,

      團隊說有些資料還在撰寫,后面會更新技術報告。

      他還問到一個技術細節:

      “云端和本地端之間的信息是怎么交互的?

      是按照latent code的形式嗎?”

      得到的他們團隊成員的答復是:

      VLM首先單獨微調(finetune),

      再凍結(freeze) ,

      單獨訓練action decoder部分,

      有計算方面的優化,

      具體有些技術細節可能要稍后再發布。

      這個答復是非正式的,非官方的,

      純屬技術交流,請勿濫用。

      也就是說,他們提到的訓練方法是,

      先把其中的主干網絡凍結(參數固定),

      再訓練第二個重要組件(action decoder),

      另外,云端和本地端之間的信息是怎么交互的?

      是按照latent code的形式嗎?

      這個問題就是前面提到的:

      “這兩部分組件是怎么結合?”

      那位讀者的理解是,

      ER模型把所有的信息都壓縮成一個latent code,

      傳遞給action decoder,

      然后action decoder根據這些信息,

      再用diffusion去生成動作。

      我也有一個想不明白的點,

      向谷歌機器人團隊舉手示意,

      如果你也有,歡迎補充在評論區:

      我的問題是,這種專為機器人設計的VLA大模型,

      推理過程是隱式,還是顯式。

      能不能做到顯式的推理?

      我還挺想知道。

      (完)





      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      報復?達拉斯醫療失誤,掃錯里夫斯受傷位置,2.4億啊,可惜了

      報復?達拉斯醫療失誤,掃錯里夫斯受傷位置,2.4億啊,可惜了

      球童無忌
      2026-04-05 13:15:10
      英國人終于承認:中東打一仗才發現,中國這三張底牌,誰都學不來

      英國人終于承認:中東打一仗才發現,中國這三張底牌,誰都學不來

      輝輝歷史記
      2026-04-06 03:01:10
      《生化9》格蕾絲"大奶牛"MOD:極品大雷身材太火爆

      《生化9》格蕾絲"大奶牛"MOD:極品大雷身材太火爆

      游民星空
      2026-04-05 12:06:10
      前英超球星納斯里逃稅翻車!一年212次巴黎外賣出賣了他

      前英超球星納斯里逃稅翻車!一年212次巴黎外賣出賣了他

      仰臥撐FTUer
      2026-04-05 13:00:06
      為啥說老公長的帥少讓他去接孩子?網友:理解曹操成為曹操

      為啥說老公長的帥少讓他去接孩子?網友:理解曹操成為曹操

      解讀熱點事件
      2026-04-04 00:34:43
      太心酸了!42歲著名女歌手江蘇走穴,賓客只顧吃席沒人搭理

      太心酸了!42歲著名女歌手江蘇走穴,賓客只顧吃席沒人搭理

      小徐講八卦
      2026-02-12 12:13:20
      “我毫無優勢” 趙心童回應賠率看好他掀翻世界第1 生涯獎金909萬

      “我毫無優勢” 趙心童回應賠率看好他掀翻世界第1 生涯獎金909萬

      風過鄉
      2026-04-05 09:35:40
      太陽報:退役12年的亨利年收入近500萬鎊,依舊為英超球星級別

      太陽報:退役12年的亨利年收入近500萬鎊,依舊為英超球星級別

      懂球帝
      2026-04-06 02:56:03
      怪不得這么多男明星和她傳過緋聞,現實中確實驚為天人。

      怪不得這么多男明星和她傳過緋聞,現實中確實驚為天人。

      情感大頭說說
      2026-04-05 08:22:46
      一點別同情她!被教練性侵27次,卻在奧運賽場上,把隊友撞出賽道

      一點別同情她!被教練性侵27次,卻在奧運賽場上,把隊友撞出賽道

      來科點譜
      2026-02-27 07:42:10
      2026-2032房價預測:現100萬的房子,5年后能值多少呢?

      2026-2032房價預測:現100萬的房子,5年后能值多少呢?

      職場資深秘書
      2026-04-03 07:15:12
      1-2!2-1!瘋狂一夜,阿森納爆冷出局,巴薩絕殺,切爾西狂勝晉級

      1-2!2-1!瘋狂一夜,阿森納爆冷出局,巴薩絕殺,切爾西狂勝晉級

      足球狗說
      2026-04-05 05:10:41
      斯諾克賽程:決賽19局10勝,小特有優勢,1定律預示趙心童捧杯?

      斯諾克賽程:決賽19局10勝,小特有優勢,1定律預示趙心童捧杯?

      劉姚堯的文字城堡
      2026-04-05 07:12:20
      又賠了兩架C-130!最后時刻,美軍搶走第2名飛行員,伊朗功虧一簣

      又賠了兩架C-130!最后時刻,美軍搶走第2名飛行員,伊朗功虧一簣

      頭條爆料007
      2026-04-05 16:13:58
      2架美國“黑鷹”被伊朗山民擊中!秘密武器遭曝光,伊朗:新防空系統將陸續亮相!特朗普40年前就說要“搶伊朗石油”、奪哈爾克島

      2架美國“黑鷹”被伊朗山民擊中!秘密武器遭曝光,伊朗:新防空系統將陸續亮相!特朗普40年前就說要“搶伊朗石油”、奪哈爾克島

      每日經濟新聞
      2026-04-05 01:14:41
      李澤楷被她迷得瘋狂,林丹為她不顧孕妻,她有什么魅力?

      李澤楷被她迷得瘋狂,林丹為她不顧孕妻,她有什么魅力?

      觀察鑒娛
      2026-04-05 21:26:05
      千萬美金買不動一條命,普京“泄底”破局,伊朗反手抓了54個內鬼

      千萬美金買不動一條命,普京“泄底”破局,伊朗反手抓了54個內鬼

      愛下廚的阿釃
      2026-04-06 01:45:57
      炸了!3月美國非農數據扇醒所有賭徒:美聯儲降息就是煙霧彈,全球韭菜又被收割

      炸了!3月美國非農數據扇醒所有賭徒:美聯儲降息就是煙霧彈,全球韭菜又被收割

      新浪財經
      2026-04-05 21:30:48
      三石弟弟被三里屯公主始亂終棄!

      三石弟弟被三里屯公主始亂終棄!

      八卦瘋叔
      2026-04-05 10:43:18
      2026-04-06 05:07:00
      親愛的數據 incentive-icons
      親愛的數據
      《我看見了風暴:人工智能基建革命》一書作者
      693文章數 219913關注度
      往期回顧 全部

      科技要聞

      花200薅5千算力,Claude冷血斷供“龍蝦”

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      體育要聞

      CBA最老球員,身價7500萬美元

      娛樂要聞

      王燦兮否認婆媳不和 曬與杜淳媽合影

      財經要聞

      誰造出了優思益這頭“怪物”?

      汽車要聞

      家用SUV沒駕駛樂趣?極氪8X第一個不同意

      態度原創

      教育
      家居
      游戲
      旅游
      公開課

      教育要聞

      高考地理中的束水攻沙

      家居要聞

      溫馨多元 愛的具象化

      三天鼠標干壞兩個,你這還是自走棋嘛?

      旅游要聞

      文明旅游|清明出游請注意!莫讓這些不文明行為煞風景!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版