<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      十二個問題解剖VLA,深度對話小米陳龍、上交穆堯

      0
      分享至



      2025 年末,首批 L3 級自動駕駛車型獲得準入,標志著中國智能駕駛產業邁入新紀元。與此同時,具身智能機器人領域也在過去一年間經歷了“天翻地覆”的變化,從 2024 年初“抓蘋果都費勁”,到如今疊衣服已成為行業的入門任務,穿鞋帶這樣曾被認為遙不可及的精細操作也已被攻克。

      在這場技術躍遷的背后,一項被稱為 VLA(Vision-Language-Action,視覺語言動作大模型)的技術正成為連接自動駕駛與具身智能的關鍵樞紐。不同于傳統端到端模型從視覺直接映射到動作的“條件反射”式決策,VLA 將語言理解與推理能力引入物理世界的決策鏈路,賦予機器“看了就懂、懂了就做”的認知能力。

      然而,VLA 的興起也伴隨著爭議。在 2025 年世界機器人大會上,宇樹科技創始人王興興公開質疑這一技術路線,引發行業熱議。這場爭論的背后,是軟件與硬件、泛化性與可靠性、學術探索與商業落地之間的深層張力。

      為深入探討這一前沿技術的本質、挑戰與前景,我們邀請到兩位走在 VLA 研究最前沿的嘉賓:小米汽車智能駕駛 VLA 技術負責人陳龍,以及上海交通大學計算機學院助理教授、ScaleLab 負責人穆堯。他們分別從自動駕駛和具身智能機器人的視角,為我們拆解 VLA 的技術內核,剖析數據困境與安全挑戰,并回應來自產業界的質疑。

      以下是本次對話的完整內容。

      一、什么是 VLA ?

      DeepTech:先請兩位解釋一下什么是 VLA 技術。

      陳龍:VLA 是最近幾年比較火的一個話題。它本質上是利用大語言模型的泛化能力,包括從互聯網數據預訓練得到的通識知識,再輔以語言模態的推理能力,來解決現實世界中行為決策的問題。

      現在不管是自動駕駛還是機器人, VLA 都非?;?。因為自動駕駛面臨很多長尾問題,當你在路上開車時,大部分時間遇到的是見過的東西,但有時候會遇到沒見過的場景,這時候就需要思考能力,在這些場景下做出更好的決策。

      機器人也在利用 VLA 的能力,主要是因為機器人的任務比較復雜,有很多長程任務。它需要利用語言能力來理解人類給它的任務,包括對整體任務的拆解,把它分解成 sub task (子任務) 來執行。所以總體來說, VLA 是未來物理世界人工智能發展的趨勢,是大模型能力走向物理世界的必要網絡架構。

      穆堯:VLA 給機器人帶來了非常大的機會。具身智能和傳統機器人研究的一個很大不同點在于,具身智能更關注泛化性,包括對場景的泛化性、視覺和物理上的泛化性,也包括我們希望交互的物體的不同形狀、顏色等更細致的泛化性。

      在 VLA 技術下,實際上賦予了機器人幾方面的能力:第一,使機器人能夠用語言溝通,聽懂人類指令;第二,由于 VL (視覺語言模型) 在大規?;ヂ摼W數據上進行了很好的預訓練,可以有非常好的場景和視覺上的泛化性,逐漸邁向開放世界;第三是 A (Action ,動作) 這一塊,怎么把 VL 對接到 A 上,在機器人領域目前還處于研究探索階段。當然已經有一些比較好的模型出來,比如 π0 、 π0.6 ,展現了一些精細操作的能力。

      VLA 帶給機器人的核心機會在于賦予了機器人一個柔性的能力。之前機器人可能要寫死一些機械定位,差一點都不行;現在可以根據情況隨機應變。當然這部分泛化性目前還沒有達到工業上真正四個九的要求,所以不管是學界還是工業界,都在逐漸發力。

      DeepTech:過去訓練機器人或者機器人的工作方式是什么?

      穆堯:傳統機器人大部分面向特定場景、特定任務,在這個任務上達到 SOTA (當前最佳水平) 。傳統的方法基于規劃加柔順力控,或者基于強化學習,解決的核心問題都是單一場景、單一任務的。當具身智能要求走向多任務、開放世界、開放場景時,VLA 就成為非常重要的實現路徑。

      DeepTech:舉個例子,現在的機器人更多在工業上應用,未來走入生活場景,是不是就用到了 VLA 的核心技術?因為生活中的場景和指令都是非標準化的。

      穆堯:是的,家庭場景最符合具身智能的要求,當然也是最難的。但工業場景的泛化性要求也很高。到現在能通過自動化產線完成的都已經大規模在做了,比如小米汽車的生產線,除了最后的總裝車間,其他車間都是 95% 以上自動化。剩下需要人類操作的部分,往往是因為單獨搭建產線非常昂貴,而且可能今天來的是這批零件,明天來的是另一批零件,有柔性生產制造的需求。這種需求本質上還是對泛化性的需求,所以工業場景上也有很大的應用空間。

      二、 VLA 與端到端自動駕駛的區別

      DeepTech:VLA 技術在自動駕駛上,和現在的端到端自動駕駛有什么區別?

      陳龍:自動駕駛研究了幾十年,是比較有歷史的方向。早期類似穆堯講的機器人方法,是模塊化的方式來實現—— 區分感知模塊、預測模塊和規控模塊。感知通過計算機視覺模型檢測物體,預測會預測每個車的運動軌跡,規劃則利用路徑規劃算法,在知道周圍物體和它們未來運動的條件下,規劃出自車的運動軌跡。這是自動駕駛的第一階段,通過規則算法來實現。

      端到端是最近幾年才興起的。我之前在 Wayve,我們從 2018 年就開始做端到端自動駕駛,當時還是比較激進的方式。端到端本質上非常簡單,就是使用一個大模型,利用很多收集起來的自動駕駛數據,訓練一個端到端的模型,直接把傳感器輸入映射到駕駛信號上面。

      端到端解決了傳統算法的很多問題,因為傳統算法需要手動設置很多規則,比如紅燈情況下怎么樣、遇到別的車應該怎么做。端到端不用手動設計這些規則,而是通過數據驅動的方式,利用大量人類駕駛行為,讓神經網絡學習這些行為并進行擬合。

      但它也有很多缺點:首先是黑盒模型,你不知道它的決策是怎么做的,不是特別可控;第二是對長尾問題的泛化性不夠好,因為現實生活中有很多場景是收集數據收集不到的,遇到這種場景可能就會做出錯誤行為。

      VLA 本質上就是為了解決這些問題。首先是可解釋性, VLA 通過語言可以做出解釋,包括決策的原因,你可以通過這些原因了解它是怎么做決策的,透明度會加深。其次, VLA 可以提供比較好的推理能力,特別是 VLM (視覺語言模型)可能經過互聯網知識的預訓練,對世界的通識知識、人類的價值觀都有一定了解,再輔以推理能力,可以在長尾情況下通過推理做出更正確的決策,使自動駕駛更加安全、泛化性更好。這也是為什么 VLA 在最近幾年慢慢興起,成為主流方向。

      三、什么是長尾問題和泛化問題?

      DeepTech:兩位反復提到長尾和泛化。能不能舉一些特殊的例子,幫助我們了解機器人或自動駕駛在某些場景下失效的情況?

      穆堯:在機器人上,泛化的圈子會畫得比較大。可以細分為:首先是背景,就是操作臺以外的所有背景,涵蓋各種光照信息、復雜的 layout (布局) 分布;再往上是前景,就是當前機器人的操作臺和 target (目標) 物體;同時桌子上還有各種雜物——我們每個人家庭的桌子不是一塵不染的,有各種東西,所以操作臺上有任務相關和任務無關的物體。

      最細的層級是任務相關物體本身。比如任務是收拾桌子上的瓶子,瓶子的種類很多——可樂、雪碧是圓柱形的,東方樹葉是四棱柱的,形狀都不一樣。這就是從最粗到最細粒度的泛化。

      什么是長尾呢?長尾是一些在預收集數據中很難出現的狀況。比如機器人在夾東西時掉下來了,或者夾東西時碰到了某個東西,或者嘗試抓取時東西被碰倒了。人類一次嘗試沒成功,東西倒了之后我們知道怎么抓,但機器人可能完全沒見過這個倒下的狀態,很難 recover (恢復) 。還有更具有挑戰性的長尾,比如場景中有第三個可移動的物體——人。一個人直接把你本來瞄準好的物體位置變了,或者把立著的瓶子弄倒了,把茶杯弄翻了,這就是長尾。

      專家數據集也會包含泛化部分,包括場景泛化、操作臺泛化、任務無關物體泛化、任務相關物體泛化,這些都會有。但有些突發情況是專家數據集很難收集到的,一般要通過真機強化學習這樣的方式才能收集到。

      DeepTech:在自動駕駛方面呢?

      陳龍:自動駕駛方面定義也類似。你的專家數據集不可能把所有場景都收集完,因為道路上有很多不可預知的事情。比如我們在新的地方開車時,會碰到不一樣的交通標識牌或不一樣的場景。人在新環境下也會遇到很多長尾問題,有時候也會開慢點或停下來想一想具體應該怎么開。

      DeepTech:就是說有的路口只有本地人才能走對?

      陳龍:對,類似這種。 VLA 比較適合解決這些長尾問題。具體例子比如施工場景會有一些標識牌,每個標識牌都不統一,有的畫了車輛和箭頭示意你應該往哪個方向走,有的是文字形式,有的是其他方式指示你應該怎么走。在這種非結構化信號下,需要 VLA 對整個場景的理解,包括利用互聯網預訓練知識進行理解和推理,得出在這個長尾問題下應該具體做什么決策。

      VLA 還解決了比較長序列的問題。比如開車時拐進了一個死胡同,應該倒車退回去換一個路口。但如果沒有 VLA ,你可能開到死胡同里,即使知道退回來,也可能再開到這個死胡同里,因為你不知道剛才已經開到這里了。 VLA 可以在需要長時記憶的情況下,用語言這個比較抽象的模態來做長期路徑規劃。

      四、 VLA 不只是加了一層語言

      DeepTech:傳統或現在用的是從視覺直接映射到動作,VLA 是從視覺映射到語言再映射到動作。是不是只是在中間加了一層語言?還是 VLA 中間加入語言能解決一些其他核心問題?

      陳龍:肯定不是只加了一層語言。這本質上是一個范式轉變。 VLA 利用大模型的范式來訓練自動駕駛或機器人算法。 VA(視覺動作)是直接把圖像映射到最終的 action(動作)上,不管是自動駕駛的端到端算法還是機器人比較經典的 ACT (動作分塊) 算法,本質上沒有利用模型的思考能力。 VLA 本質上轉換到了認知驅動的范式,通過大模型的能力,利用大模型的知識和推理能力來解決路徑規劃或抓取導航這些問題。

      現在自動駕駛領域對 VLA 的理解都不盡一樣。我個人理解,本質上 L 這個模態是對圖像的補充。 VA 只有圖像和傳感器信息來做一次決策,而 L 可以通過語言模態不斷 sample (采樣) 下一個 token。通過這個 sampling 的方式, sample token 的過程其實是信息量增加的過程,熵也是一個減少的過程。

      所以通過首先有圖像,然后不斷 sample 語言 token 帶來信息量增加的過程,最終做決策時是通過圖像信息輔以語言 sample 之后的信息,共同做出決策。理論上比只用圖像做決策會更好。 VLA 是利用了語言的預訓練能力和推理能力,進一步增強了決策過程。

      DeepTech:我看到過一些自動駕駛 demo ,會把思考邏輯打在車機屏幕上。在我們看來,它相當于是一個相對滯后的決策邏輯。在語言生成推理邏輯時已經拐過去了,推理邏輯才到屏幕上。這個過程能夠被打斷嗎?或者執行過程中能夠溝通嗎?

      陳龍:這是個很好的問題。現在 VLA 的框架還沒有發展到特別成熟、特別擬人的階段?,F在市面上有些產品可能會顯示思考過程,但顯示這個過程可能已經是幾秒前的,做決策時確實利用到了,不管是做 CoT (思維鏈) 還是描述場景來做決策。但這些顯示的信息可能更多是為了展示智能化,對整個自駕體驗沒有特別大影響。

      我覺得最終的 VLA ,思考過程可能并不需要用這么口語化的文字來描述場景和做推理,因為這些口語化的詞是很冗余的。最終的 VLA 可能更類似人腦的思考方式,我可能不需要說出來也可以去思考,甚至可以利用更簡短的token ,甚至是一些隱式的 token 來做思考。這樣會更高效,不需要輸出很長的思維鏈,只需要輸出一些精簡的 token 就可以最終做決策。而且自駕是一個實時要求比較高的系統,不可能接受你sample 這么多 token 最終做出決策。

      DeepTech:所以也很難中途打斷,比如像現在告訴司機一樣說“前面右拐”?

      陳龍:對,現在 VLA 范式是沒有這個打斷功能的,只能是你說出指令之后再重新執行理解指令語義的過程。

      五、機器人對語言的要求更高

      DeepTech:在機器人上呢?

      穆堯:機器人的 VLA 非常難。大部分機器人 VLA 的訓練都是以一個 well pre-trained (預訓練好的)的 VL model ,然后后面接 expert(專家模型) 。以目前最著名的 Physical Intelligence提出的 π 系列為例,前面是 Google 提出來的 PaLM (一種大語言模型) ,是一個 well pre-trained 的視覺語言模型,后面接了一個以 flow matching(流匹配)為原理的 action expert(動作專家)網絡。

      本質上機器人對 language 的要求非常高。首先,機器人要做任務拆解。自動駕駛可能就是按照固定的期望路線安全行走、不發生碰撞、到達目的地就可以了。但機器人比如聽到人類的指令“請你幫我做一杯咖啡” ,要具體到動作原語 —— 拿出什么東西、放下什么東西、打開什么東西、把什么東西從左邊挪到右邊。機器人需要把人類非常抽象的指令分解成動作原語級別,然后每個原語作為一個 language condition (語言條件)去輸出對應的 action 。從這個角度來說, language 對機器人意義非常大。

      VLA 大部分是 3B 左右的,比較大的會有 7B、 8B 的,但目前還沒有看到13B 的。所以我覺得它算是一個比較大的“小腦”,可能還沒到“大腦”的 level 。但關于機器人大腦的研究也非常多,以視覺語言為主的大腦研究,大家會做更長程任務的推理。大家對機器人的期待是人類都不用說話,機器人通過視覺觀察能做邏輯推理——你當前是什么狀態,是不是疲憊了、是不是渴了,疲憊困了我給你端來一杯咖啡。所以在機器人這端, language 起到非常重要的作用。

      DeepTech:我們聊機器人時往往會聊“大腦”和“本體”。像宇樹做本體,很多實驗室或公司專注做大腦,只要采購到強的本體就可以了。你剛才提到研究大腦用到的模型參數量都更大, VLA 是不是把大腦和本體都統一到一個模型里面了?

      穆堯:VLA 實際上兼顧了一些大腦的能力,比較簡單的邏輯推理是可以做的,比如 pick and place(拾取和放置) 這些簡單任務。更大更復雜的推理可能還需要更大的大腦。目前一個比較主流的范式是端云協同,大腦跑在云端,一個稍微小一點的模型跑在端側或邊端,最底層比如人形機器人的運動控制屬于純小腦,也跑在端側。

      DeepTech:相當于 VLA 模型部署在本體上,還有一個更大模型的大腦在云端?

      穆堯:對,目前這一塊業界解決方案沒有特別好。能在端側芯片部署 VLA 模型的板子也不是很多,大家可能更多是以比如 4090 的服務器來做,屬于邊端。

      DeepTech:所以在機器人的控制中,目前還是大腦和本體分離的狀態。

      穆堯:13B 以上的大腦一般都是跑在云端的。

      六、自動駕駛與機器人能共用一套底座模型嗎?

      DeepTech:我們看到很多報道說機器人和自動駕駛能共用一套底座模型。小米也剛開源了打通自動駕駛和具身的基礎模型。這兩者之間有哪些挑戰?技術上有哪些解決思路?

      陳龍:肯定有很多挑戰。本質上我們想要解決一個跨本體的問題。人類不管是在家做家務、操作物體,還是在室外開車,是用一個大腦做這些不同行為的。我們認為最終不管是具身、自駕還是其他任務,都要共用一個大腦模型。這樣我們的大腦模型才具有很強的對世界的認知能力,而且統一的模型可能使任務的連續性更好。

      我們前段時間發布了一些探索性工作,叫 MiMo Embodied ,和小米集團的 MiMo 模型團隊一起做了一些具身大腦的探索。本質上是使用自駕數據和機器人數據,進行融合,通過分階段訓練:第一階段加入很多空間智能數據,讓它學習空間感知和空間推理能力;第二階段放入自駕和具身的專有數據;第三階段通過 CoT 微調;第四階段使用強化學習微調。

      通過這四階段訓練,我們發現自駕和機器人的數據是可以融合的。它們共有的能力,也就是空間感知和空間推理能力,是可以互相加強的。一個是室內數據(具身操作) ,一個是室外數據(自駕場景) ,如果訓練得好是可以互相增強的。這也是我們前期具身基座模型的探索。

      這是比較大的模型,大概 7B 。 7B 的模型尺寸在端側也不能完全部署,而且需要使用很長的思維鏈方式進行推理,最終可能是一個云端模型。

      七、數據問題:自動駕駛 vs 機器人

      DeepTech:陳龍聊到數據問題。我感覺自動駕駛數據可能更好獲取,機器人數據更難獲取,是這樣嗎?

      穆堯:是的,這也是具身智能行業和自動駕駛產業一個根本性的區別。自動駕駛產業所有跑在路上的車都可以回流作為專家數據,當然要經過大量清洗,但每天可以回流上億條數據。而具身智能把所有開源的閉源的加在一起,可能也沒有 1 億條數據,數據體量差距很大。

      所以具身智能學術界和工業界想了各種辦法,包括仿真合成數據,包括用人類更便攜的方案比如 UMI 這樣的手持式設備采集,本質上都是希望以廉價成本 scale up (擴展) 數據。但核心困境還是需要人主動去收集,沒有一個自動的飛輪。我們很期待在某一個產線、某一個商業場景下的機器人真正能 24 小時轉起來,這樣就可以產生源源不斷的數據飛輪。自動駕駛天然就有這樣的優勢。但我覺得大概兩年之內,具身也會有一個初步的數據飛輪出來。

      DeepTech:數據方面前期調研時,我看到穆堯有“人 - 數字人 - 機器人”一體的架構,也是為了解決數據問題嗎?

      穆堯:對,核心就是解決數據問題。人類數據是最本質的,所有機器人都應該向人學習,而且人的數據最廉價、最容易收集——戴個 AI 眼鏡,或者頭頂上綁個相機就可以采集。但人和機器人確實 gap(鴻溝)比較大,所以我們提出 “人 - 數字人 - 機器人” 的三位一體管線,希望搭建好從人的行為到機器人行為的調節,把人的數據利用效率大大提升,并且為仿真合成數據注入人類豐富的行為信息,使行為多樣性有顯著提高。

      DeepTech:機器人和自動駕駛數據的 gap ,陳龍怎么解決?

      陳龍:穆堯說得非常好。自駕因為汽車本身是很好的產品,用戶會去開車,所以采集數據更方便,每天會有很多數據傳上來。而且數據多樣性非常好,全國不同省份都有人在開小米汽車。

      具身的問題是現在沒有成熟的產品在用戶側使用,沒有數據飛輪效應?,F在大家都是自己建采集場或小規模采集數據,不管數量還是多樣性都非常有限?,F在有很多人用合成數據來增強真實數據的不足,但本質上量和多樣性都跟自駕差得很遠。所以為什么 VLA 這么火,其實也是利用了 VLA 的泛化性來解決數據缺少的問題。

      當你有了一個很強的 VLA 模型,可能真正需要的數據就不需要那么多了。打個比方,如果你教人一個新任務,不需要很多數據,可能只需要幾條 demonstration (演示) ,人就可以學習出這個任務具體應該怎么做。所以當VLA 模型做得非常好,它的泛化能力和三種模態的 grounding (接地) 做得非常好時,可能并不需要特別多的數據,只需要幾條演示數據就可以把任務做得非常好。數據少的時候,模型側可以做更多優化來彌補。

      DeepTech:這兩部分數據的融合,穆堯怎么看?

      穆堯:這兩部分數據有 gap 。機器人的數據聚焦點主要在操作臺上面, focus 一些非常小的物體。自動駕駛可能關注的更多是路況、行人、紅綠燈這樣的信息。

      但兩者的交匯點是 World Model (世界模型) ,這是一個非常好的交匯面。一個通用的對未來數據的推演,自動駕駛的能力能夠為機器人賦能。因為機器人也需要導航,也需要 mobile manipulation (移動操作) 或 locomotion (運動) 。自動駕駛的數據能為機器人提供的服務是空間理解和推理——知道這個車往前走一段,視野會變成什么樣,近大遠小這些 common sense(常識)是可以獲取到的,這種基礎知識對機器人學習有很大幫助。

      當然二者的 attention 和 focus 各有側重。自動駕駛會跟車道線、紅綠燈、行人、車輛的 feature(特征)更相關;具身可能 focus 在一些具體的起草物體的交互。所以在設計網絡時,要能讓它們共有的知識得到促進作用,并且有效分離開。對應的網絡結構設計也是比較需要的。

      八、安全性問題:如何保證 VLA 不出錯?

      DeepTech:不管自動駕駛還是機器人和人的交互,都有一個繞不開的話題 —— 安全性。我們都知道語言模型有幻覺問題。在電腦上和大模型交互時,錯了我們人為改正就行了。但在自動駕駛和機器人的交互過程中,穆堯也提到工業上還做不到四個九。在這個安全性極高的場景里, VLA 是如何保證它既有泛化能力,又能解決長尾問題,同時又不會出錯的?

      穆堯:我能想到的路徑主要是強化學習。安全分兩塊:一塊是意識層面的安全,不能做出傷害人類的行為、危險的行為;另一塊是行為動作上的安全,也就是 safety (安全性) 。

      在意識層面上,大模型包括 LLM (大語言模型) 的安全對齊主要通過強化學習來做。對于操作的精準度、不能發生碰撞等安全性問題,強化學習也是非常好的手段。我們有一篇 paper 叫 Simple VL-RL ,首次在一些標準 benchmark 上達到了兩個 99% 的精度。離工業四個九還稍微遠一點,但已經看到很大的曙光,強化學習確實在這一塊能帶來比較好的性能提升。

      DeepTech:陳龍有什么看法?

      陳龍:自駕還是不太一樣的。具身你是可以試錯的,不僅能在虛擬環境中做強化,在真實世界中也可以做強化學習。自駕畢竟安全性是第一位的,更多的是從系統層面上做安全性冗余。大模型可能會有幻覺問題,純模型可能都會有不可預測的問題。在自駕安全性要求這么高的環境下,肯定需要很多不同的網絡做兜底。

      比如在運行 VLA 的時候,我們可能還有另一套網絡,比如傳統的感知和規控網絡不斷做 safety check(安全檢查) ,做一些簡單的安全性檢測,比如未來幾秒會不會碰撞、會不會有風險。這類傳統算法穩定性都非常好,當我們檢測到有風險時,可能會用其他模型來做安全操作。

      DeepTech:相當于有一個校驗過程或安全兜底的過程?

      陳龍:是的,在自駕安全性要求這么高的情況下,肯定需要安全兜底。

      九、實時性問題: VLA 的延遲怎么解決?

      DeepTech:另一個我比較關心的點是,如果加入語言的決策邏輯,我們都知道像 DeepSeek 在思考過程中是非常慢的。模型在調用過程中還是有時間響應上的問題。這個問題在自動駕駛和機器人上怎么解決?現在能做到多少毫秒的響應?

      陳龍:自動駕駛不僅要求安全性高,對實時的要求也非常高。最少要到 10 赫茲的級別,每秒要做十次決策才能做一些比較快的響應,比如緊急情況下的響應。所以我認為 VLA 模型在自駕上可能還需要一些范式上的轉變。

      現在有所謂的 “雙系統” , VLA 作為一個慢通路,還有另一個快系統,可能是端到端模型或其他模型。大語言模型和端到端模型可以運行在不同頻率上 —— 大模型可能每秒做一次決策,做比較深度的思考;端到端模型可能運行在十赫茲,做快速響應。但這類方式有個通?。捍竽P偷臎Q策和端到端怎么結合,是比較困難的問題。

      另一端是 VLA 本身,往往我可能每一幀都要做一個 CoT 的思考,或者比較高級的是知道什么時候要做 CoT 思考,但這還是有問題。因為當你需要 CoT 思考時,可能是比較緊急的情況,但這時候做很多 CoT 思考,最終做決策的時間就會很長,可能導致安全性問題。

      所以不管是雙系統還是一端式 VLA 都是兩個極端,要不然思考時間過長,要不然雙系統區分得太明顯。肯定之后會有比較中間的方案。因為人類開車時也是在不斷思考,邊開車邊思考,有時候思考的東西可能跟開車沒關系,你可能會走神,但這時候有時候你也可以安全地開車。

      最終需要另一種范式轉變,更靈活、更緊密、更解耦的雙系統結合方式,需要在網絡上面做一些探索。

      DeepTech:你提到這個我也有感觸。平時開車時如果車比較少,很容易走神,不需要調動特別高的思考能力;但堵車或想超車時,肯定要全神貫注,可能調用了更多的思考能力。

      陳龍:對,或者在緊急情況下,你可能來不及思考,可以通過直覺系統來做出決策。

      DeepTech:語言響應延時的問題,穆堯怎么解決或有什么看法?

      穆堯:對具身來說,更重要的是 action 的延遲。對于語言,你問它一句話,等一會兒也沒什么太大問題,而且完全可以變成并行或異步的部分,當對身體沒有明顯指令時,完全可以云端處理。

      對于需要 VLA 都做推理的任務,實時要求還是比較重要的。像陳龍說的十赫茲,機器人也需要十赫茲以上的推理頻率。一個比較好的方案是異步推理,像 Dexterous AI 提出的執行和推理是異步的,沒推完的接著推,但該執行的去執行,構建一個異步的 system (系統) 來做。

      包括推理也可以并行化,特別是如果有云端加持,完全可以做并行化,根據任務是否有依賴性來完成是否并行的處理。

      DeepTech:你剛才提到本體的實時,是目前機器人更大的問題嗎?

      穆堯:不是本體的實時,而是 VLA 從輸入圖像到輸出action 開始執行這段時間,是推理時間。因為模型比較大,會比較慢。3B 的模型差不多將將滿足十幾赫茲的要求。

      DeepTech:執行效率會比傳統方式要慢一些嗎?

      穆堯:也有很絲滑的,不能一概而論。正常一個 3B 模型4090 上部署,響應頻率差不多 15 赫茲左右。但有很多方法,比如模型輕量化、工程優化,可以使它變得更絲滑。包括插值,可以使真正的本體執行頻率很高,甚至可以達到 200 赫茲。像 Figure AI 就號稱執行頻率是 200 赫茲,但實際上是插值之后的,插值之前其實和大家差不多。

      所以有很多工程手段去解決。但更關鍵的是影響動作最終做出來絲不絲滑、哆嗦不哆嗦、成功率高不高的本質上的控制頻率,還是由VLA 看到圖像然后出 action 這段時間來決定的。

      十、思考與執行可以并行

      DeepTech:我綜合兩位的觀點,能感覺到它的思考鏈是一條鏈路,而執行的過程不一定等思考全部完成了之后再執行。思考鏈可能會非常長或非常連續,而執行過程在某一個階段就可以開始執行了。這樣在我們體感上,延遲就不會像現在用大語言模型看它思考那么長時間才能給出結果。

      這就會面臨另一個問題:執行過程中,比如自動駕駛一直在開車,思考一直在進行,一直有 token 產出;機器人執行過程中也是這樣。 Transformer 都會面臨遺忘的問題,過去不管多長的文本模型都會有遺忘。遺忘的問題對自動駕駛和機器人會是問題嗎,包括訓練時遺忘與執行時遺忘。

      陳龍:訓練時更多的是通用能力有一些災難性遺忘的行為?,F在 VLA 如果在實驗室做小規模 finetune(微調) ,可能并沒有很大規模的預訓練能力,做完 VLA 訓練后通用能力就會有一定缺失,遺忘了很多通用知識,模型就變成一個專有的自駕或具身模型了,通用能力幾乎就沒有了。

      舉個簡單例子,如果你做很小規模的微調,問它一些通用知識比如“一加一等于幾”,它會回答一些無關的東西,比如“前面有一輛車”。所以訓練時要解決遺忘問題,更多的是要把很多數據加入預訓練階段。預訓練時不僅學習通用知識,也學習到自動駕駛或機器人的知識。

      推理時更多的是 context window(上下文窗口) 的問題。當延時要求非常高時, context(上下文) 不能堆得特別長,肯定要做一些選擇。但現在有很多大模型技巧,比如 linear attention(線性注意力機制) ,可以把 context window 做得非常長,但延時也不會變得特別高。還有可以做 context 的壓縮和總結。

      你不需要把之前所有信息都加入 context ,只需要把關鍵信息加入。比如在路口選擇了往哪邊走,這些關鍵信息可以加入歷史 context ;而一些無關緊要的信息比如現在執行開了多少米,這些信息其實不是特別關鍵,可以忽略掉。所以最終 VLA 的形態肯定類似人,更加智能,可以記憶比較關鍵的信息,無關緊要的信息不需要做歷史記憶。

      DeepTech:在機器人領域呢?

      穆堯:在機器人領域一般有兩大類方法。一類是用 neural (神經) 的方式,就是剛才陳龍講的壓縮方式, embed (嵌入) 出來一些關于 memory (記憶) 的 token ,然后當前的觀測視覺和語言的 token 去 query (查詢) 這個 memory bank (記憶庫) 里面的 memory token (記憶令牌) , query 出來一些 historical token (歷史令牌) 作為 VLA 的 prompt (提示詞) 。

      另一類是顯性的總結,有一個額外的 agent system。舉個例子,機器人里很簡單的一個任務但非常需要 memory ,就是“click the bell(按鈴)”,在桌子上需要按響一個鈴。當我的機械臂懸空到這個鈴之間的位置時,我只靠單幀的圖像根本不知道我是已經按完這個鈴了,還是還沒有按它要去按它,還是已經按完要回退。所以這里面就需要 memory 。

      一種方式是 embedding(嵌入)的方式;另一種是顯式summary(總結) ,用 VL 的 language 去 summary 一下,比如“我當前已經按過它了,現在是回退狀態”。相當于做了一個 CoT ,隨著CoT 把一些重要的信息以文字形式總結下來,作為后面的輸入。一種是隱式的,一種是顯式的,都是 prompt 的形式。

      DeepTech:如果是更多的記憶,機器人在執行過程中也不需要記憶非常多的信息。

      穆堯:其實執行只跟當前有關系,當前任務幾個工具。它做過的其他任務,知識是藏在權重里面的,那是學習訓練的時候。

      DeepTech:也就是說執行當前任務時,并不需要關注之前做了什么任務。

      十一、世界模型與空間智能:爭論還是融合?

      DeepTech:我們聊了很多技術上的問題。我在做前期調研時也看到很多開放性的探討,比如最近比較火的世界模型、空間智能和大語言模型的爭論,好幾個大佬都在聊空間智能的問題。兩位怎么看?

      穆堯:我覺得空間智能和語言好像沒有什么太多可爭論的,它們兩個都非常重要。對機器人來說,因為具身智能本身就是計算機視覺、自然語言處理、 機器人本體、控制理論幾大交叉學科于一體的方向。對于具身智能機器人,空間認知感知能力和語言模型的推理能力都是非常重要的兩個部分。

      對于空間來講, World Model 就像剛剛提到的,是非常好的方式來做具身智能的預訓練。為什么呢?因為視頻或圖像是最豐富的一種形式,人類世界當中有無數人做各種任務的視頻,包括自動駕駛的任務 —— 往前走、往后退,形成對世界的三維空間認知,知道走近之后的視野會變成什么樣、走遠之后的視野會變成什么樣。

      而且 World Model 天然可以把機器人和自動駕駛的 world model 放在一塊訓,完全沒有問題。數據格式是統一的,不像 VLA 的話,機器人的 pose(姿態)、action 信息和汽車的方向盤轉角、油門開度是完全不一樣的。

      所以 World Model 是一種更通用的對于空間推理的手段。特別是預測未來幀也好、預測未來的隱藏狀態也好,它都是一種通用的、面向全模態所有本體的空間推理預訓練的非常有效范式,真正能把所有數據源有效調動起來去訓練一個 foundation (基座)的手段。這一塊我相信目前學術界和工業界給予了非常大關注,在大家努力下也會有很多 promising (有前景的)的成果出來。

      DeepTech:所以空間智能其實也拋棄不了語言的環節。

      穆堯:對,語言也很重要。自動駕駛里向左轉、向右轉是完全不一樣的。

      陳龍:我覺得 World Model 和 VLA 解決的是不同的問題。像穆堯講的, World Model 是通過對下一幀圖像或下一個狀態的預測,學習到這個世界上的一些本質,比如這個車未來應該如何運動,通過學習預測的能力學習到一些世界本質上的物理規律。

      VLA 更多的是學習到一些 high level (高層級) 的人類規則,通過互聯網上的文字訓練學習到人類對這個世界的定義,包括人類的價值觀,以及很強的通過文字的推理能力。

      World Model 這個 low level(低層級)的預測能力和 VLA 這個 high level 文字推理的能力,本質不沖突,是可以互相結合的?,F在也有很多研究在把這兩個不同的能力給它結合起來,形成一個更好的模型,既能預測未來的圖像,也有視覺語言的能力用語言做推理。我覺得最終肯定要把這兩種能力融合。

      DeepTech:目前討論比較熱烈,我感覺更多是語言模型因為只聚焦于語言,很難把世界模型加入進來。加入實踐模型之后,這兩個模型最終會路線收斂,有相互交叉、相互補齊。

      十二、如何看待對 VLA 技術的質疑?

      DeepTech:另外還有一個相對尖銳的問題。前段時間在世界機器人大會上,王興興比較質疑 VLA 技術。你們怎么看這個問題?

      穆堯:我覺得觀點的不同主要是因為從不同的角度。從我們做研究的角度, VLA看到了很大的機會,所以需要投入。但我相信所有 VLA 的研究者都會坦誠承認,目前達不到工業上四個九的要求。但它是不是promising 的?我覺得是 promising 的。

      王總的觀點可能是因為他們做本體,要求非常嚴格的安全性、準確率、效率。宇樹的機器人踹多少腳都不倒,可以做非常復雜的運動。我覺得本身技術就是我們在不同路線上去做,會有一個交匯點。 VLA 很多能力也是受限于本體,比如有些機械臂和靈巧手它就很笨拙,效率跟人是沒辦法比的。

      我覺得也很好,大家努力的方向有從不斷完善本體的易用度、可靠性、成本的,我們這邊做 VLA 對大多數公司來說屬于一個預研的項目。當兩方技術逐漸交疊,整個具身智能是一個軟硬件協同發展的系統。當軟硬件真正發生碰撞在一起的時候,大家的看法都會改變,也都會有新的共識。

      像現在來看有一些比較好的 demo,像字節發出來的 VLA 能夠去穿鞋帶。這個在我當時讀博士的時候,實驗室還討論過這個任務,當時我們認為誰要是能做一個這個,可以說是一個很驚動的話題。但現在已經被實現了,技術發展確實很快。

      2024 年的時候,基本上人形機器人都是跌跌撞撞的,上個樓都費勁。現在其實已經起飛了,你看它做很多復雜的動作都可以做。 VLA 這一塊,像疊衣服現在甚至都說是具身公司的一個“MNIST(手寫數字數據集)” ,就相當于圖像識別里面最簡單的數字,哪家都能疊衣服了。但 2024 年是不可想象的,那時候抓蘋果都費勁。整整只過了一年,就是天翻地覆的變化。我覺得很快隨著軟硬件的交匯,我們會有一些更新的共識出來。

      陳龍:當一個技術剛興起的時候,會有一個類似于新興技術的曲線。剛開始大家把熱度炒得特別高,會有很多demo出現。后來發現可能對它期待太高,沒有實現人類的期待,這個技術又會跌到谷底。慢慢經過幾年發展,才最終達到很好用的狀態。

      我是一個比較長期主義的人?,F在 VLA 可能確實有很多問題,不管是效率還是幻覺問題,雖然它泛化性很好,但最終的成功率可能并沒有達到人類的期待。但我覺得不應該因為它現在的問題來全盤否定這個技術,更多的是看到這個技術的潛力,包括它未來的發展方向。

      我覺得 VLA 是現階段最能實現物理世界 AGI 的一個框架。語言也是人類這么多年智慧結晶的體現,互聯網上這么多數據融合了人類的很多智慧。最終語言肯定是智能的一個很大的模態,是必不可少的。 VLA 這個架構可能也是最終通往 AGI 必不可少的一個框架。雖然它的網絡結構比如 transformer 可能并不是最終理想的架構,但語言這個模態我覺得肯定是一個終局。

      不管是物理世界的 AGI 還是 AGI ,我覺得都需要語言這個能力。所以不能因為 VLA 現在有很多問題來否定這項技術。而且 VLA 還有世界模型可能太容易理解了,現在有很多人利用自己對它的理解來做一些推演,來否定這項技術。還是應該真正務實一點,把 VLA 以及世界模型這些技術的底層技術做好,最終才能共同促進這些行業的發展。

      DeepTech:因為這個技術原理在大眾看來相對簡單,但技術實現上是非常難的?;蛘哒f transformer 的架構只要研究一段時間都能理解,但具體實現就很難。VLA 也是一樣的,技術原理和邏輯相對簡單,但每個人對這個技術的理解不一樣,在發展過程中面臨的問題的解決方案不一樣,跨越某項技術鴻溝的難度和時間也不一樣。隨著技術發展,這些問題都能一步一步慢慢解決。

      排版:olivia

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大滿貫400勝第一人!德約橫掃晉級澳網16強,一戰創多項紀錄

      大滿貫400勝第一人!德約橫掃晉級澳網16強,一戰創多項紀錄

      全景體育V
      2026-01-24 19:01:36
      郭晶晶代言品牌被立案調查 跳水女皇退役15年年代言收入超5000萬

      郭晶晶代言品牌被立案調查 跳水女皇退役15年年代言收入超5000萬

      勁爆體壇
      2026-01-23 13:18:04
      奪冠!溫瑞博4-3戰勝弗朗西斯,關鍵球大心臟,王皓收獲一員大將

      奪冠!溫瑞博4-3戰勝弗朗西斯,關鍵球大心臟,王皓收獲一員大將

      騎馬寺的少年
      2026-01-24 21:51:22
      不到24小時,格蘭陵島被賣,特朗普來不及高興,就收到一個壞消息

      不到24小時,格蘭陵島被賣,特朗普來不及高興,就收到一個壞消息

      牛鍋巴小釩
      2026-01-25 03:12:10
      遠華集團老總賴昌星,在獄中對董文華的回憶,讓無數人咋舌

      遠華集團老總賴昌星,在獄中對董文華的回憶,讓無數人咋舌

      曉艾故事匯
      2025-01-09 22:01:49
      多省份公布去年結婚登記數據

      多省份公布去年結婚登記數據

      第一財經資訊
      2026-01-24 16:02:10
      光速翻臉?6萬噸菜籽油剛賣給中國,電車就遭針對,卡尼直搖頭

      光速翻臉?6萬噸菜籽油剛賣給中國,電車就遭針對,卡尼直搖頭

      娛樂八卦木木子
      2026-01-23 12:39:27
      官方:日本門將荒木琉偉獲得本屆U23亞洲杯最佳門將

      官方:日本門將荒木琉偉獲得本屆U23亞洲杯最佳門將

      懂球帝
      2026-01-25 01:41:11
      浙江省文化產業投資集團有限公司黨委副書記、董事、總經理蔣國興接受審查調查

      浙江省文化產業投資集團有限公司黨委副書記、董事、總經理蔣國興接受審查調查

      界面新聞
      2026-01-24 20:05:31
      南部戰區新聞發言人發表談話

      南部戰區新聞發言人發表談話

      界面新聞
      2026-01-20 22:21:05
      寧德時代官宣:鈉電池量產!成本比鋰電低10% 車價還要降?

      寧德時代官宣:鈉電池量產!成本比鋰電低10% 車價還要降?

      網上車市
      2026-01-22 23:32:10
      早安太空 · 網羅天下 | 解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰持久戰總體戰

      早安太空 · 網羅天下 | 解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰持久戰總體戰

      我們的太空
      2026-01-25 05:59:13
      發現馬上扔!一家四口吃了被放倒!醫生:煮熟也沒用

      發現馬上扔!一家四口吃了被放倒!醫生:煮熟也沒用

      路醫生健康科普
      2025-12-12 14:56:15
      面對上甘嶺遍地敵尸,為活命,8連4班提出大膽想法,最終全員生還

      面對上甘嶺遍地敵尸,為活命,8連4班提出大膽想法,最終全員生還

      興趣知識
      2026-01-24 14:50:07
      委內瑞拉民眾示威要求釋放馬杜羅

      委內瑞拉民眾示威要求釋放馬杜羅

      參考消息
      2026-01-24 11:54:04
      一天之內,重磅政策罕見三連發…

      一天之內,重磅政策罕見三連發…

      大碗樓市
      2026-01-24 08:04:07
      撈金失敗!2個劣跡藝人下鄉商演被舉報,官媒發文,后路要斷了

      撈金失?。?個劣跡藝人下鄉商演被舉報,官媒發文,后路要斷了

      不寫散文詩
      2026-01-24 19:37:52
      92年,成都軍區司令員張太恒去北京開會,卻被中央降職調去了南京

      92年,成都軍區司令員張太恒去北京開會,卻被中央降職調去了南京

      禾所思
      2024-12-30 11:39:32
      我和老伴退休金1萬1,兒子要拿走我們的工資卡,我說:想都別想

      我和老伴退休金1萬1,兒子要拿走我們的工資卡,我說:想都別想

      荷蘭豆愛健康
      2026-01-24 10:23:15
      醫生直言:患糖尿病的人,天冷寧可出門散步,也不要去做這6件事

      醫生直言:患糖尿病的人,天冷寧可出門散步,也不要去做這6件事

      荊醫生科普
      2026-01-25 05:55:05
      2026-01-25 06:28:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16172文章數 514538關注度
      往期回顧 全部

      科技要聞

      黃仁勛現身上海菜市場

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      教育
      手機
      健康
      房產
      公開課

      教育要聞

      電氣工程選科別慌!物理化學是關鍵

      手機要聞

      追覓首款手機狂攬億元訂單:自研芯片+模塊化影像,硬剛華為小米

      耳石脫落為何讓人天旋地轉+惡心?

      房產要聞

      正式官宣!三亞又一所名校要來了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色翁荡熄又大又硬又粗又视频| 人人妻人人玩人人澡人人爽| 欧美大片va欧美在线播放| 91九色TS另类国产人妖| 国产五区| 超碰人人艹| 精品视频在线观看你懂的一区| 国产第一区二区三区精品| 国产成人高清精品免费5388| 好男人社区www在线观看| 四虎影视无码永久免费| 国产欧美久久一区二区三区 | 制服.丝袜.亚洲.中文.综合懂| 亚洲30p| 毛片网站在线观看| 喂奶人妻被中出中文字幕| 国产精品+日韩精品+在线播放| 国产做无码视频在线观看浪潮| 久久人搡人人玩人妻精品首页 | 综合网日日天干夜夜久久| 久久天天躁狠狠躁夜夜躁2014| 男女18禁啪啪无遮挡激烈动态图红| 国产v综合v亚洲欧美久久| 亚洲第一av网站| 精品九九在线| 亚洲精品乱码| 久久精品熟女亚洲av艳妇| 亚洲AV高清一区二区三区尤物| 国产一区二区三区免费在线观看| 亚洲乱码精品中文字幕| 国语自产拍在线观看hd| 久久精品国产亚洲一区二区| 亚洲国产黄色| 精品国产人妻一区二区三区 | 尤物网址| 超碰人人摸| 99免费精品视频| 久久er99热精品一区二区| 91狼友社| 蜜桃91精品秘?入口| 亚洲老熟女@TubeumTV|