網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

具身智能中的 VLA 技術(shù)及其應(yīng)用

2026-03-16 18:27:36　來(lái)源: InfoQ

北京舉報(bào)

分享至

演講嘉賓｜隋偉博士

編輯｜Kitty

策劃｜QCon 全球軟件開發(fā)大會(huì)

傳統(tǒng)的具身智能操作方法將視覺感知、語(yǔ)言理解和動(dòng)作規(guī)劃分割為獨(dú)立模塊，導(dǎo)致系統(tǒng)復(fù)雜、誤差易累積且泛化能力不足。視覺語(yǔ)言動(dòng)作模型（VLA）則實(shí)現(xiàn)了從多模態(tài)感知到動(dòng)作生成的端到端學(xué)習(xí)，構(gòu)建了 “所見即所動(dòng)” 的智能決策閉環(huán)，極大地推動(dòng)了具身智能發(fā)展。

然而視覺語(yǔ)言動(dòng)作模型本身也存在諸多挑戰(zhàn)，例如訓(xùn)練數(shù)據(jù)難以獲取、模型結(jié)構(gòu)缺少長(zhǎng)時(shí)序和物理邏輯推理的能力。這意味著 VLA 雖然能實(shí)現(xiàn)一些操作功能但是對(duì)不同場(chǎng)景、不同任務(wù)的泛化性仍然存在挑戰(zhàn)，無(wú)法滿足實(shí)際的需求。

本文整理自地瓜機(jī)器人算法副總裁隋偉博士在 2025 年 QCon 全球軟件開發(fā)大會(huì)（上海站）的分享“具身智能中的 VLA 技術(shù)及其應(yīng)用”，內(nèi)含涵蓋 VLA 技術(shù)的基本原理和機(jī)制，以及在落地過(guò)程中涉及到的數(shù)據(jù)、評(píng)測(cè)等問(wèn)題，從而提升 VLA 的性能和易用性等等。

預(yù)告：將于 4 月 16 - 18 召開的 QCon 北京站設(shè)計(jì)了「具身智能與物理世界交互」專題，聚焦 VLA/VA 模型與數(shù)據(jù)體系兩大核心，深度拆解具身智能技術(shù)鏈路。擬探討模型現(xiàn)狀、核心挑戰(zhàn)與機(jī)會(huì)，分享高質(zhì)量數(shù)據(jù)解決方案，解析仿真與 World Model 的賦能價(jià)值，破解核心技術(shù)瓶頸。敬請(qǐng)關(guān)注。

以下是演講實(shí)錄（經(jīng) InfoQ 進(jìn)行不改變?cè)獾木庉嬚恚?/strong>

我先簡(jiǎn)單介紹一下地瓜機(jī)器人，是一家專門聚焦機(jī)器人領(lǐng)域的公司。我們提供一整套機(jī)器人解決方案，包括底層芯片、操作系統(tǒng)、開發(fā)環(huán)境、數(shù)據(jù)算法以及云平臺(tái)等。我們的目標(biāo)是讓機(jī)器人的開發(fā)變得更加簡(jiǎn)單，讓每個(gè)人都能上手開發(fā)機(jī)器人算法。

我今天分享的主題是 VLA（視覺 - 語(yǔ)言 - 動(dòng)作模型）。我會(huì)圍繞 VLA 開發(fā)過(guò)程中遇到的各種問(wèn)題，介紹目前的現(xiàn)狀與挑戰(zhàn)，涵蓋從數(shù)據(jù)到模型、再到最終部署及應(yīng)用中遇到的困難。

具身智能中 VLA 的現(xiàn)狀和挑戰(zhàn)

首先看 VLA 的現(xiàn)狀與挑戰(zhàn)。具身智能在這兩年非常火熱，被認(rèn)為是繼智能駕駛之后的另一個(gè)爆發(fā)點(diǎn)。其背景是底層 AI 模型的快速發(fā)展，尤其是像 VLM（視覺語(yǔ)言模型）這種離身智能大模型，已經(jīng)具備了很好的通用性和泛化性。目前在聊天類應(yīng)用、文生圖以及 VLM 問(wèn)答方面，技術(shù)已經(jīng)做得非常成熟。下一步，技術(shù)必然會(huì)向具身智能演進(jìn)，即讓機(jī)器人的動(dòng)作也具備這種通用能力。而且，具身智能的前景和市場(chǎng)容量遠(yuǎn)比智能駕駛要大。智能駕駛目前的普及率大約在 60% 到 70%，而具身智能未來(lái)會(huì)存在于各種場(chǎng)景中。

從功能、底層模型、數(shù)據(jù)和硬件本體四個(gè)維度來(lái)看，目前具身智能的現(xiàn)狀如下：在功能成熟度方面，我們將本體任務(wù)分為上肢操作（Manipulation）、下肢移動(dòng)（Locomotion）和對(duì)話。目前對(duì)話功能已經(jīng)非常成熟，許多陪玩類機(jī)器人已經(jīng)落地。在移動(dòng)能力方面，我們能看到很多機(jī)器人跳舞或進(jìn)行搏擊比賽，但目前大多屬于“盲眼運(yùn)動(dòng)”，雖然有一定的情緒價(jià)值，但缺乏與現(xiàn)實(shí)的感知交互。比如機(jī)器人在跳舞時(shí)，如果前面有障礙物，由于沒有通過(guò)傳感器感知世界，它依然會(huì)撞上去。

至于上肢操作，這是我們今天要講的重點(diǎn)，也是與 VLA 關(guān)系最密切的方向，目前它是最具挑戰(zhàn)性、最不成熟的。其底層模型正經(jīng)歷從 G1 到 G5 的發(fā)展階段，現(xiàn)在大約處于 G2 到 G3 之間，即從傳統(tǒng)的工業(yè)自動(dòng)化向端到端學(xué)習(xí)過(guò)渡的過(guò)程。雖然 VLA 正在從分層式架構(gòu)向端到端架構(gòu)發(fā)展，但挑戰(zhàn)巨大，核心在于數(shù)據(jù)。現(xiàn)有數(shù)據(jù)無(wú)法支撐 VLA 發(fā)揮出應(yīng)有的性能，而數(shù)據(jù)采集目前也沒有完美的解決方案。遙操作采集的數(shù)據(jù)真實(shí)，但效率極慢；仿真雖然能快速獲取數(shù)據(jù)，但有效率較低。此外，硬件本體目前也不夠穩(wěn)定成熟，盡管成本在快速降低，但端側(cè)算力依然面臨挑戰(zhàn)。雖然現(xiàn)在到處都是問(wèn)題，但 VLA 在發(fā)展過(guò)程中肯定會(huì)遇到各種坎坷。它應(yīng)該是一個(gè)螺旋式或波段式前進(jìn)的過(guò)程，而我們現(xiàn)在正處于第一個(gè)波峰。

我們來(lái)看看 VLA 到底是為了解決什么問(wèn)題。因?yàn)槲抑皬氖伦詣?dòng)駕駛領(lǐng)域，而自動(dòng)駕駛是 AI 第一個(gè)大規(guī)模落地的場(chǎng)景，所以我比較傾向于通過(guò)自動(dòng)駕駛這十年的發(fā)展路徑和 AI 落地過(guò)程，來(lái)推演具身智能當(dāng)前所處的階段。

自動(dòng)駕駛領(lǐng)域的一個(gè)重要節(jié)點(diǎn)是“端到端”技術(shù)的出現(xiàn)。特斯拉率先發(fā)布了端到端算法，通過(guò)模仿學(xué)習(xí)來(lái)解決擬人化的問(wèn)題。在此之前，自動(dòng)駕駛主要依靠規(guī)則化方案來(lái)生成軌跡，涵蓋行駛方向、速度和加速度等。駕駛最關(guān)鍵的三個(gè)要素是安全性、舒適性和高效性。在端到端技術(shù)普及前，傳統(tǒng)規(guī)則化方法很難同時(shí)兼顧這三點(diǎn)。比如，為了保證安全而讓系統(tǒng)過(guò)于保守，效率就會(huì)降低；如果駕駛風(fēng)格激進(jìn)以提高效率，安全性和舒適性又會(huì)受到影響。端到端技術(shù)較好地解決了這個(gè)問(wèn)題，因?yàn)樗苯訌膶＜覕?shù)據(jù)中學(xué)習(xí)駕駛過(guò)程，讓體驗(yàn)提升了一大截。

不過(guò)，端到端技術(shù)也遇到了泛化性和適應(yīng)性的難題，核心還是數(shù)據(jù)問(wèn)題。比如不同城市、不同風(fēng)格的紅綠燈和標(biāo)志牌，一旦系統(tǒng)沒見過(guò)相關(guān)數(shù)據(jù)，性能就會(huì)立即下降。既然現(xiàn)在的 VLM 已經(jīng)具備了極強(qiáng)的通用性、泛化性和常識(shí)能力——例如你問(wèn)它某個(gè)交通標(biāo)志是什么意思、該怎么開，它能給出很好的語(yǔ)言描述——那我們就在想，能不能把這種能力引入到具身智能系統(tǒng)中，形成 VLA，讓系統(tǒng)具備思考能力。目前在自動(dòng)駕駛領(lǐng)域，已經(jīng)有一兩家頭部玩家最近跑通了 VLA。相比端到端模型，VLA 的模型規(guī)模要大出 10 倍左右，端到端模型通常在 0.1B（億級(jí)參數(shù)）量級(jí)，而 VLA 則在幾個(gè) B（十億級(jí)參數(shù)）的量級(jí)，且訓(xùn)練數(shù)據(jù)量龐大，通常需要幾十億個(gè)短視頻片段才能訓(xùn)練出一個(gè)性能較好的版本。

回到具身智能，即便是一個(gè)簡(jiǎn)單的動(dòng)作，也存在技術(shù)方案的演進(jìn)。第一種是模塊化方案，類似于早期自動(dòng)駕駛的思路，即“先檢測(cè)再規(guī)劃”。在 2019 年到 2020 年期間，很多 Demo 都是這么做的：先簡(jiǎn)單處理物體的姿態(tài)，再規(guī)劃?rùn)C(jī)械臂的操作。但問(wèn)題在于，很多任務(wù)是無(wú)法直接規(guī)劃的，尤其是自由度較高時(shí)。機(jī)械臂一般有 6 到 7 個(gè)自由度，人形機(jī)器人則有幾十個(gè)，這不像自動(dòng)駕駛只需在二維平面規(guī)劃軌跡。

隨后出現(xiàn)了模仿學(xué)習(xí)，即直接通過(guò)端到端的方式學(xué)習(xí)一條軌跡。它的好處是能完成一些規(guī)劃不出來(lái)的復(fù)雜動(dòng)作，并處理抓取柔性物體等任務(wù)。但它的局限性在于對(duì)數(shù)據(jù)的強(qiáng)依賴，于是便誕生了 VLA。VLA 的初衷是解決場(chǎng)景泛化、任務(wù)泛化和本體泛化這三個(gè)問(wèn)題。我們希望利用 VLM“見多識(shí)廣”的能力，讓機(jī)器人也具備同樣的通用性。從落地角度看，場(chǎng)景和任務(wù)的泛化優(yōu)先級(jí)最高，本體泛化可以排在最后，因?yàn)閱慰顧C(jī)器人如果能具備通用性，其價(jià)值就已經(jīng)非常巨大了。

關(guān)于 VLA 的模型架構(gòu)，其實(shí)邏輯非常直接。現(xiàn)在的模型輸入通常是多模態(tài)信息，一般包含圖像、文本和本體狀態(tài)。其中本體狀態(tài)主要指姿態(tài)信息和關(guān)節(jié)角度等。這些信息經(jīng)過(guò)編碼器處理后，輸入到基于 Transformer 架構(gòu)的 VLM（視覺語(yǔ)言模型）中進(jìn)行多模態(tài)融合。VLM 輸出的 Token 包含了圖像、文本和本體的綜合信息，隨后進(jìn)入動(dòng)作策略（Action Policy）模塊。

在動(dòng)作策略模塊中，目前主流的方法有兩種。一種是擴(kuò)散策略（Diffusion Policy），這在文生圖等生成式模型中很常見。它通過(guò)生成式的方式來(lái)產(chǎn)生復(fù)雜的軌跡，相比之下，傳統(tǒng)的判別式方法在描述軌跡的能力上不如擴(kuò)散策略，因此擴(kuò)散策略在動(dòng)作生成中占據(jù)了非常重要的位置。另一種方法是流匹配（Flow Matching），同樣屬于生成式，它與擴(kuò)散策略的主要區(qū)別在于底層的數(shù)學(xué)建模不同。擴(kuò)散策略的分布建模更復(fù)雜，而流匹配則是在生成過(guò)程中進(jìn)行線性迭代。經(jīng)過(guò)動(dòng)作策略模塊的處理，最終會(huì)輸出機(jī)器人的關(guān)節(jié)動(dòng)作，也就是 VLA 中的“A”。

同時(shí)，也有很多研究工作會(huì)讓模型輸出一些輔助信息。比如有些模型會(huì)輸出文本，這是借鑒了像 DeepSeek 等大語(yǔ)言模型的思路，旨在讓機(jī)器人具備“思考”能力。也就是說(shuō)，在訓(xùn)練模型時(shí)，不僅要讓它給出答案，還要讓它理解為什么是這個(gè)答案。這屬于思維鏈（CoT）或動(dòng)作鏈（CoA）的范疇。另外，也有研究會(huì)讓模型輸出圖像信息，即利用當(dāng)前的姿態(tài)、圖像和文本去預(yù)測(cè)下一時(shí)刻的圖像，這就是世界模型（World Model）。其基本原理是，如果模型能基于當(dāng)前數(shù)據(jù)準(zhǔn)確預(yù)測(cè)下一刻的狀態(tài)，就認(rèn)為它學(xué)習(xí)到了物理規(guī)律。目前已經(jīng)有一些工作將世界模型與 VLA 結(jié)合在一起進(jìn)行訓(xùn)練。

在具體的架構(gòu)實(shí)現(xiàn)上，目前主要有兩種主流方案。一種是 VLM 直接輸出特征（Feature）并傳遞給后續(xù)模塊，這被稱為“一段式”的端到端架構(gòu)。另一種是分層式架構(gòu)，VLM 輸出的不是特征，而是語(yǔ)言形式的任務(wù)規(guī)劃。例如，當(dāng)輸入指令是“收納桌子”時(shí)，VLM 會(huì)先將任務(wù)拆解為具體的指令，比如“把杯子移到中央”、“把水倒掉”、“把垃圾丟掉”等，再將這些步驟逐一輸出給下游模塊執(zhí)行。

我們來(lái)看一下目前的 VLM（視覺語(yǔ)言模型）究竟能做哪些事情。VLM 的設(shè)計(jì)初衷，一是解決任務(wù)的泛化性，二是處理復(fù)雜的長(zhǎng)程任務(wù)。最近我去杭州參加了機(jī)器人國(guó)際會(huì)議的一個(gè)比賽，現(xiàn)場(chǎng)有六種任務(wù)，我重點(diǎn)觀察了其中三種。第一種是疊衣服，這是典型的長(zhǎng)程任務(wù)，要求機(jī)器人無(wú)論衣服如何擺放，都能將其折疊好；第二種是倒水；第三種是操作微波爐；第四種是收納。此外，在近期的世界機(jī)器人大會(huì)（WRC）和世界人工智能大會(huì)上，我也看到了一些現(xiàn)場(chǎng)演示。比如打麻將，它采用的是分層架構(gòu)，使用了一個(gè)經(jīng)過(guò)麻將數(shù)據(jù)訓(xùn)練的 12B 規(guī)模的 VLM。機(jī)器人會(huì)通過(guò)語(yǔ)音告訴你該怎么出牌，再利用傳統(tǒng)方法檢測(cè)麻將位置并完成推牌或抓牌動(dòng)作，體驗(yàn)效果還不錯(cuò)。還有做香囊，這是一個(gè)更長(zhǎng)程的任務(wù)，需要把東西裝進(jìn)去并勒緊繩子，這是由智元機(jī)器人完成的。目前市面上看到的這些炫酷動(dòng)作，背后基本都是 VLA 在支撐，且大多基于 OpenVLA 等模型，這代表了目前能力的上限。

可以說(shuō)，對(duì)于單一任務(wù)，如果我們提供大量數(shù)據(jù)，模型是具備長(zhǎng)程執(zhí)行、理解和復(fù)雜任務(wù)處理能力的。但它最大的問(wèn)題在于泛化性極弱。我們?cè)O(shè)計(jì) VLA，是希望利用 VLM 在互聯(lián)網(wǎng)上見過(guò)的海量數(shù)據(jù)，讓機(jī)器人具備通用性和遷移能力。理想情況下，即使面對(duì)沒見過(guò)的場(chǎng)景，模型也能憑借“常識(shí)”實(shí)現(xiàn)零樣本（Zero-shot）能力。但實(shí)際測(cè)試下來(lái)，這種能力還不具備，原因主要有幾點(diǎn)。

首先，VLM 中的“視覺 - 語(yǔ)言”數(shù)據(jù)與“動(dòng)作”數(shù)據(jù)分布不一致。VLM 基座是通過(guò)互聯(lián)網(wǎng)上大量的圖文對(duì)訓(xùn)練的，而動(dòng)作數(shù)據(jù)（A）必須靠真機(jī)實(shí)采。目前實(shí)采的數(shù)據(jù)量非常小，通常只有幾百到幾千條，與圖文數(shù)據(jù)相比極其不均衡，導(dǎo)致 VLM 的知識(shí)無(wú)法有效遷移到動(dòng)作上，模型處于嚴(yán)重的過(guò)擬合狀態(tài)。其次是硬件限制。我們看到的很多流暢動(dòng)作其實(shí)是經(jīng)過(guò) 5 倍或 10 倍速處理的，實(shí)際操作時(shí)會(huì)有明顯的抖動(dòng)。受限于機(jī)械臂硬件本體，目前 VLA 還無(wú)法完成穿針引線這類精細(xì)化任務(wù)。

我們也做了一些泛化性驗(yàn)證，比如最簡(jiǎn)單的抓取和投放。實(shí)驗(yàn)發(fā)現(xiàn)，當(dāng)背景發(fā)生變化（如移走測(cè)試環(huán)境中的黑色窗簾）、物體位置放遠(yuǎn)了一點(diǎn)，或者加入未訓(xùn)練過(guò)的干擾物（如一瓶咖啡），機(jī)器人就會(huì)失敗。這說(shuō)明目前的系統(tǒng)非常脆弱，原因就是數(shù)據(jù)量太少，多樣性嚴(yán)重不足。

我們可以對(duì)比一下自動(dòng)駕駛所需的數(shù)據(jù)量。自動(dòng)駕駛可以看作是單一任務(wù)的具身智能，只負(fù)責(zé)“駕駛”。即便如此，要訓(xùn)練一個(gè)基本可用的模型，大約需要千萬(wàn)量級(jí)的視頻片段，換算下來(lái)約為 10 萬(wàn)小時(shí)的數(shù)據(jù)，且這些數(shù)據(jù)必須分布在不同的空間和天氣場(chǎng)景中。而目前具身智能領(lǐng)域，即便是一些領(lǐng)先的采集工廠，數(shù)據(jù)量也僅在百小時(shí)到千小時(shí)級(jí)別，還要應(yīng)對(duì)無(wú)數(shù)種任務(wù)，這顯然遠(yuǎn)遠(yuǎn)不夠。

此外，自動(dòng)駕駛的車輛是標(biāo)準(zhǔn)化的，動(dòng)力學(xué)特性基本一致，數(shù)據(jù)容易復(fù)用且采集便利。但具身智能的硬件目前還沒收斂，手部既有夾爪也有靈巧手，自由度從 7 個(gè)、11 個(gè)到 21 個(gè)不等，導(dǎo)致數(shù)據(jù)無(wú)法復(fù)用，智能化進(jìn)程緩慢。

經(jīng)常有人問(wèn)：現(xiàn)在的具身智能相當(dāng)于自動(dòng)駕駛的什么階段？是 2015 年還是 2012 年？我認(rèn)為，從算法模型來(lái)看，具身智能完全可以對(duì)標(biāo) 2025 年的自動(dòng)駕駛，兩者都在往端到端或 VLA 方向走，沒有代差。但從硬件角度看，具身智能可能還不如 100 年前的汽車工業(yè)，因?yàn)槟菚r(shí)候汽車已經(jīng)實(shí)現(xiàn)流水線大規(guī)模生產(chǎn)，而現(xiàn)在的機(jī)器人還遠(yuǎn)未達(dá)到那個(gè)水準(zhǔn)。

VLA 的主流架構(gòu)

剛才我們講到主流架構(gòu)主要有兩種：一種是分層式的，另一種是完全端到端的。這兩者的核心區(qū)別在于 VLM（視覺語(yǔ)言模型）向下一層傳遞的是語(yǔ)言規(guī)劃指令，還是直接傳遞特征（feature）。

分層式架構(gòu)在輸入傳感器數(shù)據(jù)后，會(huì)由兩個(gè)系統(tǒng)協(xié)同工作。所謂“慢系統(tǒng)”，就是我們常說(shuō)的 VLM，它負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行推理。之所以稱之為“慢”，是因?yàn)槟Ｐ腕w量巨大，為了讓它具備常識(shí)能力，必須經(jīng)過(guò)海量數(shù)據(jù)訓(xùn)練，在現(xiàn)有的硬件條件下，其推理速度相對(duì)較慢。而“快系統(tǒng)”則是前面提到的端側(cè)系統(tǒng)，它的模型較小，直接輸出動(dòng)作或軌跡，因此運(yùn)行速度很快。我認(rèn)為這種“快慢系統(tǒng)”的劃分，本質(zhì)上是受限于目前的硬件計(jì)算資源。如果未來(lái)端側(cè)算力足夠強(qiáng)大，其實(shí)就不需要這種區(qū)分了，所有環(huán)節(jié)都能實(shí)現(xiàn)實(shí)時(shí)響應(yīng)。

在分層系統(tǒng)中，系統(tǒng) 2 負(fù)責(zé)思考并給出語(yǔ)言規(guī)劃，再傳達(dá)給快系統(tǒng)。比較典型的例子是 Figure 01 機(jī)器人展示的 Demo，它采用的就是分層式架構(gòu)。由于需要部署在 Orin 等芯片上，為了克服無(wú)法實(shí)時(shí)處理的問(wèn)題，必須構(gòu)建快慢系統(tǒng)。去年在自動(dòng)駕駛領(lǐng)域比較火的理想汽車，也率先推出了類似的快慢系統(tǒng)，其初衷同樣是解決端側(cè)部署時(shí)的算力限制。不過(guò)從工程角度來(lái)看，快慢系統(tǒng)會(huì)更復(fù)雜一些，因?yàn)槟K越多，工程量就越大。相比之下，完全端到端的架構(gòu)就簡(jiǎn)單得多，傳感器數(shù)據(jù)輸入后，中間全部交給 VLA 處理并直接輸出結(jié)果，沒有了快慢之分。

這兩種架構(gòu)各有優(yōu)劣。完全端到端的上限更高，但它對(duì)數(shù)據(jù)的需求量極其龐大。分層式架構(gòu)目前的優(yōu)勢(shì)在于對(duì)數(shù)據(jù)的依賴程度沒那么高。因?yàn)?VLM 可以通過(guò)少量的針對(duì)性訓(xùn)練達(dá)到較好的語(yǔ)言規(guī)劃效果，開發(fā)者只需要專注于訓(xùn)練后面的動(dòng)作執(zhí)行模塊，甚至可以沿用傳統(tǒng)的控制模塊。就像我之前提到的打麻將機(jī)器人，它的快系統(tǒng)其實(shí)就是用傳統(tǒng)方法實(shí)現(xiàn)的。在目前數(shù)據(jù)保有量有限的情況下，分層式是一個(gè)比較合理的選擇。此外，分層式也更契合現(xiàn)在的智能體（Agent）或 MCP（多模型控制平臺(tái)）架構(gòu)，即由 VLM 充當(dāng)“大腦”進(jìn)行語(yǔ)言規(guī)劃，再由快系統(tǒng)中的各種動(dòng)作原子負(fù)責(zé)具體執(zhí)行。

這是我們最近在做的一些探索，主要集中在分層式架構(gòu)上。之所以選擇這個(gè)方向，是因?yàn)槲矣X得目前純粹搞端到端方案其實(shí)已經(jīng)遇到了瓶頸。在數(shù)據(jù)量不夠的情況下，大家做出來(lái)的東西很難體現(xiàn)出差異化，落地也非常困難。因此，我們的思路是先把 VLM（視覺語(yǔ)言模型）的能力利用起來(lái)，讓它作為一個(gè)調(diào)度大腦，也就是 Agent，去調(diào)用各種各樣的“動(dòng)作原子”。

比如，駕駛可以被視為其中一個(gè)動(dòng)作原子，當(dāng)機(jī)器人需要執(zhí)行駕駛?cè)蝿?wù)時(shí)，Agent 就調(diào)用駕駛模塊；收納也是一個(gè)原子，它由許多“抓取與放置”（Pick and Place）動(dòng)作組成。我們正在積累這些動(dòng)作原子，當(dāng)機(jī)器人面對(duì)復(fù)雜任務(wù)時(shí)，就由 VLM Agent 來(lái)進(jìn)行任務(wù)分解和調(diào)度。這里面比較有挑戰(zhàn)性的地方在于任務(wù)之間的銜接，即如何準(zhǔn)確判斷當(dāng)前任務(wù)已經(jīng)完成并開始下一個(gè)，以及當(dāng)任務(wù)出錯(cuò)時(shí)，Agent 該如何調(diào)整調(diào)度流程。

在開發(fā)動(dòng)作原子時(shí)，我們走的是 VA（視覺 - 動(dòng)作）路線。我們發(fā)現(xiàn)現(xiàn)階段語(yǔ)言在具體動(dòng)作執(zhí)行中起到的作用其實(shí)非常有限，直接通過(guò) VA 實(shí)現(xiàn)反而更容易出效果。在方案設(shè)計(jì)上，我們選擇了純視覺方案，沒有使用 RGBD。這主要是從本質(zhì)原理考慮的，我們認(rèn)為視覺能力已經(jīng)足夠強(qiáng)，人類也是靠雙眼來(lái)完成各種觀測(cè)任務(wù)的。后期的驗(yàn)證也證明，純視覺方案在魯棒性和遷移性上確實(shí)比點(diǎn)云方案更好。

此外，我們?cè)谀Ｐ椭性黾恿?3D 感知信息。目前的 VLM 其實(shí)并不具備很強(qiáng)的空間理解能力，如果你去測(cè)試它，它很難給出物體準(zhǔn)確的方位、距離或復(fù)雜的幾何尺寸，因?yàn)樗挠?xùn)練數(shù)據(jù)里缺乏這些信息。而這些 3D 信息對(duì)于動(dòng)作的泛化性至關(guān)重要。如果能在一個(gè)統(tǒng)一的 3D 空間里進(jìn)行動(dòng)作規(guī)劃，泛化性會(huì)強(qiáng)很多。因此，我們?cè)诩軜?gòu)中增加了一個(gè) 3D 編碼器（Encoder）模塊。

這里用到了今年 CVPR 的最佳論文 VGGT，這是一個(gè)用于三維重建的視覺基礎(chǔ)模型。我們知道，大模型正在改寫各個(gè)研究領(lǐng)域，原先的導(dǎo)航規(guī)劃現(xiàn)在變成了 VLN（視覺語(yǔ)言導(dǎo)航），原先的操作規(guī)劃和控制現(xiàn)在變成了 VLA。VGGT 則是三維重建領(lǐng)域的代表，它基于 Transformer 架構(gòu)，效果已經(jīng)接近傳統(tǒng)的 COLMAP 等三維重建方法，潛力巨大。我們做的工作就是將 VGGT 預(yù)訓(xùn)練的 3D 相關(guān)特征提取出來(lái)，接入到 VA 模型中。經(jīng)過(guò)驗(yàn)證，這種做法在魯棒性和效果上都超出了我們的預(yù)期。

這是我們目前使用的模型架構(gòu)，其中 VGGT 的編碼器部分負(fù)責(zé)生成特征。這些特征同時(shí)包含了語(yǔ)義信息和幾何信息，我們將其直接輸入模型以獲取結(jié)果。

其實(shí)模型本身并不復(fù)雜，在 VLA 的落地開發(fā)中，大部分工作量并不在模型架構(gòu)上。通常情況下，模型部分的搭建兩三周就能搞定，而真正耗費(fèi)精力的是數(shù)據(jù)工作。對(duì)于具身智能而言，還涉及到機(jī)器人硬件適配、數(shù)據(jù)采集和實(shí)機(jī)測(cè)試，這部分工作量往往會(huì)占到總周期的三分之二甚至四分之三。

目前具身智能開發(fā)的第一步通常是在仿真環(huán)境中進(jìn)行的。由于真實(shí)世界的有效數(shù)據(jù)非常稀缺，我們需要先在具有物理引擎的仿真器中采集數(shù)據(jù)，驗(yàn)證模型的有效性。以“夾木塊”和“堆木塊”為例，這類任務(wù)在人類看來(lái)很簡(jiǎn)單，但對(duì)機(jī)器人來(lái)說(shuō)挑戰(zhàn)巨大，稍微有一點(diǎn)偏差就會(huì)導(dǎo)致失敗。我們將自己的方案與傳統(tǒng)算法進(jìn)行了對(duì)比：DP 是基于 2D 圖像輸入的擴(kuò)散策略算法，而 DP3 則是基于點(diǎn)云輸入的版本。在真機(jī)測(cè)試中，我們的方案成功率明顯更高，尤其在將木塊放入盤子的任務(wù)中，表現(xiàn)幾乎比 DP 翻了一倍。

在測(cè)試 VLA 的過(guò)程中，我們發(fā)現(xiàn)“泛化性”是一個(gè)核心痛點(diǎn)。目前的 VLA 方案，比如 OpenVLA，在光照發(fā)生變化時(shí)表現(xiàn)得很脆弱。例如環(huán)境光線由暗變亮，任務(wù)可能就會(huì)失敗。但如果我們?cè)?VA 模型中引入 3D 幾何信息，系統(tǒng)就會(huì)表現(xiàn)出更好的魯棒性，而現(xiàn)有的主流方案在處理這類場(chǎng)景時(shí)依然容易失誤。

當(dāng)我們通過(guò) VA 實(shí)現(xiàn)了這些動(dòng)作原子并建立起原子庫(kù)后，就可以利用 Agent 這種大腦角色進(jìn)行任務(wù)編排，從而完成長(zhǎng)程的復(fù)雜任務(wù)。這種做法的優(yōu)勢(shì)在于能充分利用現(xiàn)有 VLM 的推理能力。目前 VLM 在任務(wù)規(guī)劃上已經(jīng)非常成熟，比如你讓它規(guī)劃收納任務(wù)，或者給它一張路口的照片問(wèn)它車輛該怎么開，它都能給出非常清晰的規(guī)劃指令，甚至?xí)嵝涯阕⒁獗茏屒懊娴拇罂ㄜ嚒，F(xiàn)在的核心挑戰(zhàn)在于，如何將這些高質(zhì)量的語(yǔ)言規(guī)劃準(zhǔn)確地傳遞給 VA 模塊去執(zhí)行動(dòng)作。

只要能把這一步打通，整個(gè)任務(wù)鏈就能串聯(lián)起來(lái)。如右側(cè)表格所示，這是一個(gè)完整的閉環(huán)流程：我們需要識(shí)別任務(wù)是否已完成。例如通過(guò)增加標(biāo)志位來(lái)檢測(cè)當(dāng)前步驟的狀態(tài)，如果任務(wù)完成，就調(diào)用下一個(gè)原子動(dòng)作；如果沒有完成，則返回重新執(zhí)行。這種典型的類似 MCP 的架構(gòu)，是目前完成復(fù)雜長(zhǎng)程任務(wù)的有效路徑。

這是另外一些實(shí)驗(yàn)效果的展示，包括積木在左手與右手之間的交接、一個(gè)盒子疊放到另一個(gè)盒子上，以及桌面的整理管理。在這些任務(wù)中，有些屬于復(fù)雜的長(zhǎng)程任務(wù)，有些則是通過(guò) VA（視覺 - 動(dòng)作）模型直接實(shí)現(xiàn)的。目前來(lái)看，只要數(shù)據(jù)質(zhì)量足夠高且訓(xùn)練到位，機(jī)器人都能完成得比較好。此外，我們使用的機(jī)械臂采用了諧波減速器，精度較高，對(duì)于完成插拔這類精細(xì)任務(wù)來(lái)說(shuō)是完全夠用的。

VLA 的數(shù)據(jù)方案

接下來(lái)談?wù)剶?shù)據(jù)方案，這是目前具身智能行業(yè)最大的痛點(diǎn)。很多從自動(dòng)駕駛領(lǐng)域轉(zhuǎn)過(guò)來(lái)的同事會(huì)覺得，具身智能的數(shù)據(jù)基礎(chǔ)設(shè)施還處于非常原始的階段。目前行業(yè)內(nèi)數(shù)據(jù)采集主要有兩種方案：第一種是遙操作，這其中又包含很多細(xì)分技術(shù)；第二種是仿真。關(guān)于到底是以仿真為主還是以真實(shí)數(shù)據(jù)為主，業(yè)內(nèi)一直存在路線之爭(zhēng)。但在我們看來(lái)，真實(shí)數(shù)據(jù)是必不可少的，仿真數(shù)據(jù)如果做得好能起到很大作用，如果做得不好，可能只是錦上添花。

在遙操作方面，主要有幾種技術(shù)路徑。第一種是慣性動(dòng)捕設(shè)備，通過(guò)讓采集人員穿上帶有 IMU 慣性傳感器的服裝，在運(yùn)動(dòng)時(shí)捕捉身體各關(guān)節(jié)的數(shù)據(jù)。這種方式的優(yōu)點(diǎn)是沒有視覺遮擋問(wèn)題，即使兩人擁抱也能采集到數(shù)據(jù)；缺點(diǎn)是慣性傳感器存在漂移，時(shí)間久了精度會(huì)下降。目前特斯拉采集 Optimus 工廠數(shù)據(jù)時(shí)，使用的就是這種慣性動(dòng)捕設(shè)備。第二種是光學(xué)動(dòng)捕設(shè)備，需要在空間內(nèi)安裝多個(gè)攝像頭，采集者穿戴貼滿 Marker 點(diǎn)的服裝。它的精度非常高，能達(dá)到亞毫米級(jí)，但缺點(diǎn)是容易受遮擋影響，如果攝像頭沒捕捉到某些點(diǎn)，后期就需要大量人工修補(bǔ)。

還有一種常見的方式是外骨骼采集，即人帶著同構(gòu)或異構(gòu)的機(jī)械臂進(jìn)行操作。這種方式采集的數(shù)據(jù)幾乎是 1:1 復(fù)刻，數(shù)據(jù)有效率很高，但采集效率相對(duì)較低。上述這些方式現(xiàn)在統(tǒng)稱為“以人為中心”的數(shù)據(jù)采集，其最大的挑戰(zhàn)在于人的關(guān)節(jié)結(jié)構(gòu)與機(jī)器人并不一致，涉及到非常復(fù)雜的數(shù)據(jù)重定向（Retargeting）問(wèn)題，有些人的動(dòng)作不一定能直接遷移給機(jī)器人。最后是仿真數(shù)據(jù)，目前它主要用于大規(guī)模數(shù)據(jù)生產(chǎn)和自動(dòng)化評(píng)測(cè)。當(dāng)模型訓(xùn)練完成后，如果想要進(jìn)行快速迭代測(cè)試，在仿真環(huán)境中進(jìn)行是最高效的選擇。

在仿真環(huán)境的建設(shè)中，首先需要考慮的是資產(chǎn)庫(kù)的規(guī)模。仿真器本身只負(fù)責(zé)物理仿真和渲染，而具體的場(chǎng)景——無(wú)論是工廠環(huán)境還是桌面環(huán)境，以及執(zhí)行任務(wù)所需的各類物體，都需要豐富的資產(chǎn)支撐。這些資產(chǎn)的儲(chǔ)備是目前具身智能開發(fā)中的關(guān)鍵卡點(diǎn)。其次，物理仿真的質(zhì)量也至關(guān)重要。機(jī)器人與自動(dòng)駕駛不同，自動(dòng)駕駛的目標(biāo)是避免碰撞和接觸，而機(jī)器人執(zhí)行任務(wù)時(shí)，時(shí)時(shí)刻刻都需要與物體發(fā)生物理交互。

目前，像 MuJoCo 或 Isaac Gym 等成熟的仿真器在物理仿真方面表現(xiàn)較好。具身智能對(duì)傳感器的仿真模型支持要求極高，目前主流的仿真平臺(tái)包括我們與高校合作開發(fā)的成果，比如與上海交通大學(xué)合作的 RobotStudio，以及與清華大學(xué)合作的 DICOVERSE。此外，業(yè)界還有像 RoboVerse 等面向具身智能的仿真框架。以 DICOVERSE 為例，它的主要特點(diǎn)是具備“實(shí)對(duì)虛（Real-to-Sim）”再到“虛對(duì)實(shí)（Sim-to-Real）”的功能，通過(guò) 3D 高斯?jié)姙R（3DGS）技術(shù)完成環(huán)境重建后再進(jìn)行渲染，從而獲得極高的真實(shí)感，便于數(shù)據(jù)生成和模型測(cè)試。

除了傳統(tǒng)的數(shù)字孿生技術(shù)，我們最近還在嘗試一種新的方案。業(yè)界常說(shuō)的數(shù)字孿生追求的是對(duì)真實(shí)環(huán)境 1:1 的復(fù)刻，而我們提出了一個(gè)概念叫“數(shù)據(jù)表親”。其核心邏輯是，在很多訓(xùn)練場(chǎng)景下，我們并不一定需要完全一致的 1:1 復(fù)刻，只要仿真環(huán)境中能出現(xiàn)類似的物體，就能達(dá)到訓(xùn)練效果。

目前，我們正針對(duì)桌面這類固定場(chǎng)景進(jìn)行開發(fā)，通過(guò)輸入一張圖像或一段文字描述，利用生成式 AI 技術(shù)產(chǎn)生 3D 資產(chǎn)并構(gòu)建出三維場(chǎng)景。更重要的是，這些生成的場(chǎng)景都具備物理仿真屬性。正如我前面提到的，仿真器中數(shù)據(jù)資產(chǎn)的豐富程度決定了上限，而這種生成式的方法正是為了解決資產(chǎn)稀缺的問(wèn)題。

這里舉了一些具體的例子。左邊是輸入的原始圖像，右邊是生成的 3D 場(chǎng)景。可以看到，雖然兩者并非完全一致，但物體基本上都實(shí)現(xiàn)了一一對(duì)應(yīng)，這完全是通過(guò)大模型的方式生成的。在過(guò)去，如果我們要做這類物體重建，必須使用高精度激光掃描來(lái)生成 Mesh，那種方式效率很低，且復(fù)雜物體的 Mesh 重建難度極大。現(xiàn)在得益于底層 3D 生成式大模型的發(fā)展，我們可以比較容易地生成這些高精度、高逼真度的 3D 模型。

VLA 模型的量化部署

關(guān)于模型量化與部署，這是工程實(shí)踐中非常關(guān)鍵的一環(huán)。在 GPU 上訓(xùn)練模型時(shí)，為了保證精度，通常使用 Float 32 或 FP16 等數(shù)據(jù)類型。但在推理階段，這些類型的存儲(chǔ)代價(jià)太高。舉個(gè)簡(jiǎn)單例子，一個(gè) 1B（十億參數(shù)）的模型，如果量化為 4 比特或 8 比特，模型大小約為 1GB 左右；若使用 Float 32，則需要 4GB。這會(huì)極大影響端側(cè)的運(yùn)行效率。因此，目前在端上運(yùn)行時(shí)，都需要將模型量化并遷移到 ASIC（專用集成電路）上。目前主流的 VLM 量化方式通常是量化到 4 比特，且性能損失較小。通常芯片供應(yīng)商會(huì)提供成熟的工具鏈來(lái)完成這種轉(zhuǎn)換。在 VLA 中，量化的主要挑戰(zhàn)在于擴(kuò)散策略（Diffusion Policy）部分，因?yàn)樗枰獦O高精度的姿態(tài)信息。在實(shí)際部署時(shí)，往往需要采用異構(gòu)部署方案，根據(jù)任務(wù)特性將不同模塊分配到 AI 加速器、CPU 或 DSP 上運(yùn)行。

部署流程本質(zhì)上是一個(gè)數(shù)據(jù)映射的過(guò)程，即將浮點(diǎn)數(shù)類型映射到 INT8 或 INT4 上。這個(gè)過(guò)程需要使用部分?jǐn)?shù)據(jù)進(jìn)行模型校準(zhǔn)，觀察映射后是否存在精度大幅下降（掉點(diǎn)）的情況。這些都是工具鏈提供的標(biāo)準(zhǔn)化處理流程。如果量化后性能無(wú)法滿足要求，就必須回頭重新修改模型結(jié)構(gòu)。

總結(jié)與展望

總結(jié)來(lái)看，我們介紹了從數(shù)據(jù)采集、模型設(shè)計(jì)、訓(xùn)練到最終部署的完整開發(fā)過(guò)程。目前的現(xiàn)狀是，整個(gè) VLA 領(lǐng)域仍處于非常早期的階段。首先是缺少高質(zhì)量的數(shù)據(jù)，且機(jī)器人本體目前極不標(biāo)準(zhǔn)；其次模型結(jié)構(gòu)尚不成熟，直接將 VLM 映射到 Action 這種“頭重腳輕”的形式，難以建立起穩(wěn)固的連接；最后是硬件本體的局限，目前市面上的機(jī)器人硬件還不足以支持完成各種復(fù)雜任務(wù)。一個(gè)驗(yàn)證標(biāo)準(zhǔn)是：即使在有人類遙操作的情況下，很多任務(wù)都不一定能順利完成。

展望未來(lái)，有兩個(gè)重要的探索方向。模型層面，大家正在嘗試引入觸覺信息、強(qiáng)化學(xué)習(xí)等技術(shù)。因?yàn)閯?dòng)作軌跡的訓(xùn)練不能僅靠簡(jiǎn)單的回歸損失函數(shù)來(lái)完成，強(qiáng)化學(xué)習(xí)可以通過(guò)稀疏獎(jiǎng)勵(lì)（比如只告訴模型結(jié)果的好壞）來(lái)訓(xùn)練模型。此外，世界模型（World Model）也處于預(yù)研階段，重點(diǎn)在于 3D 空間表達(dá)、記憶信息和思維鏈，我們認(rèn)為這是改造 VLA 最關(guān)鍵的點(diǎn)。

我認(rèn)為 VLA 要實(shí)現(xiàn)量產(chǎn)，除了端側(cè)模型本身，更多的精力應(yīng)該放在構(gòu)建數(shù)據(jù)閉環(huán)上。現(xiàn)在的具身智能其實(shí)很像 Robotaxi。Robotaxi 在行駛中不能有人干預(yù)，但遇到困難時(shí)需要云端接管，隨著技術(shù)進(jìn)步，接管次數(shù)會(huì)逐漸降低，智能化隨之提高。機(jī)器人也是如此，如果工作時(shí)旁邊必須有人，其商業(yè)模式就無(wú)法成立。因此，我們可以借鑒 Robotaxi 的路線：先通過(guò)人工遙操作讓機(jī)器人進(jìn)入實(shí)際場(chǎng)景工作，在這一過(guò)程中收集大量數(shù)據(jù)，隨著自動(dòng)化程度的提升逐漸減少遙操作頻率，最終實(shí)現(xiàn)真正的自主化。

演講嘉賓介紹

隋偉博士，現(xiàn)任地瓜機(jī)器人算法副總裁。

2011 年，他于北京航空航天大學(xué)探測(cè)制導(dǎo)與控制技術(shù)專業(yè)畢業(yè)，之后進(jìn)入中科院自動(dòng)化研究所深造，并取得博士學(xué)位，其研究方向?yàn)槟Ｊ阶R(shí)別與智能系統(tǒng)。

2016 年 7 月博士畢業(yè)后，擔(dān)任模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室助理研究員，負(fù)責(zé) 3D 視覺感知方向的研發(fā)工作。

2019 年 1 月隋偉博士加入地平線，任高級(jí)算法工程師，主要負(fù)責(zé)機(jī)器人和自動(dòng)駕駛場(chǎng)景下，基于旭日和征程系列芯片的 2.5D 及 3D 視覺算法研發(fā)。2020 年 12 月 - 2023 年 12 月，任研發(fā)總監(jiān)，帶領(lǐng)團(tuán)隊(duì)（30 人）成功開發(fā)了地平線高階自動(dòng)駕駛 BEV 感知方案，并且搭建了國(guó)內(nèi)首套最為完備且先進(jìn)的 4D Label 標(biāo)注系統(tǒng)。目前旭日系列芯片出貨量已達(dá)數(shù)百萬(wàn)片，BEV 感知方案也已在多個(gè)車型上定點(diǎn)量產(chǎn)，為自動(dòng)駕駛領(lǐng)域的發(fā)展做出了重要貢獻(xiàn)。隋偉博士在 ICRA、IROS、CVPR、TIP、TVCG 等國(guó)內(nèi)外知名期刊和會(huì)議上先后發(fā)表學(xué)術(shù)論文 20 余篇，擁有專利 40 多項(xiàng)。此外，他長(zhǎng)期擔(dān)任 ICRA、IROS 等機(jī)器人會(huì)議的審稿人，同時(shí)擔(dān)任《智能駕駛和機(jī)器視覺》《智能駕駛與多維重建》等自動(dòng)駕駛相關(guān)著作的主編。

2023 年 11 月至今任地瓜機(jī)器人算法 VP ，負(fù)責(zé)面向消費(fèi)機(jī)器人和具身智能的軟件算法方案研發(fā)。

會(huì)議推薦

OpenClaw 出圈，“養(yǎng)蝦”潮狂熱，開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下，自托管 Agent 形態(tài)迅速普及：多入口對(duì)話、持久記憶、Skills 工具鏈帶來(lái)強(qiáng)大生產(chǎn)力。但這背后也暴露了工程化落地的真實(shí)難題——權(quán)限邊界與隔離運(yùn)行、Skills 供應(yīng)鏈安全、可觀測(cè)與可追溯、記憶分層與跨場(chǎng)景污染、以及如何把 Agent 納入團(tuán)隊(duì)研發(fā) / 運(yùn)維流程并形成穩(wěn)定收益。

針對(duì)這一系列挑戰(zhàn)，在 4 月 16-18 日即將舉辦的 QCon 北京站上，我們特別策劃了「OpenClaw 生態(tài)實(shí)踐」專題，將聚焦一線實(shí)踐與踩坑復(fù)盤，分享企業(yè)如何構(gòu)建私有 Skills、制定安全護(hù)欄、搭建審計(jì)與回放機(jī)制、建立質(zhì)量 / 效率指標(biāo)體系，最終把自托管 Agent 從可用的 Demo 升級(jí)為可靠的生產(chǎn)系統(tǒng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁(yè) 下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

達(dá)利歐：霍爾木茲海峽大決戰(zhàn)即將爆發(fā)

極目新聞 2026-03-21 16:52:14
15949 跟貼 15949

“媽，門口要錢，我們就不進(jìn)去看你了”，游客在壺口瀑布外拍視頻被投訴侵權(quán)，山西壺口瀑布景區(qū)：事發(fā)地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
34645 跟貼 34645

85后花20萬(wàn)租下農(nóng)村老宅20年，用50萬(wàn)打造理想的院子，一家三口從城市搬進(jìn)鄉(xiāng)村：與其花大價(jià)錢買學(xué)區(qū)房，不如在鄉(xiāng)村給孩子更開闊的成長(zhǎng)空間

大風(fēng)新聞 2026-03-21 11:27:04
3579 跟貼 3579

成品油價(jià)即將迎來(lái)“五連漲”，下周一加滿一箱油可能將多花80元，周末記得加滿油

揚(yáng)子晚報(bào) 2026-03-21 07:37:10
28473 跟貼 28473

“你已進(jìn)入艷遇高發(fā)地”，河南項(xiàng)城知名商場(chǎng)內(nèi)現(xiàn)不雅標(biāo)語(yǔ)，當(dāng)?shù)厥袌?chǎng)監(jiān)管局回應(yīng)：商場(chǎng)已自行撤下該廣告牌

哈爾濱日?qǐng)?bào) 2026-03-21 14:17:00
350 跟貼 350

上海百年老店官宣閉店！曾經(jīng)去吃頓飯可要一大早就排長(zhǎng)隊(duì)，承載了幾代人的記憶，不少阿姨爺叔的“第一次”

上觀新聞 2026-03-18 17:41:49
963 跟貼 963

匈牙利和斯洛伐克堅(jiān)決反對(duì)，峰會(huì)氣氛冷淡尷尬，歐盟未通過(guò)900億歐元援烏貸款

環(huán)球網(wǎng)資訊 2026-03-21 07:07:24
150 跟貼 150

再見，“四字外援”！丁彥雨航退役，曾在山東男籃效力9個(gè)賽季

齊魯壹點(diǎn) 2026-03-21 07:12:12
78 跟貼 78

熱搜第一！山姆回應(yīng)“冷鮮豬肉數(shù)月前屠宰”！網(wǎng)友：今年會(huì)費(fèi)剛續(xù)完

北京商報(bào) 2026-03-21 12:06:17
1775 跟貼 1775

漲價(jià)！浙江姑娘腸子悔青，去年沒下單今年貴5000元！老板：可能還要漲

浙江之聲 2026-03-20 13:26:35
440 跟貼 440

河南這所高校！更名大學(xué)！

大象新聞 2026-03-21 07:45:19
425 跟貼 425

上海女排如愿殺入總決賽，為什么提到“魔鬼主場(chǎng)”總沒有上海的一席之地？

上觀新聞 2026-03-21 19:56:15
171 跟貼 171

全球首次、硬核突破！本周，我國(guó)多領(lǐng)域成果密集“上新”

極目新聞 2026-03-21 06:43:43
349 跟貼 349

真神仙專業(yè)！中國(guó)道教學(xué)院招生了，包含道教歷史與神仙等5個(gè)專業(yè)，計(jì)劃招30名本科生，16名研究生

觀威海 2026-03-21 15:43:14
240 跟貼 240

葛均波擔(dān)任上海百匯醫(yī)院首席科學(xué)家，明確表示“不領(lǐng)薪”

第一財(cái)經(jīng)資訊 2026-03-21 21:13:09
11 跟貼 11

上海躋身全球第二，“好不好住、好不好玩”為何成為最佳城市評(píng)價(jià)標(biāo)準(zhǔn)？

上觀新聞 2026-03-21 06:49:08
30 跟貼 30

奧斯卡雙響卡約閃擊山東泰山0-4客場(chǎng)不敵云南玉昆

閃電新聞 2026-03-21 22:12:03
29 跟貼 29

應(yīng)縣木塔即將全部拆卸落地大修？官方回應(yīng)（2026·03·20）

今日辟謠 2026-03-20 17:58:08
174 跟貼 174

航司燃油費(fèi)上漲預(yù)期走強(qiáng) 消費(fèi)者開始提前“囤”機(jī)票

財(cái)聯(lián)社 2026-03-21 08:00:04
269 跟貼 269

踏青賞花享春光

環(huán)球網(wǎng)資訊 2026-03-18 07:45:54
1307 跟貼 1307

別再吹凱特王妃的顏值了！那身綠裙子是命令，查爾斯就是段子手
西樓知趣雜談
2026-03-20 12:00:59

伊朗，突然大漲！
中國(guó)基金報(bào)
2026-03-22 00:10:44

你聽過(guò)最勁爆的瓜是啥？網(wǎng)友：被大八歲的補(bǔ)習(xí)班老師表白了
帶你感受人間冷暖
2025-11-26 00:10:06

學(xué)醫(yī)后才知道，腦梗最危險(xiǎn)信號(hào)，不是手腳麻，而是頻繁出現(xiàn)4癥狀
路醫(yī)生健康科普
2026-03-21 18:25:03

今年大反常！老百姓為何不再關(guān)心房?jī)r(jià)和國(guó)際局勢(shì)？答案讓人震驚！
新國(guó)學(xué)文化
2026-03-20 14:20:55

沖著顏值和肉體，也要去看這部Starz美劇
來(lái)看美劇
2026-03-21 19:00:27

皮爾洛評(píng)心目中最佳11人名單，把足球交給天才，其余人負(fù)責(zé)善后
替補(bǔ)席懂王
2026-02-18 20:55:33

710km純電！比亞迪新車官宣：3月26日，正式上市
T科技衍生
2026-03-22 00:17:11

俄軍在萊曼方向大敗！春季攻勢(shì)開戰(zhàn)不利
知兵
2026-03-21 23:51:38

婆婆私自拿我100萬(wàn)跟團(tuán)旅游，我正準(zhǔn)備離婚，旅游團(tuán)發(fā)來(lái)意外信息
奶茶麥子
2026-03-21 22:14:12

馬士基接巴拿馬港口運(yùn)營(yíng)權(quán)，會(huì)影響在華造船訂單嗎？
趣味萌寵的日常
2026-03-22 01:16:38

醒醒吧！就算臺(tái)灣愿意和平回歸，臺(tái)灣也不可能允許解放軍對(duì)臺(tái)駐軍
興史興談
2026-03-19 15:33:38

滬指破4000點(diǎn)！股民滿倉(cāng)航天發(fā)展虧10.9萬(wàn)，撐不住了
財(cái)經(jīng)智多星
2026-03-21 08:12:09

“多數(shù)立陶宛人都后悔了”
觀察者網(wǎng)
2026-03-21 20:50:48

廣東東莞工廠驚喜漲薪，底薪從2080大漲到2300，時(shí)薪超過(guò)13.22元
搗蛋窩
2026-03-18 12:36:04

弟妹發(fā)消息，催我裝修新房，我問(wèn)為啥，她：你侄子上高中要住
黑貓故事所
2025-08-11 22:00:35

重慶455萬(wàn)畝油菜花驚艷全球！馬斯克稱贊“春意滿滿”
上游新聞
2026-03-20 17:24:22

三星堆不是沒法解釋，而是不好解釋：再挖下去《山海經(jīng)》就成真了
興趣知識(shí)
2026-03-14 15:10:29

新手媽媽馬筱梅將奶瓶隨手一丟，幫兒子拍嗝，動(dòng)作嫻熟，很可愛
絢麗的畫卷
2026-03-18 12:10:58

美國(guó)不敢公布的馬航內(nèi)幕:特工隨行，頂級(jí)專家失蹤，美女意外死亡
可兒故事匯
2024-09-16 01:53:56

2026-03-22 03:59:00

InfoQ

有內(nèi)容的技術(shù)社區(qū)媒體

12188文章數(shù) 51814關(guān)注度

往期回顧全部

科技要聞

宇樹招股書拆解，人形機(jī)器人出貨量第一！

蘋果CEO庫(kù)克：新款Mac吸引了創(chuàng)紀(jì)錄的首購(gòu)客戶

微軟大刀闊斧重組AI部門

新SU7只漲4千！雷軍：真怕交車慢挨罵

阿里Q3財(cái)報(bào)解析：守美團(tuán)，押AI，雙線燒錢作戰(zhàn)

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈最令美軍戰(zhàn)栗的細(xì)節(jié)披露

伊朗：擊中以色列的F-16戰(zhàn)機(jī)

達(dá)利歐：霍爾木茲海峽大決戰(zhàn)即將爆發(fā)

兩艘外艦欲強(qiáng)行穿越中國(guó)海軍艦艇編隊(duì) 南昌艦以一敵二

正部級(jí)高官任上落馬曾與落馬"老虎"易煉紅搭班子3年

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈最令美軍戰(zhàn)栗的細(xì)節(jié)披露

伊朗：擊中以色列的F-16戰(zhàn)機(jī)

達(dá)利歐：霍爾木茲海峽大決戰(zhàn)即將爆發(fā)

兩艘外艦欲強(qiáng)行穿越中國(guó)海軍艦艇編隊(duì) 南昌艦以一敵二

正部級(jí)高官任上落馬曾與落馬"老虎"易煉紅搭班子3年

體育要聞

誰(shuí)在決定字母哥未來(lái)？

英超-維爾貝克梅開二度布萊頓2-1送利物浦3輪不勝

趙睿34分北京終結(jié)遼寧6連勝趙繼偉26分麥基6分

中超-國(guó)安1-1申花張玉寧3輪3球陳晉一任意球世界波

銅梁龍3-3成都，迪馬塔雙響，韋世豪傳射，席爾瓦、肯帕努世界波

娛樂(lè)要聞

田栩?qū)幗K于涼了？出軌風(fēng)波影響惡劣

《奔跑吧14》名單老粉絲說(shuō)不認(rèn)識(shí)新觀眾卻在追

汪小菲說(shuō)不在臺(tái)北買房馬筱梅通過(guò)汪寶兒示好張?zhí)m

動(dòng)作巨星去世享年86歲，曾與李小龍對(duì)決

上海德云社開業(yè)首日，楊議老毛病又犯

財(cái)經(jīng)要聞

通脹警報(bào)拉響，加息潮要來(lái)了？

王興興跑得快，未必跑得遠(yuǎn)

拆解宇樹：一年?duì)I收17億機(jī)器人賣給了誰(shuí)

暴跌！黃金失守4500美元

A股失守4000點(diǎn)：機(jī)構(gòu)激辯調(diào)整主因，下一步策略來(lái)了！

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億全年?duì)I收767億

極狐全新阿爾法S5體驗(yàn)72道彎 11萬(wàn)級(jí)轎跑真實(shí)力

實(shí)拍瑞虎5運(yùn)動(dòng)版，新能源設(shè)計(jì)思路的燃油車？

29.98萬(wàn)起售空間大配置齊全騰勢(shì)N8L性價(jià)比怎么樣？

三電機(jī)+雙8797芯片+500km續(xù)航零跑D19實(shí)車到店

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

教育

本地

藝術(shù)

軍事航空

魔獸世界：時(shí)光服P3階段將至，新手該練什么職業(yè)，這個(gè)很重要！

這款14年前的JRPG神作，劇情反轉(zhuǎn)封神，如今重制堪稱此生必玩！

《紅色沙漠》又遭批評(píng) 隱瞞使用AI創(chuàng)作畫作

戰(zhàn)艦世界HL系潛艇下水！首艘能玩空襲的潛艇，對(duì)得起5w金高價(jià)嗎？

教育要聞

南師附中舉行2026年31公里步行者行動(dòng)

突發(fā)！又一位媽媽突然暈倒在孩子的作業(yè)本前，孩子哭著喊媽媽“快起來(lái)”

22人集體保送清華北大！剛剛，南外2026屆外語(yǔ)類保送生公布，他們來(lái)自這些小學(xué)初中

高考地理中的湖岸沉積

全國(guó)正確率僅有5%的解方程，易錯(cuò)

本地新聞

春色滿城關(guān)不住｜紹興春日頂流，這片櫻花海藏不住了

春色滿城關(guān)不住｜粉色浪漫已至，來(lái)寧波共賞櫻花雨

春天出門像出艙？一個(gè)過(guò)敏星人的裝備進(jìn)化史

坐標(biāo)北京，過(guò)敏季反向遷徒

藝術(shù)要聞

斯托揚(yáng)畫作：她們的眼神能勾動(dòng)你的心！

朱麗葉·比諾什，集性感與演技于一身的法蘭西女神

投資264億！南沙這個(gè)“芯”地標(biāo)，正式開工！

221.5米！利物浦未來(lái)第一高樓，效果圖公布

軍事要聞

特朗普:正考慮逐步降級(jí)對(duì)伊朗的軍事行動(dòng)

伊朗軍方威脅全球追擊美以目標(biāo)人員

伊朗宣布擊中美軍F-35戰(zhàn)機(jī) 美軍承認(rèn)戰(zhàn)機(jī)緊急迫降

美國(guó)防官員已為向伊朗部署地面部隊(duì)制定詳盡方案

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

具身智能中的 VLA 技術(shù)及其應(yīng)用

宇樹招股書拆解，人形機(jī)器人出貨量第一！

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

誰(shuí)在決定字母哥未來(lái)？

田栩?qū)幗K于涼了？出軌風(fēng)波影響惡劣

通脹警報(bào)拉響，加息潮要來(lái)了？

小鵬汽車2025年Q4盈利凈賺3.8億 全年?duì)I收767億

態(tài)度原創(chuàng)

魔獸世界：時(shí)光服P3階段將至，新手該練什么職業(yè)，這個(gè)很重要！

南師附中舉行2026年31公里步行者行動(dòng)

春色滿城關(guān)不住｜紹興春日頂流，這片櫻花海藏不住了

斯托揚(yáng)畫作：她們的眼神能勾動(dòng)你的心！

特朗普:正考慮逐步降級(jí)對(duì)伊朗的軍事行動(dòng)

伊朗發(fā)射3800公里射程的導(dǎo)彈最令美軍戰(zhàn)栗的細(xì)節(jié)披露

伊朗發(fā)射3800公里射程的導(dǎo)彈最令美軍戰(zhàn)栗的細(xì)節(jié)披露

小鵬汽車2025年Q4盈利凈賺3.8億全年?duì)I收767億