<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      具身智能中的 VLA 技術(shù)及其應(yīng)用

      0
      分享至


      演講嘉賓|隋偉 博士

      編輯|Kitty

      策劃|QCon 全球軟件開發(fā)大會(huì)

      傳統(tǒng)的具身智能操作方法將視覺感知、語(yǔ)言理解和動(dòng)作規(guī)劃分割為獨(dú)立模塊,導(dǎo)致系統(tǒng)復(fù)雜、誤差易累積且泛化能力不足。視覺語(yǔ)言動(dòng)作模型(VLA)則實(shí)現(xiàn)了從多模態(tài)感知到動(dòng)作生成的端到端學(xué)習(xí),構(gòu)建了 “所見即所動(dòng)” 的智能決策閉環(huán),極大地推動(dòng)了具身智能發(fā)展。

      然而視覺語(yǔ)言動(dòng)作模型本身也存在諸多挑戰(zhàn),例如訓(xùn)練數(shù)據(jù)難以獲取、模型結(jié)構(gòu)缺少長(zhǎng)時(shí)序和物理邏輯推理的能力。這意味著 VLA 雖然能實(shí)現(xiàn)一些操作功能但是對(duì)不同場(chǎng)景、不同任務(wù)的泛化性仍然存在挑戰(zhàn),無(wú)法滿足實(shí)際的需求。

      本文整理自地瓜機(jī)器人算法副總裁隋偉 博士在 2025 年 QCon 全球軟件開發(fā)大會(huì)(上海站) 的分享“具身智能中的 VLA 技術(shù)及其應(yīng)用”,內(nèi)含涵蓋 VLA 技術(shù)的基本原理和機(jī)制,以及在落地過(guò)程中涉及到的數(shù)據(jù)、評(píng)測(cè)等問(wèn)題, 從而提升 VLA 的性能和易用性等等。

      預(yù)告:將于 4 月 16 - 18 召開的 QCon 北京站設(shè)計(jì)了「具身智能與物理世界交互」專題,聚焦 VLA/VA 模型與數(shù)據(jù)體系兩大核心,深度拆解具身智能技術(shù)鏈路。擬探討模型現(xiàn)狀、核心挑戰(zhàn)與機(jī)會(huì),分享高質(zhì)量數(shù)據(jù)解決方案,解析仿真與 World Model 的賦能價(jià)值,破解核心技術(shù)瓶頸。敬請(qǐng)關(guān)注。

      以下是演講實(shí)錄(經(jīng) InfoQ 進(jìn)行不改變?cè)獾木庉嬚恚?/strong>

      我先簡(jiǎn)單介紹一下地瓜機(jī)器人,是一家專門聚焦機(jī)器人領(lǐng)域的公司。我們提供一整套機(jī)器人解決方案,包括底層芯片、操作系統(tǒng)、開發(fā)環(huán)境、數(shù)據(jù)算法以及云平臺(tái)等。我們的目標(biāo)是讓機(jī)器人的開發(fā)變得更加簡(jiǎn)單,讓每個(gè)人都能上手開發(fā)機(jī)器人算法。


      我今天分享的主題是 VLA(視覺 - 語(yǔ)言 - 動(dòng)作模型)。我會(huì)圍繞 VLA 開發(fā)過(guò)程中遇到的各種問(wèn)題,介紹目前的現(xiàn)狀與挑戰(zhàn),涵蓋從數(shù)據(jù)到模型、再到最終部署及應(yīng)用中遇到的困難。

      具身智能中 VLA 的現(xiàn)狀和挑戰(zhàn)

      首先看 VLA 的現(xiàn)狀與挑戰(zhàn)。具身智能在這兩年非常火熱,被認(rèn)為是繼智能駕駛之后的另一個(gè)爆發(fā)點(diǎn)。其背景是底層 AI 模型的快速發(fā)展,尤其是像 VLM(視覺語(yǔ)言模型)這種離身智能大模型,已經(jīng)具備了很好的通用性和泛化性。目前在聊天類應(yīng)用、文生圖以及 VLM 問(wèn)答方面,技術(shù)已經(jīng)做得非常成熟。下一步,技術(shù)必然會(huì)向具身智能演進(jìn),即讓機(jī)器人的動(dòng)作也具備這種通用能力。而且,具身智能的前景和市場(chǎng)容量遠(yuǎn)比智能駕駛要大。智能駕駛目前的普及率大約在 60% 到 70%,而具身智能未來(lái)會(huì)存在于各種場(chǎng)景中。


      從功能、底層模型、數(shù)據(jù)和硬件本體四個(gè)維度來(lái)看,目前具身智能的現(xiàn)狀如下:在功能成熟度方面,我們將本體任務(wù)分為上肢操作(Manipulation)、下肢移動(dòng)(Locomotion)和對(duì)話。目前對(duì)話功能已經(jīng)非常成熟,許多陪玩類機(jī)器人已經(jīng)落地。在移動(dòng)能力方面,我們能看到很多機(jī)器人跳舞或進(jìn)行搏擊比賽,但目前大多屬于“盲眼運(yùn)動(dòng)”,雖然有一定的情緒價(jià)值,但缺乏與現(xiàn)實(shí)的感知交互。比如機(jī)器人在跳舞時(shí),如果前面有障礙物,由于沒有通過(guò)傳感器感知世界,它依然會(huì)撞上去。

      至于上肢操作,這是我們今天要講的重點(diǎn),也是與 VLA 關(guān)系最密切的方向,目前它是最具挑戰(zhàn)性、最不成熟的。其底層模型正經(jīng)歷從 G1 到 G5 的發(fā)展階段,現(xiàn)在大約處于 G2 到 G3 之間,即從傳統(tǒng)的工業(yè)自動(dòng)化向端到端學(xué)習(xí)過(guò)渡的過(guò)程。雖然 VLA 正在從分層式架構(gòu)向端到端架構(gòu)發(fā)展,但挑戰(zhàn)巨大,核心在于數(shù)據(jù)。現(xiàn)有數(shù)據(jù)無(wú)法支撐 VLA 發(fā)揮出應(yīng)有的性能,而數(shù)據(jù)采集目前也沒有完美的解決方案。遙操作采集的數(shù)據(jù)真實(shí),但效率極慢;仿真雖然能快速獲取數(shù)據(jù),但有效率較低。此外,硬件本體目前也不夠穩(wěn)定成熟,盡管成本在快速降低,但端側(cè)算力依然面臨挑戰(zhàn)。雖然現(xiàn)在到處都是問(wèn)題,但 VLA 在發(fā)展過(guò)程中肯定會(huì)遇到各種坎坷。它應(yīng)該是一個(gè)螺旋式或波段式前進(jìn)的過(guò)程,而我們現(xiàn)在正處于第一個(gè)波峰。

      我們來(lái)看看 VLA 到底是為了解決什么問(wèn)題。因?yàn)槲抑皬氖伦詣?dòng)駕駛領(lǐng)域,而自動(dòng)駕駛是 AI 第一個(gè)大規(guī)模落地的場(chǎng)景,所以我比較傾向于通過(guò)自動(dòng)駕駛這十年的發(fā)展路徑和 AI 落地過(guò)程,來(lái)推演具身智能當(dāng)前所處的階段。

      自動(dòng)駕駛領(lǐng)域的一個(gè)重要節(jié)點(diǎn)是“端到端”技術(shù)的出現(xiàn)。特斯拉率先發(fā)布了端到端算法,通過(guò)模仿學(xué)習(xí)來(lái)解決擬人化的問(wèn)題。在此之前,自動(dòng)駕駛主要依靠規(guī)則化方案來(lái)生成軌跡,涵蓋行駛方向、速度和加速度等。駕駛最關(guān)鍵的三個(gè)要素是安全性、舒適性和高效性。在端到端技術(shù)普及前,傳統(tǒng)規(guī)則化方法很難同時(shí)兼顧這三點(diǎn)。比如,為了保證安全而讓系統(tǒng)過(guò)于保守,效率就會(huì)降低;如果駕駛風(fēng)格激進(jìn)以提高效率,安全性和舒適性又會(huì)受到影響。端到端技術(shù)較好地解決了這個(gè)問(wèn)題,因?yàn)樗苯訌膶<覕?shù)據(jù)中學(xué)習(xí)駕駛過(guò)程,讓體驗(yàn)提升了一大截。


      不過(guò),端到端技術(shù)也遇到了泛化性和適應(yīng)性的難題,核心還是數(shù)據(jù)問(wèn)題。比如不同城市、不同風(fēng)格的紅綠燈和標(biāo)志牌,一旦系統(tǒng)沒見過(guò)相關(guān)數(shù)據(jù),性能就會(huì)立即下降。既然現(xiàn)在的 VLM 已經(jīng)具備了極強(qiáng)的通用性、泛化性和常識(shí)能力——例如你問(wèn)它某個(gè)交通標(biāo)志是什么意思、該怎么開,它能給出很好的語(yǔ)言描述——那我們就在想,能不能把這種能力引入到具身智能系統(tǒng)中,形成 VLA,讓系統(tǒng)具備思考能力。目前在自動(dòng)駕駛領(lǐng)域,已經(jīng)有一兩家頭部玩家最近跑通了 VLA。相比端到端模型,VLA 的模型規(guī)模要大出 10 倍左右,端到端模型通常在 0.1B(億級(jí)參數(shù))量級(jí),而 VLA 則在幾個(gè) B(十億級(jí)參數(shù))的量級(jí),且訓(xùn)練數(shù)據(jù)量龐大,通常需要幾十億個(gè)短視頻片段才能訓(xùn)練出一個(gè)性能較好的版本。

      回到具身智能,即便是一個(gè)簡(jiǎn)單的動(dòng)作,也存在技術(shù)方案的演進(jìn)。第一種是模塊化方案,類似于早期自動(dòng)駕駛的思路,即“先檢測(cè)再規(guī)劃”。在 2019 年到 2020 年期間,很多 Demo 都是這么做的:先簡(jiǎn)單處理物體的姿態(tài),再規(guī)劃?rùn)C(jī)械臂的操作。但問(wèn)題在于,很多任務(wù)是無(wú)法直接規(guī)劃的,尤其是自由度較高時(shí)。機(jī)械臂一般有 6 到 7 個(gè)自由度,人形機(jī)器人則有幾十個(gè),這不像自動(dòng)駕駛只需在二維平面規(guī)劃軌跡。

      隨后出現(xiàn)了模仿學(xué)習(xí),即直接通過(guò)端到端的方式學(xué)習(xí)一條軌跡。它的好處是能完成一些規(guī)劃不出來(lái)的復(fù)雜動(dòng)作,并處理抓取柔性物體等任務(wù)。但它的局限性在于對(duì)數(shù)據(jù)的強(qiáng)依賴,于是便誕生了 VLA。VLA 的初衷是解決場(chǎng)景泛化、任務(wù)泛化和本體泛化這三個(gè)問(wèn)題。我們希望利用 VLM“見多識(shí)廣”的能力,讓機(jī)器人也具備同樣的通用性。從落地角度看,場(chǎng)景和任務(wù)的泛化優(yōu)先級(jí)最高,本體泛化可以排在最后,因?yàn)閱慰顧C(jī)器人如果能具備通用性,其價(jià)值就已經(jīng)非常巨大了。

      關(guān)于 VLA 的模型架構(gòu),其實(shí)邏輯非常直接。現(xiàn)在的模型輸入通常是多模態(tài)信息,一般包含圖像、文本和本體狀態(tài)。其中本體狀態(tài)主要指姿態(tài)信息和關(guān)節(jié)角度等。這些信息經(jīng)過(guò)編碼器處理后,輸入到基于 Transformer 架構(gòu)的 VLM(視覺語(yǔ)言模型)中進(jìn)行多模態(tài)融合。VLM 輸出的 Token 包含了圖像、文本和本體的綜合信息,隨后進(jìn)入動(dòng)作策略(Action Policy)模塊。

      在動(dòng)作策略模塊中,目前主流的方法有兩種。一種是擴(kuò)散策略(Diffusion Policy),這在文生圖等生成式模型中很常見。它通過(guò)生成式的方式來(lái)產(chǎn)生復(fù)雜的軌跡,相比之下,傳統(tǒng)的判別式方法在描述軌跡的能力上不如擴(kuò)散策略,因此擴(kuò)散策略在動(dòng)作生成中占據(jù)了非常重要的位置。另一種方法是流匹配(Flow Matching),同樣屬于生成式,它與擴(kuò)散策略的主要區(qū)別在于底層的數(shù)學(xué)建模不同。擴(kuò)散策略的分布建模更復(fù)雜,而流匹配則是在生成過(guò)程中進(jìn)行線性迭代。經(jīng)過(guò)動(dòng)作策略模塊的處理,最終會(huì)輸出機(jī)器人的關(guān)節(jié)動(dòng)作,也就是 VLA 中的“A”。

      同時(shí),也有很多研究工作會(huì)讓模型輸出一些輔助信息。比如有些模型會(huì)輸出文本,這是借鑒了像 DeepSeek 等大語(yǔ)言模型的思路,旨在讓機(jī)器人具備“思考”能力。也就是說(shuō),在訓(xùn)練模型時(shí),不僅要讓它給出答案,還要讓它理解為什么是這個(gè)答案。這屬于思維鏈(CoT)或動(dòng)作鏈(CoA)的范疇。另外,也有研究會(huì)讓模型輸出圖像信息,即利用當(dāng)前的姿態(tài)、圖像和文本去預(yù)測(cè)下一時(shí)刻的圖像,這就是世界模型(World Model)。其基本原理是,如果模型能基于當(dāng)前數(shù)據(jù)準(zhǔn)確預(yù)測(cè)下一刻的狀態(tài),就認(rèn)為它學(xué)習(xí)到了物理規(guī)律。目前已經(jīng)有一些工作將世界模型與 VLA 結(jié)合在一起進(jìn)行訓(xùn)練。


      在具體的架構(gòu)實(shí)現(xiàn)上,目前主要有兩種主流方案。一種是 VLM 直接輸出特征(Feature)并傳遞給后續(xù)模塊,這被稱為“一段式”的端到端架構(gòu)。另一種是分層式架構(gòu),VLM 輸出的不是特征,而是語(yǔ)言形式的任務(wù)規(guī)劃。例如,當(dāng)輸入指令是“收納桌子”時(shí),VLM 會(huì)先將任務(wù)拆解為具體的指令,比如“把杯子移到中央”、“把水倒掉”、“把垃圾丟掉”等,再將這些步驟逐一輸出給下游模塊執(zhí)行。


      我們來(lái)看一下目前的 VLM(視覺語(yǔ)言模型)究竟能做哪些事情。VLM 的設(shè)計(jì)初衷,一是解決任務(wù)的泛化性,二是處理復(fù)雜的長(zhǎng)程任務(wù)。最近我去杭州參加了機(jī)器人國(guó)際會(huì)議的一個(gè)比賽,現(xiàn)場(chǎng)有六種任務(wù),我重點(diǎn)觀察了其中三種。第一種是疊衣服,這是典型的長(zhǎng)程任務(wù),要求機(jī)器人無(wú)論衣服如何擺放,都能將其折疊好;第二種是倒水;第三種是操作微波爐;第四種是收納。此外,在近期的世界機(jī)器人大會(huì)(WRC)和世界人工智能大會(huì)上,我也看到了一些現(xiàn)場(chǎng)演示。比如打麻將,它采用的是分層架構(gòu),使用了一個(gè)經(jīng)過(guò)麻將數(shù)據(jù)訓(xùn)練的 12B 規(guī)模的 VLM。機(jī)器人會(huì)通過(guò)語(yǔ)音告訴你該怎么出牌,再利用傳統(tǒng)方法檢測(cè)麻將位置并完成推牌或抓牌動(dòng)作,體驗(yàn)效果還不錯(cuò)。還有做香囊,這是一個(gè)更長(zhǎng)程的任務(wù),需要把東西裝進(jìn)去并勒緊繩子,這是由智元機(jī)器人完成的。目前市面上看到的這些炫酷動(dòng)作,背后基本都是 VLA 在支撐,且大多基于 OpenVLA 等模型,這代表了目前能力的上限。

      可以說(shuō),對(duì)于單一任務(wù),如果我們提供大量數(shù)據(jù),模型是具備長(zhǎng)程執(zhí)行、理解和復(fù)雜任務(wù)處理能力的。但它最大的問(wèn)題在于泛化性極弱。我們?cè)O(shè)計(jì) VLA,是希望利用 VLM 在互聯(lián)網(wǎng)上見過(guò)的海量數(shù)據(jù),讓機(jī)器人具備通用性和遷移能力。理想情況下,即使面對(duì)沒見過(guò)的場(chǎng)景,模型也能憑借“常識(shí)”實(shí)現(xiàn)零樣本(Zero-shot)能力。但實(shí)際測(cè)試下來(lái),這種能力還不具備,原因主要有幾點(diǎn)。

      首先,VLM 中的“視覺 - 語(yǔ)言”數(shù)據(jù)與“動(dòng)作”數(shù)據(jù)分布不一致。VLM 基座是通過(guò)互聯(lián)網(wǎng)上大量的圖文對(duì)訓(xùn)練的,而動(dòng)作數(shù)據(jù)(A)必須靠真機(jī)實(shí)采。目前實(shí)采的數(shù)據(jù)量非常小,通常只有幾百到幾千條,與圖文數(shù)據(jù)相比極其不均衡,導(dǎo)致 VLM 的知識(shí)無(wú)法有效遷移到動(dòng)作上,模型處于嚴(yán)重的過(guò)擬合狀態(tài)。其次是硬件限制。我們看到的很多流暢動(dòng)作其實(shí)是經(jīng)過(guò) 5 倍或 10 倍速處理的,實(shí)際操作時(shí)會(huì)有明顯的抖動(dòng)。受限于機(jī)械臂硬件本體,目前 VLA 還無(wú)法完成穿針引線這類精細(xì)化任務(wù)。

      我們也做了一些泛化性驗(yàn)證,比如最簡(jiǎn)單的抓取和投放。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)背景發(fā)生變化(如移走測(cè)試環(huán)境中的黑色窗簾)、物體位置放遠(yuǎn)了一點(diǎn),或者加入未訓(xùn)練過(guò)的干擾物(如一瓶咖啡),機(jī)器人就會(huì)失敗。這說(shuō)明目前的系統(tǒng)非常脆弱,原因就是數(shù)據(jù)量太少,多樣性嚴(yán)重不足。

      我們可以對(duì)比一下自動(dòng)駕駛所需的數(shù)據(jù)量。自動(dòng)駕駛可以看作是單一任務(wù)的具身智能,只負(fù)責(zé)“駕駛”。即便如此,要訓(xùn)練一個(gè)基本可用的模型,大約需要千萬(wàn)量級(jí)的視頻片段,換算下來(lái)約為 10 萬(wàn)小時(shí)的數(shù)據(jù),且這些數(shù)據(jù)必須分布在不同的空間和天氣場(chǎng)景中。而目前具身智能領(lǐng)域,即便是一些領(lǐng)先的采集工廠,數(shù)據(jù)量也僅在百小時(shí)到千小時(shí)級(jí)別,還要應(yīng)對(duì)無(wú)數(shù)種任務(wù),這顯然遠(yuǎn)遠(yuǎn)不夠。

      此外,自動(dòng)駕駛的車輛是標(biāo)準(zhǔn)化的,動(dòng)力學(xué)特性基本一致,數(shù)據(jù)容易復(fù)用且采集便利。但具身智能的硬件目前還沒收斂,手部既有夾爪也有靈巧手,自由度從 7 個(gè)、11 個(gè)到 21 個(gè)不等,導(dǎo)致數(shù)據(jù)無(wú)法復(fù)用,智能化進(jìn)程緩慢。


      經(jīng)常有人問(wèn):現(xiàn)在的具身智能相當(dāng)于自動(dòng)駕駛的什么階段?是 2015 年還是 2012 年?我認(rèn)為,從算法模型來(lái)看,具身智能完全可以對(duì)標(biāo) 2025 年的自動(dòng)駕駛,兩者都在往端到端或 VLA 方向走,沒有代差。但從硬件角度看,具身智能可能還不如 100 年前的汽車工業(yè),因?yàn)槟菚r(shí)候汽車已經(jīng)實(shí)現(xiàn)流水線大規(guī)模生產(chǎn),而現(xiàn)在的機(jī)器人還遠(yuǎn)未達(dá)到那個(gè)水準(zhǔn)。

      VLA 的主流架構(gòu)

      剛才我們講到主流架構(gòu)主要有兩種:一種是分層式的,另一種是完全端到端的。這兩者的核心區(qū)別在于 VLM(視覺語(yǔ)言模型)向下一層傳遞的是語(yǔ)言規(guī)劃指令,還是直接傳遞特征(feature)。

      分層式架構(gòu)在輸入傳感器數(shù)據(jù)后,會(huì)由兩個(gè)系統(tǒng)協(xié)同工作。所謂“慢系統(tǒng)”,就是我們常說(shuō)的 VLM,它負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行推理。之所以稱之為“慢”,是因?yàn)槟P腕w量巨大,為了讓它具備常識(shí)能力,必須經(jīng)過(guò)海量數(shù)據(jù)訓(xùn)練,在現(xiàn)有的硬件條件下,其推理速度相對(duì)較慢。而“快系統(tǒng)”則是前面提到的端側(cè)系統(tǒng),它的模型較小,直接輸出動(dòng)作或軌跡,因此運(yùn)行速度很快。我認(rèn)為這種“快慢系統(tǒng)”的劃分,本質(zhì)上是受限于目前的硬件計(jì)算資源。如果未來(lái)端側(cè)算力足夠強(qiáng)大,其實(shí)就不需要這種區(qū)分了,所有環(huán)節(jié)都能實(shí)現(xiàn)實(shí)時(shí)響應(yīng)。

      在分層系統(tǒng)中,系統(tǒng) 2 負(fù)責(zé)思考并給出語(yǔ)言規(guī)劃,再傳達(dá)給快系統(tǒng)。比較典型的例子是 Figure 01 機(jī)器人展示的 Demo,它采用的就是分層式架構(gòu)。由于需要部署在 Orin 等芯片上,為了克服無(wú)法實(shí)時(shí)處理的問(wèn)題,必須構(gòu)建快慢系統(tǒng)。去年在自動(dòng)駕駛領(lǐng)域比較火的理想汽車,也率先推出了類似的快慢系統(tǒng),其初衷同樣是解決端側(cè)部署時(shí)的算力限制。不過(guò)從工程角度來(lái)看,快慢系統(tǒng)會(huì)更復(fù)雜一些,因?yàn)槟K越多,工程量就越大。相比之下,完全端到端的架構(gòu)就簡(jiǎn)單得多,傳感器數(shù)據(jù)輸入后,中間全部交給 VLA 處理并直接輸出結(jié)果,沒有了快慢之分。

      這兩種架構(gòu)各有優(yōu)劣。完全端到端的上限更高,但它對(duì)數(shù)據(jù)的需求量極其龐大。分層式架構(gòu)目前的優(yōu)勢(shì)在于對(duì)數(shù)據(jù)的依賴程度沒那么高。因?yàn)?VLM 可以通過(guò)少量的針對(duì)性訓(xùn)練達(dá)到較好的語(yǔ)言規(guī)劃效果,開發(fā)者只需要專注于訓(xùn)練后面的動(dòng)作執(zhí)行模塊,甚至可以沿用傳統(tǒng)的控制模塊。就像我之前提到的打麻將機(jī)器人,它的快系統(tǒng)其實(shí)就是用傳統(tǒng)方法實(shí)現(xiàn)的。在目前數(shù)據(jù)保有量有限的情況下,分層式是一個(gè)比較合理的選擇。此外,分層式也更契合現(xiàn)在的智能體(Agent)或 MCP(多模型控制平臺(tái))架構(gòu),即由 VLM 充當(dāng)“大腦”進(jìn)行語(yǔ)言規(guī)劃,再由快系統(tǒng)中的各種動(dòng)作原子負(fù)責(zé)具體執(zhí)行。


      這是我們最近在做的一些探索,主要集中在分層式架構(gòu)上。之所以選擇這個(gè)方向,是因?yàn)槲矣X得目前純粹搞端到端方案其實(shí)已經(jīng)遇到了瓶頸。在數(shù)據(jù)量不夠的情況下,大家做出來(lái)的東西很難體現(xiàn)出差異化,落地也非常困難。因此,我們的思路是先把 VLM(視覺語(yǔ)言模型)的能力利用起來(lái),讓它作為一個(gè)調(diào)度大腦,也就是 Agent,去調(diào)用各種各樣的“動(dòng)作原子”。


      比如,駕駛可以被視為其中一個(gè)動(dòng)作原子,當(dāng)機(jī)器人需要執(zhí)行駕駛?cè)蝿?wù)時(shí),Agent 就調(diào)用駕駛模塊;收納也是一個(gè)原子,它由許多“抓取與放置”(Pick and Place)動(dòng)作組成。我們正在積累這些動(dòng)作原子,當(dāng)機(jī)器人面對(duì)復(fù)雜任務(wù)時(shí),就由 VLM Agent 來(lái)進(jìn)行任務(wù)分解和調(diào)度。這里面比較有挑戰(zhàn)性的地方在于任務(wù)之間的銜接,即如何準(zhǔn)確判斷當(dāng)前任務(wù)已經(jīng)完成并開始下一個(gè),以及當(dāng)任務(wù)出錯(cuò)時(shí),Agent 該如何調(diào)整調(diào)度流程。

      在開發(fā)動(dòng)作原子時(shí),我們走的是 VA(視覺 - 動(dòng)作)路線。我們發(fā)現(xiàn)現(xiàn)階段語(yǔ)言在具體動(dòng)作執(zhí)行中起到的作用其實(shí)非常有限,直接通過(guò) VA 實(shí)現(xiàn)反而更容易出效果。在方案設(shè)計(jì)上,我們選擇了純視覺方案,沒有使用 RGBD。這主要是從本質(zhì)原理考慮的,我們認(rèn)為視覺能力已經(jīng)足夠強(qiáng),人類也是靠雙眼來(lái)完成各種觀測(cè)任務(wù)的。后期的驗(yàn)證也證明,純視覺方案在魯棒性和遷移性上確實(shí)比點(diǎn)云方案更好。


      此外,我們?cè)谀P椭性黾恿?3D 感知信息。目前的 VLM 其實(shí)并不具備很強(qiáng)的空間理解能力,如果你去測(cè)試它,它很難給出物體準(zhǔn)確的方位、距離或復(fù)雜的幾何尺寸,因?yàn)樗挠?xùn)練數(shù)據(jù)里缺乏這些信息。而這些 3D 信息對(duì)于動(dòng)作的泛化性至關(guān)重要。如果能在一個(gè)統(tǒng)一的 3D 空間里進(jìn)行動(dòng)作規(guī)劃,泛化性會(huì)強(qiáng)很多。因此,我們?cè)诩軜?gòu)中增加了一個(gè) 3D 編碼器(Encoder)模塊。

      這里用到了今年 CVPR 的最佳論文 VGGT,這是一個(gè)用于三維重建的視覺基礎(chǔ)模型。我們知道,大模型正在改寫各個(gè)研究領(lǐng)域,原先的導(dǎo)航規(guī)劃現(xiàn)在變成了 VLN(視覺語(yǔ)言導(dǎo)航),原先的操作規(guī)劃和控制現(xiàn)在變成了 VLA。VGGT 則是三維重建領(lǐng)域的代表,它基于 Transformer 架構(gòu),效果已經(jīng)接近傳統(tǒng)的 COLMAP 等三維重建方法,潛力巨大。我們做的工作就是將 VGGT 預(yù)訓(xùn)練的 3D 相關(guān)特征提取出來(lái),接入到 VA 模型中。經(jīng)過(guò)驗(yàn)證,這種做法在魯棒性和效果上都超出了我們的預(yù)期。

      這是我們目前使用的模型架構(gòu),其中 VGGT 的編碼器部分負(fù)責(zé)生成特征。這些特征同時(shí)包含了語(yǔ)義信息和幾何信息,我們將其直接輸入模型以獲取結(jié)果。


      其實(shí)模型本身并不復(fù)雜,在 VLA 的落地開發(fā)中,大部分工作量并不在模型架構(gòu)上。通常情況下,模型部分的搭建兩三周就能搞定,而真正耗費(fèi)精力的是數(shù)據(jù)工作。對(duì)于具身智能而言,還涉及到機(jī)器人硬件適配、數(shù)據(jù)采集和實(shí)機(jī)測(cè)試,這部分工作量往往會(huì)占到總周期的三分之二甚至四分之三。

      目前具身智能開發(fā)的第一步通常是在仿真環(huán)境中進(jìn)行的。由于真實(shí)世界的有效數(shù)據(jù)非常稀缺,我們需要先在具有物理引擎的仿真器中采集數(shù)據(jù),驗(yàn)證模型的有效性。以“夾木塊”和“堆木塊”為例,這類任務(wù)在人類看來(lái)很簡(jiǎn)單,但對(duì)機(jī)器人來(lái)說(shuō)挑戰(zhàn)巨大,稍微有一點(diǎn)偏差就會(huì)導(dǎo)致失敗。我們將自己的方案與傳統(tǒng)算法進(jìn)行了對(duì)比:DP 是基于 2D 圖像輸入的擴(kuò)散策略算法,而 DP3 則是基于點(diǎn)云輸入的版本。在真機(jī)測(cè)試中,我們的方案成功率明顯更高,尤其在將木塊放入盤子的任務(wù)中,表現(xiàn)幾乎比 DP 翻了一倍。


      在測(cè)試 VLA 的過(guò)程中,我們發(fā)現(xiàn)“泛化性”是一個(gè)核心痛點(diǎn)。目前的 VLA 方案,比如 OpenVLA,在光照發(fā)生變化時(shí)表現(xiàn)得很脆弱。例如環(huán)境光線由暗變亮,任務(wù)可能就會(huì)失敗。但如果我們?cè)?VA 模型中引入 3D 幾何信息,系統(tǒng)就會(huì)表現(xiàn)出更好的魯棒性,而現(xiàn)有的主流方案在處理這類場(chǎng)景時(shí)依然容易失誤。

      當(dāng)我們通過(guò) VA 實(shí)現(xiàn)了這些動(dòng)作原子并建立起原子庫(kù)后,就可以利用 Agent 這種大腦角色進(jìn)行任務(wù)編排,從而完成長(zhǎng)程的復(fù)雜任務(wù)。這種做法的優(yōu)勢(shì)在于能充分利用現(xiàn)有 VLM 的推理能力。目前 VLM 在任務(wù)規(guī)劃上已經(jīng)非常成熟,比如你讓它規(guī)劃收納任務(wù),或者給它一張路口的照片問(wèn)它車輛該怎么開,它都能給出非常清晰的規(guī)劃指令,甚至?xí)嵝涯阕⒁獗茏屒懊娴拇罂ㄜ嚒,F(xiàn)在的核心挑戰(zhàn)在于,如何將這些高質(zhì)量的語(yǔ)言規(guī)劃準(zhǔn)確地傳遞給 VA 模塊去執(zhí)行動(dòng)作。

      只要能把這一步打通,整個(gè)任務(wù)鏈就能串聯(lián)起來(lái)。如右側(cè)表格所示,這是一個(gè)完整的閉環(huán)流程:我們需要識(shí)別任務(wù)是否已完成。例如通過(guò)增加標(biāo)志位來(lái)檢測(cè)當(dāng)前步驟的狀態(tài),如果任務(wù)完成,就調(diào)用下一個(gè)原子動(dòng)作;如果沒有完成,則返回重新執(zhí)行。這種典型的類似 MCP 的架構(gòu),是目前完成復(fù)雜長(zhǎng)程任務(wù)的有效路徑。

      這是另外一些實(shí)驗(yàn)效果的展示,包括積木在左手與右手之間的交接、一個(gè)盒子疊放到另一個(gè)盒子上,以及桌面的整理管理。在這些任務(wù)中,有些屬于復(fù)雜的長(zhǎng)程任務(wù),有些則是通過(guò) VA(視覺 - 動(dòng)作)模型直接實(shí)現(xiàn)的。目前來(lái)看,只要數(shù)據(jù)質(zhì)量足夠高且訓(xùn)練到位,機(jī)器人都能完成得比較好。此外,我們使用的機(jī)械臂采用了諧波減速器,精度較高,對(duì)于完成插拔這類精細(xì)任務(wù)來(lái)說(shuō)是完全夠用的。


      VLA 的數(shù)據(jù)方案

      接下來(lái)談?wù)剶?shù)據(jù)方案,這是目前具身智能行業(yè)最大的痛點(diǎn)。很多從自動(dòng)駕駛領(lǐng)域轉(zhuǎn)過(guò)來(lái)的同事會(huì)覺得,具身智能的數(shù)據(jù)基礎(chǔ)設(shè)施還處于非常原始的階段。目前行業(yè)內(nèi)數(shù)據(jù)采集主要有兩種方案:第一種是遙操作,這其中又包含很多細(xì)分技術(shù);第二種是仿真。關(guān)于到底是以仿真為主還是以真實(shí)數(shù)據(jù)為主,業(yè)內(nèi)一直存在路線之爭(zhēng)。但在我們看來(lái),真實(shí)數(shù)據(jù)是必不可少的,仿真數(shù)據(jù)如果做得好能起到很大作用,如果做得不好,可能只是錦上添花。

      在遙操作方面,主要有幾種技術(shù)路徑。第一種是慣性動(dòng)捕設(shè)備,通過(guò)讓采集人員穿上帶有 IMU 慣性傳感器的服裝,在運(yùn)動(dòng)時(shí)捕捉身體各關(guān)節(jié)的數(shù)據(jù)。這種方式的優(yōu)點(diǎn)是沒有視覺遮擋問(wèn)題,即使兩人擁抱也能采集到數(shù)據(jù);缺點(diǎn)是慣性傳感器存在漂移,時(shí)間久了精度會(huì)下降。目前特斯拉采集 Optimus 工廠數(shù)據(jù)時(shí),使用的就是這種慣性動(dòng)捕設(shè)備。第二種是光學(xué)動(dòng)捕設(shè)備,需要在空間內(nèi)安裝多個(gè)攝像頭,采集者穿戴貼滿 Marker 點(diǎn)的服裝。它的精度非常高,能達(dá)到亞毫米級(jí),但缺點(diǎn)是容易受遮擋影響,如果攝像頭沒捕捉到某些點(diǎn),后期就需要大量人工修補(bǔ)。


      還有一種常見的方式是外骨骼采集,即人帶著同構(gòu)或異構(gòu)的機(jī)械臂進(jìn)行操作。這種方式采集的數(shù)據(jù)幾乎是 1:1 復(fù)刻,數(shù)據(jù)有效率很高,但采集效率相對(duì)較低。上述這些方式現(xiàn)在統(tǒng)稱為“以人為中心”的數(shù)據(jù)采集,其最大的挑戰(zhàn)在于人的關(guān)節(jié)結(jié)構(gòu)與機(jī)器人并不一致,涉及到非常復(fù)雜的數(shù)據(jù)重定向(Retargeting)問(wèn)題,有些人的動(dòng)作不一定能直接遷移給機(jī)器人。最后是仿真數(shù)據(jù),目前它主要用于大規(guī)模數(shù)據(jù)生產(chǎn)和自動(dòng)化評(píng)測(cè)。當(dāng)模型訓(xùn)練完成后,如果想要進(jìn)行快速迭代測(cè)試,在仿真環(huán)境中進(jìn)行是最高效的選擇。

      在仿真環(huán)境的建設(shè)中,首先需要考慮的是資產(chǎn)庫(kù)的規(guī)模。仿真器本身只負(fù)責(zé)物理仿真和渲染,而具體的場(chǎng)景——無(wú)論是工廠環(huán)境還是桌面環(huán)境,以及執(zhí)行任務(wù)所需的各類物體,都需要豐富的資產(chǎn)支撐。這些資產(chǎn)的儲(chǔ)備是目前具身智能開發(fā)中的關(guān)鍵卡點(diǎn)。其次,物理仿真的質(zhì)量也至關(guān)重要。機(jī)器人與自動(dòng)駕駛不同,自動(dòng)駕駛的目標(biāo)是避免碰撞和接觸,而機(jī)器人執(zhí)行任務(wù)時(shí),時(shí)時(shí)刻刻都需要與物體發(fā)生物理交互。


      目前,像 MuJoCo 或 Isaac Gym 等成熟的仿真器在物理仿真方面表現(xiàn)較好。具身智能對(duì)傳感器的仿真模型支持要求極高,目前主流的仿真平臺(tái)包括我們與高校合作開發(fā)的成果,比如與上海交通大學(xué)合作的 RobotStudio,以及與清華大學(xué)合作的 DICOVERSE。此外,業(yè)界還有像 RoboVerse 等面向具身智能的仿真框架。以 DICOVERSE 為例,它的主要特點(diǎn)是具備“實(shí)對(duì)虛(Real-to-Sim)”再到“虛對(duì)實(shí)(Sim-to-Real)”的功能,通過(guò) 3D 高斯?jié)姙R(3DGS)技術(shù)完成環(huán)境重建后再進(jìn)行渲染,從而獲得極高的真實(shí)感,便于數(shù)據(jù)生成和模型測(cè)試。


      除了傳統(tǒng)的數(shù)字孿生技術(shù),我們最近還在嘗試一種新的方案。業(yè)界常說(shuō)的數(shù)字孿生追求的是對(duì)真實(shí)環(huán)境 1:1 的復(fù)刻,而我們提出了一個(gè)概念叫“數(shù)據(jù)表親”。其核心邏輯是,在很多訓(xùn)練場(chǎng)景下,我們并不一定需要完全一致的 1:1 復(fù)刻,只要仿真環(huán)境中能出現(xiàn)類似的物體,就能達(dá)到訓(xùn)練效果。

      目前,我們正針對(duì)桌面這類固定場(chǎng)景進(jìn)行開發(fā),通過(guò)輸入一張圖像或一段文字描述,利用生成式 AI 技術(shù)產(chǎn)生 3D 資產(chǎn)并構(gòu)建出三維場(chǎng)景。更重要的是,這些生成的場(chǎng)景都具備物理仿真屬性。正如我前面提到的,仿真器中數(shù)據(jù)資產(chǎn)的豐富程度決定了上限,而這種生成式的方法正是為了解決資產(chǎn)稀缺的問(wèn)題。


      這里舉了一些具體的例子。左邊是輸入的原始圖像,右邊是生成的 3D 場(chǎng)景。可以看到,雖然兩者并非完全一致,但物體基本上都實(shí)現(xiàn)了一一對(duì)應(yīng),這完全是通過(guò)大模型的方式生成的。在過(guò)去,如果我們要做這類物體重建,必須使用高精度激光掃描來(lái)生成 Mesh,那種方式效率很低,且復(fù)雜物體的 Mesh 重建難度極大。現(xiàn)在得益于底層 3D 生成式大模型的發(fā)展,我們可以比較容易地生成這些高精度、高逼真度的 3D 模型。


      VLA 模型的量化部署

      關(guān)于模型量化與部署,這是工程實(shí)踐中非常關(guān)鍵的一環(huán)。在 GPU 上訓(xùn)練模型時(shí),為了保證精度,通常使用 Float 32 或 FP16 等數(shù)據(jù)類型。但在推理階段,這些類型的存儲(chǔ)代價(jià)太高。舉個(gè)簡(jiǎn)單例子,一個(gè) 1B(十億參數(shù))的模型,如果量化為 4 比特或 8 比特,模型大小約為 1GB 左右;若使用 Float 32,則需要 4GB。這會(huì)極大影響端側(cè)的運(yùn)行效率。因此,目前在端上運(yùn)行時(shí),都需要將模型量化并遷移到 ASIC(專用集成電路)上。目前主流的 VLM 量化方式通常是量化到 4 比特,且性能損失較小。通常芯片供應(yīng)商會(huì)提供成熟的工具鏈來(lái)完成這種轉(zhuǎn)換。在 VLA 中,量化的主要挑戰(zhàn)在于擴(kuò)散策略(Diffusion Policy)部分,因?yàn)樗枰獦O高精度的姿態(tài)信息。在實(shí)際部署時(shí),往往需要采用異構(gòu)部署方案,根據(jù)任務(wù)特性將不同模塊分配到 AI 加速器、CPU 或 DSP 上運(yùn)行。


      部署流程本質(zhì)上是一個(gè)數(shù)據(jù)映射的過(guò)程,即將浮點(diǎn)數(shù)類型映射到 INT8 或 INT4 上。這個(gè)過(guò)程需要使用部分?jǐn)?shù)據(jù)進(jìn)行模型校準(zhǔn),觀察映射后是否存在精度大幅下降(掉點(diǎn))的情況。這些都是工具鏈提供的標(biāo)準(zhǔn)化處理流程。如果量化后性能無(wú)法滿足要求,就必須回頭重新修改模型結(jié)構(gòu)。

      總結(jié)與展望

      總結(jié)來(lái)看,我們介紹了從數(shù)據(jù)采集、模型設(shè)計(jì)、訓(xùn)練到最終部署的完整開發(fā)過(guò)程。目前的現(xiàn)狀是,整個(gè) VLA 領(lǐng)域仍處于非常早期的階段。首先是缺少高質(zhì)量的數(shù)據(jù),且機(jī)器人本體目前極不標(biāo)準(zhǔn);其次模型結(jié)構(gòu)尚不成熟,直接將 VLM 映射到 Action 這種“頭重腳輕”的形式,難以建立起穩(wěn)固的連接;最后是硬件本體的局限,目前市面上的機(jī)器人硬件還不足以支持完成各種復(fù)雜任務(wù)。一個(gè)驗(yàn)證標(biāo)準(zhǔn)是:即使在有人類遙操作的情況下,很多任務(wù)都不一定能順利完成。

      展望未來(lái),有兩個(gè)重要的探索方向。模型層面,大家正在嘗試引入觸覺信息、強(qiáng)化學(xué)習(xí)等技術(shù)。因?yàn)閯?dòng)作軌跡的訓(xùn)練不能僅靠簡(jiǎn)單的回歸損失函數(shù)來(lái)完成,強(qiáng)化學(xué)習(xí)可以通過(guò)稀疏獎(jiǎng)勵(lì)(比如只告訴模型結(jié)果的好壞)來(lái)訓(xùn)練模型。此外,世界模型(World Model)也處于預(yù)研階段,重點(diǎn)在于 3D 空間表達(dá)、記憶信息和思維鏈,我們認(rèn)為這是改造 VLA 最關(guān)鍵的點(diǎn)。

      我認(rèn)為 VLA 要實(shí)現(xiàn)量產(chǎn),除了端側(cè)模型本身,更多的精力應(yīng)該放在構(gòu)建數(shù)據(jù)閉環(huán)上。現(xiàn)在的具身智能其實(shí)很像 Robotaxi。Robotaxi 在行駛中不能有人干預(yù),但遇到困難時(shí)需要云端接管,隨著技術(shù)進(jìn)步,接管次數(shù)會(huì)逐漸降低,智能化隨之提高。機(jī)器人也是如此,如果工作時(shí)旁邊必須有人,其商業(yè)模式就無(wú)法成立。因此,我們可以借鑒 Robotaxi 的路線:先通過(guò)人工遙操作讓機(jī)器人進(jìn)入實(shí)際場(chǎng)景工作,在這一過(guò)程中收集大量數(shù)據(jù),隨著自動(dòng)化程度的提升逐漸減少遙操作頻率,最終實(shí)現(xiàn)真正的自主化。

      演講嘉賓介紹

      隋偉博士,現(xiàn)任地瓜機(jī)器人算法副總裁。

      2011 年,他于北京航空航天大學(xué)探測(cè)制導(dǎo)與控制技術(shù)專業(yè)畢業(yè),之后進(jìn)入中科院自動(dòng)化研究所深造,并取得博士學(xué)位,其研究方向?yàn)槟J阶R(shí)別與智能系統(tǒng)。

      2016 年 7 月博士畢業(yè)后,擔(dān)任模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室助理研究員,負(fù)責(zé) 3D 視覺感知方向的研發(fā)工作。

      2019 年 1 月隋偉博士加入地平線,任高級(jí)算法工程師,主要負(fù)責(zé)機(jī)器人和自動(dòng)駕駛場(chǎng)景下,基于旭日和征程系列芯片的 2.5D 及 3D 視覺算法研發(fā)。2020 年 12 月 - 2023 年 12 月,任研發(fā)總監(jiān),帶領(lǐng)團(tuán)隊(duì)(30 人)成功開發(fā)了地平線高階自動(dòng)駕駛 BEV 感知方案,并且搭建了國(guó)內(nèi)首套最為完備且先進(jìn)的 4D Label 標(biāo)注系統(tǒng)。目前旭日系列芯片出貨量已達(dá)數(shù)百萬(wàn)片,BEV 感知方案也已在多個(gè)車型上定點(diǎn)量產(chǎn),為自動(dòng)駕駛領(lǐng)域的發(fā)展做出了重要貢獻(xiàn)。隋偉博士在 ICRA、IROS、CVPR、TIP、TVCG 等國(guó)內(nèi)外知名期刊和會(huì)議上先后發(fā)表學(xué)術(shù)論文 20 余篇,擁有專利 40 多項(xiàng)。此外,他長(zhǎng)期擔(dān)任 ICRA、IROS 等機(jī)器人會(huì)議的審稿人,同時(shí)擔(dān)任《智能駕駛和機(jī)器視覺》《智能駕駛與多維重建》等自動(dòng)駕駛相關(guān)著作的主編。

      2023 年 11 月至今任地瓜機(jī)器人算法 VP ,負(fù)責(zé)面向消費(fèi)機(jī)器人和具身智能的軟件算法方案研發(fā)。

      會(huì)議推薦

      OpenClaw 出圈,“養(yǎng)蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態(tài)迅速普及:多入口對(duì)話、持久記憶、Skills 工具鏈帶來(lái)強(qiáng)大生產(chǎn)力。但這背后也暴露了工程化落地的真實(shí)難題——權(quán)限邊界與隔離運(yùn)行、Skills 供應(yīng)鏈安全、可觀測(cè)與可追溯、記憶分層與跨場(chǎng)景污染、以及如何把 Agent 納入團(tuán)隊(duì)研發(fā) / 運(yùn)維流程并形成穩(wěn)定收益。

      針對(duì)這一系列挑戰(zhàn),在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態(tài)實(shí)踐」專題,將聚焦一線實(shí)踐與踩坑復(fù)盤,分享企業(yè)如何構(gòu)建私有 Skills、制定安全護(hù)欄、搭建審計(jì)與回放機(jī)制、建立質(zhì)量 / 效率指標(biāo)體系,最終把自托管 Agent 從可用的 Demo 升級(jí)為可靠的生產(chǎn)系統(tǒng)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      別再吹凱特王妃的顏值了!那身綠裙子是命令,查爾斯就是段子手

      別再吹凱特王妃的顏值了!那身綠裙子是命令,查爾斯就是段子手

      西樓知趣雜談
      2026-03-20 12:00:59
      伊朗,突然大漲!

      伊朗,突然大漲!

      中國(guó)基金報(bào)
      2026-03-22 00:10:44
      你聽過(guò)最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

      你聽過(guò)最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

      帶你感受人間冷暖
      2025-11-26 00:10:06
      學(xué)醫(yī)后才知道,腦梗最危險(xiǎn)信號(hào),不是手腳麻,而是頻繁出現(xiàn)4癥狀

      學(xué)醫(yī)后才知道,腦梗最危險(xiǎn)信號(hào),不是手腳麻,而是頻繁出現(xiàn)4癥狀

      路醫(yī)生健康科普
      2026-03-21 18:25:03
      今年大反常!老百姓為何不再關(guān)心房?jī)r(jià)和國(guó)際局勢(shì)?答案讓人震驚!

      今年大反常!老百姓為何不再關(guān)心房?jī)r(jià)和國(guó)際局勢(shì)?答案讓人震驚!

      新國(guó)學(xué)文化
      2026-03-20 14:20:55
      沖著顏值和肉體,也要去看這部Starz美劇

      沖著顏值和肉體,也要去看這部Starz美劇

      來(lái)看美劇
      2026-03-21 19:00:27
      皮爾洛評(píng)心目中最佳11人名單,把足球交給天才,其余人負(fù)責(zé)善后

      皮爾洛評(píng)心目中最佳11人名單,把足球交給天才,其余人負(fù)責(zé)善后

      替補(bǔ)席懂王
      2026-02-18 20:55:33
      710km純電!比亞迪新車官宣:3月26日,正式上市

      710km純電!比亞迪新車官宣:3月26日,正式上市

      T科技衍生
      2026-03-22 00:17:11
      俄軍在萊曼方向大敗!春季攻勢(shì)開戰(zhàn)不利

      俄軍在萊曼方向大敗!春季攻勢(shì)開戰(zhàn)不利

      知兵
      2026-03-21 23:51:38
      婆婆私自拿我100萬(wàn)跟團(tuán)旅游,我正準(zhǔn)備離婚,旅游團(tuán)發(fā)來(lái)意外信息

      婆婆私自拿我100萬(wàn)跟團(tuán)旅游,我正準(zhǔn)備離婚,旅游團(tuán)發(fā)來(lái)意外信息

      奶茶麥子
      2026-03-21 22:14:12
      馬士基接巴拿馬港口運(yùn)營(yíng)權(quán),會(huì)影響在華造船訂單嗎?

      馬士基接巴拿馬港口運(yùn)營(yíng)權(quán),會(huì)影響在華造船訂單嗎?

      趣味萌寵的日常
      2026-03-22 01:16:38
      醒醒吧!就算臺(tái)灣愿意和平回歸,臺(tái)灣也不可能允許解放軍對(duì)臺(tái)駐軍

      醒醒吧!就算臺(tái)灣愿意和平回歸,臺(tái)灣也不可能允許解放軍對(duì)臺(tái)駐軍

      興史興談
      2026-03-19 15:33:38
      滬指破4000點(diǎn)!股民滿倉(cāng)航天發(fā)展虧10.9萬(wàn),撐不住了

      滬指破4000點(diǎn)!股民滿倉(cāng)航天發(fā)展虧10.9萬(wàn),撐不住了

      財(cái)經(jīng)智多星
      2026-03-21 08:12:09
      “多數(shù)立陶宛人都后悔了”

      “多數(shù)立陶宛人都后悔了”

      觀察者網(wǎng)
      2026-03-21 20:50:48
      廣東東莞工廠驚喜漲薪,底薪從2080大漲到2300,時(shí)薪超過(guò)13.22元

      廣東東莞工廠驚喜漲薪,底薪從2080大漲到2300,時(shí)薪超過(guò)13.22元

      搗蛋窩
      2026-03-18 12:36:04
      弟妹發(fā)消息,催我裝修新房,我問(wèn)為啥,她:你侄子上高中要住

      弟妹發(fā)消息,催我裝修新房,我問(wèn)為啥,她:你侄子上高中要住

      黑貓故事所
      2025-08-11 22:00:35
      重慶455萬(wàn)畝油菜花驚艷全球!馬斯克稱贊“春意滿滿”

      重慶455萬(wàn)畝油菜花驚艷全球!馬斯克稱贊“春意滿滿”

      上游新聞
      2026-03-20 17:24:22
      三星堆不是沒法解釋,而是不好解釋:再挖下去《山海經(jīng)》就成真了

      三星堆不是沒法解釋,而是不好解釋:再挖下去《山海經(jīng)》就成真了

      興趣知識(shí)
      2026-03-14 15:10:29
      新手媽媽馬筱梅將奶瓶隨手一丟,幫兒子拍嗝,動(dòng)作嫻熟,很可愛

      新手媽媽馬筱梅將奶瓶隨手一丟,幫兒子拍嗝,動(dòng)作嫻熟,很可愛

      絢麗的畫卷
      2026-03-18 12:10:58
      美國(guó)不敢公布的馬航內(nèi)幕:特工隨行,頂級(jí)專家失蹤,美女意外死亡

      美國(guó)不敢公布的馬航內(nèi)幕:特工隨行,頂級(jí)專家失蹤,美女意外死亡

      可兒故事匯
      2024-09-16 01:53:56
      2026-03-22 03:59:00
      InfoQ incentive-icons
      InfoQ
      有內(nèi)容的技術(shù)社區(qū)媒體
      12188文章數(shù) 51814關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機(jī)器人出貨量第一!

      頭條要聞

      伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

      頭條要聞

      伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

      體育要聞

      誰(shuí)在決定字母哥未來(lái)?

      娛樂(lè)要聞

      田栩?qū)幗K于涼了?出軌風(fēng)波影響惡劣

      財(cái)經(jīng)要聞

      通脹警報(bào)拉響,加息潮要來(lái)了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年?duì)I收767億

      態(tài)度原創(chuàng)

      游戲
      教育
      本地
      藝術(shù)
      軍事航空

      魔獸世界:時(shí)光服P3階段將至,新手該練什么職業(yè),這個(gè)很重要!

      教育要聞

      南師附中舉行2026年31公里步行者行動(dòng)

      本地新聞

      春色滿城關(guān)不住|紹興春日頂流,這片櫻花海藏不住了

      藝術(shù)要聞

      斯托揚(yáng)畫作:她們的眼神能勾動(dòng)你的心!

      軍事要聞

      特朗普:正考慮逐步降級(jí)對(duì)伊朗的軍事行動(dòng)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版