<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      至簡動力賈鵬:用「極簡」架構,讓機器人20分鐘即達100%成功率

      0
      分享至

      人物簡介

      賈鵬|至簡動力創(chuàng)始人兼CEO,曾任理想汽車智駕技術研發(fā)負責人,主導多項關鍵技術研發(fā)。此前在英偉達、IBM任職,經(jīng)驗深厚。2025年他進入具身智能領域,創(chuàng)立至簡動力,提出創(chuàng)新架構,半年獲五輪20億融資。

      在近日舉辦的GTC上,賈鵬以新身份首次深入剖析了具身智能通用能力與工業(yè)高要求之間的矛盾,并重點分享了至簡動力在基座模型上的突破性實踐——基于「大一統(tǒng)」的基座模型架構,其團隊已可實現(xiàn)在短短20分鐘內(nèi),實現(xiàn)下游任務100%的成功率。

      骨感現(xiàn)實中的巨大鴻溝

      在具身智能實際的落地過程中,存在一個巨大的現(xiàn)實鴻溝目前具身智能的整體泛化能力比較差,尤其在靈巧操作任務上,幾乎沒有任何泛化能力可言,大多數(shù)場景中都存在落地難題。

      為了制作Demo,大家往往會針對單一任務大量采集數(shù)據(jù)。可即便如此,很多精細操作任務的成功率也難以提高。與此相對的是,在工廠等應用場景中,只有達到100%的成功率,才能真正形成生產(chǎn)力,對用戶產(chǎn)生價值。

      “通用能力的不足與用戶的高要求之間存在著巨大鴻溝,這也是具身智能發(fā)展至今仍未大規(guī)模落地的真正原因。”

      賈鵬介紹稱,至簡動力(Simplexity Robotics)希望以極簡架構破解復雜難題——通過打造簡單統(tǒng)一的底層框架,致力于讓通用基座模型兼具「高泛化性」與「100%任務成功率」,跨越落地鴻溝,形成真正的工業(yè)生產(chǎn)力。

      要想達成這一目標,需要在四個方面努力:

      1、構建高上限的基礎模型;2、更高效的數(shù)據(jù)采集方式;3、確保模型能快速達到100%的成功率;4、實現(xiàn)端側的實時推理和訓練



      他尤其指出,很多工廠對節(jié)拍和延時有非常高的要求,系統(tǒng)必須具備實時的推理能力。同時,很多工廠因為保密原因不允許接入外網(wǎng),因此具身模型必須部署在端側,這極具挑戰(zhàn)。

      三大技術流派的利與弊

      賈鵬介紹稱,目前具身智能模型的技術路線并不收斂,行業(yè)內(nèi)還存在路線之爭,主要分為以下三個流派:

      1、雙系統(tǒng)范式:利用一個較大的VLM進行指令的理解和任務的拆解,再通過一個較小的、端到端的VLA模型做快速的執(zhí)行。

      2、端到端的VLA模型:它將指令理解、任務拆解以及動作生成合為一個整體,端到端地去完成任務。

      3、世界模型:這是最近比較熱門的路線,它不再以傳統(tǒng)的VLM作為基礎,而是基于視頻生成模型或者是高斯?jié)姙R生成模型,實現(xiàn)對世界的理解、預測以及動作的生成。



      這三條路線都有各自的優(yōu)勢和不足。

      1、雙系統(tǒng)基于VLM對任務的拆解和調(diào)度,其優(yōu)點是可以處理長程任務。但由于雙系統(tǒng)是由兩個不同的模型構成的,二者運行幀率不同,因此協(xié)同與聯(lián)合訓練都非常困難。

      “事實上,我們團隊是全球最早提出并量產(chǎn)雙系統(tǒng)的團隊,因此踩過非常多的坑。”

      2、端到端VLA模型普遍基于預訓練的VLM去做具身的指令微調(diào)。在此過程中,大家都發(fā)現(xiàn)災難性遺忘是不可避免的:第一是視覺能力的遺忘,第二是語言的思維鏈(CoT)能力的遺忘。

      “行業(yè)已普遍認為視覺是具身智能中最重要的模態(tài),那么一旦視覺識別能力下降,對靈巧操作的影響就非常大。因此,很多VLA模型訓練出來之后,泛化能力幾乎為零。”

      3、世界模型相對于雙系統(tǒng)和端到端VLA,是一個巨大的范式變化——它從「以語言為中心」轉向「以視覺為中心」、從「以理解為主」轉向「以生成為主」。

      不過,該方法同樣伴隨著語言中的幻覺問題。所以目前世界模型在靈巧操作上的性能并沒有超過VLA。同時它還有一個劣勢,就是對算力的要求非常高

      基座模型的「大一統(tǒng)」設計哲學

      在此背景下,至簡動力認為,所有的模型設計都應追求結構簡單。隨著數(shù)據(jù)的增加,這種沒有太多人為先驗設計的結構,上限反而會更高。

      首先賈鵬認為,具身基礎模型需要四種能力:

      1、多模態(tài)理解與建構:它需要對語言指令、任務邏輯、3D空間及其時序變化以及本體自身的狀態(tài)進行統(tǒng)一的理解和建構,這意味著模型的輸入天生就是多模態(tài)的,而且多模態(tài)之間必須進行統(tǒng)一的建模和編碼,而非簡單的跨模態(tài)對齊。

      2、閉環(huán)交互與多模態(tài)生成:模型在理解指令和任務的基礎之上,需要與世界進行交互,而這個交互一定是閉環(huán)的——動作會改變世界,同時世界的變化也會影響動作。這就意味著需要同時對世界的變化和動作進行聯(lián)合生成和預測,所以模型的輸出也是多模態(tài)的

      3、快慢思考:模型對實時性的要求非常高,所以其結構必須非常適合端側的推理。但僅僅是條件反射式的響應還是不夠的,它需要具備在關鍵時刻深入思考的能力,并且能根據(jù)工況自適應地調(diào)整思考的速度。

      4、自我評估與調(diào)整:模型還需要具備對自身狀態(tài)作出評估的能力,并且根據(jù)評估的狀態(tài)調(diào)整動作的生成。

      綜上所述,這樣的模型實際上綜合了雙系統(tǒng)、端到端VLA和世界模型的所有優(yōu)點。“所以,未來通用的具身基座模型,一定是一個大一統(tǒng)的模型。”所謂「大一統(tǒng)」,是四個方面的一體化:

      ?多模態(tài)理解的一體化、多模態(tài)生成的一體化、快慢思考的一體化,以及策略(Policy)和價值(Critic)的一體化。

      “我們心目的大一統(tǒng)模型,是只使用單一的Transformer網(wǎng)絡,就能實現(xiàn)多模態(tài)的理解和生成。但是對于我們至簡這樣的初創(chuàng)團隊來說,從零訓練一個原生多模態(tài)的模型是非常困難的。”

      在此背景下,至簡破局的方法是采用MoT (Mixture-of-Transformer)架構。這是一種在已有模型之上實現(xiàn)原生多模態(tài)能力的架構,其核心思想是,讓不同的模態(tài)通過共享的attention層層實現(xiàn)跨模態(tài)的信息交互。



      “它的輸入被統(tǒng)一為Token序列,不同模態(tài)保留獨立的QKV和FFN網(wǎng)絡,但是通過共享的attention層進行聯(lián)合建模。”

      相比于從零訓練原生多模態(tài)模型,MoT的優(yōu)勢在于它可以復用已有的單模態(tài)預訓練模型,成本非常低。此外,它可以靈活擴展新模態(tài),便于靈巧操作的拓展。

      同時,通過實踐,至簡團隊發(fā)現(xiàn)擴散模型在3D動作生成的效果上明顯優(yōu)于自回歸模型。而由于MoT的不同子網(wǎng)絡可采用不同的訓練目標,所以它天然兼容了自回歸和擴散兩種生成方式。

      至簡基座模型LaST?

      賈鵬介紹稱,至簡動力的具身基座模型LaST?,將理解和生成合一,引入了高效的時空多模態(tài)CoT,將VLA和世界模型的優(yōu)點結合在一起,在緊湊的隱空間中對物理世界進行建模和預測。

      在隱空間(Latent space)中,LaST?會同時自回歸地預測二維圖像、三維點云以及本體的感知狀態(tài),實現(xiàn)了多模態(tài)的思維鏈,獲得優(yōu)秀的空間推理能力。同時,多模態(tài)的時空CoT也被擴展到未來的關鍵幀上,實現(xiàn)了時序上的預測和生成。

      經(jīng)過大規(guī)模的預訓練,MoT實現(xiàn)了在快慢系統(tǒng)的統(tǒng)一架構中自主切換,有效地實現(xiàn)了深度思考與快速響應之間的無縫交互,從而實現(xiàn)了更高的推理效率,并保證了高幀率、低延時的要求。



      至簡團隊在仿真任務和真實場景上評估了LaST?的效率。結果顯示,在仿真和真實場景中,LaST?均實現(xiàn)了SOTA,大幅超越了之前的基座模型,同時比顯式的CoT方法實現(xiàn)了約14倍的加速。

      在長程任務中,LaST?也具備很好的容錯能力,即使中間被故意打斷,它也能從錯誤中快速恢復。

      「每個模態(tài)僅需一個Token」

      “我們發(fā)現(xiàn),2D視覺語義、3D空間結構以及機器人自身狀態(tài)都需納入考量——模態(tài)越豐富,精細操作成功率越高。由此,多模態(tài)建模產(chǎn)生的大量Token引發(fā)業(yè)界擔憂,因其或許會降低模型推理效率。”

      但賈鵬指出,實際上,每個模態(tài)僅需一個Token,再增加Token也并不會顯著提高成功率。



      “我們還發(fā)現(xiàn),持續(xù)預測幀數(shù)越多,模型效果越好。不過,實際部署中,不同難度任務所需的預測時長不同。通過大規(guī)模預訓練,模型能自適應調(diào)整預測時長,以最佳推理速度完成任務,這實現(xiàn)了另一種形式的快慢系統(tǒng)。

      根據(jù)評估結果,LaST?在真實和仿真場景中均達SOTA水平,遠超之前基座模型,且比顯式CoT方法加速約14倍。長程任務中,LaST?容錯能力強,即便中間被打斷,也能快速從錯誤中恢復。



      如何應對「災難性遺忘」?

      在上文提到的「VLM具身微調(diào)的災難性遺忘」問題中,影響最大的是視覺能力的遺忘。可以發(fā)現(xiàn),隨著VLM模型層數(shù)的加深,視覺特征會逐漸減弱甚至消失。

      相比之下,MoT是個非常靈活的架構,可以將視覺特征注入到更深層的Transformer層中,大幅提升模型性能。

      在評估實驗中,LaST?模型僅通過數(shù)十條數(shù)據(jù)就能實現(xiàn)煎雞蛋、盛爆米花,甚至使用筷子這樣復雜的操作。

      其中一個案例展示是「3D樂高積木搭建」——先由人搭建積木,并故意遮擋攝像頭,不讓模型看到人是拼搭過程。之后模型會根據(jù)最終狀態(tài)和空白時的初始狀態(tài),推理出整個搭建過程,并驅(qū)動機械臂復刻出相同的形狀。



      “它有自己的思路,搭建過程可能跟人完全不同。我們通過語言的思維鏈描述搭建邏輯和過程,并最終通過動作生成實現(xiàn)積木拼搭。”

      數(shù)據(jù)規(guī)模化的最佳方案

      目前行業(yè)獲取數(shù)據(jù)有以下幾種方法:

      1、合成數(shù)據(jù):可以快速實現(xiàn)數(shù)據(jù)的規(guī)模化,但在柔性物體、可變形物體、透明物體和流體的模擬上存在不足,對觸覺、力覺的模擬上也有所欠缺,無法滿足落地的需求。

      2、真機數(shù)據(jù)采集:真機采集和真實任務的Domain Gap是最小的,但是效率非常低下。

      3、遙操作:這種半真機采集效率非常高,但其硬件往往需要末端執(zhí)行器和真機保持一致,大大地限制了使用范圍。

      4、Ego-centric數(shù)據(jù):基于人類第一視角的視頻,數(shù)據(jù)來源非常廣泛。但實踐下來,此類數(shù)據(jù)質(zhì)量并不高,在需要力、觸覺等精細操作的場景下,僅僅依靠視頻是不夠的。

      至簡動力選擇的是便攜式手套進行數(shù)據(jù)采集。它既能保證數(shù)據(jù)采集的效率,也能保證數(shù)據(jù)的質(zhì)量,同時還能很方便地擴展到更多的模態(tài),比如說觸覺、力覺等等。



      我們認為這是目前數(shù)據(jù)規(guī)模化的最佳方案。這些數(shù)據(jù)不僅可以適配到不同形態(tài)的靈巧手上,同時也能適配到二指和三指夾爪上。”

      針對垂直領域任務,高質(zhì)量的SFT數(shù)據(jù)至關重要。在工廠落地場景中,傳統(tǒng)真機采集往往是不可行的。相比之下,便攜式數(shù)據(jù)手套不僅不影響正常作業(yè),還能通過額外收益提升工人配合度。實踐證明,這種高精度的人手采集數(shù)據(jù)完全能滿足SFT對數(shù)據(jù)質(zhì)量的嚴苛要求,顯著提升了模型在下游任務中的抓取精度與成功率。

      強化學習

      從99%到100%的最后一公里

      如何讓一個通用模型在單一任務上實現(xiàn)100%的成功率?強化學習(RL)已經(jīng)成為行業(yè)共識,但它也存在兩大問題:

      1、效率極其低下:具身的強化學習監(jiān)督信號非常稀疏,往往只有動作完成和未完成兩種結果。為了增加過程監(jiān)督信號,大家往往通過人工干預提供稠密的Reward信號,但隨之而來的負面問題是效率極其低下。

      2、容易過擬合:經(jīng)過強化學習之后,模型往往失去了泛化性,過擬合到了單一場景,甚至只是小幅度地挪動一下目標物體的位置,模型都會失效。

      賈鵬團隊發(fā)現(xiàn),強化學習,尤其是RLVR,并不會創(chuàng)造新的知識,它只是重新調(diào)整了模型輸出的概率分布,強化學習的能力上限仍然是由基座模型的能力決定的。



      為解決RL問題,至簡動力采取了虛實結合的方法,提出了Twin-RL框架。

      “我們通過3D GS(高斯?jié)姙R)把場景重建為虛擬的數(shù)字孿生。在虛擬環(huán)境中,訓練的并非具體操作,而是放大模型的探索空間,并且通過并行訓練大幅提升探索的效率。另一方面,我們可以鎖定模型更容易出錯的位置,來指導真機的強化學習,提升效率。”

      同時,當前的強化學習大多數(shù)都是針對動作(Action)的強化,但是Action往往只有成功和失敗兩種狀態(tài),監(jiān)督十分稀疏。而至簡動力的基座模型具備了稠密的時空特征,可以針對過程中的特征進行更加稠密和更加高效的強化訓練。



      基于此,至簡也提出了DoubleRL強化學習框架,在特征生成和動作生成兩個層面進行雙重的強化學習,效果和效率進一步提升。

      “在大多數(shù)下游任務中,我們都可以在20分鐘內(nèi)實現(xiàn)100%的成功率,而且這個成功率是具備泛化性的成功率,在任意位置都能達到100%。”



      由此看來,至簡動力已經(jīng)形成了一套行之有效的方法論:更高上限的一體化模型、更高效的數(shù)據(jù)采集方式、更高效的強化學習框架、端側的推理引擎和訓練框架。通過這套方法論,至簡可以在保證模型泛化性的同時,在最短的時間內(nèi)實現(xiàn)單一任務的100%成功率。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國民黨政要被安裝追蹤器監(jiān)聽,“現(xiàn)在不只有東廠、西廠,還有錦衣衛(wèi)。”

      國民黨政要被安裝追蹤器監(jiān)聽,“現(xiàn)在不只有東廠、西廠,還有錦衣衛(wèi)。”

      樞密院十號
      2026-04-16 22:13:44
      英國灰海豹開始捕食海豚,原因不明,專家推測是個別雄海豹自創(chuàng)的

      英國灰海豹開始捕食海豚,原因不明,專家推測是個別雄海豹自創(chuàng)的

      怪羅
      2026-04-15 10:28:17
      女人見相親男衣著寒酸,點了2000元酒菜,結賬時一句老板,她付錢

      女人見相親男衣著寒酸,點了2000元酒菜,結賬時一句老板,她付錢

      風起見你
      2026-04-16 16:11:40
      浙大名嘴揭開殘酷真相:當年恒大倒臺,壓根不是因為2萬億負債!

      浙大名嘴揭開殘酷真相:當年恒大倒臺,壓根不是因為2萬億負債!

      阿器談史
      2026-04-02 13:31:44
      一艘中方貨輪遭導彈襲擊?巴基斯坦海軍緊急出動,難道美軍出手了

      一艘中方貨輪遭導彈襲擊?巴基斯坦海軍緊急出動,難道美軍出手了

      安安說
      2026-04-17 11:28:27
      采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

      采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

      千秋文化
      2026-04-15 20:18:32
      巴拿馬求饒也沒用,中國再出手!要求兩家巨頭立刻退出港口運營

      巴拿馬求饒也沒用,中國再出手!要求兩家巨頭立刻退出港口運營

      諦聽骨語本尊
      2026-04-16 14:44:41
      才20天!蔡正元頭發(fā)全白,邱毅探監(jiān)淚目:里面太苦

      才20天!蔡正元頭發(fā)全白,邱毅探監(jiān)淚目:里面太苦

      小影的娛樂
      2026-04-17 04:47:49
      我的天哪,劉亦菲還穿過這么暴露的衣服啊

      我的天哪,劉亦菲還穿過這么暴露的衣服啊

      陳意小可愛
      2026-04-16 01:19:30
      第一次和男友同居:我直接震驚,原來男女私下這么可愛到犯規(guī)

      第一次和男友同居:我直接震驚,原來男女私下這么可愛到犯規(guī)

      熱心市民小黃
      2026-04-17 13:07:02
      人民的名義:高小琴出獄后重返孤鷹嶺,從石縫里摸出了一個U盤

      人民的名義:高小琴出獄后重返孤鷹嶺,從石縫里摸出了一個U盤

      清茶淺談
      2026-03-08 00:50:03
      今天才知道,為啥鵝蛋很少有人吃?為啥賣鵝蛋的人很少?漲知識

      今天才知道,為啥鵝蛋很少有人吃?為啥賣鵝蛋的人很少?漲知識

      阿龍美食記
      2026-04-12 15:01:18
      烏克蘭:悔到腸子青,當年賣給中國的三架“廢鐵”,今成大國重器

      烏克蘭:悔到腸子青,當年賣給中國的三架“廢鐵”,今成大國重器

      瘋狂的小歷史
      2026-04-17 11:12:10
      馬筱梅與玥箖割席后將搬走,深夜被氣哭,張?zhí)m做了兩件事為她撐腰

      馬筱梅與玥箖割席后將搬走,深夜被氣哭,張?zhí)m做了兩件事為她撐腰

      梁蜱愛玩車
      2026-04-15 16:11:53
      零跑曹力談D19定價:堅持成本定價,但肯定不會虧錢造車,會守護合理的毛利率

      零跑曹力談D19定價:堅持成本定價,但肯定不會虧錢造車,會守護合理的毛利率

      新浪財經(jīng)
      2026-04-16 22:53:18
      24歲王欣瑜快哭了!4天3賽徹底累趴:3-5落后傷退 為離譜失誤買單

      24歲王欣瑜快哭了!4天3賽徹底累趴:3-5落后傷退 為離譜失誤買單

      風過鄉(xiāng)
      2026-04-17 06:42:14
      突發(fā)!底薪招募詹姆斯???

      突發(fā)!底薪招募詹姆斯???

      左右為籃
      2026-04-17 12:34:20
      11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個孩子

      11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個孩子

      半糖甜而不膩
      2026-04-06 12:09:15
      國家免費電視全面落地,5分鐘實置,終身不用再花收視費

      國家免費電視全面落地,5分鐘實置,終身不用再花收視費

      小柱解說游戲
      2026-04-17 10:54:15
      為啥有錢人屋檐難見燕子?老輩人說:燕子來家,是在提醒你3件事

      為啥有錢人屋檐難見燕子?老輩人說:燕子來家,是在提醒你3件事

      老特有話說
      2026-04-13 14:45:52
      2026-04-17 13:40:49
      RoboX
      RoboX
      關注智能汽車、機器人在內(nèi)的具身智能前沿科技
      237文章數(shù) 2關注度
      往期回顧 全部

      科技要聞

      Anthropic推出Opus 4.7,坦言依不及Mythos

      頭條要聞

      特朗普強推后被迫對黎巴嫩停火 以色列被指成"犧牲品"

      頭條要聞

      特朗普強推后被迫對黎巴嫩停火 以色列被指成"犧牲品"

      體育要聞

      贏下快船,這場很庫里,很格林,很科爾

      娛樂要聞

      劉德華摯友潘宏彬離世 曾一起租房住

      財經(jīng)要聞

      海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

      汽車要聞

      又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅(qū)

      態(tài)度原創(chuàng)

      教育
      旅游
      游戲
      公開課
      軍事航空

      教育要聞

      【張捷聊教育】教育部禁止分班的有教無類與因才施教

      旅游要聞

      美到失語!20年才開一大叢的崖壁“奇葩”,開花了

      卡普空《識質(zhì)存在》Steam特別好評 蘿莉太棒了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美宣布黎以停火10天 以方稱不會撤軍

      無障礙瀏覽 進入關懷版