![]()
![]()
![]()
“VLA只是一個(gè)過(guò)渡方案。”
作者|劉楊楠
編輯|王博
2021年底,商湯科技在港交所敲鐘上市。這個(gè)時(shí)刻像整個(gè)計(jì)算機(jī)視覺(jué)行業(yè)的一次成人禮,意味著此前數(shù)年的狂歡與爭(zhēng)議,終于有了一個(gè)暫時(shí)的落腳點(diǎn)。
作為商湯智能汽車事業(yè)群的靈魂人物,時(shí)任商湯絕影智能云研發(fā)總經(jīng)理武偉,見(jiàn)證了十年來(lái)商湯從0起步,一路輾轉(zhuǎn)上市的全部經(jīng)過(guò)。可在商湯上市敲鐘那一刻,他意識(shí)到自己正來(lái)到新的岔路口。
“我喜歡初創(chuàng)公司的氛圍,大家在一個(gè)相對(duì)未知的領(lǐng)域快速試錯(cuò),去突破新技術(shù),直到它真正在產(chǎn)業(yè)落地發(fā)展。”武偉說(shuō)。于是,他開(kāi)始思考自己的下一站該往何處。或是加入某個(gè)初創(chuàng)團(tuán)隊(duì),或是干脆自己再創(chuàng)業(yè)一次。
直到2022年的CVPR上,武偉碰巧和特斯拉團(tuán)隊(duì)做了一次技術(shù)交流。當(dāng)時(shí)他們默契地意識(shí)到,世界模型是AGI的新基建。
三年后,武偉做出了選擇。他告別自己一手打造的“絕影”,在2025年5月創(chuàng)辦流形空間(Manifold AI)。他又站上了一個(gè)全新的技術(shù)風(fēng)口。
![]()
Manifold AI流形空間創(chuàng)始人兼CEO武偉
流形空間成立3個(gè)月便連獲種子輪以及天使輪兩輪共億元融資,成為了世界模型領(lǐng)域一匹“黑馬”。
“Manifold”在數(shù)學(xué)領(lǐng)域被直譯為“流形”,這是一種又簡(jiǎn)單又通用的幾何結(jié)構(gòu)。它在局部簡(jiǎn)單到可以被線性化,在全局又通用到足以描述復(fù)雜的高維空間。數(shù)學(xué)出身的武偉,正試圖找到一種“既簡(jiǎn)單,又通用”的方案,打造一個(gè)能理解并預(yù)測(cè)物理世界的大腦。
這是一個(gè)近乎完美的技術(shù)理想,但當(dāng)下的世界模型賽道實(shí)在太過(guò)復(fù)雜。技術(shù)仍在早期,一切尚未收斂,市場(chǎng)熱鬧程度堪比2023年初LLM的“百模大戰(zhàn)”。
就在今天,斯坦福大學(xué)教授李飛飛的一篇長(zhǎng)文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier(從詞到世界:空間智能是AI的下一個(gè)前沿)》,引發(fā)了整個(gè)硅谷對(duì)空間智能、世界模型的討論。李飛飛提出世界模型要具備的三項(xiàng)能力:Generative、Multimodal、Interactive(生成式、多模態(tài)、交互性)。
李飛飛認(rèn)為,下一代世界模型將使機(jī)器在全新的層面上實(shí)現(xiàn)空間智能——這將解鎖當(dāng)今AI 統(tǒng)仍大多缺失的關(guān)鍵能力,使用世界模型將為人們構(gòu)建更美好的世界。
世界模型概念火熱,但押注世界模型的廠商必須給外界一個(gè)充分的理由,吸引更多資源涌入這個(gè)年輕的領(lǐng)域,才有可能讓愿景成為現(xiàn)實(shí)。
而武偉當(dāng)下要做的,便是在明確的技術(shù)理想和不確定的市場(chǎng)環(huán)境之間,維持一種微妙的動(dòng)態(tài)平衡。
1.世界模型與VLA之爭(zhēng)
武偉被問(wèn)過(guò)最多次的問(wèn)題,就是“為什么世界模型比VLA更優(yōu)” 。
在當(dāng)下的具身智能領(lǐng)域,世界模型和VLA(Vision-Language-Action)模型是一對(duì)“影子對(duì)手”。二者常被相提并論,也各自收獲了大批信徒。但之所以稱之為“影子對(duì)手”,是因?yàn)檫@種對(duì)比本身難以成立。
在商業(yè)世界,脫離場(chǎng)景需求談技術(shù)優(yōu)劣約等于“耍流氓”。再偉大的技術(shù)創(chuàng)新,都難免需要通過(guò)服務(wù)各行各業(yè),來(lái)找到其世俗意義上的“產(chǎn)業(yè)價(jià)值”。
世界模型和VLA本質(zhì)是在用不同的方式解決同一件事——讓機(jī)器理解人類的抽象指令,將其轉(zhuǎn)化為在復(fù)雜現(xiàn)實(shí)世界中可以執(zhí)行的具體物理動(dòng)作,并完成任務(wù)。
武偉認(rèn)為,VLA本質(zhì)是將高維度的視頻域降維到語(yǔ)言域,將視頻與文本指令對(duì)齊,再通過(guò)大量的機(jī)器人經(jīng)驗(yàn)數(shù)據(jù)(如軌跡數(shù)據(jù)、動(dòng)作數(shù)據(jù))進(jìn)行對(duì)齊和訓(xùn)練,讓機(jī)器能夠讀懂語(yǔ)言指令,并基于模仿學(xué)習(xí)高效、可靠地完成具體任務(wù)。其范式本質(zhì)是基于已有VLM基座模型在做“機(jī)器翻譯”任務(wù)的“后訓(xùn)練”。
他認(rèn)為,這種訓(xùn)練方式會(huì)造成兩個(gè)弊端。
一方面,VLA模型在訓(xùn)練時(shí)與特定的機(jī)器人本體強(qiáng)綁定。換一個(gè)機(jī)器人形態(tài),例如從人形機(jī)器人換成四足機(jī)器狗,甚至是換一種機(jī)器人本體構(gòu)型,模型就需要大量后訓(xùn)練數(shù)據(jù)重新適配,部署成本高昂。
另一方面,VLA模型只是“知其然”,但“不知其所以然”。其本質(zhì)是通過(guò)大量模仿學(xué)習(xí)到某種經(jīng)驗(yàn),并在需要的時(shí)候?qū)⒔?jīng)驗(yàn)復(fù)刻出來(lái)。它只能執(zhí)行它見(jiàn)過(guò)的動(dòng)作,當(dāng)遇到訓(xùn)練數(shù)據(jù)中從未出現(xiàn)過(guò)的、需要推理和規(guī)劃的新穎場(chǎng)景(即長(zhǎng)尾問(wèn)題中的長(zhǎng)尾),它會(huì)束手無(wú)策,它無(wú)法預(yù)測(cè)一個(gè)動(dòng)作的連鎖反應(yīng)。
而世界模型,則是反其道而行,它將語(yǔ)言升維到視覺(jué)域 。它是一種可以模擬所有場(chǎng)景的生成式模型 ,通過(guò)學(xué)習(xí)海量世界知識(shí),讓模型理解世界的因果規(guī)律,產(chǎn)生“Dreaming(想象)能力”。
在武偉看來(lái),在實(shí)際應(yīng)用場(chǎng)景中,這種預(yù)測(cè)能力通過(guò)兩種路徑體現(xiàn)。
一種是作為Agent Model(智能體模型),通過(guò)在線的模擬和推演獲得更優(yōu)決策。
他舉了一個(gè)生動(dòng)的例子:“我看到一個(gè)人在哭,我該怎么辦?” VLA可能只會(huì)基于模仿學(xué)習(xí)的經(jīng)驗(yàn)回放給出一個(gè)模式化回答;但世界模型會(huì)進(jìn)行推演:“如果我去安慰,對(duì)方可能會(huì)感激我。”這個(gè)推演過(guò)程,就是世界模型在進(jìn)行在線模擬,以得到更好的決策。
一種是作為Environment Model(環(huán)境模型),通過(guò)離線強(qiáng)化學(xué)習(xí)使得物理智能體獲得更好的泛化能力。武偉希望世界模型成為一個(gè)Omni Simulator,即一個(gè)可模擬物理智能體交互環(huán)境的通用仿真器。
這種通用仿真器與傳統(tǒng)依賴圖形學(xué)的物理仿真引擎有本質(zhì)區(qū)別,因?yàn)楹笳呤恰安豢晌ⅰ钡?,無(wú)法成為一個(gè)可學(xué)習(xí)、可持續(xù)進(jìn)化的系統(tǒng)。
因此,在武偉的藍(lán)圖中,VLA只是一個(gè)過(guò)渡方案。
“世界模型是AGI的重要基建。與傳統(tǒng)AIGC不同,世界模型的目標(biāo)不是還原現(xiàn)實(shí),而是通過(guò)預(yù)測(cè)環(huán)境變化來(lái)做出更優(yōu)決策。世界模型讓AI第一次具備了心智推演能力——能在腦中模擬因果、預(yù)判后果、優(yōu)化行動(dòng)。”武偉告訴「甲子光年」。
總的來(lái)說(shuō),世界模型的心智推演能力,也就是Dreaming能力,本質(zhì)上依然是一種強(qiáng)大的預(yù)測(cè)能力。這種能力讓世界模型在理論上更能夠以更經(jīng)濟(jì)的方式,實(shí)現(xiàn)跨本體、跨場(chǎng)景的泛化。這也是現(xiàn)階段,以武偉為代表的一派認(rèn)為世界模型優(yōu)于VLA的根本原因。
理論上證明可行性后,接下來(lái)的課題,就關(guān)于“如何做”。
2.世界模型的技術(shù)混戰(zhàn)
世界模型是一個(gè)極其年輕的戰(zhàn)場(chǎng),最早可以追溯到2018年的論文《World Models》。
這篇文章中提出了“Mental Model”的概念,通過(guò)一個(gè)RNN對(duì)世界狀態(tài)進(jìn)行建模,將其編碼進(jìn)隱空間(latent space),再通過(guò)隱空間進(jìn)行狀態(tài)的迭代預(yù)測(cè)。
到了2024年,這個(gè)方向迎來(lái)真正的爆發(fā)。OpenAI的Sora成為第一個(gè)具備文生視頻能力的深度學(xué)習(xí)模型。自此,AIGC技術(shù)路線開(kāi)始與“視覺(jué)世界模型”深度融合。
整體上看,武偉將當(dāng)下的技術(shù)脈絡(luò)大致歸納為兩大派系。
一派是顯式物理建模,即用模型復(fù)現(xiàn)世界。這一派系的目標(biāo)是生成與真實(shí)物理世界一致的視頻形態(tài)的可交互空間。
代表性選手之一就是Google Genie系列,以自回歸技術(shù)路線為主干,將視頻和動(dòng)作(latent action)進(jìn)行tokenize,轉(zhuǎn)化為離散的token,再通過(guò)自回歸模型訓(xùn)練。
另一個(gè)代表性玩家就是斯坦福大學(xué)教授李飛飛創(chuàng)辦的WorldLabs。
今天,李飛飛從空間智能的角度,系統(tǒng)闡述了她對(duì)“世界模型”的定義,在業(yè)內(nèi)很受關(guān)注。她認(rèn)為,一個(gè)真正具備空間智能的世界模型應(yīng)具備三項(xiàng)核心能力:生成式(Generative),能生成具有幾何與物理一致性的世界;多模態(tài)(Multimodal),能處理并理解圖像、視頻、文本、動(dòng)作等多種形式的輸入;交互性(Interactive),能根據(jù)輸入的動(dòng)作預(yù)測(cè)世界的下一個(gè)狀態(tài)。在她看來(lái),這是讓AI超越語(yǔ)言理解,真正連接想象、感知與行動(dòng),從而解鎖創(chuàng)造力、機(jī)器人學(xué)和科學(xué)發(fā)現(xiàn)的關(guān)鍵。
![]()
《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》,圖片來(lái)源:李飛飛博客
而在技術(shù)策略上,武偉認(rèn)為,WorldLabs的方法和Google略有不同,采用了Geometry Forcing(幾何強(qiáng)迫)或“物理注入”的方式。它們?cè)跀?shù)據(jù)標(biāo)注階段就引入了稠密點(diǎn)云、三維一致性等顯式物理信息 ,強(qiáng)行將物理約束注入訓(xùn)練,從而生成更具3D一致性的場(chǎng)景。
一派則是隱空間交互。這一派系的目標(biāo)不是復(fù)現(xiàn)世界,而是訓(xùn)練出一個(gè)能與世界交互的智能體。
Google Dreamer系列是這一派系中最具代表性的工作 。其核心思想是通過(guò)世界模型將真實(shí)世界壓縮到一個(gè)“隱空間”(latent space)。在這個(gè)虛擬的隱空間里訓(xùn)練智能體。
這條路徑讓Dreamer v3真正擁有泛化能力,其在一個(gè)游戲(如Atari)中訓(xùn)練后,無(wú)需修改參數(shù),就能直接部署到一個(gè)全新的、從未見(jiàn)過(guò)的游戲環(huán)境里完成泛化 。
Dreamer系列之外還有另一條路徑,就是Meta的V-JEPA系列。它本質(zhì)上也是在構(gòu)建一個(gè)空間世界模型,同樣是在隱空間中進(jìn)行表征推演。
但與Google的Dreamer依賴強(qiáng)化學(xué)習(xí)去逼近最優(yōu)策略不同,V-JEPA系列引入了一個(gè)新的思路:通過(guò)sampling(采樣)與能量函數(shù)評(píng)估的方式,去搜索最優(yōu)的執(zhí)行狀態(tài)。因此,它不再僅僅依賴強(qiáng)化學(xué)習(xí)去做最優(yōu)策略逼近,而是在能量空間中尋找最優(yōu)解,這是一種更“可解釋”、物理一致性更強(qiáng)的智能體建模方式。
這種方法下,V-JEPA2可以利用海量的視頻數(shù)據(jù),尤其是第一人稱視角視頻數(shù)據(jù),再加上少量的機(jī)器交互數(shù)據(jù)訓(xùn)練出一個(gè)世界模型。
盡管進(jìn)展迅速,但武偉認(rèn)為現(xiàn)有路徑存在共同短板,即任務(wù)適應(yīng)性不強(qiáng),且跨尺度泛化能力弱,也就是一個(gè)為自動(dòng)駕駛訓(xùn)練的模型,無(wú)法用于室內(nèi)機(jī)器人。
流形空間要做的,就是能在不同尺度之間遷移與統(tǒng)一的“具身世界模型”。
武偉告訴「甲子光年」,Google、WorldLabs等國(guó)外團(tuán)隊(duì)對(duì)世界模型的研發(fā)策略更多是“Top-down”(自上而下),甚至很多是出于學(xué)術(shù)研究,而非產(chǎn)業(yè)落地。相比之下,國(guó)內(nèi)尤其初創(chuàng)企業(yè)更適合采用“Bottom-up”(自下而上)路徑,這更像特斯拉的路線,即先做領(lǐng)域模型,同時(shí)做一些落地應(yīng)用,通過(guò)場(chǎng)景反饋數(shù)據(jù)不斷完善模型能力,進(jìn)而訓(xùn)練基座模型,在循環(huán)往復(fù),不斷優(yōu)化上層的領(lǐng)域模型,形成數(shù)據(jù)飛輪。
目前,流形空間自稱是全球唯一布局全域世界模型的團(tuán)隊(duì),團(tuán)隊(duì)成員早期參與研發(fā)了自動(dòng)駕駛世界模型DriveScape,近期又自研了機(jī)器人場(chǎng)景的RoboScape和無(wú)人機(jī)場(chǎng)景的AirScape。
![]()
這些領(lǐng)域模型均基于自研的LongScape架構(gòu),結(jié)合了Auto-regressive+DiT混合建模。因?yàn)榧軜?gòu)相對(duì)同構(gòu) ,它們能被方便地用MoE的方式“混合”成一個(gè)更通用的基座模型。
武偉坦言,如何用世界模型實(shí)現(xiàn)具身智能這件事,目前還沒(méi)人想清楚,大家都在自己的技術(shù)理解中摸索一些可行路徑。而流形空間最為與眾不同,甚至優(yōu)于VLA的核心,就在于一個(gè)關(guān)鍵決策:選擇從預(yù)訓(xùn)練開(kāi)始做起。
3.一定要做預(yù)訓(xùn)練嗎?
當(dāng)下,絕大多數(shù)VLA甚至世界模型,都是在已有的視頻或語(yǔ)言模型上做“后訓(xùn)練”。
“你如果沒(méi)有一個(gè)很好的預(yù)訓(xùn)練,或者說(shuō)模型沒(méi)有在預(yù)訓(xùn)練中獲得Dreaming能力,那么它在沒(méi)有見(jiàn)過(guò)這種樣本的數(shù)據(jù)之上,它其實(shí)并不知道物理世界的運(yùn)行規(guī)律是什么樣。”武偉解釋道。由此導(dǎo)致的結(jié)果就是,模型需要很多的后訓(xùn)練數(shù)據(jù)去補(bǔ)充,導(dǎo)致模型的部署成本很高。
流形空間則試圖通過(guò)預(yù)訓(xùn)練,讓模型真正學(xué)習(xí)到物理世界的先驗(yàn)知識(shí),理解因果規(guī)律。
“在我們的方案里面,世界模型有個(gè)比較好的預(yù)訓(xùn)練,它見(jiàn)過(guò)幾乎人類所有的動(dòng)作空間和任務(wù)完成的數(shù)據(jù)。”武偉說(shuō) 。當(dāng)這個(gè)擁有強(qiáng)大先驗(yàn)知識(shí)的基座模型去適配一個(gè)新的機(jī)器人本體或場(chǎng)景任務(wù)時(shí),后訓(xùn)練所需要的數(shù)據(jù)量就會(huì)更少,這會(huì)大大降低模型的部署成本。
這個(gè)選擇實(shí)則也是從GPT的成功中汲取了靈感。武偉回憶,在GPT出現(xiàn)前,AI需要為翻譯、客服、QA等不同任務(wù)單獨(dú)訓(xùn)練模型。而OpenAI通過(guò)海量預(yù)訓(xùn)練讓模型獲得了強(qiáng)大的先驗(yàn)知識(shí),使其在下游任務(wù)上僅需few-shot(少樣本)甚至zero-shot(零樣本)就能完成任務(wù)。
為了實(shí)現(xiàn)這個(gè)目標(biāo),流形空間在數(shù)據(jù)管線、模型架構(gòu)設(shè)計(jì)以及訓(xùn)練方法上均有相應(yīng)創(chuàng)新。
在數(shù)據(jù)方面,武偉坦言,由于技術(shù)完全沒(méi)有收斂,并沒(méi)有相關(guān)標(biāo)準(zhǔn)明確規(guī)定什么樣的數(shù)據(jù)更適合訓(xùn)練世界模型。
流形空間的做法是,整體數(shù)據(jù)構(gòu)成是70%的互聯(lián)網(wǎng)數(shù)據(jù)和30%的真機(jī)采集。其中,互聯(lián)網(wǎng)數(shù)據(jù)也有嚴(yán)格的篩選傾向。流行空間選擇用大量ego-centric(第一人稱視角)數(shù)據(jù),因?yàn)樗蜋C(jī)器人的推理domain差異更小。同時(shí),用于訓(xùn)練世界模型的數(shù)據(jù)最好能包含更多任務(wù)數(shù)量,這對(duì)數(shù)據(jù)的variance(方差)更有幫助。一個(gè)值得注意的細(xì)節(jié)是,流形空間還更傾向于使用帶有失敗狀態(tài)恢復(fù)的數(shù)據(jù),這會(huì)增強(qiáng)模型的糾錯(cuò)能力。
在模型的架構(gòu)設(shè)計(jì)和訓(xùn)練方法上,流形空間提出的具身基座模型強(qiáng)調(diào)Reasoning(推理)、Dreaming(想象)、Acting(執(zhí)行)三位一體的能力。
武偉解釋道:“世界模型通常僅強(qiáng)調(diào)Dreaming能力,但對(duì)于具身基座世界模型,Reasoning和Acting同樣重要。Reasoning能力代表具身智能體的思維鏈,有助于解決常識(shí)問(wèn)題;Acting是一種特殊的Dreaming模態(tài),是具身智能體優(yōu)化的最終目標(biāo)。”
實(shí)現(xiàn)這三種能力的協(xié)同提升,是目前世界模型面臨最大的技術(shù)挑戰(zhàn)。因?yàn)槿N模態(tài)的數(shù)據(jù)本身是異構(gòu)的,要讓它們的能力同步提升,就涉及大量架構(gòu)設(shè)計(jì)和訓(xùn)練技巧。這些復(fù)雜的工作都需要在預(yù)訓(xùn)練中完成,才能最大程度降低后期模型在實(shí)際部署中的難度和成本。
武偉表示,傳統(tǒng)的視頻生成模型雖然也經(jīng)過(guò)大量預(yù)訓(xùn)練,但其對(duì)于每一幀畫面中的“主體”關(guān)注度不夠,而是會(huì)關(guān)注每一幀畫面中的所有細(xì)節(jié),很難把算力用在最需要的地方。
流形空間則采用創(chuàng)新方案,在視頻生成質(zhì)量和動(dòng)作(action)質(zhì)量之間建立起一種正相關(guān)。這使得模型在訓(xùn)練中,Dreaming能力的提升可以一致的反饋到動(dòng)作質(zhì)量的提升上來(lái)。
“我們應(yīng)該是業(yè)內(nèi)首個(gè)能做到這一點(diǎn)的。”武偉表示。實(shí)現(xiàn)這一點(diǎn)后,流形空間接下來(lái)的目標(biāo)十分明確,就是要同步探索世界模型的產(chǎn)品化。這是一家初創(chuàng)企業(yè)為了走得長(zhǎng)遠(yuǎn)所產(chǎn)生的必然選擇。
4.攀登高峰,沿途下蛋
在公司發(fā)展戰(zhàn)略上,武偉的策略非常務(wù)實(shí),他將其總結(jié)為一句中國(guó)創(chuàng)業(yè)圈的黑話:“攀登高峰,沿途下蛋”。
“攀登高峰”是做出通用的具身世界模型基座;“沿途下蛋”則是在這個(gè)過(guò)程中,將RoboScape、AirScape等領(lǐng)域模型(Sub-domain)提前做一些產(chǎn)品化和商業(yè)化 ,以產(chǎn)生營(yíng)收,支撐團(tuán)隊(duì)走得更遠(yuǎn)。
在落地場(chǎng)景上,武偉做出了一個(gè)出人意料的決定:優(yōu)先考慮機(jī)器人和無(wú)人機(jī)領(lǐng)域,但不會(huì)考慮自動(dòng)駕駛。
這在外人看來(lái)是種反差,畢竟他曾是自動(dòng)駕駛領(lǐng)域的頂尖玩家 。但武偉的想法異常清醒:“并不是說(shuō)世界模型在自動(dòng)駕駛這塊作用不高,反而它作用其實(shí)還是比較高的” 。
他放棄的原因在于產(chǎn)業(yè)結(jié)構(gòu)。武偉判斷,自動(dòng)駕駛產(chǎn)業(yè)正在產(chǎn)能出清,巨頭正在形成和收斂。在這個(gè)階段,算法迭代只是環(huán)節(jié)之一,差異化有好似更多的是這么多年的工程化的部署以及和合作伙伴的一些深度的協(xié)同。
相比之下,機(jī)器人和無(wú)人機(jī)市場(chǎng)更加碎片化 。武偉認(rèn)為,“人有多少工種就會(huì)有多少工種的機(jī)器人” ,這個(gè)市場(chǎng)能容納更多的玩家。
更重要的是,具身智能是一個(gè)強(qiáng)調(diào)軟硬件綜合能力的賽道,從自動(dòng)駕駛過(guò)往的行業(yè)經(jīng)驗(yàn)來(lái)看,大廠在軟硬件系統(tǒng)的打造上并未體現(xiàn)出太大優(yōu)勢(shì)。
“大廠更擅長(zhǎng)ToC、偏軟的事情,而具身是偏軟硬一體的、更碎片化的市場(chǎng)。自動(dòng)駕駛領(lǐng)先的地平線和Momenta是創(chuàng)業(yè)公司,無(wú)人配送的新石器也是創(chuàng)業(yè)公司,都不是大廠孵化的。具身需要很強(qiáng)的落地部署和軟硬件系統(tǒng)工程能力,這不一定是大廠擅長(zhǎng)的,組織大了對(duì)新技術(shù)反應(yīng)反而慢,這都是創(chuàng)業(yè)公司的機(jī)會(huì)。”武偉分析道。
具體來(lái)看,在無(wú)人機(jī)和機(jī)器人領(lǐng)域,流形空間將重點(diǎn)放在如何讓硬件本體擁有自主推理能力上。

基于RoboScape的機(jī)器人預(yù)測(cè)執(zhí)行能力

基于AirScape的無(wú)人機(jī)預(yù)測(cè)執(zhí)行能力
武偉表示:“現(xiàn)在機(jī)器人和無(wú)人機(jī)主要還是人類控制階段,無(wú)人機(jī)出貨量雖大但主要靠人工飛手控制;機(jī)器人硬件快速發(fā)展,但更多還是用遙控器操作。我們聚焦往智能化、自主推理方向發(fā)展。”
不過(guò),武偉預(yù)計(jì),長(zhǎng)期來(lái)看,世界模型產(chǎn)品化還有一個(gè)關(guān)鍵前提,就是輕量化。流形空間已經(jīng)將模型量化蒸餾部署到邊緣端的推理系統(tǒng)中,能驅(qū)動(dòng)機(jī)器人自主移動(dòng)操作和無(wú)人機(jī)自主導(dǎo)航。武偉表示:“我們從算力角度選擇了英偉達(dá)的芯片,未來(lái)也會(huì)考慮國(guó)產(chǎn)芯片作為多元化選項(xiàng)。”
事實(shí)上,從流形空間目前的業(yè)務(wù)版圖來(lái)看——世界模型的預(yù)訓(xùn)練、不同的領(lǐng)域模型以及世界模型的產(chǎn)品化,每一項(xiàng)都是一個(gè)行業(yè)級(jí)別的復(fù)雜課題。從創(chuàng)業(yè)公司目前的體量來(lái)看,要真正做到“攀登高峰”的同時(shí)“沿途下蛋”,十分考驗(yàn)掌舵者的能力。
5.用數(shù)據(jù)驅(qū)動(dòng)的方式做事
畢竟,創(chuàng)業(yè)不比在大公司做高管,除了思考如何“做事”,更大的挑戰(zhàn)在于如何處理“人”和“錢”的問(wèn)題。
從千人規(guī)模的龍頭高管,到幾十人規(guī)模的初創(chuàng)公司CEO ,武偉的心態(tài)也在轉(zhuǎn)變。他的團(tuán)隊(duì)可劃分為兩隊(duì)人馬,一隊(duì)是工業(yè)界老司機(jī),一隊(duì)是天才00后。相比砸錢挖人,他更注重人才的密度,而不是數(shù)量。
他甚至把AI的訓(xùn)練思維遷移到團(tuán)隊(duì)管理上,要用“數(shù)據(jù)驅(qū)動(dòng)”的方式來(lái)做事。
傳統(tǒng)的管理像是“監(jiān)督學(xué)習(xí)”,而他更傾向于“強(qiáng)化學(xué)習(xí)”。
“如果這個(gè)團(tuán)隊(duì)的同學(xué)能夠完成這件事情,得到一個(gè)正向的結(jié)果,那你其實(shí)就應(yīng)該鼓勵(lì)這種成果,要及時(shí)地給出一個(gè)reward(獎(jiǎng)勵(lì)),用類似強(qiáng)化學(xué)習(xí)的方式,讓整個(gè)團(tuán)隊(duì)逼向最優(yōu)解。” 武偉告訴「甲子光年」,“你不能強(qiáng)行讓天才00后都聽(tīng)‘老司機(jī)’的想法,讓他去避坑,這樣有一些閃光點(diǎn)反而會(huì)被埋沒(méi)掉。”
目前,流形空間已獲得了億元級(jí)別的融資,并計(jì)劃在2025年底至2026年初,正式發(fā)布其第一代基于WMA路線的基座模型。武偉透露:“我們希望成為產(chǎn)品驅(qū)動(dòng)的公司。整體融資節(jié)奏還是與產(chǎn)品研發(fā)節(jié)奏匹配。”
對(duì)于公司的長(zhǎng)期規(guī)劃,武偉有著嚴(yán)肅的思考。他希望流形空間能“推動(dòng)Physical AI Agent向前一大步” ,并希望公司“自研加上賦能的機(jī)器人數(shù)量超過(guò)市場(chǎng)總量的10%”。
正如他引用物理學(xué)家費(fèi)曼的那句名言:“如果我不能創(chuàng)造它,我就無(wú)法理解它。”
(封面圖來(lái)源:AI生成)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.