![]()
![]()
搜狐科技《超級瓦力——對話具身智能50人》欄目第14期,對話大曉機(jī)器人CEO王曉剛。
![]()
現(xiàn)有技術(shù)路線存在缺陷,包括VLA模型,它不太理解真實(shí)的物理世界和物理規(guī)律。
很多公司在做本體,但真正缺乏的是理解世界的大腦、能解決實(shí)際問題的產(chǎn)品。
明年國內(nèi)將出現(xiàn)大量即時零售倉儲應(yīng)用場景,這類場景需要7×24小時服務(wù),機(jī)器人能夠充分發(fā)揮優(yōu)勢
出品|搜狐科技
作者|常博碩
編輯|楊 錦
2025年,具身智能無疑是最擁擠也最焦慮的賽道之一。
在這個賽博世界里,人形機(jī)器人價格已經(jīng)被壓縮至萬元以內(nèi),看似繁榮的背后,技術(shù)路線的分歧也愈發(fā)尖銳。
VLA、端到端、強(qiáng)化學(xué)習(xí)、世界模型……各種名詞被頻繁提及,卻很少有人真正回答一個問題:機(jī)器人究竟該如何真正“理解”這個世界?
就在這個背景下,商湯科技聯(lián)合創(chuàng)始人王曉剛,選擇以一種新的方式,加入競爭。
2025年12月,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事王曉剛出任大曉機(jī)器人董事長。
大曉的切入點(diǎn)顯得異常克制:不涌入擁擠的本體賽道,不押注VLA,不追逐短期演示效果,而是將全部籌碼,押在一個被反復(fù)提及卻逐漸成為行業(yè)共識的方向上——世界模型。
“VLA是以機(jī)器為中心的范式,它并不需要真正理解物理世界。”王曉剛在多次采訪中反復(fù)強(qiáng)調(diào)這一判斷。
在他看來,當(dāng)下主流具身方案的核心問題并不在算力或者參數(shù)規(guī)模,而是研究范式本身的起點(diǎn)就存在偏差。
過去兩年,隨著大語言模型和多模態(tài)模型的突破,行業(yè)普遍期待把“會說話的大腦”直接裝進(jìn)機(jī)器人身體里。VLA模型正是這一思路的典型產(chǎn)物。
輸入語言、視覺信號,輸出動作序列,仿佛機(jī)器人只要模仿得足夠多,就能獲得通用能力。但在王曉剛看來,這種路徑天然受困于本體結(jié)構(gòu)和數(shù)據(jù)效率,難以支撐真正的長時序、復(fù)雜任務(wù),更談不上跨場景泛化。
相比之下,大曉選擇了一條更“底層”的路線。
以人為中心的環(huán)境式采集、開悟世界模型,再加上具身交互,三層架構(gòu)共同構(gòu)成了大曉具身技術(shù)體系的核心。
在具身智能尚未形成技術(shù)收斂的當(dāng)下,大曉的入局,或許并不意味著終極答案已經(jīng)出現(xiàn),但它至少清晰地提出了一個問題和新的解法:
當(dāng)機(jī)器人真正走向物理世界,究竟是“會做動作”更重要,還是“理解世界”更重要?
而這個問題,很可能決定下一階段具身智能競爭的方向。
帶著對行業(yè)的困惑與技術(shù)路線選擇的疑問,搜狐科技等媒體與王曉剛進(jìn)行了一場深入的對話。
以下為搜狐科技等媒體與大曉機(jī)器人董事長王曉剛的采訪實(shí)錄(經(jīng)編輯)
![]()
大曉到底做什么?
媒體:想問一下大曉機(jī)器人的名字是如何確定的,以及這些名字背后有著怎樣的意義?
王曉剛:它取自大程名字里的一個字,也用了我名字中的一個字。我和陶大程(大曉首席科學(xué)家,澳大利亞科學(xué)院院士、新加坡南洋理工大學(xué)杰出教授)本身都是湯曉鷗教授的學(xué)生。
媒體:大曉機(jī)器人主要側(cè)重于機(jī)器人本體還是大腦?如果側(cè)重大腦,技術(shù)路線是世界模型、VLA還是端到端?
王曉剛:大曉機(jī)器人在產(chǎn)品化落地方面,輸出的是軟硬一體的方案。
當(dāng)前我們能夠看到現(xiàn)有技術(shù)路線的明顯缺陷,包括VLA模型,是以機(jī)器為中心的,通過輸入指令、圖像和視頻,直接輸出動作,它不太需要去理解真實(shí)的物理世界和物理規(guī)律。
簡單粗暴地使用端到端或VLA,并不能解決具身智能對“大腦”的期望。
媒體:ACE技術(shù)范式具體意味著什么,又能實(shí)現(xiàn)怎樣的效果?
王曉剛:我們提出的世界模型分為三部分。一是多模態(tài)的理解,包含圖像、視頻、相機(jī)位置、3D軌跡,還有力學(xué)元素、觸覺等一系列內(nèi)容。
其次,理解物理世界后,需要生成長時動靜態(tài)交互場景,這些交互行為需具備物理規(guī)律和因果思維鏈,并形成長時間記憶。
三是預(yù)測功能,根據(jù)所選機(jī)器人本體、觀察到的圖像及視頻狀態(tài),可預(yù)測機(jī)器人后續(xù)動作。這種“理解-合成-預(yù)測”的融合能力,正是世界模型的核心。
媒體:大曉機(jī)器人在硬件方面,包括傳感器、電機(jī)、減速器、控制器等,是與哪些企業(yè)合作?
王曉剛:我們投資的企業(yè)中,鈦虎、鹿明等都會有合作關(guān)系,它們與硬件相關(guān)。在傳感器方面,我們與影石Insta360合作,將全景相機(jī)的能力賦予到機(jī)器人上,這是一個關(guān)鍵的零部件亮點(diǎn)。
![]()
為何現(xiàn)在入局?
媒體:商湯科技將具身智能業(yè)務(wù)剝離出來成為一個獨(dú)立的公司,是出于哪些方面的考量?
王曉剛:商湯過去更多聚焦于ToB軟件業(yè)務(wù),近年來隨著大模型的發(fā)展,我們布局了大裝置和基礎(chǔ)設(shè)施,但在端側(cè)的軟硬協(xié)同整體產(chǎn)品方面仍有空白。機(jī)器人的出現(xiàn)提供了一個良好契機(jī),讓我們有機(jī)會實(shí)現(xiàn)軟硬件整合。
媒體:您認(rèn)為目前具身智能這個行業(yè)的頭部卡位已經(jīng)完成了嗎?新創(chuàng)業(yè)公司的機(jī)會點(diǎn)在哪?
王曉剛:我認(rèn)為頭部卡位還沒有完成,這個領(lǐng)域還遠(yuǎn)未成熟,目前行業(yè)技術(shù)路線存在明顯缺陷。比如特斯拉和Figure AI都放棄了以真機(jī)為主的技術(shù)路線,轉(zhuǎn)向以視覺為主的技術(shù)路線。但視覺為主的技術(shù)路線并非終極方案,所以我們提出了“以人為中心”的ACE研究范式。
第二點(diǎn)看場景落地,目前能夠成規(guī)模量產(chǎn)的機(jī)器人場景,要么是提供情緒價值的表演性質(zhì)產(chǎn)品,要么是作為科研平臺存在,尚未出現(xiàn)能大幅提升生產(chǎn)力的規(guī)模化應(yīng)用。
第三點(diǎn)是產(chǎn)業(yè)鏈層面,機(jī)器人行業(yè)的產(chǎn)業(yè)鏈分工尚未完善,成本依然很高。因此,我認(rèn)為整個機(jī)器人產(chǎn)業(yè)的格局遠(yuǎn)遠(yuǎn)沒有確定下來。
媒體:現(xiàn)在具身智能賽道競爭非常激烈,人形機(jī)器人價格已降到萬元以內(nèi)。商湯在這個節(jié)點(diǎn)加入具身智能賽道,背后的契機(jī)是什么?大曉的核心競爭力體現(xiàn)在哪里?
王曉剛:第一點(diǎn)是我們看到了一個與以往不同的新研究范式,也就是以人為中心的ACE研究范式。
如果一直沿著原有的范式前進(jìn),追趕或超越會非常困難,只有在這種革命性變化出現(xiàn)時,我們才有機(jī)會實(shí)現(xiàn)突破。
第二點(diǎn)是產(chǎn)業(yè)落地。商湯過去十幾年積累了幾千家客戶,覆蓋眾多行業(yè)方向,,當(dāng)我們進(jìn)入這個領(lǐng)域時,能夠快速實(shí)現(xiàn)規(guī)模化的場景落地,讓機(jī)器人的價值成倍放大。
媒體:對于大曉機(jī)器人來說,有沒有明確的短期或長期目標(biāo)?或者說,想要在行業(yè)內(nèi)達(dá)到一個什么樣的位置?
王曉剛:短期的話,除了提供情緒價值的表演類機(jī)器人外,我們認(rèn)為能夠規(guī)模化落地的,是搭載了導(dǎo)航能力與各類AI應(yīng)用能力的四足機(jī)器狗。
中期看好工業(yè)場景與商業(yè)服務(wù)場景,其中會優(yōu)先選擇閃購倉、前置倉這類商業(yè)服務(wù)場景。明年國內(nèi)將出現(xiàn)大量前置倉與閃購倉,這類場景需要大量人力支持7×24小時服務(wù),機(jī)器人能夠充分發(fā)揮在這類環(huán)境中的優(yōu)勢。
更遠(yuǎn)期的目標(biāo)則指向五年后的家庭場景,但這更多涉及前沿技術(shù)的探索。
![]()
為什么不押注 VLA
媒體:以人為中心收集環(huán)境的數(shù)據(jù)優(yōu)化世界模型的路徑,涉及到無窮無盡的場景、動作,它是可以去窮舉的嗎?
王曉剛:基于VLA訓(xùn)練出來的模型,會被受困于它的本體。世界模型采取了可能是更本質(zhì)的方式,能覆蓋更多的場景。關(guān)鍵是你這套范式是不是一個能夠很容易拓展的,有一千個人、一萬個人在用這種方式采集數(shù)據(jù),能夠產(chǎn)生回流。
媒體:所以這是我們開源最本質(zhì)的原因是嗎?
王曉剛:對,一旦開源以后別人可以給你各種反饋,給你提供各種場景。這也是中國和其他的國家在人工智能發(fā)展路徑上一個很差異化的點(diǎn)。
媒體:未來機(jī)器人能夠做的事情會有哪些關(guān)鍵的變化?
王曉剛:在世界模型的加持下,對于泛化性世界模型應(yīng)該有突破機(jī)會。像前置倉的場景,有上萬的SKU,零售場景用VLA很難把這個規(guī)模達(dá)到上萬種不同的類別,但是在新的范式下是有可能做到這一點(diǎn)的。
![]()
![]()
運(yùn)營編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.