網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

湯曉鷗學(xué)生創(chuàng)業(yè)做機(jī)器人，不押注VLA，要走李飛飛的世界模型路線

2025-12-26 18:20:56　來源: 搜狐科技

北京舉報

分享至

搜狐科技《超級瓦力——對話具身智能50人》欄目第14期，對話大曉機(jī)器人CEO王曉剛。

現(xiàn)有技術(shù)路線存在缺陷，包括VLA模型，它不太理解真實(shí)的物理世界和物理規(guī)律。
很多公司在做本體，但真正缺乏的是理解世界的大腦、能解決實(shí)際問題的產(chǎn)品。
明年國內(nèi)將出現(xiàn)大量即時零售倉儲應(yīng)用場景，這類場景需要7×24小時服務(wù)，機(jī)器人能夠充分發(fā)揮優(yōu)勢

出品｜搜狐科技

作者｜常博碩

編輯｜楊錦

2025年，具身智能無疑是最擁擠也最焦慮的賽道之一。

在這個賽博世界里，人形機(jī)器人價格已經(jīng)被壓縮至萬元以內(nèi)，看似繁榮的背后，技術(shù)路線的分歧也愈發(fā)尖銳。

VLA、端到端、強(qiáng)化學(xué)習(xí)、世界模型……各種名詞被頻繁提及，卻很少有人真正回答一個問題：機(jī)器人究竟該如何真正“理解”這個世界?

就在這個背景下，商湯科技聯(lián)合創(chuàng)始人王曉剛，選擇以一種新的方式，加入競爭。

2025年12月，商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事王曉剛出任大曉機(jī)器人董事長。

大曉的切入點(diǎn)顯得異常克制：不涌入擁擠的本體賽道，不押注VLA，不追逐短期演示效果，而是將全部籌碼，押在一個被反復(fù)提及卻逐漸成為行業(yè)共識的方向上——世界模型。

“VLA是以機(jī)器為中心的范式，它并不需要真正理解物理世界。”王曉剛在多次采訪中反復(fù)強(qiáng)調(diào)這一判斷。

在他看來，當(dāng)下主流具身方案的核心問題并不在算力或者參數(shù)規(guī)模，而是研究范式本身的起點(diǎn)就存在偏差。

過去兩年，隨著大語言模型和多模態(tài)模型的突破，行業(yè)普遍期待把“會說話的大腦”直接裝進(jìn)機(jī)器人身體里。VLA模型正是這一思路的典型產(chǎn)物。

輸入語言、視覺信號，輸出動作序列，仿佛機(jī)器人只要模仿得足夠多，就能獲得通用能力。但在王曉剛看來，這種路徑天然受困于本體結(jié)構(gòu)和數(shù)據(jù)效率，難以支撐真正的長時序、復(fù)雜任務(wù)，更談不上跨場景泛化。

相比之下，大曉選擇了一條更“底層”的路線。

以人為中心的環(huán)境式采集、開悟世界模型，再加上具身交互，三層架構(gòu)共同構(gòu)成了大曉具身技術(shù)體系的核心。

在具身智能尚未形成技術(shù)收斂的當(dāng)下，大曉的入局，或許并不意味著終極答案已經(jīng)出現(xiàn)，但它至少清晰地提出了一個問題和新的解法：

當(dāng)機(jī)器人真正走向物理世界，究竟是“會做動作”更重要，還是“理解世界”更重要？

而這個問題，很可能決定下一階段具身智能競爭的方向。

帶著對行業(yè)的困惑與技術(shù)路線選擇的疑問，搜狐科技等媒體與王曉剛進(jìn)行了一場深入的對話。

以下為搜狐科技等媒體與大曉機(jī)器人董事長王曉剛的采訪實(shí)錄（經(jīng)編輯）

大曉到底做什么？

媒體：想問一下大曉機(jī)器人的名字是如何確定的，以及這些名字背后有著怎樣的意義？

王曉剛：它取自大程名字里的一個字，也用了我名字中的一個字。我和陶大程（大曉首席科學(xué)家，澳大利亞科學(xué)院院士、新加坡南洋理工大學(xué)杰出教授）本身都是湯曉鷗教授的學(xué)生。

媒體：大曉機(jī)器人主要側(cè)重于機(jī)器人本體還是大腦？如果側(cè)重大腦，技術(shù)路線是世界模型、VLA還是端到端？

王曉剛：大曉機(jī)器人在產(chǎn)品化落地方面，輸出的是軟硬一體的方案。

當(dāng)前我們能夠看到現(xiàn)有技術(shù)路線的明顯缺陷，包括VLA模型，是以機(jī)器為中心的，通過輸入指令、圖像和視頻，直接輸出動作，它不太需要去理解真實(shí)的物理世界和物理規(guī)律。

簡單粗暴地使用端到端或VLA，并不能解決具身智能對“大腦”的期望。

媒體：ACE技術(shù)范式具體意味著什么，又能實(shí)現(xiàn)怎樣的效果？

王曉剛：我們提出的世界模型分為三部分。一是多模態(tài)的理解，包含圖像、視頻、相機(jī)位置、3D軌跡，還有力學(xué)元素、觸覺等一系列內(nèi)容。

其次，理解物理世界后，需要生成長時動靜態(tài)交互場景，這些交互行為需具備物理規(guī)律和因果思維鏈，并形成長時間記憶。

三是預(yù)測功能，根據(jù)所選機(jī)器人本體、觀察到的圖像及視頻狀態(tài)，可預(yù)測機(jī)器人后續(xù)動作。這種“理解-合成-預(yù)測”的融合能力，正是世界模型的核心。

媒體：大曉機(jī)器人在硬件方面，包括傳感器、電機(jī)、減速器、控制器等，是與哪些企業(yè)合作？

王曉剛：我們投資的企業(yè)中，鈦虎、鹿明等都會有合作關(guān)系，它們與硬件相關(guān)。在傳感器方面，我們與影石Insta360合作，將全景相機(jī)的能力賦予到機(jī)器人上，這是一個關(guān)鍵的零部件亮點(diǎn)。

為何現(xiàn)在入局？

媒體：商湯科技將具身智能業(yè)務(wù)剝離出來成為一個獨(dú)立的公司，是出于哪些方面的考量？

王曉剛：商湯過去更多聚焦于ToB軟件業(yè)務(wù)，近年來隨著大模型的發(fā)展，我們布局了大裝置和基礎(chǔ)設(shè)施，但在端側(cè)的軟硬協(xié)同整體產(chǎn)品方面仍有空白。機(jī)器人的出現(xiàn)提供了一個良好契機(jī)，讓我們有機(jī)會實(shí)現(xiàn)軟硬件整合。

媒體：您認(rèn)為目前具身智能這個行業(yè)的頭部卡位已經(jīng)完成了嗎？新創(chuàng)業(yè)公司的機(jī)會點(diǎn)在哪？

王曉剛：我認(rèn)為頭部卡位還沒有完成，這個領(lǐng)域還遠(yuǎn)未成熟，目前行業(yè)技術(shù)路線存在明顯缺陷。比如特斯拉和Figure AI都放棄了以真機(jī)為主的技術(shù)路線，轉(zhuǎn)向以視覺為主的技術(shù)路線。但視覺為主的技術(shù)路線并非終極方案，所以我們提出了“以人為中心”的ACE研究范式。

第二點(diǎn)看場景落地，目前能夠成規(guī)模量產(chǎn)的機(jī)器人場景，要么是提供情緒價值的表演性質(zhì)產(chǎn)品，要么是作為科研平臺存在，尚未出現(xiàn)能大幅提升生產(chǎn)力的規(guī)模化應(yīng)用。

第三點(diǎn)是產(chǎn)業(yè)鏈層面，機(jī)器人行業(yè)的產(chǎn)業(yè)鏈分工尚未完善，成本依然很高。因此，我認(rèn)為整個機(jī)器人產(chǎn)業(yè)的格局遠(yuǎn)遠(yuǎn)沒有確定下來。

媒體：現(xiàn)在具身智能賽道競爭非常激烈，人形機(jī)器人價格已降到萬元以內(nèi)。商湯在這個節(jié)點(diǎn)加入具身智能賽道，背后的契機(jī)是什么？大曉的核心競爭力體現(xiàn)在哪里？

王曉剛：第一點(diǎn)是我們看到了一個與以往不同的新研究范式，也就是以人為中心的ACE研究范式。

如果一直沿著原有的范式前進(jìn)，追趕或超越會非常困難，只有在這種革命性變化出現(xiàn)時，我們才有機(jī)會實(shí)現(xiàn)突破。

第二點(diǎn)是產(chǎn)業(yè)落地。商湯過去十幾年積累了幾千家客戶，覆蓋眾多行業(yè)方向，，當(dāng)我們進(jìn)入這個領(lǐng)域時，能夠快速實(shí)現(xiàn)規(guī)模化的場景落地，讓機(jī)器人的價值成倍放大。

媒體：對于大曉機(jī)器人來說，有沒有明確的短期或長期目標(biāo)？或者說，想要在行業(yè)內(nèi)達(dá)到一個什么樣的位置？

王曉剛：短期的話，除了提供情緒價值的表演類機(jī)器人外，我們認(rèn)為能夠規(guī)模化落地的，是搭載了導(dǎo)航能力與各類AI應(yīng)用能力的四足機(jī)器狗。

中期看好工業(yè)場景與商業(yè)服務(wù)場景，其中會優(yōu)先選擇閃購倉、前置倉這類商業(yè)服務(wù)場景。明年國內(nèi)將出現(xiàn)大量前置倉與閃購倉，這類場景需要大量人力支持7×24小時服務(wù)，機(jī)器人能夠充分發(fā)揮在這類環(huán)境中的優(yōu)勢。

更遠(yuǎn)期的目標(biāo)則指向五年后的家庭場景，但這更多涉及前沿技術(shù)的探索。

為什么不押注 VLA

媒體：以人為中心收集環(huán)境的數(shù)據(jù)優(yōu)化世界模型的路徑，涉及到無窮無盡的場景、動作，它是可以去窮舉的嗎？

王曉剛：基于VLA訓(xùn)練出來的模型，會被受困于它的本體。世界模型采取了可能是更本質(zhì)的方式，能覆蓋更多的場景。關(guān)鍵是你這套范式是不是一個能夠很容易拓展的，有一千個人、一萬個人在用這種方式采集數(shù)據(jù)，能夠產(chǎn)生回流。

媒體：所以這是我們開源最本質(zhì)的原因是嗎？

王曉剛：對，一旦開源以后別人可以給你各種反饋，給你提供各種場景。這也是中國和其他的國家在人工智能發(fā)展路徑上一個很差異化的點(diǎn)。

媒體：未來機(jī)器人能夠做的事情會有哪些關(guān)鍵的變化？

王曉剛：在世界模型的加持下，對于泛化性世界模型應(yīng)該有突破機(jī)會。像前置倉的場景，有上萬的SKU，零售場景用VLA很難把這個規(guī)模達(dá)到上萬種不同的類別，但是在新的范式下是有可能做到這一點(diǎn)的。

運(yùn)營編輯 |曹倩審核｜孟莎莎

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.