智能汽車作為機器人的第一個大終端。在大模型技術(shù)快速發(fā)展的當(dāng)下,源自智能汽車的算法、算力技術(shù)正在被加速復(fù)用,催生出從單一任務(wù)到通用智能、從交通工具到機器人的宏大圖景,推動著一場從「車」到「人」的智能化躍遷。
然而,具身智能的發(fā)展還面臨多重現(xiàn)實挑戰(zhàn)。從數(shù)據(jù)采集到模型訓(xùn)練,從硬件本體到場景落地,產(chǎn)業(yè)鏈各環(huán)節(jié)都存在大量技術(shù)和工程問題。僅僅依靠單一機構(gòu)難以全鏈條突破,必需要構(gòu)建多方共建的產(chǎn)業(yè)協(xié)作生態(tài)。
地平線作為機器人時代的智能計算平臺,既是這場進化的見證者,更是深度參與者與賦能者。當(dāng)前,地平線已成為中國最大的消費類機器人計算平臺,旗下地瓜機器人上市產(chǎn)品超過 100 款,連接著超 100 家上下游合作伙伴與 10 萬余名開發(fā)者。
在 12 月 9 日舉行的 2025 地平線技術(shù)生態(tài)大會上,極客公園創(chuàng)始人張鵬與本末科技創(chuàng)始人兼 CEO 張笛、極佳視界創(chuàng)始人兼 CEO 黃冠、優(yōu)必選研究院 A1 大模型與交互部負(fù)責(zé)人石海林、香港大學(xué)數(shù)據(jù)科學(xué)研究院助理教授李弘揚、地瓜機器人 CEO 王叢等嘉賓,進行了一場「名」人不說暗話的硬核圓桌,全景呈現(xiàn)了從芯片、算法、開發(fā)平臺到機器人本體的全產(chǎn)業(yè)鏈創(chuàng)新,深度探討具身智能的技術(shù)發(fā)展、商業(yè)落地,聚焦技術(shù)跨域賦能的生態(tài)潛力。
在這場對話中,你既能看到具身智能當(dāng)下直面的痛點與挑戰(zhàn),也能捕捉到切實可行的落地場景;既有對前沿技術(shù)路線與商業(yè)邏輯的深度剖析,也有這一賽道未來的無限可能。
以下為圓桌對話實錄,由極客公園整理。
![]()
01
形態(tài)之爭:類人形態(tài) VS 功能形態(tài)
張鵬:在產(chǎn)品形態(tài)上,具身智能應(yīng)當(dāng)追求「類人形態(tài)」的極致擬人,還是「功能形態(tài)」的極致效率?
張笛:首先是本末我們自己一方面有一個直驅(qū)型的機器人關(guān)節(jié)的特色技術(shù)平臺,另外一塊是以輪足為特色的具身智能的機器人技術(shù)平臺。
我們選擇這個方向出發(fā)點跟剛才張鵬老師講到的,我們作為技術(shù)型的創(chuàng)業(yè)者,對樂觀和悲觀我們到底應(yīng)該怎么看,怎么樣去建模?因為我個人包括我們整個團隊其實一直是對未來持有無限樂觀,但是對中短期的界限,會盡可能保持悲觀的狀態(tài)。硬科技有一個特點,別到最后創(chuàng)業(yè)未半中道崩卒,還沒等實現(xiàn)自己的技術(shù)愿景,反而最后導(dǎo)致自己的經(jīng)營上出現(xiàn)問題,所以我們本質(zhì)上建模可能會傾向于用這種方式,去做公司未來技術(shù)路線的選擇。
在這個路線下面,我們?nèi)タ慈诵螜C器人和輪足這樣的形貌,其實核心的差異點是在于我們對移動和操作這兩個大問題上,我們到底選擇什么樣的解題思路,一種解題思路是純仿生,另外一種是不單純的仿生,不只仿生,我們傾向于第二個。從人形的角度來看,當(dāng)然可能有很多人會說人形會有很多落地的場景,我們也從來不排斥這樣的觀點和看法,但是我覺得今天的主題也比較好,名人不說暗話,還是虛火過剩的,我還是覺得這個行業(yè)是很強的。
張鵬:既然說是「虛火」,那一定是當(dāng)下存在某些難以解決的問題。你覺得核心瓶頸主要卡在哪里?
張笛:我覺得問題是現(xiàn)在其實大家對這個行業(yè)的關(guān)注是夠的,這是非常好的一件事兒。因為任何一個行業(yè)都需要有一定的 show off 的能力,讓大家有足夠的傳播點,但是問題在大家只關(guān)注到了其中的一方面,大家只關(guān)注機器人這個大品類當(dāng)中類人形的一方面,這件事情是不夠健康的。
其實機器人這個品類有非常多可以選擇的余地,甚至說仿生、擬人都只是一個可以選擇的方向,這個行業(yè)有無限的可能,這就是為什么我們說對未來無限樂觀,但是對現(xiàn)在卻保持相對審慎的態(tài)度,我們覺得機器人這個賽道可以走伴生的模式非常多,但是現(xiàn)在似乎有太多狹隘,把所有的精力和資源投在一個角度上,這就是我們傾向于未來在雙足和輪足上面,我們會朝著非擬人、非仿生這個方向探索的一個主要原因。
張鵬:所以你認(rèn)為超人的場景比擬人的場景會更多,或者說在有些場景超人是比擬人有更好的解法的,可以這么理解嗎?
張笛:可以這么理解,而且我覺得最主要的是,擬人作為一個大行業(yè)的入場券,沒有任何的設(shè)計參照,開始想盡辦法去開啟一個行業(yè),這個起始點非常好。
但是隨著一個行業(yè)的向下發(fā)展,總會發(fā)現(xiàn),其實墊腳石下一步踩在哪?英雄老路未必是最優(yōu)解,我們有非常多的思路告訴你,機器人是新物種,可以完全設(shè)計一個新的產(chǎn)品,這個對整個行業(yè)來講是最健康,最有誘惑力,對我們年輕的人來講也是最有挑戰(zhàn)的方向。
張鵬:優(yōu)必選堅定走人形機器人方向,背后有怎樣的判斷和考量?在你們看來,哪些場景是只有人形才能滿足的不可替代需求?
石海林:這個問題,我們優(yōu)必選作為人形機器人的先行者以及行業(yè)龍頭,我們會很務(wù)實去看人形機器人,包括雙足輪式,都是屬于人形機器人,回到這個問題,我覺得可以從兩方面去看。第一個我們追根溯源,去看人類為什么是人形的。從大自然還有生物進化千百年來看,人之所以成為人形,我們的四肢,我們的手有五個手指頭,我們的五官在頭上,我們大部分人的眼睛的距離平均在 6 厘米,為什么大家都是這樣的,其實背后是因為適應(yīng)了自然環(huán)境和我們?nèi)祟惿鐣h(huán)境的結(jié)果。
今天我們來看人形機器人,它去做到人形,其實更多的不是說我們一定要做到怎么樣,而是說從自然最優(yōu)化的結(jié)果拿到了一些結(jié)論,用在我們?nèi)诵螜C器人的產(chǎn)品和形態(tài)上,這是第一點。
第二點,我覺得更多也是可以從產(chǎn)業(yè)的應(yīng)用場景去看,就以優(yōu)必選我們現(xiàn)在聚焦的工業(yè)場景(來說),人形機器人現(xiàn)在主要有三大應(yīng)用場景,工業(yè)場景、商業(yè)場景以及家用陪伴場景。后兩個商用場景和家用場景,因為還有一些交互和情感陪伴的需求,這些需求會更直接的去對人形外觀、ID 設(shè)計甚至仿生人形有更高的要求,這些還是比較直接能得出的結(jié)論。從工業(yè)場景來看的話,為什么我們也要去看人形在這個場景里的優(yōu)化,因為在工業(yè)場景,通過長期以來的應(yīng)用,我們可以看到有大量的結(jié)構(gòu)化任務(wù),也有更大量的非結(jié)構(gòu)化任務(wù),這些非結(jié)構(gòu)化的任務(wù)從需求出發(fā),去要求產(chǎn)品和功能要具備更強的泛化能力。在我們在工廠看到,各類形形色色的機械臂各種捶打,但是只能做一些特定的死的任務(wù),而且形態(tài)各異,動不動 4、5 米高,特別大。
但我們看到更多的任務(wù),是比如說物流轉(zhuǎn)運,里面包含了搬運、分揀的任務(wù),還有上下料、精密裝配,他們的場景很多是一些狹窄的通道,一些靈巧的柔性的操作,這些對機器人的操作更高,泛化能力也更強。比如這些操作、搬運、上下料,所以在這些場景需求的催生下,我們會往人形這個方向去看。
![]()
張鵬:還有一種觀點認(rèn)為,選擇人形形態(tài)是因為它更利于數(shù)據(jù)遷移。例如,通過人類進行遙操作或動作捕捉來采集數(shù)據(jù),能讓算法在數(shù)據(jù)閉環(huán)中迭代得更高效。
你們在實際研發(fā)中,感知到了這種數(shù)據(jù)層面帶來的效率優(yōu)勢了嗎?
石海林:對的,人形數(shù)據(jù)相對其他形態(tài)的數(shù)據(jù)更容易采集獲取、標(biāo)注清洗。以遙操作采集為例,如果設(shè)備與人形,比如手部、雙臂,是同樣的甚至同構(gòu)的,那么操作員操作起來會更高效便捷,同時培訓(xùn)一個數(shù)量的操作員也更簡單容易。
張鵬:目前有兩種產(chǎn)品形態(tài)的發(fā)展路徑,一種「通用底盤+功能模塊」;另一種是直接開發(fā)一個全能一體化機器人。你們認(rèn)為哪種技術(shù)路徑更有可能實現(xiàn)大規(guī)模普及?
張笛:其實本末科技在觀察行業(yè)生態(tài)時有很多發(fā)現(xiàn),因為我提到,我們公司是平臺化的機器人供應(yīng)商,我們是有關(guān)鍵技術(shù)去服務(wù)客戶。在這個過程中我們發(fā)現(xiàn)整個具身智能大的方向可以分兩類,按照張總講的分類方法,但我們的叫法會叫成學(xué)院派和產(chǎn)業(yè)派,其實相差最主要的點,學(xué)院派是自上而下,以通用為大旗,去把所有的相關(guān)的技術(shù)去做推廣和積累,但產(chǎn)業(yè)派就是循序漸進去做通用,本質(zhì)上就是一個基座上面疊加模組。這兩個一個是自下而上,一個是自上而下,但是我們從統(tǒng)計上來看,產(chǎn)業(yè)派的速度和市場化的速度確實沒那么快,假如大家認(rèn)可,以底層的通用化平臺加各種各樣的功能模組逐漸去做通用這件事,是一條通向具身智能的道路的話,現(xiàn)在從商業(yè)化的角度,還是產(chǎn)業(yè)化會推動得更快一點。
![]()
石海林:我完全認(rèn)同張笛總的觀點,在產(chǎn)業(yè)派這一塊,我們自下而上從場景任務(wù)出發(fā),構(gòu)建海量的數(shù)據(jù),以及基于算力的一些資源和優(yōu)勢,去快速把學(xué)術(shù)界從上而下的基座模型應(yīng)用在具體各類場景中。而且這個周期我們認(rèn)為是一個絕對的加速化的過程,因為我們看到,比如十幾年前我們說做智能化,那個時候是做感知智能,如果我們比如以 AlexNe t 作為標(biāo)志物,作為開端,到 2022 年,比如說那會兒 ViT 作為一個成熟標(biāo)志的話,從發(fā)展到成熟感知智能花了十年時間。但是在感知智能的下一階段,交互智能如果我們以 17 年 transformer 出現(xiàn)為開端,到它成熟期,比如說正好三年前 ChatGPT 發(fā)布作為一個成熟標(biāo)志的話,這個過程從十年加速到了五年。那我們今天來看具身智能這一塊,如果我們以 ALOHA 為代表,他打通了 Neural Network 在具身智能這一塊的技術(shù)方案。所以我們可以把 2023 年作為起始點的話,假設(shè)我們也是以最保守 5 年來估計,從 23 年到 28 年,今天來算的話可能就三年,或者 18 個月,就已經(jīng)進入到成熟期,這個周期是大大加快。
02
技術(shù)路線之爭:
「先驗?zāi)P汀梗∕odel-based)
VS「數(shù)據(jù)規(guī)模」(Data-driven)
張鵬:極佳科技從自動駕駛世界模型切入具身智能,目前世界模型在具身智能領(lǐng)域已經(jīng)解決了什么問題?還有什么問題有待解決?
黃冠:覺得這個問題提得特別好,像「世界模型」「空間智能」這些概念都備受關(guān)注。大家探討其在內(nèi)容創(chuàng)作、自動駕駛以及具身智能等領(lǐng)域的應(yīng)用時,我想先講講我個人對世界模型對具身智能領(lǐng)域價值的一些看法。
我認(rèn)為世界模型是物理 AGI 最后的瓶頸,并且它不是要 5 年、10 年被攻克掉,實際上我們已經(jīng)看到了它被解決的曙光,得益于整個生成式 AI 的發(fā)展,這是我對整個世界模型大的看法。
更具體,世界模型對具身智能的價值是全方位的。其實我們講一個具身模型,無非就是講數(shù)據(jù)來源、學(xué)習(xí)范式,以及模型架構(gòu)。世界模型在這三方面都有非常高的價值,首先數(shù)據(jù)來源,如果具身智能僅僅依賴真實機器和傳統(tǒng)仿真這兩種方式,可能會存在比較大的瓶頸。真機要采集到足夠的數(shù)據(jù)極其困難,基于規(guī)則構(gòu)建的傳統(tǒng)仿真上限也比較受限。而世界模型提供了一種非常高效生成世界的方式,雖然它目前并不完美,但已經(jīng)展現(xiàn)出巨大的價值,它是一個數(shù)據(jù)引擎,能夠為具身智能提供無限的所需的數(shù)據(jù)。
第二個是在學(xué)習(xí)范式上,模仿學(xué)習(xí)很有價值但是遠(yuǎn)遠(yuǎn)不夠,強化學(xué)習(xí)如果只是依賴真實環(huán)境去做,也是很低效的,包括大家現(xiàn)在看到 Pi0.6 star,雖然已經(jīng)進步很大了,但仍然高度依賴真實環(huán)境;而世界模型實際上為強化學(xué)習(xí)提供了一個非常好的閉環(huán)環(huán)境,它是能夠被 action 驅(qū)動的,來預(yù)測未來環(huán)境變化的模型。
對,所以我們叫它是可以 Scale 的強化學(xué)習(xí),這是它作為模擬器的第二點價值。第三點就是更本質(zhì)了,叫做世界行動模型,可以替代 VLA,L 為什么會對 action 一定必須呢?我們過去做自動駕駛也沒有語言,所以 VLA 依賴這個 L 問題是很大的,要真正實現(xiàn)智能,就得邁向世界行動模型,所以我認(rèn)為這三個點的價值都會非常大。
目前行業(yè)進展上,在上面三個方面,無論是我們的一些工作,還是全球的包括像 Cosmos 很多一些工作,世界模型都已經(jīng)開始大規(guī)模的產(chǎn)生價值了。這是我對世界模型和具身智能關(guān)系的理解。
張鵬:世界模型能夠解決具身智能領(lǐng)域數(shù)據(jù)匱乏的問題,但世界模型也是模型,所需要的數(shù)據(jù)同樣匱乏,極佳是如何解決這個死循環(huán)的?
黃冠:這兩個問題都問得非常好,我還是思考一下,我可能這樣回答。我跟大家介紹一下,第一個是各個模型的關(guān)系,我們講三個模型,語言模型、世界模型、行動模型。語言模型輸出的是語言,世界模型輸出的是對未來世界的預(yù)測,未來的世界可以用 video 去表示,可以用 3D 去表示,當(dāng)然也可以把 physics 表示進去。第三個行動模型輸出的是 action。所以這是三個非常不同的模型。
第二個,為什么語言模型跟世界模型其實可能相比行動模型會好解決呢?就是因為數(shù)據(jù)多,大家都知道,語言模型有互聯(lián)網(wǎng)上的海量文字?jǐn)?shù)據(jù)作為支撐。而世界模型所依賴的數(shù)據(jù)中,互聯(lián)網(wǎng)的視頻數(shù)據(jù)是最重要和基礎(chǔ)的部分,這些視頻數(shù)據(jù)看似沒有直接呈現(xiàn)三維(3D)和 physics,但實際上 3D 和 physics 都隱含在視頻的隱空間里了。大家看互聯(lián)網(wǎng)上的視頻,比如一個水杯被扔出去,這其中就蘊含了非常豐富的物理規(guī)律。所以視頻數(shù)據(jù)其實是一個非常好的構(gòu)建世界基礎(chǔ)模型(world foundation model)的素材來源,雖然它并不完備,但是一個非常好的基礎(chǔ)。而我們最不缺的就是互聯(lián)網(wǎng)上記錄的海量的視頻數(shù)據(jù)。所以,語言模型和世界模型能夠更高效地利用豐富的語言和視頻數(shù)據(jù),進而作為行動模型的基礎(chǔ)。
第三點,我最近也思考很多,為什么智駕和具身可能不太一樣,在智駕里面,大家之前沒有所謂的 VLA,沒有世界模型,但也干得還不錯。包括中午體驗的地平線的一段式端到端,真的非常絲滑,為什么?因為智駕有大量數(shù)據(jù),只要數(shù)據(jù)足夠多,可以不依賴語言模型和世界模型,只需要場景的端到端駕駛數(shù)據(jù)就好。當(dāng)然,最后加上 VLA 和世界模型,會讓系統(tǒng)的推理能力更強,迭代更高效。但是具身模型你會發(fā)現(xiàn),如果從頭做一個 VA 的端到端模型,是基本不可能的,核心是因為具身領(lǐng)域太缺數(shù)據(jù)了,這會導(dǎo)致駕駛模型和具身模型非常不一樣的發(fā)展路徑。
![]()
張鵬:具身智能領(lǐng)域的模型訓(xùn)練會遵循 Scaling Law 嗎?跟大語言模型的 Scaling Law 會有什么不一樣?
李弘揚:這個我嘗試回答一下這個問題,這個問題還是問得非常前沿的,首先有個結(jié)論,具身智能領(lǐng)域一定會有 Scaling Law,到目前為止真正能算得上,做過 Scaling Law 實驗的,這個世界上只有一家公司,就是 Generalist AI,前一陣的 Gen-0。其余包括 Physical intelligence(Pi),都沒有很大規(guī)模的用 Scaling Law 的實驗,都還談不上 Scaling Law。所以你問的下一個問題,如果真有規(guī)模法則 (Scaling Law),它會和大語言模型的規(guī)模法則呈現(xiàn)怎樣的情況呢?
其實大概率還是沿著一種冪律分布的,或者說是線性的,無論是指數(shù)級還是線性的增長的趨勢,這里面我想說一下,因為 Gen-0 這個工作一周積累 30 個小時,300 萬條數(shù)據(jù)(有效的軌跡),我們大概也換算了一條,如果兩班倒的話,采集這個不同的 manipulation task,一班 8 個小時,16 個小時,其實有效的轉(zhuǎn)化率是 4、5 個小時,因為還要涉及到數(shù)據(jù)質(zhì)檢、熟悉的過程等。這樣的話需要 Aloha 或者說主從臂這樣的一套設(shè)備需要 500 套,很顯然它不可能部署 500 套,所以肯定要走 UMI 等等這種低成本的路線。在具身領(lǐng)域大家都在談?wù)摂?shù)據(jù)金字塔、真機數(shù)據(jù)等概念,我覺得從算法、數(shù)據(jù)、硬件以及法律這幾個維度來看,如何構(gòu)建一套高效的數(shù)據(jù)采集系統(tǒng),在具身智能領(lǐng)域是非常關(guān)鍵,然后我們再來說 Scaling Law 這個事。
03
數(shù)據(jù)策略之爭:
仿真/合成數(shù)據(jù) VS 真機數(shù)據(jù)
張鵬:具身智能領(lǐng)域會有 ImageNet 時刻嗎?什么時候收集真機數(shù)據(jù)的速度可以快速成長?
黃冠:我覺得很可能不會有 ImageNet 時刻,因為圖像分類任務(wù)很標(biāo)準(zhǔn)化,給一張圖片給了一個標(biāo)簽就行;但是具身機器人,所有的傳感器、執(zhí)行器、環(huán)境、物體都不一樣,本體也不一樣,具身不是打造一個數(shù)據(jù)集的問題。所以我認(rèn)為具身領(lǐng)域可能不會存在 ImageNet 的時刻,而是會直接到 chatgpt 時刻。
并且我們其實覺得沒那么遙遠(yuǎn),最近硅谷密集的出來一波公司,已經(jīng)積累了 10 萬小時以上的真機數(shù)據(jù)。所以可能明年很關(guān)鍵,明年全球可能會有 5-10 家公司,會把數(shù)據(jù)的量至少做到百萬小時的級別(當(dāng)然這里面大家數(shù)據(jù)來源的分布可能會不一樣),可能會有公司接近 GPT-3 時刻。所以其實我們對 ChatGPT 時刻也不用那么悲觀,就像凱哥開場的時候講的,可能具身三五年時間就進入家庭場景了。我們其實更樂觀,因為這個行業(yè)很卷,只要大家意識到可以做,只要資源投入到位,就沒有那么大瓶頸,無論是數(shù)據(jù)獲取、模型架構(gòu),還是具身本體研發(fā),只需要時間,需要投入。明年可能會接近 GPT-3 的時刻,兩三年之內(nèi)有機會到 ChatGPT 時刻。
李弘揚:我沒有那么樂觀,跟黃總差不多,所以還是要遵循這個數(shù)據(jù)金字塔或者說 pyramid 的這種形式。互聯(lián)網(wǎng)數(shù)據(jù),即 ego-centric data,加上 simulation,加上遙操等等這些,互為補充吧。
![]()
04
場景之爭:工業(yè)場景 VS 家庭場景
張鵬:機器人觸達 C 端用戶的路徑應(yīng)該是怎樣的,要讓機器人真正走進千家萬戶需要突破哪些關(guān)鍵節(jié)點?
張笛:剛才大家提到兩個觀點,一個是學(xué)院派,一個是產(chǎn)業(yè)派,一個是一口吃成個胖子,把通用實現(xiàn),另外一個是循序漸進做通用。我們自己的觀察,現(xiàn)在走進千家萬戶的具身機器人已經(jīng)非常多了,甚至是在幾百萬到上千萬以上這個數(shù)量級。
我們可以舉一些例子,什么叫循序漸進的走向通用。當(dāng)某一天我們在家里面看到自己的掃地機器人除了掃地以外,突然之間有了安防巡檢的功能的時候,它就向通用邁出一步。當(dāng)它有了安防巡檢之后,又有一定的家居物品要維護的時候,它又向前走了一小步,但有一天總會有一個時刻,大家會忽然驚訝的發(fā)現(xiàn),原來我家里的小機器人能干的事情竟然越來越多,竟然變成這個樣子,竟然解決的問題已經(jīng)不再是我當(dāng)時一開始覺得它的這個樣子了,這是一個產(chǎn)品系列,這是它在怎么樣去逐漸走向通用的過程。
而且同時,我們家用的小型清潔機器人廠商,一開始瞄準(zhǔn)的是室內(nèi)的場景,后續(xù)就會逐漸的希望我的機器人從室內(nèi)走出去,可以從室內(nèi)走上電梯里,可以走向自己家的草坪,可以走向街區(qū)。對于企業(yè)而言,要實現(xiàn)產(chǎn)品這樣循序漸進地走向通用化,究竟該如何推進呢?這兩個力量都可以讓一個行業(yè)從一開始對一個功能性的產(chǎn)品,從一個簡單的功能性的產(chǎn)品的期待,到逐步轉(zhuǎn)變?yōu)閷δ軒砀鼉?yōu)質(zhì)體驗產(chǎn)品的期待。這樣的循序漸進過程我覺得已經(jīng)正在發(fā)生,而且如火如荼,甚至正在加速發(fā)生。
張鵬:聽起來你的思路是先聚焦于單一場景下的有效履約,就像掃地機器人也做出了千萬臺的市場一樣。基于一次次成功的服務(wù)履約,逐步疊加任務(wù)能力、演進產(chǎn)品形態(tài),最終實現(xiàn)通用化。而不是希望一下出現(xiàn)一個「iPhone 時刻」。
張笛:也不完全是這樣,一定是量變帶來質(zhì)變,在逐漸的履約的過程,現(xiàn)在的量變還不能引起質(zhì)變,還沒到那個關(guān)鍵節(jié)點,沒到那個 turning point,就像傳統(tǒng)的功能機時代,先有 BP 機,再有大哥大,最后能發(fā)短信,有彩鈴,同時有 PDA,最后有一個大屏做整體的匯總,同時又能上網(wǎng),又能聽音樂。現(xiàn)在我們處在前夜的狀態(tài)。
張鵬:C 端最有可能跑出來并且有商業(yè)價值的場景會是什么?
王叢:如果我們現(xiàn)在說具身能做很多東西的肯定是在家庭用戶場景,但問題是都做不出來。張笛哥說的我很認(rèn)同,真的做消費電子的這幫人都很務(wù)實,都一定是價格成本對應(yīng) PMF(市場匹配度)的價值,一定是找到它的一個很匹配的點,這個東西才有可能在 C 端跑出來。C 端跑出來的東西絕對不是一個價格偏高,PMF(市場匹配度)沒有的東西,所以 C 端消費電子產(chǎn)品的功能一定是一點點積累的,其實 Iphone 也是功能積累起來的。
iPhone 如果大家看喬布斯的發(fā)布會,其實就是通訊、MP3 加上一個電話,三個已有功能整合到了一個產(chǎn)品上,然后慢慢構(gòu)建起一個生態(tài)系統(tǒng),從而有了所謂的智能手機。但是其實在 Iphone 之前的諾基亞也有不同的軟件,也叫智能機,其實我覺得消費電子一定還是回歸到最本身的產(chǎn)品需求,一點點疊功能發(fā)展出來,所以包括我們國內(nèi)很多客戶,就像掃地機最初只是負(fù)責(zé)平面的清潔,這件事情它的價格空間就已經(jīng)被定死了,因為它就是地面的清潔,就算把掃地機器人掃到 90 分、95 分、100 分,它的價格永遠(yuǎn)是那樣,除非它變成一個空間清潔,但即便如此價格空間也有限,因為請個阿姨也就 40、50 塊錢一小時,家庭清潔就三個小時家里都打掃一遍,其實它的價格也定死了,一定要找到那個關(guān)鍵增長點才能爆發(fā)。
![]()
張鵬:從情緒價值這個角度來看,具身智能有機會進入家庭嗎?
王叢:情緒機器人這個事情我是很看好,但是它并不是嚴(yán)格意義上的價值,因為每個人,男人、女人、小孩、老人,每個人定義陪伴、定義情緒的概念太非標(biāo)了,所以你很難定義出來一個所謂的陪伴機器人。陪伴什么?我覺得這不是一個以場景定義產(chǎn)品的思路,真正好的產(chǎn)品定義,應(yīng)該是當(dāng)我想到某一個特定場景時,就能立刻聯(lián)想到對應(yīng)的產(chǎn)品;同時,當(dāng)我看到某個產(chǎn)品時,也能馬上明確它要解決的是哪個具體場景的問題。所以大家看很多產(chǎn)品不能推廣,或者做的 idea 很好,但是賣不出去,雖然我覺得情緒機器人是個好東西,但是它一定要對應(yīng)到不同細(xì)分的場景當(dāng)中,大家才能進一步去談這個問題。
05
生態(tài)模式之爭:生態(tài)開放 VS 全棧自研
張鵬:目前的頭部玩家很多都選擇全棧自研,地瓜機器人為什么選擇了「生態(tài)開放」路線?
王叢:我覺得這個選擇既有感性的一面,也有理性的一面。先說說感性的:任何一家公司做事情,創(chuàng)始人、CEO 都會有對未來的畫面感——地瓜機器人的畫面感是什么?或者說,什么事能讓我們這幫人發(fā)自內(nèi)心地開心?不是我們自己做出一個多智能、多厲害的機器人,而是看到各行各業(yè)的消費電子、智能硬件,都能通過我們的技術(shù)賦能實現(xiàn)智能化,這才是我幻想中的畫面,也是能讓我們真正開心的事——這是感性層面的原因。
我覺得機器人行業(yè)就算發(fā)展十年,也依然會是非標(biāo)市場——各行各業(yè)的機器人本體形態(tài),大概率都會不一樣。哪怕幾年以后人形機器人變得非常泛化、智能,我也無法理解「用幾十萬的人形機器人來掃地」這件事——大家看的科幻電影里,未來是各種各樣的機器人各司其職,我覺得現(xiàn)實的未來也會是這樣。機器人這件事情就是它很非標(biāo),它的場景很碎,它并不是一個寡頭壟斷的市場,那我覺得這個時代是需要有一家公司去把底層的一些東西給做好,才能真的加速這個時代的到來。雖然說這是我們的立場,但我覺得未來機器人公司有很多自研的,有很多會選擇擁抱像地瓜這樣的供應(yīng)商,有很多公司會自研,這個太正常了。歷史這么多年,每個行業(yè)都會有這樣的分化:全棧自研的公司,比如蘋果,是非常偉大的公司;擁抱生態(tài)開放的公司,比如英偉達,也是非常偉大的公司。所以世界是多元的,兩種路線都對,只是我們感性上的追求,讓我們選擇了生態(tài)開放這一端。
![]()
張鵬:李老師前一陣聯(lián)合智元開源了全球首個基于全域真實場景的百萬真機數(shù)據(jù)集 AgiBot World,開源數(shù)據(jù)集會給行業(yè)帶來哪些價值?
李弘揚:感謝,首先要嚴(yán)謹(jǐn)說明,「全球首個」是智元的宣傳表述,學(xué)術(shù)上還是要謹(jǐn)慎,畢竟說「the very first」很容易被人攻擊。其實最開始 2023 年我就和姚卯青合計這個事,2024 年的時候智元還處在比較早期的階段,但他能有這樣的雄心壯志——在上海張江有 2000 平的數(shù)采場,而不是在大學(xué)實驗室的簡單的 pick-and-place,這一點才是最打動我的。后來才有了現(xiàn)在這樣的體量,包括我前兩天去那個數(shù)采廠,都已經(jīng)需要訪客門禁了,能看出來規(guī)模確實起來了。
這個百萬真機數(shù)據(jù)集,至少現(xiàn)在回過頭來看,可以用于預(yù)訓(xùn)練、世界模型的訓(xùn)練,能給那些沒有海量數(shù)據(jù)的高校實驗室提供一個很好的平臺。但其實我們最近也在復(fù)盤,這樣的模式能不能復(fù)制?畢竟像 agibot world 這樣的數(shù)據(jù)集,買過來成本也不低,還需要一套完整的生態(tài),上到云服務(wù)的支撐等等,都得配套。所以在這之后,開源開放的數(shù)據(jù)集其實挑戰(zhàn)還是蠻多的,可能最后還是需要一個行業(yè)和眾力共建的平臺來牽引,搭建一個統(tǒng)一的真機測試場,而不是單純靠一家的數(shù)據(jù)集獨大,這樣的生態(tài)會更合適一些。
06
人際關(guān)系之爭:親密共生 VS 警惕控制
張鵬:不同人群對人機親密程度的需求差異顯著,是否會催生功能型機器人與陪伴型機器人的細(xì)分賽道?「情緒價值」是否可以如何翻譯成可落地的產(chǎn)品定義語言?
張笛:其實我覺得我的綜合判斷跟王叢哥講得比較類似,情緒價值這個事情怎么定義產(chǎn)品,其實是非常非常需要去仔細(xì)斟酌的一個方向,純粹的情緒需求把它翻譯成商業(yè)需求的語言,肯定是能夠去做的。不管你是孤獨也好,甚至孤獨也可以分成若干種,解決不同的孤獨,可能會有不同的產(chǎn)品形式可以去做,這個時候你發(fā)現(xiàn)情緒需求并不依賴于一個全能的機器人,只要針對那樣專門的情緒需求定向去設(shè)計產(chǎn)品,這是我覺得最合理,也是最容易去取得一些市場進展的方式和方法。
這幾年我們在觀察整個市場,包括我們也服務(wù)了非常多的客戶,這個過程當(dāng)中我們也看到,確實還是有一些情緒需求,可以靠這些能移動的機器人,或者不能移動的對話終端,來去解決,進而形成一個比較穩(wěn)定的市場,也能形成一個未來有機會逐漸走向通用的這樣的 minimal available product(英),這些市場包括我們現(xiàn)在能看到方興未艾的一些小型的、甚至不能移動的對話終端——如果我們把具身智能列一個九宮格,橫軸看是否與物理世界產(chǎn)生接觸,縱軸是它到底要不要使用非常非常 fancy 的機器人算法,那這類對話終端其實就屬于「不接觸物理世界、僅依賴 NLP 算法」的類別,它確實也已經(jīng)在具身這個賽道下面,扎扎實實定義出了一個 minimal availbable product,這是一個方向。
另外,在能運動的機器人品類里面,我們也發(fā)現(xiàn)現(xiàn)在非常多小型的桌搭產(chǎn)品,開始逐漸疊加越來越多的新功能和新范式,而且這些桌搭產(chǎn)品里,情緒價值往往高過實用功能。那這樣的桌搭產(chǎn)品,甚至是純玩具類型的產(chǎn)品里面,其實也有機會跑出商業(yè)化路徑。既然已經(jīng)它是有 MVP 的這樣的一個 minimal available 的這樣的一個小市場了,那其實依然有機會在通用化的道路上越走越遠(yuǎn)。
![]()
張鵬:機器人越來越像人,是提升用戶體驗的必要設(shè)計,還是會模糊人機邊界?如何定義「適度親密」的交互閾值?
石海林:其實在這個層面我們確實做過深入的思考,關(guān)于這個問題我們有一個比較適合的思考切入角度——從技術(shù)發(fā)展的速度來看,面向情感價值、情感陪護這個方向的機器人也好,具身智能產(chǎn)品也好,技術(shù)迭代真的非常快。從硬件上來說,不管是續(xù)航能力、結(jié)構(gòu)復(fù)雜度,還是散熱效果、運行噪音,甚至是外觀設(shè)計,這些其實都還有很大的進步空間,但整體的發(fā)展速度非常快。從我們行業(yè)內(nèi)的觀察、實踐以及整個產(chǎn)業(yè)的推進節(jié)奏來看,這些技術(shù)的收斂速度會高過我們以前對它的預(yù)期。
相對硬件來說,軟件這兩年其實是走在前面的,甚至如果我們今天把「情感陪伴」收窄到僅僅是「交互對話」這個范圍的話,它其實已經(jīng)是一個成熟的技術(shù)了。所以這個東西怎么說呢?軟件相對來說是一個更成熟的板塊,當(dāng)然我們今天說的交互,可能不僅僅是語言上的交互——它給人提供情緒價值,可能是因為顏值足夠討喜;比如我今天回家很累了,我的機器人幫我打掃完房間、收拾好碗筷,這個過程本身也能給我提供情緒價值;再比如它能跟我順暢互動、回應(yīng)我的需求,同樣能提供情緒價值。
我們回頭看,面向情感陪伴的具身智能技術(shù)發(fā)展這么快,它勢必會推動產(chǎn)品和功能的成熟化,也會推動整個市場化的成熟,這個趨勢其實不太以人的意志為轉(zhuǎn)移,它是一個技術(shù)驅(qū)動的必然結(jié)果。那我們今天來看,我本人屬于那種技術(shù)狂熱者,我會主動去買悟空機器人這種陪伴型產(chǎn)品。其實不只是我,陪伴型機器人的目標(biāo)人群會從現(xiàn)在的技術(shù)狂熱者,逐步滲透到普通大眾接受者,這個過程同樣不受人的意志為轉(zhuǎn)移。
所以從今天的技術(shù)勢頭來看,我們更應(yīng)該思考的是怎么擁抱它、去接受它,怎么樣更好地使用它,而不是抗拒這個趨勢。
*頭圖來源:地平線
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.