![]()
![]()
( 10 月 24 日,在外灘年會上,穹徹智能創始人盧策吾接受了《財經》專訪 )
盧策吾以上海交大教授身份創業,擅長通用機器人大腦技術,但堅持“軟硬件一體”,他最新的觀點是,具身智能應該更多往服務業發展
文 | 《財經》記者 劉以秦
編輯 | 謝麗容
具身智能是今年最熱門的創業領域,但在兩年前,這一領域還少有人提及。
在中文世界相對較早的定義是在2023年7月,中國計算機學會的官方賬號發布文章《具身智能 | CCF專家談術語》,文中為具身智能下了定義:“具身智能是指一種基于物理身體進行感知和行動的智能系統,其通過智能體與環境的交互獲取信息、理解問題、做出決策并實現行動,從而產生智能行為和適應性。”
那篇文章的作者是上海交通大學人工智能學院副院長盧策吾、北京大學前沿計算研究中心助理教授王鶴。幾個月后,盧策吾創辦穹徹智能,王鶴創辦銀河通用,如今這兩家創業公司均是具身智能領域里的明星公司。
2016年,盧策吾與王世全、鐘書耘、葉熙陽四位斯坦福校友創辦了機器人公司非夕科技。2023年11月,非夕科技孵化穹徹智能,專注于具身智能方向。
今年10月,穹徹完成新一輪融資,阿里巴巴領投,公司成立至今,已完成6輪融資。
在具身智能商業化過程中,數據與模型的效率是核心問題,穹徹的主要方向是具身智能大腦,最新研發成果包括無本體數據采集方案、通用端到端模型方案以及人機協作的規模化部署系統。
目前具身智能創業公司各有側重,有的專注機器人本體,有的更重視大腦和模型。通常大腦公司會面臨交付問題,因為現在市面上的機器人標準不統一。穹徹的特別之處是由非夕科技戰略孵化而來,非夕有相對完整的硬件生態,穹徹也繼承了這部分能力,在現階段能為客戶提供軟硬件一體的交付方案。
2016年,盧策吾從斯坦福大學回國創業做機器人后,他不斷向外界介紹什么是具身智能,但早期外界很難理解,2018年他曾經組織了一場線下論壇,到場只有7個人。直到2024年,具身智能行業一夜爆火,他經歷了相對完整的中國具身智能發展周期。
10月24日,在外灘年會上,穹徹智能創始人盧策吾接受了《財經》專訪,作為“教授創業”的代表,他回應了外界對于這類創業者的“標簽化”問題。他提到具身智能應該更多往服務業發展,而非停留在工業場景。他認為,具身智能讓AI從數字世界進入真實物理世界,是AI的終極方向。
![]()
通過硬件來驗證大腦
《財經》:穹徹10月剛完成新一輪融資,是由阿里投資,為什么和阿里合作?
盧策吾:第一,具身智能需要高水平人工智能的能力,算力很重要,阿里的有非常好的算力。
第二,阿里云有很多社區聯動,機器人在阿里的產業上可以有很多合作的場景,我們希望機器人能夠進入人類的生活,而阿里的很多觸角就是在人類的生活中,是一個非常好的合作伙伴。
《財經》:算力的重要性體現在哪里?
盧策吾:智能需要的模型會越來越大,機器人需要去理解視頻,理解語言,理解行為,算力一定是指數級的增加。
《財經》:穹徹是非夕智能孵化的創業公司,非夕已經有機器人的業務了,為什么還要單獨成立一家創業公司來做?
盧策吾:具身智能是需要服務于所有的機器人的,要服務于更大的產業。
《財經》:所以穹徹做的是機器人的大腦,為什么對外的說法是“軟硬件一體”?
盧策吾:這里可能有一個誤區。我們是兼具軟硬件一體的能力,我們已經推出了完整的機器人本體。并不是說我們脫胎于非夕,我們就不做硬件了,我們可以用到非夕的機械臂,也會用其他廠商的零部件,最終要給客戶交付的是一個整機形態。
《財經》:大腦已經很難做了,為什么還要把本體一起做了?
盧策吾:需要兩條腿走路,我們雖然是一家大腦公司,但要讓客戶用上我們的大腦,需要先通過自己的機器人去推廣和證明。我們自己先把這件事做完,別人覺得我們的大腦挺好用,慢慢就會用到他們自己的硬件上。
《財經》:大腦和本體單獨做一個成本都很高,兩個一起做,成本會不會有壓力?
盧策吾:還好。大腦確實成本比較高。我們本身有做硬件的底子,也不會去單獨研發關鍵的零部件,所以整體還好。
《財經》:大模型已經發展幾年了,大腦的成本有下降的趨勢出現嗎?
盧策吾:目前沒有看到成本下降趨勢,因為具身智能是一個人才密集型、數據密集型和算力密集型的行業。
《財經》:現在大腦的智能化程度有多高?
盧策吾:很難用量化的方式解釋,還在逐步進步的過程中。機器人的大腦不像大模型那樣會有一個評判標準,比如各類榜單排名。我們能看到的一個角度是“技能光譜”,就是會逐步解鎖各種技能,比如抓取物品、折疊柔性物體、刮削物體表面等。
![]()
什么是好的商業化場景?
《財經》:穹徹的機器人目前落地應用的場景有哪些?
盧策吾:零售、食材處理,還有酒店行業。
來找我們的客戶很多,我們要去篩選,這個行業要足夠大,且需要新技術去變革,如果他們要的還是傳統的技術,那就沒必要去做了。我們會積累這樣的應用場景,在累積的過程中不斷提升AI能力,能力提升后,你能覆蓋的業務就更大了。
《財經》:所以這三個行業是你認為很好的應用場景?
盧策吾:比如食材加工處理,屬于千億級別的場景,而且這個場景是可以磨煉AI的。這里面用到的很多技能是可以遷移到其他場景里的。比如菜和肉,形狀和質地都是不固定的,不同食材需要的工藝也是不一樣的,這個場景需要更多智能。我們在食材加工處理領域已經有批量的落地的營收了。
當然行業里其他具身智能公司可能會選擇不同的場景切入,這是我們認為從經濟價值和技術迭代價值角度來看,比較不錯的場景。
《財經》:你之前提到過,機器人已經從表演階段進入干活階段,怎么定義“干活階段”?
盧策吾:通過勞動創造價值。當然表演,跳舞這些也能夠替代一些表演人員的工作,但我們會更關心機器人能夠給人類的物質層面帶來哪些幫助。
《財經》:很多機器人公司會從工廠場景切入,這是“干活階段”嗎?
盧策吾:也是可以的。非夕之前就是主要做工廠業務,我們做了七八年,營收也做到很高了,所以我們之前在工業場景已經得到驗證了。
《財經》:很多工廠已經通過機械臂等實現了自動化,為什么還需要具身智能?
盧策吾:工廠還是有一部分場景需要,但確實我們應該把目標放在非工業領域。工廠里有很多場景是固定的,固定物體、固定動作、固定場景,這里也有具身智能發揮的空間,但不是最大的。具身智能應該往服務業方向發展,而且服務業的規模也更大。
如果只用具身智能去做工業場景,是很可惜的。
![]()
教授創業的“標簽”
《財經》:2016年的時候,你還在高校工作,為什么會參與創辦非夕科技?
盧策吾:當時我還在硅谷,在斯坦福大學,創辦非夕之后,回到上海交大任教。
具身智能是一個綜合的問題,它既是一個頂尖的產業,又是一個前沿的科學問題。所有的企業都會面臨一個技術的黑森林,你不知道要往哪里走,在這里面你會看到,頂尖的產業,頂尖的科學,頂尖的應用,它是一體化的不分彼此的。所以無論是教授還是企業家,在追求頂尖的方向上是一致的。
還有一點就是人才培養問題。我們過去經常會把人才培養和企業割裂開,科研機構培養人才,頂尖人才去支持企業的核心。但你會看到這一輪創業都是科學家驅動的,上一輪是工程師驅動。今天的創業和科研本質上是一體化的,并不矛盾。
《財經》:你在斯坦福的時候,導師是李飛飛,為什么沒有選擇更偏AI方向或者大模型方向?
盧策吾:我個人認為具身智能是AI的終極狀態,因為智能不能只停留在數字世界,不能只識別圖片理解語言,我跟你說這是一瓶水,你不去拿起來,搖一搖,就會永遠停留在紙面上。這種情況下,AI對于理解的深刻程度是非常有限的。
我們假設未來會有10億臺機器人在外面活動,它們的數據回來之后,既有圖像數據,又有語言數據,還有交互數據,三種數據的印證能讓機器人對世界的理解更深刻。
人類的智能就是從真實世界的活動里誕生的,如果智能只是虛擬智能,不能走向物理智能,那就永遠存在局限性。反過來說,沒有物理智能的加持,虛擬智能很快會走到極限。
所以無論從哪個角度來看,具身智能都是最好的選擇,當然其他人可能會有不同看法。
《財經》:2016年的時候,波士頓動力已經引發關注了,你當時怎么看這家公司?
盧策吾:第一,機器人需要大腦,很明顯那個時候的機器人沒有大腦。大腦智能程度覺得這個行業能走多久。
第二,波士頓動力展示了很強的運動控制能力,但更關鍵的價值是操作。所以我們當時認為大有機會,雖然已經有波士頓動力了,但這個領域還是一個無人區。
《財經》:很多投資人會認為,教授創業的成功率并不高,原因是教授們沒辦法“All in”到創業中。
盧策吾:他們可能是基于統計,但我覺得還是要看具體的案例。現在的創業是需要科研和人才培養一體化的,如果你是工程師時代的創業者,我覺得可能不太需要。但在今天,你需要科研的視角,一旦走錯一點點,將會付出巨大的成本和代價。
具身智能領域的人才還是太稀缺了,我們公司今天的很多核心技術和頂尖人才就是因為我們背后有高校的體系化培養去支持。
另外,你提到的“All in”,我認為這是一個人性的問題,你創業是基于恐懼還是追求,如果是基于恐懼,那你只能做小生意,如果你做的是偉大的事,那要看的是創業者的信仰。
《財經》:越是偉大的事越需要全身心投入。
盧策吾:我們的研發和人才培養方向是一致的,這就是全身心投入。
《財經》:還有一個質疑是認為教授們雖然擅長人才培養和科研,但對于商業化和企業管理方面相對欠缺。
盧策吾:這也是因人而異的。很多時候我們喜歡把人標簽化,你是這個身份那你就一定有這些標簽。我在非夕做了8年的聯合創始人,已經經歷了商業周期的起起伏伏,包括管理、商業、資本,如何把一個科研項目變成好的產品,然后變成應用。
用AI的方式來說,貼標簽是一個比較誤差率很高的方法論。
![]()
具身智能是AI的終極方向
《財經》:具身智能行業有什么關鍵的節點,讓這個行業變成現在這么火熱?
盧策吾:美國是2016年開始變得比較火熱,中國是2023年之后。
我記得很清楚,我2016年回國后,一直做具身智能,2018年左右,我們組織了一場論壇,宣傳了很久,最后到場的只有7個人。隔壁會場在講物體檢測之類的話題,有幾百個人。我們還沒講完,這7個人里有一半走了,說“啥是具身智能”?
包括我們第一次去融資,也需要跟投資人科普這是什么東西,讓學生來報考我們的專業也要不停地去解釋。很多人聽完會說,你講得挺好的,但我不關心,因為還有很多其他熱門的方向。
到2024年,就不需要再解釋了。大模型起來之后,AI通用能力讓人們看到了機器人智能的可行性。類似于,愛因斯坦的能量方程出來之后,造出原子彈就只是時間問題了。
《財經》:為什么不直接說機器人,要說具身智能?
盧策吾:因為具身智能本身就是一個獨立學科,是經過學科體系認證的。機器人是個載體,我們要做的是具有身體的智能。這個詞最早是圖靈在1950年提出來的。我們是第一批把這個詞翻譯過來的,當時也沒有什么文獻參考,之前有一個詞是“具身認知”,就參考這個。
《財經》:美國在2016年機器人興起的原因是什么?
盧策吾:2016年之前斯坦福的熱門研究方向是視覺識別,大家發現,沒有交互的情況下,視覺的理解會受限,所以驅動了這一撥人去研究機器人方向。這里面有兩撥人,一撥是做深度學習的,一撥是做強化學習的,大家把視覺技術用在下圍棋上,這個方向驗證成功了,那是不是機器人也可以?
另外當時本身就在做機器人的人,他們看到了AI的魅力。比如我們非夕的創始人王世全,他就是做機器人的,他去斯坦福自學了深度學習。這樣幾撥人慢慢聚集到了具身智能這個方向上面,所以在硅谷就興起了。
《財經》:過去AI視覺或是大模型,都有比較豐富的數據集,但我們沒有物理交互的數據。
盧策吾:是的,這也是大家一直在談的問題,幾乎所有具身智能的論壇和采訪都在繞不開這個問題。
數據我們分兩部分,一是前訓練,二是后訓練。前訓練或者說預訓練,要求數據量要足夠大、足夠多樣,它要包含所有的場景。后訓練就是進入真實的商業環境中了,不能是看什么都懂但準確率上不去。所以對這兩類數據的要求是不一樣的。
如果要做一個好的預訓練數據集,我個人認為需要的是無本體采集。現在很多數據采集是通過機器人來操作,這樣很難實現多樣性。我們現在有外骨骼采集裝備,還有手持的采集設備,希望把數據采集嵌入到人類生活的各種場景中。另外還有世界模型,好的世界模型可以在里面實現物理交互,這是大規模生產數據資產的基礎。
預訓練完成之后,就要去做專業性的訓練了,就是專業的人來有針對性地訓練機器人,人來遙控操作機器人,這里面比較關鍵的商業化的點是“人機比”,一個人可以同時操作多少臺機器人,這決定了成本的高低。如果一個人盯著一臺機器人,這個賬是算不過來的,一個人能同時訓練很多臺機器人,其中有哪一臺錯了,就及時調整,這些錯誤的操作數據再回流,加入訓練,效率就會越來越高。
《財經》:世界模型中產生的仿真合成數據,和真實場景中的數據還是有差距的。
盧策吾:是的,有差距,最大的問題就是接觸,在虛擬空間中的接觸和真實的接觸還是不一樣,手感和力度的反饋等。我們的解決辦法是力位混合大模型。比如我們之前展示過機器人刮胡子的視頻,那就是力反饋的展示,力氣大一點會刮傷,力氣小一點會刮不干凈。
《財經》:為什么想到用刮胡子來展示?
盧策吾:我們做了很多場景展示,包括用刀片去刮氣球上的泡沫,還有黃瓜切絲,挖冰淇淋球等,這些都比刮胡子更難,但只有刮胡子的視頻火了,我感覺還是因為這是更讓人有切身體會的場景。
《財經》:今天具身智能的創業公司要如何體現他們的競爭力?
盧策吾:很多維度,最表層是模型能力,再往下是數據管線,底層數據夠不夠扎實,這決定了你去證明一個想法的速度能有多快,你的迭代速度有多快。然后就是你的商業響應能力。還有你的科研體系,因為還是需要做很多探索性的工作。
這些是技術層面的,還有公司組織力層面。你能不能有高密度的人才,從人才到產品的商業化,再到商業的規模化,這些是需要組織力的。
另外就是商業化的決策,能不能很清晰地判斷技術到了什么節點,能去解決什么樣的商業場景,如何去把技術復制化等。
《財經》:這些方面現在頭部的具身智能公司都說自己很強,我們要怎么去判斷?
盧策吾:要實際在行業里做了很多年的人才有能力判斷,如果大眾都能判斷誰好誰不夠好,下一步要怎么走,形成共識了,那就已經很晚了,就不需要我們這些創業者了。
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.