![]()
“今天的問題不是誰行、誰不行,而是這個行業到底多快能行。”
文丨程曼祺 實習生李清旸
編輯丨宋瑋
原力靈機是一家剛成立一年多的具身智能公司,也是一個已經做智能機器人十年的團隊。
2011 年,原力靈機聯合創始人兼 CEO 唐文斌與兩位清華同學,印奇、楊沐一起創立曠視,這是中國最早的 AI 創業公司,只比 DeepMind 晚一年。
原力靈機的其他三位聯創范浩強、周而進和汪天才也來自曠視。
2011 年,讀高二的范浩強因為 IOI(國際信息學奧賽)金牌保送清華,“沒事干了”。當時是中國 IOI 國家隊總教練的唐文斌說:正好我剛創業了,要不你來我們這兒上班吧。范浩強成為曠視第 6 號員工。
兩年后,范浩強和曠視實習生周而進組成的 “強進組合”,成為曠視最早探索深度學習的團隊,拿下 ICCV 2013 人臉關鍵點定位賽世界第一。和現在的 AI 大模型研發相似,那也是個 “年輕實習生 carry 全場” 的時刻。
原力靈機現在正和大模型創業公司階躍星辰合作,直接參與多模態基模的預訓練。而其它多數具身智能公司的做法是基于開源的多模態模型做具身模型后訓練。
階躍星辰也與曠視有淵源。曠視聯創和前 CEO 印奇現在擔任階躍的董事長。階躍聯創之一的張祥雨來自曠視研究院,是 AI 領域被引用最多的論文 ResNet 的四位作者之一。
從 2016 年起,唐文斌在曠視發起了機器人業務,做倉儲和物流機器人及調度系統,服務了天貓超市、寶潔、富士康、優衣庫等客戶。在優衣庫上海大倉里,曠視的系統能協同調度千臺機器人一起工作。唐文斌全盤管理這個事業部的研發、產品和商業交付。
原力靈機選擇先不做人形機器人,也不進特斯拉和 Figure 等公司看好的汽車產線。唐文斌認為,第一步是去找 “人能兜底” 的高容錯場景,機器人 “搞砸” 的事,人能接著干完。
這來自他多年做物流和工廠場景的核心洞察:調度能力往往是決定生產場景效率的關鍵,調度網絡里過去就有自動化設備和人,現在也可以新增智能機器人。單體機器人能力不足的地方,系統可以補位。
過往經驗在新環境里是對是錯,現在難以判斷。可以確認的是,原力靈機是一家想按自己的方式探索具身智能的公司。
唐文斌說,機器人一直是他們最初的夢想,曠視的英文名是 Megvii ,意思是 “給機器以視覺”。
從曠視到原力靈機:“我們就是一個嶄新的公司”
晚點:曠視從 2016 年就在做機器人業務,為什么決定在 2025 年成立一家新公司來做具身智能?
唐文斌:2024 年時,小強(范浩強)、而進、天才已在嘗試用大模型方式做機器人,研究 VLA 。同時我們也在看曠視最終是否上市,上市會是一個結構,不上市又是另一個結構。
核心是資源。當時我們就能看到,具身智能創業需要極大的資源。
晚點:從 2024 年年中曠視決定撤回上市,到 2025 年 3 月原力靈機正式運營,中間這段時間在做什么?
唐文斌:做重組,重新安排股東權益。
晚點:現在原力靈機和曠視是什么關系?
唐文斌:有一些相同的股東。
晚點:印奇現在同時擔任千里科技、階躍星辰的董事長。階躍和千里有合作,和原力靈機也有合作,這幾家公司之間什么關系?
唐文斌:是 “兄弟公司”,有一些股東重合。我們會面對一些重要場景,比如具身智能等做聯合訓練,原力靈機會在數據環節和預訓練環節就參與進來。
晚點:因為原力靈機有一些之前的股東,在吸引新人才時,你們能像其它新成立的創業公司那樣留出足夠激勵嗎?
唐文斌:我們現在就是一個嶄新的公司,激勵方式完全按照新公司來。我們留了大概 30% 左右的期權池,比一般公司還大。
晚點:你們的籌備期比較長,又趕上具身智能創業火熱,范浩強、周而進、汪天才等重要骨干都沒有離開去其他公司創業,這是為什么?
唐文斌:小強他們都不缺機會。大家還在一起,一是相信我們這群人一起有更大概率做成:我們有多年的信賴,又有做物流機器人這么多年積累的客戶和場景。
當然還有兄弟感情。而進是我的中學師弟,也參加信息奧賽,我認識他時他是初二。小強在人大附讀初一時,我就去給他們講課,人大附很多孩子聰明而不認真,而小強是又聰明又認真,總是坐在第一排。后來他果然進了國家隊,代表中國拿了 IOI(世界信息奧賽)金牌。
他保送清華后沒什么事做,高二就在曠視上班了,是我們的第 6 號員工。強的人會喜歡跟強的人在一起。
![]()
曠視技術和業務團隊合影。第三排左二印奇、左四楊沐、左六范浩強、左八唐文斌;第二排左三孫劍。
晚點:為什么當年這么高的人才密度沒能轉化成商業大成功。曠視研究院高峰時有十幾個 IOI 金牌。
唐文斌:能力強的人都想去做最難、最本質的事情。挺逗的,以前在研究院的一個口頭禪就是:“這不本質”。
但到了商業落地階段,所有對客戶有影響的事都是本質的,不是最難的事才本質,所以就需要另一群人來配合,做好需求洞察和客戶服務。
晚點:你覺得最強的人怎么看財務回報?曠視創業十幾年也沒有上市。
唐文斌:這也是印奇跟我心中有愧的地方。但在財務回報之外,大家對于把事情做成、對社會產生影響力和價值感也有更高追求。而且我們這幫人還是相信,這么多年的積累最終能轉化成價值。
具身原生:與階躍星辰合作,參與基模預訓練環節
晚點:原力靈機做具身模型的理念是 “具身原生”,這是指什么?
唐文斌:目前大家做 VLA(vision language action 視覺語言動作模型),多數公司的做法是基于開源 VLM,再加一個 action(動作)模塊去得到 VLA。這是 “嫁接”。
而 “具身原生” 是具身智能公司直接參與 VLM 預訓練。
晚點:嫁接做法有什么問題嗎?看起來它成本更低、更有研發效率。
唐文斌:VLA 模型的性能和 VLM 的能力都會受影響。這就像讓一個孩子接受完九年制義務教育后才去練體育,筋骨不健壯,文化課也丟了。
晚點:你們具體怎么解決這些問題?
唐文斌:第一,在 VLM 初期就讓模型見到機器人的數據;第二,在 VLA 訓練時,不只訓練 action(動作)能力,同時也去訓練 grounding(視覺定位)、VQA(視覺問答)這類偏 VLM 的能力,做聯合訓練。
晚點:這種做法以往有兩個難點:一是 VLM 需要大量數據,而機器人數據相對有限;二是訓練多模態基模的成本很高,以往只有大公司和大模型公司有算力、人才投入 VLM 預訓練。
唐文斌:在數據上,和物理世界相關的數據對機器人都有用,主要有 3 類:多模態的互聯網數據、智駕數據和量機器人操作數據,前兩類數據的量很大,這三類數據一開始就可以放在一起,訓出一個 “物理世界原生” 的 VLM,再用于 VLA。
在訓練投入上,我們現在是和階躍星辰合作,一起預訓練原生 VLM,然后原力會在此基礎上再做 VLA 后訓練。
晚點:你們和階躍星辰具體怎么分工、合作?
唐文斌:我們有機器人數據、階躍有互聯網數據,我們幾家公司可以聯合訓練模型,這對我們各自的模型都有幫助,訓出來的基模可以讓所有人都受益。
晚點:你們現在選擇和階躍這樣的大模型公司合作,長期來說,在機器人的 “智能” 層面,有什么只有具身智能公司能做,而基礎大模型公司做不了的嗎?
唐文斌:一是現在很多公司都在提雙系統。基礎大模型公司在 System 2,就是負責推理、任務分解的慢思考上很擅長,但到負責運動控制的 System1 上就需要有動作能力的模型,如 VLA。
而一些更精細的操作,還需要融入力覺、觸覺的更快速運行的一層 系統 System 0。所以未來可能是三層結構。大模型公司和 System 2 強關聯,而具身智能公司可以在 System 1 和 System 0 上做努力。這也是軟件與硬件更緊密結合的部分。
二是數據。最終具身的數據不能僅來自互聯網上已經存在的數據,而是要靠數據飛輪:一定要讓機器人被批量化用起來,再回傳真實數據,這對提升智能能力才是最有用的。這部分不是大模型公司或互聯網大廠投資源就能輕易搞定的。
創業公司也可以做 Infra 生態:當年天元的問題是開源太晚
晚點:原力靈機對外做了很多行業基礎設施的工作,如發起和運營 RoboChallenge 評測平臺、開源 Dexbotic 具身框架。做這些工作的意義是什么?
唐文斌:這些工作的初衷是服務內部,后來我們覺得做得不錯、對整個業界有用,就開放了出來。
今天的問題不是誰行、誰不行,而是這個行業到底多快能行。而決定行業迭代效率的又是一系列基礎設施。
如果迭代夠快,具身機器人能達到可應用水平,市場可以存活很多公司;否則除了搞科研和文娛,所有公司都是泡沫。
晚點:之前曠視也開源過天元(MegEngine)深度學習框架,但相比 TensorFlow、PyTorch 等并不活躍。為什么現在要再做一遍類似的事兒呢?
唐文斌:天元恰恰是開源太晚了。其實 2013 年我們就開始做天元,因為當時只有 Caffe(注:最初由伯克利團隊研發和開源的一個深度學習框架,Meta 基于此開發了 Caffe 2,后被并入 PyTorch)還沒有 PyTorch,外部工具是真的不好用。
但當時我們對開源沒有認知,覺得引擎好用,自己用就行了,等 2018 年再去開源時已經沒意義了。
基礎設施能被更多人使用,核心之一是要早,具身智能行業還在早期,現在我們選擇把 Dexbotic 開放出來。
晚點:具身模型的開發有什么 TensorFlow 和 PyTorch 不能支持的地方嗎?重新做的必要性是什么呢?
唐文斌:首先,Debotic 不是替代 PyTorch,它是 PyTorch 上的一層封裝,是一個工具箱,可以配置 vision encoder,統一數據格式和部署方式,讓具身開發和實驗更方便。
Debotic 更偏模仿學習,而清華汪玉老師和無問芯穹團隊那邊做的 RLinf,更側重面向具身的強化學習,我們兩邊已經打通了接口,希望逐步合成一個更大的項目。目前我們的框架已經有 1000 多個外部開發者了,很多高校在用,業界也有阿里千問等團隊在用。
晚點:另一個策略是,直接用大公司推出一些 Infra,這樣會不會對你們來說更節省開發資源?
唐文斌:現在確實沒有好用的。其實不管是測評平臺 RoboChallenge 還是具身開發框架 Dexbotic,工作量都蠻大的,不是一朝一夕的事,而且需要足夠的分享精神。
對我們來說,不管開不開源,這些工具對我們自己都非常重要,因為這決定迭代效率。
開源還有另一個好處:就是 “公開展示身材”。優秀人才都看重名譽,開源會讓研發團隊更有動力把事情做好、做極致。
不是人形機器人、不進汽車產線:原力靈機的那些少數派選擇
晚點: 原力靈機是 25 年 3 月成立,但你們計劃到 2026 年底才釋放落地進展。在現在具身的激烈競爭下,不擔心這個節奏太慢嗎?
唐文斌: 我們是真的在落地。意思是說:真的閉環地解決一個場景里的所有問題,而且賬還能算明白——不是一個展示性產品、不是一個 PoC(測試)。這兩件事的難度完全不在一個量級。
還是回那個問題:今天到底有多少具身機器人真的在被持續使用?
晚點: 你怎么定義 “被持續使用”?
唐文斌: 每天至少開機 10 小時,連續兩個月都開機。而且有一定量。
晚點:多少臺算 “有量”?
唐文斌:一百臺算一個開始,一千臺是更扎實的證明。有多少場景能達到這個狀況?我認為幾乎沒有。
所以今天看落地,不在于 “廣度”。而是看能不能找到兩三個場景真正把閉環做透?這些場景里有 100 臺、1000 臺機器人在持續被客戶使用,這才是真正的商業落地。
晚點:這一輪具身智能技術的變化是 “通用性”。在一個場景里落 100、1000 臺,以前的機器人四大家族已經做到了。
唐文斌:單個場景并不是在做單個、固定的任務,我們要找的是那種有一些泛化性的場景。太專用的話,確實做不過非標自動化。
在少數場景批量落地的關鍵意義還在于獲得實際運行中的失敗數據和人干預的數據,這才能形成數據飛輪,就是能用這些數據做更好的具身模型和系統。而數據飛輪是 AI 技術公司的核心壁壘之一。
晚點:在本體形態上,你們選擇先不做人形或類人形機器人,為什么?
唐文斌:我們的理念是 “模型解鎖場景,場景定義硬件”。
最終進場景時,標準化的形態容易走到兩個極端:要么 underkill(不到位),解決不了問題——相機被擋住、末端伸不進去;要么 overkill(用力過猛),被過度設計、成本偏高。
比如人形或輪式雙臂機器人的重心很高,不支持快速移動,開到 0.8 米每秒就頂天了,一急剎車就容易傾覆。但一個小 AGV 可以貼地飛行開到 4 米每秒。這就可以把送東西的工作交給 AGV,具身機器人專注精細操作。
晚點:這會不會導致本體形態太多,難以靠規模降本?
唐文斌:所以我們要抽象出共通模塊,像樂高積木一樣,快速組合成在不同場景能運行的形態組合。我們肯定也不希望變成為每個項目做定制的公司。
晚點:你們的另一個選擇是不進汽車產線。而且你們本來有這個優勢——千里科技自己就有摩托車和汽車產線。
唐文斌:特斯拉 Optimus 一直在講這個故事,Figure 也在講和寶馬的合作。但我反而認為汽車廠不是好場景——它高度錯誤不容忍、高度強調節拍(速度),這兩點現在都很難解決。
晚點: 你們會優先去什么場景?
唐文斌: 這要結合模型能力和場景特點一起考慮。
模型上,今年很重要的方向是從 specialist(專用)走向 generalist(通用)。現在大家基本還在做 specialist 算法,用同一個基模在不同任務上分別微調。而 generalist 是訓一個模型,通過提示詞把 20 個任務全干了。我們現在 generalist 的成功率只有約 30%,還很低。但今年會有很大提升,能解鎖很多場景。
場景上,我們有四個標準:第一,容忍錯誤,今天具身機器人不到百分之百成功,你要允許機器人犯錯,人能兜底;第二,容忍節奏,節拍別太快;第三,適度泛化,不要特別專用;第四,長時間作業,否則沒有投資回報。這四個是必要不充分條件。
我們最后提供的是一套系統,讓任務能被閉環,賬能算過來。
晚點:有什么具體的例子嗎?
唐文斌: 物流就是一個很好的場景。物流的容錯方式是:讓機器人先干,失敗了調度系統給它送到人工那兒,人接著干。我提供的不是一個單機,而是一套系統。有點像滴滴的網絡,有自動駕駛車輛,也有司機。
我們之前做復雜的物流倉儲機器人系統時,就積累了這套調度、優化能力,這個調度網絡里本來就是既有設備,也有人,而現在,這里面也可以加入新的具身智能機器人。
不想過度承諾,也警惕成為 “小老頭” 公司
晚點:長遠來說,你認為具身智能行業會是怎樣的格局?規模和集中度會怎樣?
唐文斌:接下來三到五年,可能會有幾十家公司同時存在,有非常多的細分場景和垂直領域可以做。
到第二階段,模型泛化能力變強,小模型被大模型吃掉,垂直領域的公司會變困難,逐漸出現平臺型公司。最終可能個位數的公司就夠了。
晚點:全球范圍個位數,還是中國幸存個位數?
唐文斌:大部分核心具身公司會是中國公司。中國公司供應全球市場。因為具身智能跟硬件強相關,中國更有優勢來做。
晚點:怎么能成為最后剩下來的不到十個公司之一?
唐文斌:一是模型能力領先,這是一切的根基;二是能在場景中真的被長期、大量使用,用數據飛輪反哺模型能力提升。
晚點:逐際動力創始人張巍曾告訴我們,如果先讓現階段機器人去落地地,花很多精力優化場景里的模型,最后會限制上限,因為沒有把最多精力放在提升模型性能上。
唐文斌:我認同大模型最后會吃掉小模型。具身智能公司要警惕變成 “小老頭” 公司,就是做項目的非標自動化公司,那樣長不大。
我們現在落地也是用通用模型去做,不是針對場景定制。只是現階段模型能力不足,需要找容錯的場景,靠工程能力去補。
晚點:在曠視時,你們從 2016 年就在做物流機器人,那段經歷對你們現在的借鑒和啟發是什么?
唐文斌:過去機器人和機械臂的應用場景主要應用在汽車和 3C 行業,其他場景規模未起。倉庫是一個非常好的場景,處理的對象是托盤、箱子和單件商品,能形成標準化,適合作為機器人落地的起點。
但我們想做的不止于此,希望能做出更通用的機器人,只是當時還不具備實現條件。
晚點:優衣庫的倉庫是你們當年的一個標志性案例,這個過程中學到了什么?
唐文斌:2018 年我們參與了上海優衣庫的投標。他們希望打造一個自動化程度非常高的倉庫,方案很復雜,發貨量也很大,當時幾乎把國內所有物流機器人和自動化公司都叫過去,一輪一輪篩選。
第一輪大家先提案,一共要做五輪。我們的方案自動化程度很高,從入庫、箱式區、托盤區到發貨,用到了上千臺機器人。
最后我跟客戶講了兩點:第一,這么復雜的項目,決定效率的其實是軟件和算法;第二,我們不是最有經驗的方案提供商,但在算法和調度上是最強的,他們很認同。我們最后也是靠調度系統的能力拿下這個項目。
我們當時就發現,在物流場景里,真正決定效率的是調度系統——貨放在哪兒、優先處理哪個訂單、怎么協調更多車一起工作。單機能力和系統能力都很重要。
晚點:服務的過程順利嗎?
唐文斌:大家當時都有很多過度承諾,這是 ToB 里的一個陋習。幾輪投標篩選中承諾了很多技術上做不到的事。
結果差點搞砸。倉庫建完后,我們只做到了目標技術的 30%,客戶也覺得這個倉庫沒法用。后來客戶給了我們半年延期,最終把代碼推倒重來,才把項目做完。
這之后,我們去日本見了優衣庫的創始人柳井正,他們沒想到我們真能搞定這個很復雜、很難的方案,認可這種鍥而不舍的精神,我們也因此拿到了優衣庫在全球的其他項目。
晚點:具身智能行業現在有什么過度承諾的現象?
唐文斌:很多。今天具身智能行業,除了文娛和科研,我們不知道還有多少機器人在被持續地使用。有一些廠商通過擺拍、展示 demo、PoC 場景拉高預期,說 “這個也能做、那個也能做”,但最后效果往往達不到預期。
晚點:你們現在也要競爭客戶,會過度承諾嗎?
唐文斌:現在不太需要過度承諾,因為很多客戶和我們有了信任基礎,了解我們的技術風格,我們說不能做,是認真判斷后的結論。我們會告訴客戶機器人的邊界,設計一套失敗兜底機制,把賬算清楚,這更務實。
晚點:如果具身智能創業像上一輪 AI 熱潮那樣進入相對低谷期,你們有什么提前的準備嗎?
唐文斌:一,準備好足夠多的干糧。二,專注在真正相信的方向上,不能分散開槍。曠視原來做了太多事情,不夠專注,商業上 A+B+C 約等于 max(A,B,C),還是要押注在真正信的那件事上。
晚點:你現在對具身智能有多相信?
唐文斌:其實從當年創立曠視的第一天起,我們心里想的就是機器人。為什么曠視的名字叫 Megvii(給機械 vision、視覺),就是 “機器人的眼睛” 的意思。那時模糊地覺得,讓機器人能看見很有價值。
2014 年,曠視搬到第二個辦公室時,我們還專門買了一臺巨大的機器人模型放在公司門口,這臺機器人至今還在那兒。
具身智能是值得投入一輩子時間去做的事情。
題圖來源:原力靈機
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.