網易首頁 > 網易號 > 正文申請入駐

做了10年Robotaxi，小馬智行首次入局RoboVan

2026-04-28 10:27:37　來源: 智能車參考

北京舉報

分享至

一凡發自副駕寺
智能車參考 | 公眾號 AI4Auto

做了10年Robotaxi后，小馬這次把舞臺C位留給了一輛無人輕卡。

△左為小馬智行創始人、CEO彭軍，右為小馬智行創始人、CTO樓天城

這是小馬智行在北京車展上發布的RoboVan，意味著其正式殺入萬億級城配市場。

最近兩年，無人城配賽道持續火爆，以此起家的九識、新石器和白犀牛，吸金數十億。但這些玩家，打造的產品都是無人小車，一般長這樣：

△圖片由AI生成

這種小車沒有駕駛艙，體積不大，1輛車的裝貨量和咱們常見的面包車差不多。而小馬的輕卡，容積更大，官方估計是小車的3倍多。同時可以看到，這款輕卡還保留了駕駛艙。

所以在外界看來，小馬入局城配的方式，多少有些特別。

為什么小馬智行要選擇用輕卡入局城配市場？

又為什么是此時此刻？

小馬新十年：Robotaxi成本下探，打通物流閉環

小馬發布新業務的前提，是其基本盤有了新突破。

小馬透露，其最新版Robotaxi的整車成本，已下探至23萬元以內，低于1輛Model 3的售價。

要知道，去年小馬七代車投入運營后，就已在廣州和深圳，實現了單車盈利轉正，如今成本進一步下探，意味著向商業化閉環，又邁了一步。

這也說明，小馬Robotaxi的軟硬件方案基本成熟，進入可復制階段，甚至有了進一步向其他場景外溢的可能，比如無人城配。

貨運其實也是小馬的專長，早就在西北運營了卡車編隊，最新四代車實現了“一拖四”——即一個司機，后面跟著4輛無人重卡。

不過該業務，更多地是服務物流網絡的大動脈，運輸大宗商品。而現在，小馬進一步深入到城區的毛細血管中，打通物流閉環。

不過前面提到，小馬做城配沒有小車，而是基于寧德時代的坤勢商用車底盤，用車規級自動駕駛套件，打造了一輛無人輕卡，載貨量是18立方米，相當于30臺雙開門大冰箱的體積，*貨運成本是傳統貨運方式的一半，目前計劃落地的場景有商超、冷鏈和快遞。

據小馬智行創始人、CTO樓天城表示，小馬此時入局城配，既是因為這個賽道的商業化成熟了，同時也是因為技術上做輕卡和重卡，沒有本質區別：

Robotruck和Robotaxi的技術，有80%左右共享，輕卡只會更多，一些極端場景，其實都是共享的。

那為什么要用輕卡而不是小車？這其實是市場現狀決定的。

樓天城透露，小馬此前統計過城配市場不同車型的數量，其中輕卡占據的市場份額最大，所以小馬選擇以輕卡入局，將自動駕駛技術，引入新的場景。輕卡的軟件和運營網絡，直接就能復用Robotaxi的能力。

所以說，小馬做城配、造輕卡，其實是過去的積累，向另一個場景遷移，技術底座更加通用。這也是最近的行業趨勢，一個自動駕駛玩家，不再局限于單個商業化場景，而是邁向了多元化。

在輕卡發布會后，智能車參考等還對話了小馬智行創始人、CTO樓天城。

對話樓天城：AI下一階段發展的兩個方向

Q：世界模型有沒有一個夠用的精度，或者說是不是和真實世界越接近越好？

樓天城：首先是世界模型精度，它最直接的表現就是它訓練出來的AI司機表現的好壞，其實就是形容他精度的標準，它的本質確實是跟世界越接近越好。但是這個接近不光是極端場景能夠跟真實世界一樣，更多的是概率分布，就是一件事情出現的概率要和真實世界很接近，還有大家的交互。開車是一個交互行為，互相之間擠一下車這種行為也要和真實世界很接近，這個我們叫精度高，是一個非常全面的定義。這是為什么人有的時候慢慢對精度到底高不高失去判斷力了，這也是今天2.0的核心。

其實2.0的本質是說這個世界模型精度有一些不太好的地方，人有的時候判斷不出來，但是AI可以做準確的判斷。比如說你的世界模型里其他車變道都太激進了，你應該稍微收一點，它能做出這樣的判斷，這是2.0日常工作的一部分，就是它自我判斷出哪里不好，然后改進。

Q:世界模型2.0有沒有什么限制？

樓天城：它的限制其實也很明顯，比如說他說我要收集一下這個版本路上的情況，這件事情必須要人來做，因為它自己沒有辦法擁有這個車，不掌握車鑰匙，我拿著車鑰匙，我要幫他做好這些測試，包括收集反饋的過程，他自己并沒有辦法完全完成，他是在人的輔助之下，比如說他會說我要這么做，但是這些工作需要人來完成，我通過這個動作把這件事情做好。這里其實也是一個一開始對我有沖擊，但我已經接受很久了，各位可能還會有沖擊的一個點，我們很多研發的關鍵部分是AI驅動的，他給我安排任務。當然這個更多只是在研發上，今天我說什么不是他安排的，都是我自己想的。

因為它需要人的幫助，在人的幫助下能夠非常接近的解決各種case，讓case跟實際情況完全一樣。它的上限至少我還沒有完全看到，它的上限是非常高的。

Q：小馬世界模型2.0的意圖層是怎么實現的？

樓天城：我解釋一下意圖層這件事情。意圖層指的是訓練過程當中的意圖層，而不是開車過程當中的意圖層，開車過程當中有在線強化學習，這也是新的技術，但是這個各家都會用一些，不是我們宣傳的主要內容，簡單來說是有的，但是亮點不在里。

我們的意圖層是一個生成型的意圖，因為在某些場景上，有很多其他的車甚至是其他的人，我先強制說這些人、這些車是什么意圖，然后開始開。在這個場景當中，我可以窮舉所有其他物體的意圖組合，讓車在所有組合當中一個判斷，這個是我們世界模型做意圖層的關鍵。

這個好處有點像多元宇宙，就是人開車的時候我會對人周圍每個物體的意圖做一個判斷。但是其實我們自動駕駛車不是這樣開的，而是對所有的意圖組合做一個綜合評價，然后判斷怎么開。他腦子里會做左右的組合，然后看哪些組合是我需要小心的，然后它去開，這也是它開的比人安全的另外一個表示。

但是有一點，這個意圖必須要在虛擬世界生成，因為我可以先生成意圖，然后反向說這個意圖下其他車要怎么開。

Q：這個意圖是在訓練層，如果說落到車端的執行層，中間會有很大的延遲，這個怎么去解決？

樓天城：車在執行的時候只有車輛模型，它會以在他訓練時的方式，估計一個其他車意圖的分布，然后它做一個它的判斷。因為它在訓練的時候也是這樣的，因為訓練的時候也不會告訴它說是哪一個意圖，它也是根據意圖分布做一個判斷，其實兩者是一樣的狀態。

我們覺得開車中的意圖是更核心的層面，人開車是通過意圖來決定怎么開的，這個大家都有開車習慣，都會了解這一點。比如說相比語言，語言并不是開車當中很核心的東西。我相信很多年以后再看，如果真能留下一個layer，肯定留下的是意圖層而不是語言。因為人開車的時候不會想著語言的，這也是意圖的一個點。非常感謝您提到意圖層這個點，意圖其實是一個多元宇宙的概念。

Q：有一些Robotaxi的用戶反饋，比如說在高峰時段，Robotaxi的效率相對低一些。您認為這是一個技術問題還是什么問題？

樓天城：這正是我們過去半年、一年主要提升的方面。在上個季度財報的時候我們也說過，比如說我們在廣州、深圳已經達到了單車盈利模型轉正，這個最關鍵的就是能在高峰期、市中心讓大家滿意我們的車，就愿意打我們的車。其實車的滿意度是非常關鍵的，因為滿意度直接影響到單量，大家愿不愿意打這個車，這是我們最近提升的最重要的幾個方向。

簡單來說，這確實是一個需要技術攻克的點。最終通行效率這件事情不可能說像安全那樣比人高很多，只是說大家達到差不多的狀態，甚至有的時候稍微差一點的狀態，這是因為有一個因素。正常路上的人，對無人車和有人車之間是存在雙標的，他更不愿意接受無人車犯錯誤。這個時候總要稍微謹慎一點，但是這個謹慎可能會影響到你的效率。就是同樣這樣開，人開可以的，但是自動駕駛他會罵你的。所以會稍微差一點，但是不會差到讓大家不滿意。這也是大家都說我能做自動駕駛，我有幾輛車，我能運營，但是這個差別到商業上就是巨大的差別。

Q：物理AI跟汽車的虛擬模型，或者說他們兩個的世界模型同樣去做物理世界賦能的時候，有什么關鍵性的區別和差異？

樓天城：我猜想你問的問題是物理AI和自動駕駛的差別。物理AI就是訓練具身的環境。具身今天很多應用還在早期，大家看到很多機器人還在DEMO狀態，如果說有一天走到應用的時候，具身也需要一個物理世界模型做訓練，也會走到這一天的。你可以認為自動駕駛是一個最早期的具身應用，他更早的走到應用世界模型的狀態。但是具身的世界模型需要更多的物理定律。大家知道自動駕駛只要車不撞就可以，我根本不用管太多撞了怎么樣。但是具身中的物理接觸是更多的，而且它是明顯有多維度，這個維度指的是除了視覺之外，還會有聽覺以及其他的感覺，所以它需要更長的時間，這也符合現在具身發展的階段。

Q：英偉達年初開源了一個世界模型，有一些人直接就說沒有用，您有什么看法？

樓天城：世界模型也是不同的意思，世界模型也分為以生成為主的，以交互訓練為主和物理世界為主的，英偉達是生成為主的世界模型，而我們應用是用于訓練，所以我們不會直接買來用，但是有其他用于生成的人還是很有用的，還是因為它有不同的用途，它不是我們這一支的用途。

Q：關于Robotaxi，今年我們看到越來越多了車企，尤其是L2的廠商現在都開始在談，這個會影響到小馬的全球化，你們會不會在量產上加快？是不是會有更多量產車出來？

樓天城：首先我們擁有多款車型也是我們平臺的優勢，我們同一款方案可以放在多個車型之上，大家知道Robotaxi也有一些本地的特點，比如說本地更想打本地的車，這也有這方面的考慮，是我們主要的點。

關于量這件事情，確實現在有很多玩家開始進入Robotaxi市場，但是另一方面也看到，大家的技術路線，大家都在提基于世界模型的強化學習，相信各位聽過很多這樣的消息。其實從路徑上來說，大家也都走的傳統Robotaxi公司相同的路徑，換句話說，至少L2很多已有的積累，在他L4上沒有提供任何幫助。比如說L2說我有更多真實數據，其實大家都在真正按照L4的發展走這條路，換句話說不做L4的公司也可以走這條路。

另外一個維度，在今天L4當中，車的駕駛能力，AI能力，安全性是真正影響它能不能鋪開的關鍵，造車的能力我不是說它很容易，這個Knowhow相對是一個更廣的范圍，所以我認為造車本身是可以通過合作來做到的，造車本身并不是影響你車隊規模能做多大的關鍵因素。

Q：那關鍵因素是什么？

樓天城：車的AI駕駛能力和它的安全性，才能決定有沒有能力上很多的車，而提升安全駕駛能力需要走的是L4整個強化學習或者是世界模型這條道路。大家都愿意走，說明這個行業得到了很多關注，另一方面，所有玩家已有的積累幫不到走這條路，所以大家要按照這條路慢慢走下去，這是我們看到的趨勢。就是說他沒有任何道理比L4從0做到1000少任何一個步驟，任何一家L4公司從0走到1000，要走過的所有步驟，L2公司也都得走一遍。

Q：我有兩個小問題想問一下，您怎么看現在小鵬也開始做Robotaxi，以及Robotaxi這個賽道現在小馬已經看到了盈虧平衡點，但是我們還沒有在這個領域找到很可靠的商業化軌道，您怎么看待這個領域未來的趨勢以及什么時候Robotaxi能夠走進我們日常？

樓天城：其實這也是Robotaxi最有意義的特點，比如說它跟傳統的APP，跟ChatGPT最大的不同，大家的體驗需要物理接觸體驗。我跟你說這個APP很好用，去聊聊天，你打開一個網頁就可以看了。但是我說這臺車開得怎么樣，你需要真正體驗一下，這是所有物理世界應用的特性，這個并不會因為自動駕駛而特殊，所有物理世界都有這個特性。

它帶來的特點其實您提到了，它占領用戶心智需要非常長的時間，不是說一鋪開所有人都開使用了，所以我們為什么要一個個城市去鋪，一步一步去接觸用戶，是這個過程。還有一個好處，后來者如果想要去進入也需要這個過程，他沒有辦法像互聯網那樣，一夜之間傳播到所有人。這是物理AI應用的特色，需要更長的時間，達到更大的規模，優點是它一旦達到了，它的護城河會更強，這其實也是它的一個特點。

我們說的都是Robotaxi，都是指無人的，究竟有沒有本事做到幾百輛、幾千輛，不是說你能不能生產出1000輛車，根本還是說你的車安全性夠不夠，你放這么多車路上不會出事故，不會被人罵，這才是關鍵。

Q：我的問題是現在技術路線好像都是向世界模型強化學習去收斂，有很多家車企都表示他們是通過同一個架構由L2進化到L4，在這個階段您還認為從底層技術來說L2和L4是不同的物種嗎？

樓天城：剛剛我的解釋是從產品角度來說的，就是L2和L4在產品上有區別，L2做的好了之后會出問題。下面我從技術上來說這兩者之間的差別。

技術上，只要關注一點，L2其實技術上大家經常腦子中想的給L4的幫助，進化的說法更多是指數據，就是說我車能采集很多數據來幫助L4。但是其實問題也很明顯，L4到后期的數據是靠虛擬數據，靠合成數據。而在這個狀態下，過度依賴真實數據甚至是負面的。這導致L2積累的最關鍵優勢幫不到L4真實的進展。如果說你要做L4，也是要按照L4的方式，比如說做世界模型，做強化學習全部走過一遍，這個任何一家公司做并沒有明顯的差別。

我是從這個角度來說，我不是說L2公司進不到L4，而是說這個路線本身。

Q：小馬智行成立業有10年了，您覺得10年間自動駕駛行業最大的認知糾偏是什么？

樓天城：我覺得可能就是世界模型這件事。我們是2020年開始做的世界模型，我們最早對外宣傳是到了2024年，因為之前幾年大家在疫情中，我們就沒有說那么多。應該說在我剛說的時候，很多人會覺得我是一個另類，大家都是用采集真實數據來做模仿的，什么時候不用模仿開始用仿真了，開始用模仿學習，開始用自學的方式了。但是今天已經沒有人這么說了，今天所有人都在說世界模型。其實這也是更多行業外的同事愿意接受的過程，這也給了他很大的幫助。

但是這個對人沖擊是很大的，你需要接受一個事情，就是你作為一個老師教學生，教著教著學生比你強了，你就不要再下手教了，最好給學生創造環境，創造條件讓學生自己變好。這種對人有的時候是有沖擊的。但是這個行業很好，大家都接受了這種沖擊，意識到人的不足，意識到了人跟AI的配合應該怎么做。

這里我也有點感慨，AI剛剛出現的時候有一個圖靈測試很著名，圖靈測試是什么意思？就是說我一個人坐在中間，左右兩個，一個是AI，一個是人，我能不能區別哪一個是人，哪一個是AI。圖靈測試的意識是AI要像人，但是我反問，如果說AI超越人了，圖靈測試是應該能夠區分AI和人的，因為好的那個是AI，差的是人。這么多年，大家大家并沒有接受AI很多方面能超過人，沒有想到自動駕駛過去10年，很多人接受了這件事情，這個還是非常感激，大家非常開放的心態。圖靈測試今天是失效的，因為好的是AI，差的是人，這個可能可以回答你的問題。

Q：那不是可以進行反向圖靈測試？

樓天城：人可以反過來判斷，就是說話突然之間會腦抽的是人，一直很有邏輯的是AI。今天大家跟聊天工具聊就會有感受，我問你一個什么問題，還不如問AI工具，這個現象很明顯。

Q：了解到像今年很多無人駕駛公司會推出一些無人前裝量車的車，今年我們也發布了全車規、全冗余L4級無人駕駛輕卡。咱們是怎么做到這一點的，其中的難點是什么？

樓天城：從根本點來說，我們意識到了輕卡和Robotaxi之間的相同之處。大家知道輕卡是2-5噸的，不是非常小的那個車。它實際運營的場景都是正常道路，從集散地到集散地的道路，這個道路和路上打車是非常接近的，大家走的是一樣的路，一樣的要求，一樣的車，一樣下雨，所有的問題都是一樣的。應該說這是我們找到的Robotaxi這個技術場景最好的延伸方向。它的難點和關鍵點和Robotaxi是一樣的。

至于說車規和冗余這件事情，是因為我們從Robotaxi的經驗知道，這臺車既然在路上跑，大家對它的安全要求肯定是很高的，應做的事情都需要做到。所以我們決定一步到位。我們沒有說一步一步，先做沒有冗余的，先試錯。我們就想按照它應有的安全標準設計這款車。所以它是最好的沿襲小馬智行已有的優勢，做的直接的商業拓展，主要是從這方面考慮。

Q：關于物流車，今天我們發布的輕卡，包括京東也在做24方的無人車，是沒有車頭的。咱們為什么做這樣的設計，咱們準備怎么去做輕卡的無人駕駛？

樓天城：提到無人物流車，我還是從監管說起，今天對物流車現在也有更標準化的監管出來了，最近也出臺了對物流車的監管，對什么樣的人能上什么樣的道路，有了更加明確的規定。你看物流行業，特別是城際的物流，其實能夠上一定的快速路是非常重要的，不是通過羊腸小道過不去的，他是一路上40、60、80的時速在跑的，這種情況下，我們要的是一輛能夠很好的車，它是一輛正常人能開的車。這說明它在各方面的穩定性、安全驗證是通過標準的。

所以我們希望從有車規或者說標準的方式來進入這個市場。而且我們也相信隨著監管以后變得越來越嚴格或者是越來越標準化之后，我們能夠開上這樣道路的車，在整個運輸中應該能夠有更大的發揮空間。

Q：為什么沒有做更小的車？

樓天城：我們認為輕卡是最大的市場，我們也做過統計不同車型的數量，這個車其實是市場上運載量最大的，而且明顯比第二大很多。可能唯一能跟它比的就是卡車和Robotaxi。

Q：我感覺小馬一直在強調的是云端的世界模型訓練環境，從第一代到第二代，我不知道是不是對你們來講，車端是什么架構，什么方案沒有那么重要？

樓天城：首先我相信車端各家都是已經是端到端的狀態了，不是端到端的話，也不好意思說自己是L4了。單從highlevel的不同其實已經不太明顯了，所以更多的不同點是在訓練范式1.0和開發范式2.0，這是主要的差別，所以我更多把重點放在能體現出差別的地方。

說到車端的問題，剛剛講到的意圖也是車端的一個特色，但是它也是因為訓練范式1.0不同給到它的一個優勢。回答你的問題，如果說車端的話，單從highlevel，其實大家基本都已經是端到端的狀態了。

Q：這個端到端是CNN的還是Transformer的？

樓天城：肯定早就以Transformer為主了。但是它的很多訓練的決定是由模型決定的，這個結構很多東西需要人去確認，但是它的很多優化部分是靠模型來做的。這個叫模型訓練模型，我先整一個世界模型它來訓練，這個里面的很多結構是AI參與決定的，所以并不是人來做的。但是簡單來說，肯定不可能是在CNN，而是偏Transformer為主。
看得出你關心這個方面，但是這個在L4領域，好幾年前就是這個狀態了。

Q：但是圈內也有人把車端的模型叫做世界模型，這個怎么理解？

樓天城：我覺得是誤解。或者說有一種在線的做法，但是這個做法嚴格來說那個東西算不算世界模型，你可以硬那么叫，但是里面更是一個Smart Agent的表現。因為世界模型除了Smart Agent交互之外還有評價，但是評價本身很難想象會在車端，這是很奇怪的。

Q：小馬推出世界模型構建精度飛輪，目前咱們世界模型的能力邊界在哪里？會對咱們未來的路線選擇會有什么影響？

樓天城：技術路線本身就是拿一個模型來開發，這件事情已經是接下來的技術路線了，而且這件事情不僅出現在自動駕駛領域，這個叫Agent，現在很多領域用一些Agent去做研發這件事情已經存在了，所以用Agent去做研發就是自動駕駛接下來更常見的技術路線了。
但是能力邊界這件事，至少它證明了它超過了由人來研發能達到的上限，但是它自己上限是什么，現在AI還沒有辦法回答這個問題，我也只能問它。如果說有一天它能做到虛擬世界和真實世界非常接近，它利用所有AI的能力做訓練，但是究竟它能超越人類多少這件事情，特別是在復雜場景，比人類高出很多這是一定能做到的，但是上限在那里其實是AI回答的問題。

Q：其實在前一段間卓馭和元戎都說有可能自動駕駛這個行業面臨著大模型公司的降維打擊，或者說他們可能會殺進來，帶來不一樣的打法，您怎么看待這個問題？

樓天城：大模型公司如果你指的是OpenAI這種大模型公司的話，這個東西的標準叫法叫基礎模型，英文就沒有大模型這個詞，只有基礎模型這個詞。其實它們都是自動駕駛公司進步的基礎，大家是一個合作關系。但是另外一個維度，真正做到自動駕駛不是說只要有一個模型就夠了。首先基礎模型本身就是Token之間的成語接龍，基于這個成語接龍的基礎模型我們會做很多后面的工作，比如說要做Agent，Agent做出產品，硬件的適配，運營的很多東西，其實是基于他們的工作做了很多的東西，所以大家是合作的關系。

就算你有一個非常完美的基礎模型，后面這些工作也都需要做。簡單來說，如果說只是一個模型，甚至任何新玩家進入這個市場影響都不是很大，或者說進入門檻一樣會很高。但是如果你說基礎模型越來越好，確實會幫助到其他公司的進步，這個我們也得到了好處，所以大家更多是合作的關系。自動駕駛不只是一個模型而是一整套的東西。

Q：從AI開車到AI評估開車，你認為下一步會是AI來干什么？

樓天城：兩個方向，第一是物理AI，物理AI很多問題還沒有被攻克，真正理解物理世界的很多東西，今天我不知道AI能不能在短時間內做成這件事，這個甚至有機會我也愿意contribute，就是通過AI的方式理解物理世界究竟是如何運作的，這是很有挑戰的一件事。

還有一個，AI已經從訓練模型開始驅動研發了，接下來是不是能夠run一個更大的團隊或者是run一個公司，由AI來制定策略。再往后它可以做一個社區。從AI發展角度來說，有一個另外一個分級標準，這個Agent是說開始是輔助人類完成工作，到獨立完成事情，到能夠自主創新，其實今天AI已經有自主創新能力了，下一個就是能不能運行Community的問題，它開始擁有社會性能力，這是AI發揮的趨勢。如果說大家會擔心人類有一天要學會AI共存這件事情，其實是在那個階段，人確實需要思考人和AI是什么關系。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.