好久不見,本期《Blue hour》請來的,是剛剛宣布拿了10億融資的自變量機器人創始人王潛。融資消息詳見《獨家 | 10億,開年第一筆機器人融資,字節紅杉都出手了》,這里不再贅述。
想和王潛聊聊,固然是有些勢利地因為他融了這么多錢,也是因為在這一波具身和人形機器人創業者里,他是個特別的存在。
生于1988年——沒有早一點,也沒有晚一點,這個出生年份決定了他在很長一段時間里不像90后同行們那樣春風得意。2007年他本科就讀清華電子系,09年開始研究AI,恰逢AI在低谷期,深度學習要在2014年之后才迎來一輪爆發;讀博轉向機器人方向,主導的深度強化學習的技術路徑又剛好發展到了瓶頸期;哪怕是趕上這輪具身和機器人熱潮,他創立的自變量機器人最初也沒頂著光環,融資難言順利。
一個人,若是想要大干一場,又始終和行業的繁榮期隔了幾年時間差,一定對把握改變世界的機會有種執念。更何況,他搞過兩年量化基金,賺過錢,開過眼界,這種執念在我看來又顯得更為純粹——去年行業已經快進到訂單大戰,自變量仍然沒急著商業化。當有人問他是不是要做具身大腦的DeepSeek,他的回答是,要做OpenAI那樣的公司。技術我評估不了,總之他有讓投資人相信的能力。
我對王潛還有另外一重好奇。作為一個當代生活的親歷者,我對風口浪尖上的科技創業者其實并不了解。如果說是這些人決定了未來的走向,那么搞清楚這些人腦子里勾畫的藍圖很有必要。
王潛小時候的夢想和機器人無關。他想成為愛因斯坦。這一夢想,后來演變為借助AI研究物理學,再后來變成研發足夠聰明的機器人來制造機器。總之,目標是,用先進的技術和生產力來驅動指數級增長。他的世界觀是基于統計學和概率,建立在不確定性之上,但他認為社會生活是另一個領域,遵從另外一套截然不同的邏輯。
這當然是一種相當典型的看法,但是不是真理呢?人們總以為自然科學的進步是人類智力的產物,馬克思說錯了。他說,社會生活有它的基礎,自然科學則另有基礎,這壓根是謊言。至少在馬克思看來,兩者共有一個基礎,就是人的歷史生活。
按我的理解,商業和工業推動了自然科學的進展,而科學技術進一步塑造了我們的世界觀。不管AI和機器人未來會發展成什么樣,人類正活得越來越像AI和機器人。如同被設定好程序般,完成一種機械化生存,大腦高速運轉,離心卻越來越遠,我不知道這會通向怎樣的未來。很遺憾,時間有限,沒跟王潛聊完這個問題。
如果按照本欄目的慣例,要賦予嘉賓一種顏色,我想選擇鈦青藍。這是一種色相穩定的化學合成色。鮮明的深藍色,厚重的金屬質感,泛著冷冽的光澤。很像王潛給我的感覺:他對自己所做的事情有種篤定感,所以絕不能用輕飄飄的顏色。另外,此人明明言談舉止都客氣得很——我在深圳的辦公室同他握了兩次手——但那種聰明人的驕傲勁兒還是不時冒出來。他對團隊的技術實力頗為自信,國內同行大概都不在他的比較范圍里。這沒什么不好的,希望他一直有這樣的心氣。
搞AI的沒人抱著確定性的世界觀
劉燕秋:這波機器人創業者很多出自清華電子系。你本科是在清華電子工程系,后來為什么轉去讀生物醫學工程系?很多了不起的人物到了職業生涯晚期開始研究生物學,是因為對生命的奧秘產生興趣。你轉學科的原因是什么?
王潛:我其實一直想做AI,從中學的時候就有這個想法了。更早的時候,比如小學或者更小時候,我本來是想做物理的,后來還差點去了北大物理系。但我慢慢發現,現在做物理和一百年前不一樣了。現在的數學和物理領域,想在十年內沖到最前沿基本不可能。哪怕是天才,可能14歲上大學,博士畢業差不多二十五六歲,職業生涯大概三十五六歲就結束了,滿打滿算也就十年的時間能做核心研究。所以我當時就想,再過一百年,可能數學家、物理學家就沒“職業生涯”可言了。要達到領域前沿需要的時間越來越長,對人的智力要求也越來越高,到最后可能沒人能勝任這個事了。
所以我高中的時候就認定,還是得搞AI。人做不到的事,可以讓機器來做。這就像要驅動一艘萬噸巨輪,光靠劃槳劃得用力沒用,關鍵是要造出能驅動巨輪的好機器。
我本科是清華電子系2007級的,那時候最主流的AI研究方式是統計學習。當時AI領域特別冷,根本沒人關心。現在大家熟知的深度學習、神經網絡相關的研究,那時候還沒興起。所以我本科期間一直想做AI,但偏偏趕上AI最冷的階段,完全沒人在意這個方向。當時大家都在做統計學習,那有各種基準測試(Benchmark),但每年在這些測試上的性能提升也就0.1%。我那時候就覺得,這方向已經卡住了,哪怕耗上一百年可能也做不出突破性進展,所以還是得找一些范式轉變。當時我核心的想法是,應該把人類的神經網絡機制借鑒到AI模型里。
劉燕秋:所以你最開始其實是對AI這件事感興趣,只不過選擇的研究路徑是借鑒生物學里的神經網絡來研究AI,相當于主線一直是AI。當時你想到要用AI推進學科研究,有沒有特定的命題想要研究?還是說只是抽象地有這樣的設想?
王潛:就是想研究物理學。物理這東西,你可以把它理解成萬物的“萬有理論”。就像牛頓,為什么大家稱他是“自然的立法者”,因為他發現的規律,在某種意義上就是宇宙最本質的規律和道理。我最開始想做物理,就是希望能成為牛頓、愛因斯坦那樣的物理學家。當然,在這之前我也喜歡哲學和數學,但還是覺得物理可能是人類所能觸及的、最接近宇宙真理的領域。
劉燕秋:我前段時間正好看了一篇文章,大概是講當代社會基礎的世界觀,就是建立在牛頓力學基礎之上的,或者說被它深深影響了。
王潛:我不這么認為,自從20世紀以后,大家基于量子力學建立的新世界觀,和牛頓的世界觀就非常不一樣了。
劉燕秋:但你不覺得現在主導我們生活的,還是牛頓力學那套機械的世界觀嗎?
王潛:我不覺得,至少在我熟悉的領域不是這樣。就拿AI領域來說,大家都講概率,沒人會說“一定(must)”。在神經網絡興起之前,大家主要做的是統計學習,而統計學習核心就是講概率的。這其實也是AI發展的一個里程碑。統計學習出現后,大家才發現,這好像才是世界的本質。所以現在所有做AI的人,秉持的都是統計的世界觀、隨機性的世界觀,沒有誰還抱著確定性的世界觀。
劉燕秋:那你說的隨機性的世界觀具體指什么?我可能理解得不太對,比如量子力學里講波粒二象性,說電子到底是粒子還是波,會受到觀察者的影響。它是經過一種關系性的過程,才會呈現出我們看到的狀態。這和你說的是一回事嗎?
王潛:量子力學里會說,一個東西有50%的概率在這,50%的概率在那,這就是它的表述邏輯。而我們做AI的時候,邏輯也是一樣的。比如做手機定位,我看到一張包含手機的圖片,并不是100%確定手機就在某個位置,而是會有一個概率分布,比如10%的概率在這,20%的概率在那,50%的概率在另一個地方。你沒辦法從充滿噪聲的信號環境里,得到100%準確的手機位置估計。
其實人本身也是用這種概率性的方式思考的,只是我們自己沒察覺。我們總會覺得“我非常確定手機就在這”,但事實并非如此。所以我們做AI的時候,也是遵循這個邏輯,所有的方程都不是確定性方程,全是隨機方程,里面描述的變量x,本質上都是隨機變量。
劉燕秋:我理解的世界觀,就是我認為世界是這樣運轉的,那就按照這一套邏輯和規則作為指導去看待萬事萬物。比如,在牛頓力學里,一切都可計算,帶來的就是基于理性和可預測的思維方式。你覺得統計學講概率這種看待世界的方式會如何影響到你看待當代生活?
王潛:我覺得人類社會和物理世界的關聯沒那么大。人類世界也不講牛頓力學,只講“敘事”。因為人的認知能力有限,沒辦法承接所有的信息量,所以我們了解人類社會、理解這個世界,通常都是通過敘事來實現的。但敘事本身是極度簡單、抽象的,而且特別容易被篡改和修飾,可也正因為這些特性,它才能把人凝聚在一起。所以我覺得,人類社會主要是依靠敘事邏輯凝聚起來的,這既和牛頓力學無關,可能也和量子力學無關,是一套完全獨立的系統。
劉燕秋:OK,說回到你的經歷,你的碩士論文算是較早將注意力機制引入神經網絡,當時是怎么想到這個機制的?但后來是谷歌進一步研究,主導了如今的Transformer架構。對你來說,這算是一個比較大的遺憾嗎?
王潛:對,當時我想,我們之所以相信能做出AI,是因為眼前已經有一個現成的智能系統,人類本身。既然在AI領域遲遲做不出突破,為什么不看看人類是怎么實現智能的呢?但我在2009年進實驗室,整個信息學院三個主要系,電子系、計算機系、自動化系,都找不到一個做神經網絡的老師。既然沒人從AI角度做神經網絡研究,我就想,或許可以從生物角度入手,去看看神經網絡到底是怎么工作的。也正因為這個想法,我后來轉到生醫系去研究神經科學了。
“深度學習(deep learning)”這個詞2008年才剛出現。既然要做神經網絡,核心思路就是把人和動物身上的神經機制遷移到模型里。當時我們判斷,什么神經機制比較關鍵呢?我們覺得注意力(attention)機制肯定是核心之一,因為它和人的意識直接相關。大家普遍有個比喻,意識就像一個劇院,有一束聚光燈照到哪里,哪里就是你能意識到的部分。而這束“聚光燈”,我們認為最直接對應的就是注意力機制。所以我當時就聚焦做了注意力機制的相關研究。
包括我們、谷歌和ETH(蘇黎世聯邦理工學院)在內的三篇論文,是這個方向最早的成果,時間大概在2014年。現在大家熟悉注意力機制,主要是因為Transformer架構。這個架構是谷歌團隊后續持續研究,直到2017年做出來的。說不遺憾是假的,因為我們當時提出的架構,其實比谷歌后來的方案更接近如今的Transformer,但我沒能把這個研究繼續做下去。
劉燕秋:順著AI的方向,博士期間你又是怎么把研究方向轉到機器人上了?
王潛:大概是2014、2015年的時候,正好趕上第一波AI熱潮,“AI四小龍”都冒出來了。但我當時判斷,這些AI技術基本只能在安防等領域落地,我對做安防不太感興趣,所以就想再找個新方向。圖像領域不太合適,語言領域又太難,思來想去,機器人可能是AI里能最快、最有用的落地方向。正好那時候我要出國讀博,就特意選了機器人相關的方向,也就是現在大家說的“具身智能”,當時我們叫Robotics Learning(機器人學習)。
劉燕秋:所以還是圍繞AI這條主線,你又找到了機器人這個方向。那時候機器人研究處在一個什么樣的狀態?主流的技術路徑跟現在有什么不一樣?
王潛:做到2018、2019年的時候,我發現當時機器人領域的主流范式——深度強化學習(deep reinforcement learning)明顯走不通。我就想,如果這個領域要等30年、50年才能有突破,沒必要把青春耗在這上面。不如先干點別的,以后賺了錢再回來資助這個領域,說不定反而能推進得更快。確實有不少人這么做,比如量化領域的Simons,大數學家出身,還有David Shaw,原來是化學家。他們都是在本領域做得不錯后,轉行做量化賺了大錢,再回頭資助科研。所以我就出來自己做了個量化基金,做了兩年,效果還不錯,也給投資人賺了錢。
當時覺得這樣也挺好,打算等個三五十年后這個領域有突破了再回來。梁文鋒也是這么干成的,但我入行比他晚,沒賺到他那么多錢。
不過到2021年,GPT-3出來了。雖然GPT-3在大眾層面沒有后來的ChatGPT那么引人注目,但在我看來,這是一個非常明確的范式轉變信號。我當時就跟合伙人說,有了這個,可能不需要三五十年,十年之內通用人工智能(AGI)就能出來。如果十年內AGI就來了,我們現在賺再多錢意義也不大,我還是想回去親自做AI。
我十年前就做機器人,現在再做順理成章。而且即便ChatGPT出來后,我還是認為語言、視覺這些方向落地難度大。你現在看也一樣,真正能落地的其實是寫代碼。我們當時也考慮過做代碼相關,但后來覺得,所有虛擬世界里的事,天然是大廠的優勢,帶硬件的領域反而更適合創業公司。
另外,Scaling law的趨勢已經很明顯了,對資源的需求指數級增長。你得用指數增長的顯卡數量、電力、數據量,才能換來線性增長的智能水平。那去哪找這么多指數級增長的資源呢?有人可能會說,美國現在有1萬億美元的AI基礎設施投資,已經很多了,但下一代AI可能需要10萬億美元,再下一代可能要百萬億美元,整個人類經濟系統根本支撐不起。所以,怎么從現實世界、物理世界獲取指數級資源,是支撐AI繼續發展的核心問題。我們覺得這個問題必須落到具身智能上。
其實從工業革命以來,大家就一直在想“機器制造機器”這件事。一臺機器能造10臺、100臺,100臺能造1000臺,這樣就能實現指數級增長。但直到今天,我們都沒看到這一點完全實現,核心原因就是不管是工業還是服務業,所有生產過程都離不開人手,身邊沒有任何一件物品的制造能完全脫離人力,而且人力參與的成分還很多。這是個明顯的卡點。
所以我們認為,只要把具身智能做出來,替代掉這個線性瓶頸,就能實現完整意義上的指數級增長,也才有可能支撐起線性增長的AGI,甚至ASI(超級人工智能)。想明白這一點后,我們就確定,具身智能的價值才是最大的。
我們肯定是要做具身智能領域的OpenAI
劉燕秋:能說說當時做量化基金大概賺到多少錢嗎?
王潛:具體數字肯定不能說,但可以支撐我和家人不用工作,也沒有太多后顧之憂。
劉燕秋:回到那個時間節點,你是2013年年底出來成立公司創業的,在那個時間窗口出來,你會不會覺得稍微有點晚?聽說你一開始融資挺難的,你自己總結是什么原因?
王潛:是稍微有點晚,但也不算特別晚。融資難,一方面是時間因素,但最主要的還是當時大家不認可我們的理論和邏輯。那時候我們就明確要做端到端的統一模型、要做基礎模型,但投資人普遍認同的邏輯是做簡單的分層模型和聚焦某一個單點場景落地的專用模型。
最近一個月,經常有人跑來跟我說:“還是你當時的看法是對的。”因為過去兩年里,在具身智能領域試圖做垂直落地的,沒有一個成功的。我們當時就說這事肯定做不出來,但那時候沒人信。沒人信之余,大家還會追問兩個問題:第一,你說的這事什么時候能做出來?第二,做出來需要花多少錢?再加上我們是剛成立的公司,一些同行已經融了很多錢,他們就會問“為什么他們做不了,非得你做?”“大公司資源更多,這種燒錢的事為什么不是大公司來做?”全是這類很現實的問題。
所以,還是要感謝早期天使輪和前期輪次的投資人,大家還是很有眼光。
劉燕秋:你感覺到融資變得順暢是在什么時候?這個轉變是怎么發生的?
王潛:每一輪融資都比上一輪順暢一點,當然肯定有個關鍵節點,最主要的節點就是PI-0出來的時候,大概是2024年下半年接近年底的時候。
劉燕秋:我之前采訪的時候,有人說你一開始講的是“PI”的故事,為什么大家一定要對標一家美國公司呢?
王潛:PI在當時的全球具身智能領域,技術上絕對是頂尖的。所以這種情況下,你去跟隨他們的方向,或者講他們那樣的故事,是沒問題的。不過我懂你問這個問題的意思,本質上,我們其實沒必要非得講美國公司的故事。這也是我當初選擇回國的原因,我覺得這件事在中國有機會做得比美國更好,我們要做的是從0到1的創新。很多人問我,你們是不是要做具身智能領域的DeepSeek?我一般會跟他們說,這么想格局還是有點小,我們肯定是要做具身智能領域的OpenAI,甚至這件事本質上比OpenAI做的事規模更大。
投我們的投資人都認可這個目標。你看,我們現在營收還不多,但投資人愿意包容我們,核心就是因為他們認可我們的技術優勢,相信我們能做成和中國傳統的發展路徑不同的事。他們相信我們能做出和別人不一樣的事,甚至和中國傳統創業路徑不一樣的事——中國傳統路徑大多是“快速跟隨者”,海外有公司做出成果,國內就做第二名到第十名。但投資人愿意賭我們能做賽道里的第一名。
劉燕秋:你一開始講的是PI的故事,但PI不做硬件,只做模型研發。你是什么時候意識到在中國走這條路行不通,必須要做硬件?
王潛:最開始我們也想過做純軟件,但后來發現這條路確實走不通,只做純軟的邏輯根本講不通。舉個最簡單的例子,你買了一個機械臂,商家給你開放了某些API接口,要是這些接口不符合你的需求,需要調整,你就得去跟供應商談判,一談就是三個月,他們再修改兩個月,半年時間就這么過去了。
其實我們剛開始做一個月后就意識到了。早期我們確實有個小規模的硬件團隊,但那時候沒覺得需要組建特別龐大的硬件團隊。可越往后做越發現,必須要完全、徹底地掌控硬件才行。真正徹底轉變想法是在25年初,也就是春節前的1月份,那時候我們實在受不了了,就決定一定要把硬件完全掌控在自己手里,從那時候開始正式組建硬件團隊。
劉燕秋:在融資這件事上,我們之前也在文章里探討過為什么機器人大額融資如此密集,其中一個原因是,同行一旦這么做,你就沒辦法停下來。你在這件事上意識的轉變是因為同行都在卷嗎?
王潛:這個賽道的融資,現在根本不是“需要花多少錢就融多少錢”的邏輯,某種意義上是一種身位的拉扯。你融的錢越多,后續就越容易融到更多錢,就是這么個道理。所以大家就開始內卷了。
就像我剛才說的,天使輪的時候,人家會問另外那幾家都已經融了10億了,你現在才融1000萬,拿什么跟他們比?它確實是個現實問題,而且很多人都這么想。你說它沒道理吧,它好像又有點道理,所以沒辦法,還是得去融。
劉燕秋:美團那一輪融資對你們幫助巨大?
王潛:美團的幫助肯定非常大,但其實在美團之前的那一輪更關鍵,就是君聯、光速還有北京機器人發展產業投資基金投的那輪。因為在那之前,大家都不認可我們的邏輯,就是我剛才說的PI-0出來之前的那個階段。當然如果說絕對意義上所有輪次里哪一輪幫助最大,那確實是美團。畢竟有了大廠背書,而且美團既是場景方,又是有錢的互聯網大廠,之后大家對我們的認可度就不一樣了。
劉燕秋:美團除了投你們,也投了好多家具身智能相關公司。各家是不是都想利用他們的場景,是不是還需要在他們那里爭奪資源?
王潛:以前投資人都會說,你有產業投資方,就天然擁有了對方的場景,沒有產投方,就進不去這個場景。但現在大家發現,這純屬無稽之談。產投方的投資和能不能進入對方場景,幾乎是完全獨立的兩件事。
劉燕秋:為什么會這樣?大家談論CVC的優勢不就是給錢之外,還能給訂單嗎?
王潛:對于業務側來說,他們根本不管投資方投了誰,大家都有自己的KPI。美團也好,京東也好,都是商業公司,不是投資機構,主業永遠是第一優先級。所以核心是你能怎么幫助它的主業,而不是讓人家的主業來幫助你。
當然,成熟行業或者準成熟行業是另一回事。比如,一件事有10家公司能做,有人能做到10分,有人20分,有人30分,但大家都不是0分。這種時候,產業背景就重要了。因為能做到10分也能滿足需求,與其選30分的要付更多錢、收不回成本,不如選10分的,還能在里面占股份,某種意義上能控制它,整體利益最大。但今天具身智能不是這樣,現在這個領域里所有人都是0分,誰能先做到1分,誰就有機會,因為這1分對場景方來說是直接的幫助。
劉燕秋:商業化場景落地這一塊,你們是從一開始就放在模型研發上,沒把重心放在商業化?
王潛:至少過去兩年我們是這樣的,不把重心放在商業化是我們主動選擇的。我當時就有這個判斷,也跟所有投資人都講過。按當時的做法,商業化這件事肯定做不出來。
劉燕秋:做不做的出來,具體指什么?評價標準是什么?
王潛:就是給客戶產生正向的ROI(投資回報率)。客戶買我們的機器人替代人工,不管是效率更高,還是能更長時間提效,只要能實現這些就算成。但現在市面上,一個能做到的都沒有。
劉燕秋:今年好幾家具身企業營收已經過億,甚至超過10億。所以你現在還是認為,目前沒到商業化的合適時間?
王潛:至少過去兩年我們是這個判斷,現在看確實是對的。但現在這個時間點不一樣了,我個人覺得2026年會出現真正意義上的商業化。所以對我們公司來說,明年商業化可能反而會變成重點。
劉燕秋:這個行業一種通行的說法是,機器人不像自動駕駛的汽車,跑起來就能收集數據。所以有些公司會先把機器人放到一些場景里收集數據,說這樣有利于技術發展和算法迭代。這套邏輯在你們看來行不通是嗎?
王潛:你看現在有誰真的靠這種方式收集到有效數據了?又有誰靠這些數據訓練出能用的模型了?一些公司搞的數據集,現在行業內公認沒人能靠它訓出模型,全是廢數據,本質上就是為了講故事、賣硬件。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.