范浩強是個很幽默的人。我們問他下一個十年,具身智能要解決的問題是什么,他說可能機器人覺醒把人類滅了,就沒有下一個十年了。
這當然是一個玩笑,探討行業的發展,難免要做一些科幻性的想象。在他看來,AI 應該是一生的事業。畢竟他高一就拿到了國際信息奧賽金牌,高二起就是一個真正的 AI 研究員了。
原力靈機的名字很陌生,但來頭可不小,因為這是從曠視出來的具身智能公司。它的創始人便是曠視的聯合創始人以及最早期的幾名員工。成立不久,兩輪融資金額就已經近10億元了。
我們對于原力靈機的好奇主要集中在幾點:他們是想做模型還是想做本體?他們有什么樣的商業模式?作為曠視出身的新公司,他們有什么樣的優勢?在目前的競爭中應該如何突出重圍?
作為一個在曠視就跟無數客戶打過交道的人,范浩強對于具身智能的理解也帶著很強的“曠視”風味。
從創業的第1天開始,范浩強就真切感受到了客戶對具身智能的強烈需求。但令他感到遺憾的是,很多需求是現在滿足不了的。機器人的能力現在還極其有限,而生產線的精度需求和效率需求又高得不可思議。
以前曠視能把人臉識別做到11個9的百分數,現在呢,機器人一次最簡單的抓取,可能成功率還不到一半。
在整個聊天中,我們對原力靈機最大的感受就是這個公司不講資本故事,不談 AI 噱頭。范浩強跟我們談 DFOL(原力靈機具身原生量產工作流),說具身智能的第一步落地,應該從何處著手?它的原生應用應該從何處發現?實用場景,怎么樣從百里挑一,進展到百里挑十,最終走到無限泛化。
![]()
范浩強在原力靈機技術發布日上介紹 DFOL
通用機器人當然是我們所要尋求的終極目標,但是怎么走到通用呢?當技術就是達不到完美的狀態,那我們應該怎么辦呢?不夠通用的具身智能會不會因為達不到大家的期待,而飽受質疑,成為明日黃花呢?
范浩強給了一個他們的答案:
歷史上絕大部分技術的發展規律就是剛好夠用,可能哪里看著都不太合理,但就是能用,最后就會被推廣開來。
能用,即為合理。對于 general,做過工程的人都知道,期待不要放太高才好。
這篇訪談能夠告訴你,找到真實場景、解決真實問題的具身智能公司是怎么做的。你能讀懂一個創業者的困惑和努力,更能聽到他關于模型本體應用和商業最真實的思考。以下是不改變原意的整理:
01要做就做到 SOTA,這是對自我的定位和自信
AI 科技評論:我第一次聽說你,是有人跟我說,他剛進曠視的時候,旁邊坐著一個天才少年,還是個高中生,把他嚇死了,一問這個人,名字叫范浩強。
范浩強:對,我12年就加入曠視了,是曠視六號員工。當時唐文斌是我的信息奧賽教練,他就問我,我這有個事兒能保送,還能發工資,我問他,那是做什么的啊?靠譜嗎?他跟我說,做人臉識別啊。我當時還在讀高中,啥也不知道就進去了。
![]()
范浩強在曠視時的照片
AI 科技評論:你什么時候開始想做機器人的?
范浩強:確切地說,那應該是16年,那時候我大四,去拜訪了一個斯坦福實驗室兩個月。那個實驗室里面有誰呢?有蘇昊、盧策吾、王鶴、弋力、邵林。
蘇昊是大師兄,那時候帶著我們做 3D 生成。我問蘇昊,你為什么要做 3D?蘇昊就跟我說,做了 3D 生成就可以做 3D 判別,然后就可以做機器人仿真,最后咱們就可以在十年后干機器人啦。
AI 科技評論:果然到了十年之后,你們都在干機器人啦!談談原力靈機是怎么成立的吧?
范浩強:我當時就想,把 AI 放在機器人上,就是一個最大的挑戰故事。
但那時候缺一味關鍵的佐料,就是 AI。雖然大模型出來了,但具體怎么和機器人結合在一起?不知道。還好24年從美國出來幾個重要的工作,比如 Action Transformer、Diffusion Policy,最后還有個集大成之作就是 Pi,就一下子把路線劃清楚了,告訴大家 Transformer 這項技術是怎么往矩陣上用的,勾勒出一個后面的 roadmap。當時覺得條件都成熟了,要去組建團隊了。
我第一個想的是得找個 CEO,剛好唐文斌當時還是個“自由人”,我就找他來干這個 CEO。他看到這些技術進展,半夜2點給我發了條微信消息:this is once in a lifetime 的機會去做 general robotics。我回他,你怎么比我還激動呢?
然后我們又找到了硬件合伙人周而進、汪天才,加上唐文斌可以做客戶場景,我可以做 AI,就成了一個全國少有的集三方面于一體的團隊了。
AI 科技評論:公司正式成立那是什么時間?
范浩強:差不多25年3月份,第一輪融資搞定,后面公司主體成立。
AI 科技評論:進入具身智能行業這一年,你的感覺如何?
范浩強:我感覺后面事態的發展速度完全不受控了,因為整個行業發展得一日千里。我們以前寫 paper 經常說 traditional method 是什么,現在具身兩個月前的就叫經典方法了,變化得特別快。
25年,公司剛攢出來的時候,其實有點兩眼一抹黑,不是不知道做什么,而是想法太多了,有想搞 humanoid 的,分離式采集的概念也很火,觸覺也很火,太多的可能性和概念飄在眼前了。
我們也是經過25年這完整的一年才看清,模型還是這里的主軸。模型的水平決定了哪些場景能用,哪些場景能用又決定了最終硬件該長什么樣,再反過來決定這個數據該怎么做。模型的能力本身是整個事情發展的自變量。把這個事情看清楚之后,那核心是把模型做好,用最好的算法、最優的數據、頂尖的工程來實現。那剩下公司該做什么?自然就一路展開了,這是我在創業過程中逐漸找到主軸和主線的過程。
AI 科技評論:做最好的模型,本身就非常難。
范浩強:這個的確是,但我們團隊里很多人都有種傲氣,當年搞視覺的時候就沒當過第二,大家很難想象一個事努力了一段時間,把該搞的搞清楚之后,最終測出來的分數或者效果不是 SOTA?!我們是覺得研發有科學性在里面的,搞清楚了就該有好成績,這也是一種對自我的定位和自信吧。
AI 科技評論:模型是我們現在手上最大的牌?
范浩強:我們有兩個開源的東西。一個是訓練的 codebase,叫做 Dexbotic,內部俗稱 DB。第二個是我們搭建了一個測評框架,叫 RoboChallenge,內部叫 RC。
這些東西在技術上都是不好做的,都很硬。并且做完之后還開源,展示每行 code,也算是展示我們整個團隊的戰斗力和技術水平。不少公司都做了 Codebase 開源,但很多都是 “README 式開源”,就一個 README 文件,里面是空的。
開源后就引發了一系列的熱度,RoboChallenge 現在有五六家都申請做測試了。截止到目前,我們手里有兩張牌,一張是基建能力,第二張牌是模型,這是整個團隊的實力展示,也是跟大家同步我們想要去努力的方向。
![]()
Hugging Face 聯合創始人 Thomas Wolf(左 3)與 Dexmal 原力靈機聯合創始人范浩強(右 2)在 IROS 2025 現場交流 RoboChallenge
AI 科技評論:模型這方面強手如云,你不擔心嗎?
范浩強:最強的人還在搞LLM呢。
02真實場景的真實問題,可能是最難的挑戰
AI 科技評論:除了模型,我們還做本體嗎?
范浩強:對,我覺得這個還是很清晰的,機器本體我們也一定得自己做。
AI 科技評論:這跟我們的商業模式相關?
范浩強:我們之前賣軟件都賣了十幾年了,很清楚一件事,那就是要順著市場對公司的期望去做,絕大部分的用戶或者客戶還是想要個 total solution,在中國也不太會有一個大廠自己通過收購做垂直整合的這種商業習慣。
所以我們覺得最終還是要端到端的給客戶創造價值,基本上每一環自己能控制得住,那么整個東西的品質和可服務性才是最好的。雖然可能之前很多人都沒碰過電機這些硬件的東西,那也得從頭去做,爭取跟上這個課題的要求吧。
AI 科技評論:又做模型又做硬件,聽起來難度更高。
范浩強:我之前就說過我們很多人都在手搓機器人,現在我們公司里還躺著很多手搓機器人呢,大家都認為讓搞算法的同學自己先搭一遍機器人,才知道這里面將來會出現多少問題,這樣后面做算法的時候才能在腦子里想著這些問題做。
AI 科技評論:這不是折磨算法工程師嗎?
范浩強:干得好的話,就特別開心。
AI 科技評論:你不會也手搓了一個吧?
范浩強:全公司應該就我手搓的最多,最早我自己在家搓了一個在家疊被子的機器人,大概是2000塊還是3000塊的成本,全是淘寶買的零件手搓出來的。
不是機械臂,就一根棍,能提升,有個夾子,接下來都得靠你的智慧,用一個小夾子怎么就擺來擺去把被子給疊起來了?里面全是設計。
AI 科技評論:手搓機器人讓你對做算法有什么新的感悟?
范浩強:我當時就感覺到,硬件很多都關乎于取舍,20萬也能造,2千塊也能造,最終決定東西好不好用還是取決于里面的算法,就是動的路線,理解到這一點就覺得還有機會,只要把算法做好了,一切美好都能到眼前。
AI 科技評論:在設計這一整個從軟件到硬件的閉環的時候,當時想的是要做哪些場景呢?
范浩強:當時想的還挺簡單的,因為曠視當年有500多個優質客戶,好多公司都有類似技術改造這種偏前瞻的部門,每年都會有人來問我們,新的科技你們公司有沒有?以前人臉識別就是 AI 了,后面大模型算是 AI,現在機器人才是 AI。
所以我們從第一天開始就感受到了客戶強烈的訴求,但比較遺憾的是,我們現在滿足不了。哪怕是最簡單的分揀,一個倉庫里有幾萬個 SKU,直到今天那些算法都搞不定。客戶每年都會讓我們匯報一次現在 AI 的進展怎么樣啦,能不能起個項目把這東西上線。所以我們對應用場景沒那么擔心,AI 化改造我們已經做了很久,很清楚這個事情該怎么做。
AI 科技評論:那接下來最大的挑戰是什么?
范浩強:真實場景的真實問題,可能是最難的挑戰。之前 AI 1.0 整個過程中,我們看得很清楚,所有公司在有真實收入之前,都在講自己有多好,一旦產品真賣出去了,就不是自己講了,而是客戶講你這個東西到底能不能用。
這是非常客觀、毫無造假可能的指標,也是讓整個行業的氣氛從浮躁慢慢沉淀下來的關鍵。
現在都夸自己的模型多有 insight,但說實話這是不可證偽的,測評的指標太多了,總能挑個好的,所以真實客戶的真實使用是唯一的指標。有一回交流的時候有人說機器人該測什么指標?回答成功率、穩定性一大堆,但我認為一個指標最關鍵,一臺機器人多久能自己把錢掙回來,就這一個指標,其它都don' t care。
AI 科技評論:那現在能完成這個指標嗎?
范浩強:我們一邊在做模型,一邊陸陸續續做一些應用,我就發現了一個神奇的現象:最難測試的任務,不是說現在的 table30(30個標準化桌面操作任務的數據集)里 0% 的任務,而是——我們專門有個小 collection,叫做客戶場景里面的最簡單問題集,從每個客戶那兒挑了個最簡單的問題,這里面最簡單的問題比我們測的最難的問題還要難。
之前計算機行業經常有句玩笑話叫:最難的測試叫正常用戶正常使用,你做再多回歸測試,一到真實場景完全頂不住。機器人也是一樣的,基本上每一個有價值的任務,整個環節中可能剛好有一小個環節,無論是對機器人的精度還是智力,真考驗到我們了。
所以下一步的突破一定要去挑戰更真實、更硬核的事情,大家都有點客戶和落地之后,整個行業的格局才會更清晰。
AI 科技評論:你現在遇到的客戶場景里面的最簡單問題是什么樣的?
范浩強:有幾個收集的 sample,其中有一個讓我印象很深,可以理解為機器人要把兩個扣在一起的東西翻個面。
AI 科技評論:為什么會有這種需求?
范浩強:人家的工藝里就要求這個,這就叫真實問題,you don' t ask why。人家干了10年,說必須要這么翻,你得信他,OK?
AI 科技評論:OK。
范浩強:我們就發現機器人做這事就爆難無比,根本夾不起來。所以最后我們拍 Demo 的時候,其實還專門設計了一整套機器人的動作流程:先夾到這里,再從這里鏟進去,再搬到另一個位置,然后再進行下一步。機械上這套動作是能實現的,但問題在于動作太復雜,模型根本學不出來。
所以這就是真實問題,都是一環扣一環的,真要去落地,就會發現這是塊硬骨頭,你啃了它一口,發現里面怎么還一層?只有最后真的吃到里面的芯了,并且給它吃下去了,可能才知道原來我為了把這東西做落地,要解決這么多問題才行。在最終落地之前,你只能不斷發現,原來這還有個問題是之前沒意識到的。
AI 科技評論:那豈不是要干上十年才能落地?
范浩強:不是說難度高就代表它就解決不了,難就得動腦子,不光模型是基礎,產品設計、業務和客戶的配合,都得把巧思放進去,最后這東西才能做好。
我覺得很好的是現在陸陸續續有同行逐漸出來真的落地項目了,很可能客戶給了100個需求,真能找到一個需求恰好天時地利人和,剛好所有的問題,都能有個 solution 繞過去,然后把機器人布進去用了。
這只是第一步。原本只有百里挑一的優質任務才能完成,未來模型能更強,能擴展到百里挑十,最終實現來一個任務就能完成一個任務的目標。
AI 科技評論:最近還看到一些機器人被工廠趕出來的消息,你怎么看這些新聞?
范浩強:很正常,做 POC 到上業務之間隔著一條鴻溝,這一點我們在做非標視覺智能化的時候就有非常深刻的體會了,客戶通常會歡迎我們來做 POC,但只要你這東西做錯了,影響到了他的主線業務,那他在上線之前要把你折磨死。
AI 科技評論:你們很有這種被深深折磨過的經驗。
范浩強:最終都會用來驅動定義技術,比如當年做的 face recognition,可能行外人不知道,就最終的誤識率指標,做到了11個9,就是99點后面再跟9個9。所以你平常用這些人臉識別,幾乎沒感覺他錯過,這就是被逼出來的算法。
機器人如果24小時連著干一年,如果論多少幀算錯,那可多了,因為這是一個實時的視頻處理過程。如果在生產環境下一秒鐘弄錯了,造成的災難是無法挽回的。所以機器人算法也一定會經歷一個過程才能真正落地。
具身就相當于另一種自動駕駛,自動駕駛需要去解決的感知過程中的決策也沒什么秘密,就搞1億公里的數據,然后去做最扎實的模型訓練,最后模型就會給可靠性的回報。機器人也一樣,只不過跟車比,機器本體要小一點,做的任務會更多一點。
AI 科技評論:具身的任務可能是無窮多的,比自動駕駛難多了吧?
范浩強:我個人的觀點,我覺得這波具身革命也不會解決掉機器人所有的問題,因為10年前大家吹 AI 的時候已經把所有的好故事講過一遍了,最后具體的落地方向,其實也就那幾個。
現在 LLM 的落地方向也是一樣,coding 算一個,聊天算一個,其實也是有限集。所以我們覺得,AI 一定是個更長期的 lifetime 的工作。這波浪潮里面我們可以把機器人 push 到比原來的效果好一大截,可能這就是這十年的版本答案了。
AI 科技評論:下一個十年呢?
范浩強:也可能沒下個十年,是吧?機器人覺醒了把人類給滅了,也不用考慮了。
AI 科技評論:希望不要面臨這樣的情況。
范浩強:我覺得最后技術一定會發展到一個雖然不完美,但剛剛好有用的狀態。歷史上絕大部分技術的發展規律就是剛好夠用,可能哪里看著都不太合理,但就是能用,最后就會被推廣開來。
03根據機器人的屬性,去尋找合適的應用場景
AI 科技評論:我看到原力靈機最近在做的DFOL,是世界上首個具身智能應用量產工作流。能解釋一下具身智能應用是什么意思嗎?
范浩強:比如像工業六軸它也是個應用,但你肯定不想叫它具身,對吧?
AI 科技評論:只是一種自動化硬件設備。
范浩強:對,我覺得具身智能應用其實是一整套的體系,比如現在大家做的具身硬件,一般都會做成個準人形的樣子,它有一定的通用性。同時,你會期望它的動作會是比較靈巧的、比較復雜的,而不是像 XYZ 一樣,定點拿、定點放。
具身硬件,搭配比較好的傳感器,搭配一個比較大的模型,就形成了一個跟原來的工業自動化很不一樣的一個體系。大家建立這個體系的初衷是覺得這東西最終能完全通用,但現在走在通了一半的路上,還沒到最完美的狀態的情況下,它擅長去干什么?
這個時候我覺得就要找出具身原生應用,比如說為什么 LLM 去寫 code的?
AI 科技評論:因為LLM還挺適合訓練它的coding能力的。
范浩強:所以你可以理解為 code 是個 LLM 原生應用。具身機器人也是一樣的,不是隨便丟個什么問題它都能解決,或者它都能擅長,也得根據它的屬性去找,什么樣的應用場景里是適合干的。
AI 科技評論:那會不會每一個模型的原生應用不一樣?
范浩強:有可能,現在大模型也在講,這家適合做 agent,那家適合 code 的,大家存在口碑上的差距。但現在具身模型還沒分化到這么細,所以我們就是有更多的 contrast,比如原來我做的視覺引導的機械臂,現在我想隨著 VLA 這個具身體系去做(升級)。那首先就得講清楚,VLA 比之前的方法好在哪,憑什么用新方法。
好就好在柔性輸入上。原來做的一個零件分解的工件,就必須嚴格長成這樣,只要變一點點,一切就推倒重新做一遍。現在 VLA 有泛化性,哪怕分解的東西從可口可樂換成百事可樂了,模型能泛化了,就不需要再重新布置一次了,這就是客戶想要的特性。
另外,工廠原來搭一套快速換線的非標機臺,可能從開始接單到最后上線需要5個月。現在的客戶都想能不能5天之后開始生產交付?肯定是不可能的呀。這些任務就是給具身準備的,換成其它方案都會遇到很多致命問題。
具身雖然也會帶來很多問題,比如使用具身工業臂的時候外面都得圍兩米的圍欄不許人員進入,但只要具身智能解決了以前完全沒有思路的問題,行業還是會去解決具身帶來的問題。所以具身原生應用就是把具身的價值給發揮出來的應用。
AI 科技評論:我們現在是處于正在找它的原生應用的這個階段,還是說已經找到了?
范浩強:我們現在的確有些客戶 case 了,但是這些 case 我們不想到處講,怕講完之后友商來了。因為這個東西是真掙錢的家伙,就不開源了(笑)。
AI 科技評論:你尋找DFOL的這個過程中,最困難的是什么呀?
范浩強:我覺得第一大難點真的是找場景、找客戶。
AI 科技評論:你自己去跑的客戶嗎?
范浩強:我和文斌一起的,我們倆之前就一起跑過很多客戶,前段時間也密集地去跑了各種工廠,跑完之后回來想,到底這個機會在哪里。
另外,我覺得得真去理解這些模型它擅長什么。有些你以為非常難的動作,其實模型一下就學會了。有些你覺得非常簡單的動作,訓半天就是搞不出來,到最后其實是人學會了,所以模型的動作設計非常重要。
AI 科技評論:講講你們的動作設計的case。
范浩強:比如讓機器人去疊衣服,衣服從上面捏就不如從側邊捏成功率高。要把這些東西都給搞明白,我覺得需要一批專業人才,那些很有天賦的采集員,他們可能都是未來的種子。
AI 科技評論:他們就是把人類動作翻譯成機器人動作的翻譯官。
范浩強:是的,他要把自己帶入到機器人視角去想什么樣的動作是好做好學的,他不能把自己再當成人了,他得把自己當成機器人去思考和理解這個問題。最終還是得有一批人專注在 DFOL 領域。
好多行業里有個概念叫 FAE,field application engineering 現場應用工程。說實話大多數的定制版軟件全是靠 FAE 撐起來的。
在具身初級階段的時候,DFOL 是非常重要的一環,整個系統就得為它設計。所以去畫框圖的時候,不是說像別人一樣,畫個簡單的大腦指揮,小腦指揮,機器人就干了,而是要畫成帶反饋的環路。最后任務執行沒成功的時候,去服務的機器人的反饋數據也得傳回來,這樣機器人才能達到客戶最終的要求。
AI 科技評論:所以你這個數據是他們當場就是 action 之后,然后反饋回來,形成一個閉環。
范浩強:這也是 Pi 0.6 工作里面提到的一個核心算法,叫 RECAP,現在還有很多別的叫法,比如叫 DAG,像上海智元又叫SOP。
其實原理都是一樣的,比如機器人快做錯了,人趕緊給它矯正一下,然后把矯正的信號給記錄下來,讓網絡再去學習它,它很聰明的,基本上掰它幾回,就不往那去了,這就是我說的神經網絡令人感動的地方,它還挺聽話的。
AI 科技評論:那就是這種數據回來之后,我們還要重新去 post train 一下這個模型。
范浩強:當然了,相當于在產能爬坡的這個階段里,其實是兩個并行的,這邊一直在采,那邊也一直在訓。直到我監測的時候發現,平均無干預時間已經到達一個指標了。那我就把更新斷掉,后面它就變成被動收集模式了,模型就不動了。但是如果它今天出 badcase,數據依然還會再傳回來,給以后的模型去做參考。
AI 科技評論:那就是現在我們有出貨一些本體機器了?
范浩強:我們公司25年3月份成立,有些項目款的產品,現在那些客戶的試點里面就有在用,最終說的主線硬件,時間上趕一趕,26年能推出一個給客戶用的、比較統一的硬件產品。
AI 科技評論:既然我們要針對服務具體的工廠客戶了,還有必要去做一個統一的硬件產品嗎?
范浩強:像夾板或者是末端的東西,可能這個客戶需要硬的,那個客戶需要軟的。但是機器人整體的 platform 還是得盡快穩定下來為好,便于數據積累和模型學習。所以我們公司戰略上肯定還是期望,能盡快收斂到我們的主力機型上。
AI 科技評論:那以后會不會去做一些面向更C端的機器人?或者說更通用化的?
范浩強:我們愿景里是想做的,只不過感覺這事兒更得等一等了。
AI 科技評論:那會單去給某些本體公司提供大腦這樣的事情嗎?
范浩強:目前暫時不會,那個生態鏈上已經很擁擠了,這也不是我們擅長的東西。
AI 科技評論:那從你的角度上來看,原力靈機在整個行業中的生態位是什么呀?
范浩強:我希望它是技術的引領者、應用的先行者。
04在山腳分開,在山頂匯合
AI 科技評論:模型和硬件之間的關系是什么樣的?
范浩強:硬件其實本來也是個科學,里面也沒有魔法。比如可靠性、結構、鋼度這些問題,大家其實都有對應的方法論。只要設計的時候把這些問題都考慮好,都驗證透了,那最后的產品一定也是好的。
現在的硬件難點,我覺得和模型一樣,locomotion 大家基本上都有解決方法了,但是機器人運動中,manipulation 在硬件上的卡點十分突出。
我可以舉個很細節的例子,比如手腕,人的手腕其實伸進桌斗里很容易,機器人伸不進去。有很多客戶讓我們做這個 case,發現死在了第一環,根本就伸不進去,你都沒有資格去講這個問題,后面還能說什么?
所以我們覺得在硬件方面,也都得從應用出發,才能到落地的狀態。
我們有一個 slogan 叫模型決定場景,場景定義硬件。這代模型科技范圍內,能做的事情清楚了,那后面各種實現的方法,也就綱舉目張的出來了。
AI 科技評論:你們基模訓練得算是快的嗎?
范浩強:真的拿顯卡去跑,可能就幾周的時間,但是要先把跑什么、怎么跑這些事情全部搞清楚,做好前期驗證和數據準備,這就要花費大量的時間去迭代和建設。
AI 科技評論:要跑什么?怎么去跑?
范浩強:要跑比如 base model 的訓練參數、數據分布,這些怎么做才能合理?這些才是真正決定了這個模型的最終能力。我們往里面加了幾千小時自采數據,這些數據都是一小時前采出來的,或者叫一分鐘、一分鐘采上來的。
AI 科技評論:你們的數據采集做得很扎實。
范浩強:這倒是,不過還好,搞人臉的時候我們已經采了10年數據了,有些采集員他們就非常有技術信仰。最激進的采集員還會主動過來問,我采的數據用到模型上效果咋樣?他自己還會琢磨下一批數據該怎么采集更好。
![]()
聯合開發的首款數據采集機器人 DOS-W1 量產出貨合影,范浩強在現場。
AI 科技評論:他都已經從職業變成專業了是吧?
范浩強:是的,非常神奇,我覺得也算是這個工作中的樂子吧。我們公司有個參觀景點,里面有塊大看板,上面有個功勛榜,列著誰為我們的整個數據集里貢獻了最多時長的數據,后世一定要銘記這些當年的功臣。
AI 科技評論:那他們是硅基生命的大功臣。
范浩強:采集員也要做到人機合一啊。因為我們那個任務很難,零點幾毫米的對準精度,要苦練兩天才能練出來。
AI 科技評論:那下一代的具身模型會跟這一代有什么區別?會朝哪些方向發展?
范浩強:我覺得首先模型一般來說有四大指標,泛化性、智能性、靈巧性,還有效率。這一代我們更多關注它的靈巧性和一定的泛化性,下一代這些指標我覺得得數量級的增長才行。
現在很多任務可能也就做個百分之八九十成功率,但是未來少不得進入客戶場景,所以下一代簡單任務必須沖著99、 99.9的成功率去了。另外在動作的長度上,現在大部分自己測的任務,可能10秒內干完一拿一放的任務,后面要做分鐘級甚至小時級的長程任務。
AI 科技評論:現在具身模型訓練路徑也很多,有搞仿真的,有搞VLA的,有搞世界模型的,這是一個好事嗎?
范浩強:每個人堅持自己的路挺好的,大家技術路線上太同質化,那就浪費這個試錯的機會了。我們大概率還是一個預訓練加真機的技術組合。大家最好路子不太一樣,這樣也能相互看看對方到底干得咋樣,能有個參考。如果大家都一模一樣,那最后比啥呢?
AI 科技評論:最終不會都收斂到一個路線嗎?
范浩強:應該不會,應該是在山腳分開,在山頂匯合。比如做仿真的人天天在搞 3D 資產,做真機數采的人天天在研究怎么增廣,其實最后發現它是一樣的。做實的人天天想怎么往虛了搞,做虛的人天天想怎么加實的東西,因為技術問題是一樣的,無論你的出發點是什么,手段是什么,其實最終在大的格局上一定能找到對應物的。
所以我真心覺得這些技術路線的分歧本身不本質,區別完全取決于你在實現過程中解沒解決那些問題,你解決了的話,那就一定能做好。這種我們叫還原論思想,其實挺曠視風格的,比如當時張祥雨有幾篇很重要的文章,有一篇是 ConvNeXt,他就想說別看其他人天天用 Transfomer 刷 Vision,我用卷積照樣能刷。
AI 科技評論:后來大家不還是被統一到Transformer?
范浩強:現在 Transformer 已經被改的面目全非了,大家說的 Dswin(滑動注意力窗口)結構,你說那東西和卷積有區別嗎?我覺得沒區別。搞 Transformer 的人最后搞回來了卷積,搞卷積的人最后搞了個 Transformer,其實殊途同歸。
我不喜歡做這種概念性上的戰隊或者對立,我們相信這世間的真相只有一個,但方法有很多。
雷峰網-雷峰網
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.