![]()
智東西
作者|許麗思
編輯|漠影
一臺(tái)機(jī)器人,昨天還在倉(cāng)庫(kù)里熟練地分揀包裹,今天換了個(gè)貨架就懵了,這是眼下不少機(jī)器人面臨的尷尬處境:稍微改變一下工作環(huán)境,機(jī)器人的干活能力就像失效了一樣,沒(méi)法舉一反三。
這背后折射出的,正是主流VLA路線的局限性:VLA曾被視作通往通用機(jī)器人的關(guān)鍵路徑,但越來(lái)越多人意識(shí)到,其在面對(duì)物理世界千變?nèi)f化的實(shí)時(shí)交互時(shí),顯得力不從心,泛化能力有限,難以舉一反三。
在這樣的背景下,一家成立于2025年的上海創(chuàng)企眸深智能獨(dú)辟蹊徑,沿著生成式路線打造機(jī)器人原生通用大腦,該公司也是全球首家生成式通用具身大腦公司。
眸深智能由三位復(fù)旦校友聯(lián)手創(chuàng)辦:首席科學(xué)家陳濤為復(fù)旦教授、原華為海思AI圖像算法引擎負(fù)責(zé)人,CEO穆澤林是連續(xù)創(chuàng)業(yè)者,張益民為英特爾中國(guó)前首席科學(xué)家及英特爾首席工程師,掌舵工程與架構(gòu)。
“眸深”這個(gè)公司名字背后,也帶著團(tuán)隊(duì)對(duì)具身智能的理解:英文源于團(tuán)隊(duì)核心技術(shù)的“Motion GPT”(動(dòng)作生成大模型),中文“眸”代表以視覺(jué)為基石,讓機(jī)器人手眼并用,真正在物理世界動(dòng)起來(lái)。
獨(dú)特技術(shù)路線、完備且資深的團(tuán)隊(duì)讓眸深智能受資本青睞,今年1月,該公司剛連續(xù)完成數(shù)千萬(wàn)人民幣天使輪追加投資,由上海國(guó)和投資領(lǐng)投。穆澤林在接受智東西專訪時(shí)透露,該公司基本上每個(gè)月都會(huì)交割一輪融資。
眸深選擇對(duì)標(biāo)美國(guó)Skild AI,這兩家公司的產(chǎn)品思路都強(qiáng)調(diào)“一腦多形”,只是技術(shù)范式和能力重點(diǎn)有所不同。眸深智能的終極目標(biāo),是要成為“具身智能時(shí)代的Windows”,打造市值千億以上的通用大腦平臺(tái)。
一、復(fù)旦“鐵三角”聯(lián)手創(chuàng)業(yè),要讓機(jī)器人真正在物理世界動(dòng)起來(lái)
眸深智能的誕生,源于CEO穆澤林對(duì)更大機(jī)會(huì)的追尋,以及首席科學(xué)家陳濤將學(xué)術(shù)成果落地為產(chǎn)業(yè)價(jià)值的渴望。
穆澤林有著豐富的創(chuàng)業(yè)經(jīng)歷,曾創(chuàng)辦了聚焦于AI外呼領(lǐng)域的木心智能。在成功將木心智能做到年?duì)I收過(guò)億后,他敏銳地看到了業(yè)務(wù)的天花板,選擇賣掉公司,繼續(xù)在AI領(lǐng)域?qū)ふ乙粋€(gè)能做十年、二十年的方向。
陳濤的動(dòng)機(jī)則更像一個(gè)學(xué)者對(duì)產(chǎn)業(yè)化的主動(dòng)轉(zhuǎn)身。他曾任職華為新加坡中央研究院、現(xiàn)任復(fù)旦大學(xué)教授。在長(zhǎng)期的學(xué)術(shù)研究過(guò)程中,他覺(jué)得,高校科研與產(chǎn)業(yè)結(jié)合度低,難以將成果落地,應(yīng)該要借助產(chǎn)業(yè)資源將原創(chuàng)理論落地;反過(guò)來(lái),真實(shí)場(chǎng)景中遇到的挑戰(zhàn)還可以倒逼高校研究更有針對(duì)性。
事實(shí)上,兩人早在2019年就已經(jīng)有過(guò)共同創(chuàng)業(yè)的念頭。只是當(dāng)時(shí)陳濤剛從海外和企業(yè)回到復(fù)旦,科研平臺(tái)剛起步,還不適合馬上投入創(chuàng)業(yè)。
直到2023年ChatGPT出現(xiàn)后,創(chuàng)業(yè)的想法經(jīng)過(guò)幾年的沉淀后終于開(kāi)始走向落地,兩人決定聚焦具身智能模型的相關(guān)領(lǐng)域。
團(tuán)隊(duì)“鐵三角”的補(bǔ)齊,得益于前英特爾中國(guó)首席科學(xué)家張益民的加入。張益民與穆澤林、陳濤同是復(fù)旦校友,是前英特爾中國(guó)研究院首席科學(xué)家及英特爾首席工程師,原機(jī)器人交互實(shí)驗(yàn)室高級(jí)總監(jiān),從2015年起負(fù)責(zé)服務(wù)機(jī)器人研發(fā)。
至此,眸深智能形成了“模型算法+商業(yè)化+工程架構(gòu)”的互補(bǔ)組合:穆澤林負(fù)責(zé)商業(yè)化與組織,陳濤主導(dǎo)模型算法,張益民補(bǔ)上工程與架構(gòu)。
據(jù)了解,眸深智能的團(tuán)隊(duì)規(guī)模并不大,全職員工不到20人。但其背后依托著與復(fù)旦大學(xué)的校企聯(lián)合研究中心,擁有一支60余人的強(qiáng)大博士研究團(tuán)隊(duì)。這種“小型公司+大研究院”的結(jié)構(gòu),構(gòu)成了它與大部分創(chuàng)業(yè)公司不同的組織基礎(chǔ)。
具身智能行業(yè)迭代速度快,為了平衡短期成功壓力與長(zhǎng)期基礎(chǔ)研究的投入,眸深智能內(nèi)部形成了獨(dú)特的“頂天+立地”的雙線研發(fā)陣型。
“頂天”的研究由高校聯(lián)合實(shí)驗(yàn)室的博士團(tuán)隊(duì)負(fù)責(zé)前沿探索,聚焦從0到1的創(chuàng)新技術(shù)研發(fā);而“立地”則偏向于工程化落地,由公司內(nèi)部的工程師團(tuán)隊(duì)結(jié)合成熟技術(shù)與自研模塊,以客戶為中心進(jìn)行交付。這兩條線形成閉環(huán),前沿探索為工程落地提供技術(shù)儲(chǔ)備,工程實(shí)踐又為前沿研究指明方向。
陳濤談道,眸深智能在開(kāi)展研究前期,就通過(guò)考察國(guó)內(nèi)外頭部機(jī)構(gòu)的研究進(jìn)展,堅(jiān)決避開(kāi)VLA等已過(guò)度內(nèi)卷的同質(zhì)化賽道,專注于生成式和端側(cè)部署等更具特色的深層研究。
但不碰同質(zhì)化,不等于閉門(mén)造車。眸深同時(shí)也秉持兼容并包、取長(zhǎng)補(bǔ)短的理念,借鑒外界出色的研究成果優(yōu)點(diǎn),并與自研技術(shù)融合,在差異化中形成自身特色。更重要的是,團(tuán)隊(duì)堅(jiān)持技術(shù)與場(chǎng)景同步推進(jìn),不等技術(shù)100%成熟才考慮落地,而是主動(dòng)尋求場(chǎng)景和業(yè)務(wù)。
二、不走尋常路,堅(jiān)持生成式是人機(jī)互動(dòng)的理想范式
眸深選擇生成式技術(shù)路線,根植于陳濤早期形成的技術(shù)信仰。
在他看來(lái),AI的終極目標(biāo)是服務(wù)人,人首先需要的是互動(dòng)的價(jià)值,傳統(tǒng)模仿學(xué)習(xí)或預(yù)編程機(jī)器人缺乏互動(dòng)性,而生成式是實(shí)現(xiàn)人機(jī)互動(dòng)的理想范式。
以ChatGPT為例,生成式模型能夠根據(jù)人的問(wèn)題和反饋不斷修正和完善自己的回應(yīng),這種動(dòng)態(tài)交互的能力正是具身智能所需要的核心特質(zhì)。
眸深自主研發(fā)的全球首個(gè)數(shù)字人動(dòng)作生成模型MotionGPT,首創(chuàng)了“動(dòng)作基元”技術(shù),將復(fù)雜的動(dòng)作序列拆解為上千個(gè)基礎(chǔ)元素,模型可根據(jù)自然語(yǔ)言指令,動(dòng)態(tài)調(diào)用并組合這些基元,生成全新的、未訓(xùn)練過(guò)的動(dòng)作序列。
![]()
▲MotionGPT框架圖
為了攻克數(shù)據(jù)瓶頸,眸深開(kāi)創(chuàng)性地采用了“三段式訓(xùn)練架構(gòu)”:先用90%的互聯(lián)網(wǎng)視頻讓模型理解通用運(yùn)動(dòng)規(guī)律,再用仿真數(shù)據(jù)微調(diào)適配,最后僅需極少量的真機(jī)數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)校準(zhǔn),大幅降低了數(shù)據(jù)成本,提升訓(xùn)練效率。
▲機(jī)械臂抓取物體,相比目前最前沿的Pi0.5模型效率高80%
針對(duì)互聯(lián)網(wǎng)視頻數(shù)據(jù)質(zhì)量參差不齊的問(wèn)題,陳濤團(tuán)隊(duì)還自研了一套半自動(dòng)的數(shù)據(jù)篩選、標(biāo)注以及自動(dòng)化數(shù)據(jù)搜索與蒸餾技術(shù),讓模型在學(xué)習(xí)過(guò)程中動(dòng)態(tài)選擇最適合當(dāng)前階段的數(shù)據(jù),最后用價(jià)值觀對(duì)齊和真機(jī)微調(diào)提升模型性能。
在模型輕量化與端側(cè)部署上,眸深研發(fā)了全球首個(gè)多模態(tài)模型輕量化方案MADTP動(dòng)態(tài)令牌剪枝算法,目前已經(jīng)升級(jí)到第三代MADTP++,實(shí)現(xiàn)將模型壓縮至原來(lái)的1/8、推理速度提升10-20倍的效果,實(shí)現(xiàn)百億參數(shù)模型在機(jī)器人端側(cè)芯片上的高效運(yùn)行。
![]()
▲眸深具身大模型算側(cè)壓縮框架獲得IJCAI 2025全球最佳論文獎(jiǎng)
這個(gè)算法能夠把模型變“輕”,不僅可以通過(guò)壓縮,把體量大的模型壓到端側(cè)可承載的規(guī)模,還能在推理階段做動(dòng)態(tài)調(diào)用,按任務(wù)復(fù)雜度調(diào)動(dòng)不同參數(shù)量,避免端側(cè)每次滿負(fù)荷運(yùn)轉(zhuǎn),從而把算力消耗壓到可控區(qū)間。
眸深智能還提出了全球首個(gè)“世界動(dòng)作模型(World Motion Model)”。它使機(jī)器人擁有理解物理規(guī)律和動(dòng)作原理的通用能力,能夠根據(jù)外部環(huán)境做出實(shí)時(shí)反應(yīng),生成最符合當(dāng)下環(huán)境的動(dòng)作。
▲多機(jī)協(xié)同運(yùn)動(dòng)演示
歸根結(jié)底,眸深智能一直堅(jiān)持生成式路線,瞄準(zhǔn)的就是讓機(jī)器人具備像人一樣在交互中理解環(huán)境、生成決策并即時(shí)行動(dòng)的能力,這也是機(jī)器人真正走出實(shí)驗(yàn)室、進(jìn)入復(fù)雜現(xiàn)實(shí)場(chǎng)景的核心前提。
三、找準(zhǔn)生態(tài)位,以原生大腦賦能千行百業(yè)落地
當(dāng)前,不少具身智能項(xiàng)目容易卡在POC或Demo階段,穆澤林認(rèn)為,主要有兩大原因:一是技術(shù)本身泛化性不足,產(chǎn)品難以從示范走向規(guī)模化;二是POC設(shè)計(jì)之初就沒(méi)有考慮規(guī)模化后的節(jié)拍、續(xù)航、工作壽命等現(xiàn)實(shí)問(wèn)題,一個(gè)Demo或許可以忽略這些約束,但現(xiàn)實(shí)商業(yè)化落地不能。
所以,眸深智能的商業(yè)化打法,就是選擇那些技術(shù)能領(lǐng)先市場(chǎng)6-12個(gè)月、容錯(cuò)率較高的領(lǐng)域,作為技術(shù)的最佳試驗(yàn)場(chǎng),逐步實(shí)現(xiàn)規(guī)模化落地,避免陷入純技術(shù)演示的困境。
圍繞這一思路,眸深目前明確聚焦兩個(gè)垂直方向:工業(yè)物流等多場(chǎng)景搬運(yùn),以及家庭健康養(yǎng)老。前者重點(diǎn)對(duì)應(yīng)動(dòng)態(tài)避障、多機(jī)協(xié)同等需求,后者則會(huì)從安全監(jiān)護(hù)逐步延伸到肢體輔助等更復(fù)雜服務(wù)。
在接訂單這件事上,眸深智能顯得有些克制。穆澤林提到,眸深智能在訂單選擇上有著清晰的三大標(biāo)準(zhǔn):只與千億級(jí)以上的產(chǎn)業(yè)龍頭合作;只合作單一類型有萬(wàn)臺(tái)以上潛在訂單的規(guī)模化項(xiàng)目;只投入面向國(guó)家重大需求、具有戰(zhàn)略意義的領(lǐng)域。不符合標(biāo)準(zhǔn)的訂單一概不接,確保資源集中投入到長(zhǎng)期價(jià)值項(xiàng)目中。
目前,眸深智能的技術(shù)已快速進(jìn)入產(chǎn)業(yè)化驗(yàn)證階段。據(jù)了解,該公司在成立第一年就獲得了來(lái)自宇樹(shù)科技、國(guó)地中心、禾川科技、小米集團(tuán)等頭部客戶的青睞,去年已確認(rèn)三千萬(wàn)元的訂單收入。
展望今年,穆澤林對(duì)訂單增長(zhǎng)有明確預(yù)期,預(yù)計(jì)將達(dá)到六七千萬(wàn)元,主要增長(zhǎng)將來(lái)自其核心產(chǎn)品“大腦模組”和ODM機(jī)器人出貨,目前已簽約兩家行業(yè)龍頭企業(yè),將帶來(lái)數(shù)千萬(wàn)元的收入。
穆澤林覺(jué)得,具身智能產(chǎn)業(yè)將像PC時(shí)代和自動(dòng)駕駛時(shí)代一樣走向分工協(xié)作,機(jī)器人本體長(zhǎng)期將是多種物理拓?fù)浣Y(jié)構(gòu)共存,很難由單一結(jié)構(gòu)的機(jī)器人適應(yīng)所有需求。因此,眸深立志成為機(jī)器人領(lǐng)域的通用“大腦”供應(yīng)商,專注賦能下游本體廠商和終端客戶。
對(duì)于是否會(huì)涉足硬件本體,首席科學(xué)家陳濤表示,當(dāng)前階段將非常專注大腦及端側(cè)模組,打造軟硬結(jié)合的系統(tǒng)。未來(lái),眸深智能不排除根據(jù)特定場(chǎng)景需求,與本體廠商合作DIY定制本體,但不會(huì)從頭到尾自研機(jī)械結(jié)構(gòu)。
結(jié)語(yǔ):破解架構(gòu)瓶頸,眸深智能以第一性原理為機(jī)器人重塑可持續(xù)學(xué)習(xí)的原生大腦
談及當(dāng)前影響具身模型為何難以收斂,陳濤認(rèn)為,關(guān)鍵在于缺乏一個(gè)為機(jī)器人原生的模型架構(gòu)。現(xiàn)有模型多從語(yǔ)言模型演化而來(lái),原生能力是時(shí)序語(yǔ)言建模,其“基因”注定難以應(yīng)對(duì)具身領(lǐng)域高度非結(jié)構(gòu)化的數(shù)據(jù)和場(chǎng)景。
具身智能領(lǐng)域好的訓(xùn)練目標(biāo),也不應(yīng)僅僅是預(yù)測(cè)下一個(gè)動(dòng)作token,而是應(yīng)該實(shí)現(xiàn)對(duì)視覺(jué)、語(yǔ)言意圖和行為動(dòng)作這三類token的精準(zhǔn)預(yù)測(cè)與深度融合,這才是通往通用物理智能的關(guān)鍵。
所以,具身智能需要專為其打造的原生大腦,根據(jù)第一性原理,從機(jī)器人操作的本質(zhì)和物理規(guī)律出發(fā)來(lái)設(shè)計(jì)模型。同時(shí)要能夠?qū)崿F(xiàn)機(jī)器人大腦的端側(cè)部署閉環(huán),可以實(shí)現(xiàn)像人一樣邊干邊學(xué),在執(zhí)行的過(guò)程中不斷提升模型能力,這恰恰是眸深長(zhǎng)期以來(lái)一直在做的事情。
據(jù)了解,未來(lái)三年,眸深智能已經(jīng)有了明確的規(guī)劃:客戶端今年實(shí)現(xiàn)10家以上上市公司的戰(zhàn)略合作簽約,5-6家以上進(jìn)入小批量產(chǎn),3家實(shí)現(xiàn)規(guī)模化放量,并最終在三年內(nèi)服務(wù)約20家頭部客戶。資本層面,完成3-4輪新的融資,迅速躋身行業(yè)頭部。
技術(shù)上,眸深智能即將發(fā)布全球首個(gè)人類思維方式的世界模型(HL3DWM),未來(lái)將繼續(xù)致力于減少物理幻覺(jué)、增強(qiáng)交互實(shí)時(shí)性,并進(jìn)一步升級(jí)其生成式架構(gòu),朝著測(cè)試即訓(xùn)練、在執(zhí)行中進(jìn)化的機(jī)器人原生大腦邁進(jìn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.