過(guò)去一年,具身智能的發(fā)展堪稱“狂飆”,各大機(jī)構(gòu)和企業(yè)紛紛投入世界模型與VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型)的研發(fā)。但在AI行業(yè)老兵、一目科技創(chuàng)始人兼CEO李智強(qiáng)看來(lái),這些模型仍有明顯缺失。如果機(jī)器人能像人一樣理解并操作這個(gè)世界,仍差關(guān)鍵的一感:觸覺(jué)。
基于這樣的判斷,一目科技進(jìn)行了從底層傳感器到仿真算法的全鏈路布局,探索打造“觸覺(jué)增強(qiáng)的世界模型”。
01
“世界模型”還缺什么?
如果將AI發(fā)展與人的五感對(duì)比,AI的“聽(tīng)覺(jué)”2015年已日趨成熟,視覺(jué)在過(guò)去10年也越來(lái)越發(fā)達(dá),但嗅覺(jué)、味覺(jué)和觸覺(jué)仍處于空白。
李智強(qiáng)博士分析,在具身智能要解決的行動(dòng)力、智力和精細(xì)化操作三大問(wèn)題中,尤其精細(xì)化操作,離不開(kāi)閉環(huán)感知能力。“如果只有視覺(jué),在特定場(chǎng)景下會(huì)失效,比如根本無(wú)法夾取薯片這類脆性物體。”
他認(rèn)為,世界模型要真正理解物理世界,必須補(bǔ)足觸覺(jué)維度,因?yàn)槿藢?duì)物質(zhì)世界的認(rèn)知,正是源于不斷觸摸試探,在大腦中建立與物理世界的映射。“如果有一天,機(jī)器人能通過(guò)持續(xù)觸碰與探索形成類人感知,便是世界模型達(dá)成終極目標(biāo)的時(shí)刻。”
而這也正是一目科技的創(chuàng)業(yè)初心,“把類人的五感賦予機(jī)器里”,通過(guò)感知驅(qū)動(dòng)“物理AI”的發(fā)展。李智強(qiáng)在卡內(nèi)基梅隆大學(xué)攻讀博士期間,研究方向是光譜儀芯片化及AI算法,“可以類比于人類的嗅覺(jué)和味覺(jué)。因?yàn)槿说男嵊X(jué)、味覺(jué)主要是分子層面的一些感受和分析”,這也自然延伸到硬科技與物理AI的結(jié)合。
一目科技2015年成立于硅谷,2016年選擇回國(guó)創(chuàng)業(yè),原因是“物理AI”方向?qū)τ布蕾嚇O高,而中國(guó)在設(shè)計(jì)、制造工藝上優(yōu)勢(shì)顯著。“比如設(shè)計(jì)一塊電路板,國(guó)內(nèi)七八天就能完成,在美國(guó)可能要三四個(gè)月。”
如今,經(jīng)過(guò)學(xué)術(shù)界長(zhǎng)達(dá)十多年的研究,以及一目科技的實(shí)踐,均已驗(yàn)證:具備觸覺(jué)后,機(jī)器人可完成夾薯片、穿針引線、拿起布料等操作,動(dòng)作絲滑,這正是具身智能精細(xì)化操作的起點(diǎn)。觸覺(jué),正是世界模型走向完整的必由之路。
02
手指尖上的觸覺(jué)“覺(jué)醒”
要讓世界模型擁有“觸覺(jué)”,離不開(kāi)觸覺(jué)數(shù)據(jù)的采集與感知技術(shù)的突破。“核心卡在傳感器上”。
一目科技創(chuàng)業(yè)的第一階段,著眼于分子光譜儀的芯片化,實(shí)現(xiàn)分子分析能力的AI化。團(tuán)隊(duì)花了四五年進(jìn)行芯片研發(fā)、設(shè)計(jì)和流片,2020年推出首個(gè)產(chǎn)品線,應(yīng)用于實(shí)驗(yàn)室和水質(zhì)檢測(cè)等場(chǎng)景。該產(chǎn)品線現(xiàn)已進(jìn)入穩(wěn)定期,實(shí)現(xiàn)持續(xù)盈利,為公司提供了寶貴的“造血能力”。
憑借在傳感器方面的積累,兩年前,一目科技開(kāi)始向“觸覺(jué)增強(qiáng)”邁進(jìn),啟動(dòng)視觸覺(jué)傳感器的研發(fā),希望“通過(guò)視觸覺(jué)傳感器,讓機(jī)器人真正能夠觸摸這個(gè)世界”。
2025年10月,在全球機(jī)器人頂會(huì)IROS上,一目科技展示了自主研發(fā)的全球最薄可商用仿生視觸覺(jué)傳感器。該傳感器的核心在于“通過(guò)內(nèi)置攝像頭捕捉彈性材料接觸物體時(shí)的細(xì)微形變,獲取高清的‘觸覺(jué)照片’序列,并通過(guò)AI解算出觸覺(jué)信號(hào)”。不同于只能感知單一壓力的傳統(tǒng)傳感器,這款產(chǎn)品能同時(shí)“感受”物體的軟硬、表面紋理乃至滑動(dòng)趨勢(shì)。
![]()
一目科技仿生視觸覺(jué)傳感器
李智強(qiáng)博士介紹,這一傳感器實(shí)現(xiàn)了四個(gè)行業(yè)突破:其厚度僅為美國(guó)競(jìng)品的一半,解決了傳統(tǒng)視觸覺(jué)傳感器因過(guò)厚,難以與靈巧手集成的行業(yè)痛點(diǎn);克服了“溫漂”問(wèn)題;工業(yè)級(jí)防塵達(dá)到IP65級(jí);傳感器接觸面都沒(méi)有盲區(qū),而競(jìng)品有10%到20%的盲區(qū)。此外,其響應(yīng)時(shí)間僅8毫秒,可實(shí)現(xiàn)5毫牛級(jí)的多向力分辨,在多項(xiàng)性能上與全球最好水平持平。
![]()
一目科技CEO&創(chuàng)始人李智強(qiáng)
這款觸覺(jué)傳感器分辨率極高——可達(dá)數(shù)百萬(wàn)個(gè)像素,相當(dāng)于手指尖擁有數(shù)百萬(wàn)個(gè)觸點(diǎn)。得益于信號(hào)的高保真與數(shù)據(jù)的高準(zhǔn)確度,能夠解算出高精度的觸覺(jué)信息,賦能機(jī)器人靈巧手的操作過(guò)程。
據(jù)悉,產(chǎn)品一經(jīng)發(fā)布就獲得多方合作和訂單,團(tuán)隊(duì)預(yù)計(jì)未來(lái)一年出貨量能躋身行業(yè)頭部,“至少Top3的水平”。
不過(guò),李智強(qiáng)博士也指出,目前許多機(jī)器人,包括人形機(jī)器人,雖然需要觸覺(jué)傳感硬件,但現(xiàn)有的世界模型和VLA模型仍未構(gòu)建觸覺(jué)感知的算法能力。為此,團(tuán)隊(duì)需要再進(jìn)一步外延,“借助觸覺(jué),打通機(jī)器人精細(xì)操作的最后一環(huán)”。
03
打通觸覺(jué)到世界模型的鏈路
“我們未必自己去開(kāi)發(fā)一整套世界模型,但是我們希望用觸覺(jué)來(lái)增強(qiáng)世界模型。”李智強(qiáng)博士將這種理念概括為“觸覺(jué)增強(qiáng)的世界模型”。團(tuán)隊(duì)主張“站在巨人的肩膀之上”,例如基于李飛飛團(tuán)隊(duì)發(fā)布的世界模型、阿里發(fā)布的VLM開(kāi)源模型等,一目科技會(huì)在這些模型基礎(chǔ)上進(jìn)行補(bǔ)充和增強(qiáng)。
這項(xiàng)工作首先要解決數(shù)據(jù)采集難與數(shù)據(jù)量不足兩大難題。一目科技提出了“以真實(shí)觸覺(jué)信號(hào)錨定仿真系統(tǒng)”的閉環(huán)路徑。
“我們靠人一條條采集出來(lái)的真實(shí)數(shù)據(jù),其實(shí)在10萬(wàn)條級(jí)別,這個(gè)量對(duì)處理工作量來(lái)說(shuō)很大,但對(duì)于大模型來(lái)說(shuō)還是遠(yuǎn)遠(yuǎn)不夠。”李智強(qiáng)博士坦言,目前開(kāi)源社區(qū)也有數(shù)十萬(wàn)條觸覺(jué)數(shù)據(jù),但也是杯水車薪。
為突破數(shù)據(jù)瓶頸,一目科技在真實(shí)數(shù)據(jù)基礎(chǔ)上,引入物理仿真與生成式AI結(jié)合的策略來(lái)擴(kuò)展數(shù)據(jù)。團(tuán)隊(duì)有專家團(tuán)隊(duì),利用有限元模型,將“桌子或鼠標(biāo)”等物體在形態(tài)、硬度、摩擦力等維度上,用方程式仿真出來(lái)。“同時(shí),我們還通過(guò)生成式AI去增加更多場(chǎng)景,比如光照、紋理、擺放位置和方向等,去做仿真的擴(kuò)大化和無(wú)序化。”
從效果反饋看,物理仿真準(zhǔn)確度更高,“因?yàn)樗澈笫俏锢矸匠蹋`差較小”;而生成式AI則“有一些幻覺(jué),對(duì)物理規(guī)律的理解也有一定差距”。因此,團(tuán)隊(duì)持續(xù)優(yōu)化物理模型,并隨著生成式AI的進(jìn)步,引入新模型和方法,“不斷改進(jìn)增強(qiáng)模擬數(shù)據(jù)的質(zhì)量”。
有了這些物理仿真數(shù)據(jù)后,相當(dāng)于在虛擬空間中搭建了一個(gè)可被“觸摸”的世界。接下來(lái)要做的,便是讓AI在仿真環(huán)境中去“觸碰”它們,采集觸覺(jué)信息。
一目科技采用視觸覺(jué)方式來(lái)完成這一過(guò)程。不同于傳統(tǒng)靠壓力或電阻的觸覺(jué)傳感器,視觸覺(jué)方式不僅能“感覺(jué)”壓力,內(nèi)部攝像頭還會(huì)捕捉到形變和光線的細(xì)微變化,從受力到光線變化再到力分布,完整還原觸感生成的全過(guò)程。一目科技構(gòu)建了視觸覺(jué)傳感器模型,輸出的數(shù)字信號(hào)包含了紋理、形態(tài)、力方向等信息,來(lái)接入VLA與世界模型。
通過(guò)這種仿真增強(qiáng)方式,一目科技希望將觸覺(jué)數(shù)據(jù)量擴(kuò)展百倍以上。“只有這樣,才能真正走上Scaling(規(guī)模化)的道路。”
完成數(shù)據(jù)擴(kuò)展后,下一步是將觸覺(jué)與視覺(jué)、語(yǔ)言等模態(tài)對(duì)齊,真正融入世界模型。具體而言,現(xiàn)有世界模型多圍繞視覺(jué)與語(yǔ)言分配“token”,而一目科技的創(chuàng)新在于“引入新的觸覺(jué)token”,通過(guò)訓(xùn)練增強(qiáng)模型的多模態(tài)理解能力,打通感知鏈路。
“其實(shí)后半部分和目前的大模型訓(xùn)練類似,市場(chǎng)上已有大量模型預(yù)訓(xùn)練、精調(diào)、強(qiáng)化學(xué)習(xí)的方法。”李智強(qiáng)博士介紹,“最終我們還會(huì)去做一些測(cè)試、驗(yàn)證方法。”
實(shí)際上,真正的挑戰(zhàn)不在于訓(xùn)練方法,而在于觸覺(jué)數(shù)據(jù)與其他模態(tài)的關(guān)系及對(duì)齊。當(dāng)觸覺(jué)、視覺(jué)等信息同時(shí)出現(xiàn)時(shí),哪個(gè)可信度更高?該如何做綜合決策?這些信息的關(guān)聯(lián)度是什么?能否在同一域?qū)崿F(xiàn)對(duì)齊?一目科技的創(chuàng)新重點(diǎn)正是圍繞觸覺(jué)信息的處理、對(duì)齊及其對(duì)決策的影響展開(kāi)。
這一階段恰似20年前視覺(jué)模型的起點(diǎn)。就像20前做視覺(jué)模型時(shí)攝像頭還不健全一樣,現(xiàn)在的觸覺(jué)感知也剛剛起步。“隨著傳感器的不斷迭代和性能提升,這一切都將迎來(lái)改變。”
04
在狂飆的AI浪潮中站穩(wěn)
人工智能的演進(jìn)速度驚人。李智強(qiáng)回國(guó)創(chuàng)業(yè)時(shí),正逢國(guó)內(nèi)視覺(jué)AI熱潮。當(dāng)時(shí),技術(shù)發(fā)展迅猛,但隨著市場(chǎng)的快速變化,許多企業(yè)也被迅速淘汰。而如何在這一輪具身智能的激烈競(jìng)爭(zhēng)中占據(jù)一席之地?他認(rèn)為,關(guān)鍵在于技術(shù)壁壘和市場(chǎng)定位。
“必須構(gòu)建足夠高的技術(shù)壁壘,特別是技術(shù)的不可復(fù)制性或不可替代性。”對(duì)一目科技而言,從感知傳感器硬件到算法做全鏈路技術(shù)布局,而且要做到全球領(lǐng)先,技術(shù)壁壘才足夠高。
市場(chǎng)選擇也同樣至關(guān)重要。“最好是找到那些巨頭難以覆蓋,或者不主要依賴客戶關(guān)系的細(xì)分市場(chǎng)。”他說(shuō),“找到自己的生態(tài)位,并在技術(shù)上保持不可替代性,才是成功的關(guān)鍵。”
對(duì)于一目科技來(lái)說(shuō),團(tuán)隊(duì)投入最多的是有限元仿真和光學(xué)仿真上。“作為創(chuàng)業(yè)公司,我們選擇將業(yè)務(wù)收斂到極其細(xì)分、高度專業(yè)化的賽道。”
放眼全球業(yè)界,目前,真正做“觸覺(jué)增強(qiáng)世界模型”的團(tuán)隊(duì)仍然稀少。早期Meta做過(guò)一些工作,但主要還是純觸覺(jué)領(lǐng)域。“我們尚未看到真正與世界模型深度打通的案例。”李智強(qiáng)博士直言,“在觸覺(jué)與世界模型打通這一方向上,還有大量工作要做,現(xiàn)在仍嚴(yán)重不足。”
一目科技規(guī)劃了循序漸進(jìn)的路徑。第一階段基于開(kāi)源模型,自己進(jìn)行改造。當(dāng)達(dá)到良好效果后,將開(kāi)放部分模型和數(shù)據(jù)集,回饋開(kāi)源社區(qū)。這將是第二階段的事情。而從長(zhǎng)遠(yuǎn)來(lái)看,有必要與一些模型巨頭企業(yè)合作,更早地將觸覺(jué)增強(qiáng)技術(shù)結(jié)合到他們的模型訓(xùn)練中去,這樣,效果要好于模型成型后的再調(diào)整。目前,一目科技正處于第一階段,預(yù)估跑通整個(gè)鏈路,需要9至12個(gè)月時(shí)間。
李智強(qiáng)告訴數(shù)智前線,未來(lái)5到10年將圍繞這一主題做產(chǎn)品規(guī)劃和投資。他認(rèn)為,中國(guó)在“硬件+軟件”融合模式下具有顯著優(yōu)勢(shì),這也為身處其中的行業(yè)和企業(yè)帶來(lái)了極有前景的發(fā)展機(jī)遇。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.