網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

卡在觸覺(jué)的AI，一目科技讓機(jī)器人從“看世界”到“摸世界”

2025-11-11 16:00:04　來(lái)源: 數(shù)智前線

甘肅舉報(bào)

分享至

過(guò)去一年，具身智能的發(fā)展堪稱“狂飆”，各大機(jī)構(gòu)和企業(yè)紛紛投入世界模型與VLA（視覺(jué)-語(yǔ)言-動(dòng)作模型）的研發(fā)。但在AI行業(yè)老兵、一目科技創(chuàng)始人兼CEO李智強(qiáng)看來(lái)，這些模型仍有明顯缺失。如果機(jī)器人能像人一樣理解并操作這個(gè)世界，仍差關(guān)鍵的一感：觸覺(jué)。

基于這樣的判斷，一目科技進(jìn)行了從底層傳感器到仿真算法的全鏈路布局，探索打造“觸覺(jué)增強(qiáng)的世界模型”。

“世界模型”還缺什么？

如果將AI發(fā)展與人的五感對(duì)比，AI的“聽(tīng)覺(jué)”2015年已日趨成熟，視覺(jué)在過(guò)去10年也越來(lái)越發(fā)達(dá)，但嗅覺(jué)、味覺(jué)和觸覺(jué)仍處于空白。

李智強(qiáng)博士分析，在具身智能要解決的行動(dòng)力、智力和精細(xì)化操作三大問(wèn)題中，尤其精細(xì)化操作，離不開(kāi)閉環(huán)感知能力。“如果只有視覺(jué)，在特定場(chǎng)景下會(huì)失效，比如根本無(wú)法夾取薯片這類脆性物體。”

他認(rèn)為，世界模型要真正理解物理世界，必須補(bǔ)足觸覺(jué)維度，因?yàn)槿藢?duì)物質(zhì)世界的認(rèn)知，正是源于不斷觸摸試探，在大腦中建立與物理世界的映射。“如果有一天，機(jī)器人能通過(guò)持續(xù)觸碰與探索形成類人感知，便是世界模型達(dá)成終極目標(biāo)的時(shí)刻。”

而這也正是一目科技的創(chuàng)業(yè)初心，“把類人的五感賦予機(jī)器里”，通過(guò)感知驅(qū)動(dòng)“物理AI”的發(fā)展。李智強(qiáng)在卡內(nèi)基梅隆大學(xué)攻讀博士期間，研究方向是光譜儀芯片化及AI算法，“可以類比于人類的嗅覺(jué)和味覺(jué)。因?yàn)槿说男嵊X(jué)、味覺(jué)主要是分子層面的一些感受和分析”，這也自然延伸到硬科技與物理AI的結(jié)合。

一目科技2015年成立于硅谷，2016年選擇回國(guó)創(chuàng)業(yè)，原因是“物理AI”方向?qū)τ布蕾嚇O高，而中國(guó)在設(shè)計(jì)、制造工藝上優(yōu)勢(shì)顯著。“比如設(shè)計(jì)一塊電路板，國(guó)內(nèi)七八天就能完成，在美國(guó)可能要三四個(gè)月。”

如今，經(jīng)過(guò)學(xué)術(shù)界長(zhǎng)達(dá)十多年的研究，以及一目科技的實(shí)踐，均已驗(yàn)證：具備觸覺(jué)后，機(jī)器人可完成夾薯片、穿針引線、拿起布料等操作，動(dòng)作絲滑，這正是具身智能精細(xì)化操作的起點(diǎn)。觸覺(jué)，正是世界模型走向完整的必由之路。

手指尖上的觸覺(jué)“覺(jué)醒”

要讓世界模型擁有“觸覺(jué)”，離不開(kāi)觸覺(jué)數(shù)據(jù)的采集與感知技術(shù)的突破。“核心卡在傳感器上”。

一目科技創(chuàng)業(yè)的第一階段，著眼于分子光譜儀的芯片化，實(shí)現(xiàn)分子分析能力的AI化。團(tuán)隊(duì)花了四五年進(jìn)行芯片研發(fā)、設(shè)計(jì)和流片，2020年推出首個(gè)產(chǎn)品線，應(yīng)用于實(shí)驗(yàn)室和水質(zhì)檢測(cè)等場(chǎng)景。該產(chǎn)品線現(xiàn)已進(jìn)入穩(wěn)定期，實(shí)現(xiàn)持續(xù)盈利，為公司提供了寶貴的“造血能力”。

憑借在傳感器方面的積累，兩年前，一目科技開(kāi)始向“觸覺(jué)增強(qiáng)”邁進(jìn)，啟動(dòng)視觸覺(jué)傳感器的研發(fā)，希望“通過(guò)視觸覺(jué)傳感器，讓機(jī)器人真正能夠觸摸這個(gè)世界”。

2025年10月，在全球機(jī)器人頂會(huì)IROS上，一目科技展示了自主研發(fā)的全球最薄可商用仿生視觸覺(jué)傳感器。該傳感器的核心在于“通過(guò)內(nèi)置攝像頭捕捉彈性材料接觸物體時(shí)的細(xì)微形變，獲取高清的‘觸覺(jué)照片’序列，并通過(guò)AI解算出觸覺(jué)信號(hào)”。不同于只能感知單一壓力的傳統(tǒng)傳感器，這款產(chǎn)品能同時(shí)“感受”物體的軟硬、表面紋理乃至滑動(dòng)趨勢(shì)。

一目科技仿生視觸覺(jué)傳感器

李智強(qiáng)博士介紹，這一傳感器實(shí)現(xiàn)了四個(gè)行業(yè)突破：其厚度僅為美國(guó)競(jìng)品的一半，解決了傳統(tǒng)視觸覺(jué)傳感器因過(guò)厚，難以與靈巧手集成的行業(yè)痛點(diǎn)；克服了“溫漂”問(wèn)題；工業(yè)級(jí)防塵達(dá)到IP65級(jí)；傳感器接觸面都沒(méi)有盲區(qū)，而競(jìng)品有10%到20%的盲區(qū)。此外，其響應(yīng)時(shí)間僅8毫秒，可實(shí)現(xiàn)5毫牛級(jí)的多向力分辨，在多項(xiàng)性能上與全球最好水平持平。

一目科技CEO＆創(chuàng)始人李智強(qiáng)

這款觸覺(jué)傳感器分辨率極高——可達(dá)數(shù)百萬(wàn)個(gè)像素，相當(dāng)于手指尖擁有數(shù)百萬(wàn)個(gè)觸點(diǎn)。得益于信號(hào)的高保真與數(shù)據(jù)的高準(zhǔn)確度，能夠解算出高精度的觸覺(jué)信息，賦能機(jī)器人靈巧手的操作過(guò)程。

據(jù)悉，產(chǎn)品一經(jīng)發(fā)布就獲得多方合作和訂單，團(tuán)隊(duì)預(yù)計(jì)未來(lái)一年出貨量能躋身行業(yè)頭部，“至少Top3的水平”。

不過(guò)，李智強(qiáng)博士也指出，目前許多機(jī)器人，包括人形機(jī)器人，雖然需要觸覺(jué)傳感硬件，但現(xiàn)有的世界模型和VLA模型仍未構(gòu)建觸覺(jué)感知的算法能力。為此，團(tuán)隊(duì)需要再進(jìn)一步外延，“借助觸覺(jué)，打通機(jī)器人精細(xì)操作的最后一環(huán)”。

打通觸覺(jué)到世界模型的鏈路

“我們未必自己去開(kāi)發(fā)一整套世界模型，但是我們希望用觸覺(jué)來(lái)增強(qiáng)世界模型。”李智強(qiáng)博士將這種理念概括為“觸覺(jué)增強(qiáng)的世界模型”。團(tuán)隊(duì)主張“站在巨人的肩膀之上”，例如基于李飛飛團(tuán)隊(duì)發(fā)布的世界模型、阿里發(fā)布的VLM開(kāi)源模型等，一目科技會(huì)在這些模型基礎(chǔ)上進(jìn)行補(bǔ)充和增強(qiáng)。

這項(xiàng)工作首先要解決數(shù)據(jù)采集難與數(shù)據(jù)量不足兩大難題。一目科技提出了“以真實(shí)觸覺(jué)信號(hào)錨定仿真系統(tǒng)”的閉環(huán)路徑。

“我們靠人一條條采集出來(lái)的真實(shí)數(shù)據(jù)，其實(shí)在10萬(wàn)條級(jí)別，這個(gè)量對(duì)處理工作量來(lái)說(shuō)很大，但對(duì)于大模型來(lái)說(shuō)還是遠(yuǎn)遠(yuǎn)不夠。”李智強(qiáng)博士坦言，目前開(kāi)源社區(qū)也有數(shù)十萬(wàn)條觸覺(jué)數(shù)據(jù)，但也是杯水車薪。

為突破數(shù)據(jù)瓶頸，一目科技在真實(shí)數(shù)據(jù)基礎(chǔ)上，引入物理仿真與生成式AI結(jié)合的策略來(lái)擴(kuò)展數(shù)據(jù)。團(tuán)隊(duì)有專家團(tuán)隊(duì)，利用有限元模型，將“桌子或鼠標(biāo)”等物體在形態(tài)、硬度、摩擦力等維度上，用方程式仿真出來(lái)。“同時(shí)，我們還通過(guò)生成式AI去增加更多場(chǎng)景，比如光照、紋理、擺放位置和方向等，去做仿真的擴(kuò)大化和無(wú)序化。”

從效果反饋看，物理仿真準(zhǔn)確度更高，“因?yàn)樗澈笫俏锢矸匠蹋`差較小”；而生成式AI則“有一些幻覺(jué)，對(duì)物理規(guī)律的理解也有一定差距”。因此，團(tuán)隊(duì)持續(xù)優(yōu)化物理模型，并隨著生成式AI的進(jìn)步，引入新模型和方法，“不斷改進(jìn)增強(qiáng)模擬數(shù)據(jù)的質(zhì)量”。

有了這些物理仿真數(shù)據(jù)后，相當(dāng)于在虛擬空間中搭建了一個(gè)可被“觸摸”的世界。接下來(lái)要做的，便是讓AI在仿真環(huán)境中去“觸碰”它們，采集觸覺(jué)信息。

一目科技采用視觸覺(jué)方式來(lái)完成這一過(guò)程。不同于傳統(tǒng)靠壓力或電阻的觸覺(jué)傳感器，視觸覺(jué)方式不僅能“感覺(jué)”壓力，內(nèi)部攝像頭還會(huì)捕捉到形變和光線的細(xì)微變化，從受力到光線變化再到力分布，完整還原觸感生成的全過(guò)程。一目科技構(gòu)建了視觸覺(jué)傳感器模型，輸出的數(shù)字信號(hào)包含了紋理、形態(tài)、力方向等信息，來(lái)接入VLA與世界模型。

通過(guò)這種仿真增強(qiáng)方式，一目科技希望將觸覺(jué)數(shù)據(jù)量擴(kuò)展百倍以上。“只有這樣，才能真正走上Scaling（規(guī)模化）的道路。”

完成數(shù)據(jù)擴(kuò)展后，下一步是將觸覺(jué)與視覺(jué)、語(yǔ)言等模態(tài)對(duì)齊，真正融入世界模型。具體而言，現(xiàn)有世界模型多圍繞視覺(jué)與語(yǔ)言分配“token”，而一目科技的創(chuàng)新在于“引入新的觸覺(jué)token”，通過(guò)訓(xùn)練增強(qiáng)模型的多模態(tài)理解能力，打通感知鏈路。

“其實(shí)后半部分和目前的大模型訓(xùn)練類似，市場(chǎng)上已有大量模型預(yù)訓(xùn)練、精調(diào)、強(qiáng)化學(xué)習(xí)的方法。”李智強(qiáng)博士介紹，“最終我們還會(huì)去做一些測(cè)試、驗(yàn)證方法。”

實(shí)際上，真正的挑戰(zhàn)不在于訓(xùn)練方法，而在于觸覺(jué)數(shù)據(jù)與其他模態(tài)的關(guān)系及對(duì)齊。當(dāng)觸覺(jué)、視覺(jué)等信息同時(shí)出現(xiàn)時(shí)，哪個(gè)可信度更高？該如何做綜合決策？這些信息的關(guān)聯(lián)度是什么？能否在同一域?qū)崿F(xiàn)對(duì)齊？一目科技的創(chuàng)新重點(diǎn)正是圍繞觸覺(jué)信息的處理、對(duì)齊及其對(duì)決策的影響展開(kāi)。

這一階段恰似20年前視覺(jué)模型的起點(diǎn)。就像20前做視覺(jué)模型時(shí)攝像頭還不健全一樣，現(xiàn)在的觸覺(jué)感知也剛剛起步。“隨著傳感器的不斷迭代和性能提升，這一切都將迎來(lái)改變。”

在狂飆的AI浪潮中站穩(wěn)

人工智能的演進(jìn)速度驚人。李智強(qiáng)回國(guó)創(chuàng)業(yè)時(shí)，正逢國(guó)內(nèi)視覺(jué)AI熱潮。當(dāng)時(shí)，技術(shù)發(fā)展迅猛，但隨著市場(chǎng)的快速變化，許多企業(yè)也被迅速淘汰。而如何在這一輪具身智能的激烈競(jìng)爭(zhēng)中占據(jù)一席之地？他認(rèn)為，關(guān)鍵在于技術(shù)壁壘和市場(chǎng)定位。

“必須構(gòu)建足夠高的技術(shù)壁壘，特別是技術(shù)的不可復(fù)制性或不可替代性。”對(duì)一目科技而言，從感知傳感器硬件到算法做全鏈路技術(shù)布局，而且要做到全球領(lǐng)先，技術(shù)壁壘才足夠高。

市場(chǎng)選擇也同樣至關(guān)重要。“最好是找到那些巨頭難以覆蓋，或者不主要依賴客戶關(guān)系的細(xì)分市場(chǎng)。”他說(shuō)，“找到自己的生態(tài)位，并在技術(shù)上保持不可替代性，才是成功的關(guān)鍵。”

對(duì)于一目科技來(lái)說(shuō)，團(tuán)隊(duì)投入最多的是有限元仿真和光學(xué)仿真上。“作為創(chuàng)業(yè)公司，我們選擇將業(yè)務(wù)收斂到極其細(xì)分、高度專業(yè)化的賽道。”

放眼全球業(yè)界，目前，真正做“觸覺(jué)增強(qiáng)世界模型”的團(tuán)隊(duì)仍然稀少。早期Meta做過(guò)一些工作，但主要還是純觸覺(jué)領(lǐng)域。“我們尚未看到真正與世界模型深度打通的案例。”李智強(qiáng)博士直言，“在觸覺(jué)與世界模型打通這一方向上，還有大量工作要做，現(xiàn)在仍嚴(yán)重不足。”

一目科技規(guī)劃了循序漸進(jìn)的路徑。第一階段基于開(kāi)源模型，自己進(jìn)行改造。當(dāng)達(dá)到良好效果后，將開(kāi)放部分模型和數(shù)據(jù)集，回饋開(kāi)源社區(qū)。這將是第二階段的事情。而從長(zhǎng)遠(yuǎn)來(lái)看，有必要與一些模型巨頭企業(yè)合作，更早地將觸覺(jué)增強(qiáng)技術(shù)結(jié)合到他們的模型訓(xùn)練中去，這樣，效果要好于模型成型后的再調(diào)整。目前，一目科技正處于第一階段，預(yù)估跑通整個(gè)鏈路，需要9至12個(gè)月時(shí)間。

李智強(qiáng)告訴數(shù)智前線，未來(lái)5到10年將圍繞這一主題做產(chǎn)品規(guī)劃和投資。他認(rèn)為，中國(guó)在“硬件+軟件”融合模式下具有顯著優(yōu)勢(shì)，這也為身處其中的行業(yè)和企業(yè)帶來(lái)了極有前景的發(fā)展機(jī)遇。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.