最近,一段來自印度南部服裝廠的視頻在國內(nèi)外社交平臺上瘋傳。
畫面里,流水線上的工人正在低頭縫紉,和普通的工廠場景沒什么兩樣,除了一件事——每個(gè)人頭上都戴著一個(gè)攝像頭環(huán)。
![]()
評論區(qū)吵成了兩派。一派說這是老板在監(jiān)視員工,抓人摸魚的新花樣;另一派說不對,這是在給機(jī)器人喂數(shù)據(jù)。
兩派說法都很地獄,但后者,才是整件事真正讓人坐立不安的地方。
01.打工人正在被錄像存檔
那個(gè)戴著攝像頭環(huán)的工人,正在做的事情有個(gè)技術(shù)名詞,叫采集"Ego 數(shù)據(jù)",全稱是“第一人稱視角數(shù)據(jù)”。
邏輯很簡單:把攝像頭架在頭頂,記錄下工人干活時(shí)的第一視角,手怎么抬、怎么落、怎么捏住一根線穿過針眼。每一幀畫面,都會變成喂給 AI 模型的訓(xùn)練素材。
工人的雙手,成了機(jī)器人的老師。
![]()
親手教會機(jī)器人取代自己。普通人聽到這種事會感受到一種生理性的冒犯,但業(yè)內(nèi)對此很興奮,因?yàn)檫@種方式,實(shí)在太!便!宜!了!
過去,機(jī)器人行業(yè)訓(xùn)練模型的主流方式叫"真機(jī)遙操",聽上去很科幻,操作起來其實(shí)很笨重:一個(gè)工程師戴上 VR 頭顯,眼前的畫面同步到機(jī)器人的攝像頭視角,然后他要像遙控玩具一樣,手把手地控制機(jī)器人的每一個(gè)動作——拿起這個(gè)杯子,放到那個(gè)托盤上,再拿起那塊布,折疊,放好。整個(gè)過程一幀一幀地被錄下來,這就是訓(xùn)練數(shù)據(jù)。
![]()
這套方案最大的問題是貴,而且慢。
一臺用于數(shù)采的機(jī)器人本體,動輒幾十萬。還得配專職的數(shù)采員,培訓(xùn)上崗,全程盯著。采集一條高質(zhì)量的操作數(shù)據(jù),可能要耗掉工程師大半天時(shí)間,工程師的工資又很高。
Ego 數(shù)據(jù)方案把這套流程從根上改了:工人戴上頭頂?shù)臄z像頭,綁上腕部的追蹤器(有些方案還會配一副特制手套)。換裝完畢,正常上工就行。
這三層設(shè)備各有分工。頭戴攝像頭負(fù)責(zé)記錄第一視角的完整畫面——操作臺的布局、物體的位置、手和目標(biāo)物之間的空間關(guān)系;腕部攝像頭對準(zhǔn)手部,專門捕捉手在近距離操作時(shí)的細(xì)節(jié);穿戴手套則完全不依賴視覺,直接用傳感器測量每根手指的關(guān)節(jié)角度。
![]()
三層疊加,就還原了一個(gè)完整的操作動作——人的眼睛看到了什么、手在哪里、手指該怎么動。通過這些樣本,機(jī)器人可以學(xué)習(xí)從視覺到動作的映射關(guān)系,即看到某個(gè)畫面時(shí),應(yīng)該做些什么。
這里面有一個(gè)小 bug,機(jī)器人學(xué)誰,就像誰。
如果被采集的工人是個(gè)熟練工,動作干脆、力道精準(zhǔn),那機(jī)器人學(xué)出來的就是一套行云流水的操作。可萬一這位工人習(xí)慣摸魚,比如擰螺絲前先撓撓頭,放零件時(shí)要抖兩下手腕,甚至一邊干活一邊東張西望……那機(jī)器人也會把這些多余的動作當(dāng)成標(biāo)準(zhǔn)流程學(xué)進(jìn)去。
![]()
所以視頻里,整個(gè)車間只有一排工人頭上戴了攝像頭,或許,他們是整個(gè)車間選出來的最好的工人。
還有更簡單粗暴的方式,是只篩選數(shù)據(jù),不篩選人。美國有一家叫做 Generalist AI 的公司,他們用眾包的方式,把低成本穿戴設(shè)備分發(fā)給世界各地的普通人。不管是你在家折衣服、在廚房洗碗,還是在修車鋪擰螺絲,只要戴上設(shè)備,人人皆可邊干活邊采數(shù)據(jù)。
業(yè)內(nèi)對此充滿了懷疑,普通人在家里采出來的數(shù)據(jù),質(zhì)量根本沒法和專業(yè)數(shù)采中心比,怎么能訓(xùn)練出高成功率的模型?
答案是大力出奇跡。海量的原始數(shù)據(jù)進(jìn)來,系統(tǒng)自動篩選,低質(zhì)量的直接丟掉,只留下那些三層數(shù)據(jù)對得上的高置信度樣本。數(shù)據(jù)量足夠大,過濾完還剩得夠多,就能用。
![]()
所以越來越多的數(shù)采方案開始強(qiáng)調(diào)"輕量化",設(shè)備越做越小,目標(biāo)就是讓采集完全融入日常工作,對工人的動作干擾降到零。業(yè)內(nèi)已經(jīng)有團(tuán)隊(duì)在研究把攝像頭集成進(jìn)普通眼鏡,手套也在往更輕薄的方向迭代,最終形態(tài)可能是一副眼鏡加一塊手表,穿上就采,看不出來和普通上班有什么區(qū)別。
這張采集數(shù)據(jù)網(wǎng)正在全球快速鋪開。硅谷的實(shí)驗(yàn)室、東南亞的代工廠、北美的物流分揀中心、歐洲的家庭廚房里,成千上萬個(gè)傳感器正如同毛細(xì)血管般伸向人類的日常。
這種生意已經(jīng)催生出了專門的“數(shù)據(jù)供應(yīng)商”。比如許多公司正在推廣的通用移動接口(UMI)方案,它徹底切斷了數(shù)據(jù)與特定機(jī)器人硬件的綁定。有測算顯示,這種脫離了昂貴真機(jī)、只靠穿戴設(shè)備的采集方式,單條數(shù)據(jù)的生產(chǎn)成本僅為傳統(tǒng)方案的五分之一,效率卻翻了五倍。
![]()
印度工廠那個(gè)畫面,只是這張大網(wǎng)上,一個(gè)最先被普通人看見的節(jié)點(diǎn)。
而這種近乎掠奪式的大規(guī)模采集,背后折射出的是一個(gè)令 AI 巨頭們焦慮的真相:機(jī)器人沒“米”下鍋了!
02.機(jī)器人也有數(shù)據(jù)荒
在數(shù)字世界里,AI 是銜著金湯勺出生的。
大語言模型的訓(xùn)練素材來自整個(gè)互聯(lián)網(wǎng)。幾十年來人類隨手丟在網(wǎng)上的文字、代碼、新聞、甚至論壇里的廢話帖子,對 GPT 們來說都是取之不盡的養(yǎng)分。只要算力足夠,AI 能在幾天內(nèi)讀完人類幾千年的文明。
但機(jī)器人需要的數(shù)據(jù)完全是另一回事:每一次抓取、放置、翻轉(zhuǎn),都必須真實(shí)發(fā)生在物理世界里,沒辦法從網(wǎng)上下載,更無法批量復(fù)制。
這就是為什么機(jī)器人馬拉松比賽中,那些重金打造的頂級人形機(jī)器人,還是會在走路時(shí)突然摔跟頭,看起來很不聰明的樣子。
![]()
那用仿真數(shù)據(jù)不行嗎?在電腦里搭一個(gè)虛擬工廠,讓機(jī)器人在里面反復(fù)練,不就解決了?
確實(shí)有人這么做,有效果,但有個(gè)繞不過去的問題,業(yè)內(nèi)叫"sim-to-real gap"(仿真到現(xiàn)實(shí)的鴻溝)。虛擬世界里的物理規(guī)則是被簡化過的,光線是理想的,桌面是平的,物體的摩擦力是預(yù)設(shè)的;而真實(shí)世界里,同一塊布料每次堆疊的形態(tài)都不一樣,同一個(gè)零件每次放置的角度都有偏差。在仿真世界里練了一萬次的機(jī)器人,搬到真實(shí)車間,往往還是一臉懵。
所以真實(shí)世界的操作數(shù)據(jù),是無論都如何繞不開的。
行業(yè)里有一個(gè)著名的數(shù)據(jù)金字塔。最底層是互聯(lián)網(wǎng)上現(xiàn)成的視頻和圖片,量大管夠,但精度太低,機(jī)器人看著人類做飯的 YouTube 視頻,頂多學(xué)個(gè)大概方向。往上一層是專門采集的人類動作捕捉數(shù)據(jù),需要穿戴設(shè)備,成本高一些,質(zhì)量也好一些。塔尖是真機(jī)遙操數(shù)據(jù),精度最高,接近機(jī)器人實(shí)際執(zhí)行時(shí)的視角,數(shù)量最少,采集速度慢得像在手工打字,供給完全跟不上模型的需求。
![]()
機(jī)器人的數(shù)據(jù)困境有多夸張呢?有個(gè)數(shù)字可以感受一下。目前機(jī)器人領(lǐng)域頭部開源數(shù)據(jù)集 OpenX-Embodiment,匯聚了全球 22 種不同機(jī)器人本體、311 個(gè)場景下的 100 萬條操作軌跡。聽起來挺壯觀,但大語言模型的訓(xùn)練數(shù)據(jù)動輒萬億 token,和 100 萬放在一起,差了整整六個(gè)數(shù)量級。
真機(jī)遙操還有另外一個(gè)麻煩,數(shù)據(jù)和硬件強(qiáng)綁定。
過去大多數(shù)操作數(shù)據(jù),都是用特定型號的機(jī)器人采集的。A 型機(jī)械臂的數(shù)據(jù),很難直接拿去訓(xùn)練 B 型機(jī)械臂。機(jī)械臂的關(guān)節(jié)結(jié)構(gòu)不同、末端夾爪的形狀不同、攝像頭的位置不同,同樣的"拿起杯子"這個(gè)動作,在兩種機(jī)器人身上對應(yīng)的運(yùn)動軌跡可以完全不一樣。換一款硬件,數(shù)據(jù)就得重新采,等于每次升級硬件,都要回到原點(diǎn)重新開始。
![]()
要打破這個(gè)僵局,就需要把數(shù)據(jù)和機(jī)器解綁。比如不依賴特定型號的機(jī)器人,直接從人身上采集操作數(shù)據(jù)——無本體數(shù)據(jù)。
因?yàn)槿祟愖觥澳闷鸨印边@個(gè)動作,其手部軌跡(位置、姿態(tài))是相對于世界坐標(biāo)系或自身軀干的,可以通過運(yùn)動學(xué)映射轉(zhuǎn)換到不同幾何尺寸和關(guān)節(jié)配置的機(jī)械臂上。數(shù)據(jù)采一次,可以反復(fù)用在不同硬件上。
更重要的是,這種采集方式成本足夠低,可以輕松覆蓋大量不同的真實(shí)場景。研究人員做過測試,同樣數(shù)量的數(shù)據(jù),分布在 32 個(gè)不同環(huán)境、每個(gè)環(huán)境各 50 條,比全部集中在一個(gè)環(huán)境的 1600 條,訓(xùn)練出來的模型泛化能力強(qiáng)得多。
機(jī)器人需要見過足夠多"不一樣的世界",才能在一個(gè)從沒見過的新場景里不慌不亂。這也是為啥 Ego 數(shù)據(jù)方案這么強(qiáng)調(diào)要在真實(shí)場景里采集。不同的工廠、不同的操作臺、不同的工人,每一個(gè)細(xì)微的差異,對模型來說都是養(yǎng)分。
![]()
今年4月,Generalist 發(fā)布 GEN-1。這款模型用 50 萬小時(shí)人類操作視頻訓(xùn)練而成,效果相當(dāng)驚人:在折紙箱、手機(jī)裝盒等任務(wù)上,平均成功率從 64% 直接拉到 99%,速度也比上一代提升了三倍。
更關(guān)鍵的是,新任務(wù)只需 1 小時(shí)真機(jī)數(shù)據(jù)就能完成遷移。吸收人類數(shù)據(jù)之后,機(jī)器人學(xué)習(xí)一個(gè)新技能的門檻大幅下降了。
技術(shù)進(jìn)步的速度令人振奮。但我們作為圍觀的打工人,感受大概完全不同——好像在幫未來的自己培養(yǎng)競爭對手?
03.技術(shù)進(jìn)化,還是技能剝離?
視野回到那家印度服裝廠吧!
這里有一個(gè)矛盾,仔細(xì)想想會有點(diǎn)微妙:一個(gè)縫紉工人越熟練,動作越標(biāo)準(zhǔn),他采集出的數(shù)據(jù)質(zhì)量就越高,訓(xùn)練出的機(jī)器人就越容易學(xué)會這項(xiàng)技能。他正在用自己的手藝,教一個(gè)永遠(yuǎn)不會累、永遠(yuǎn)不會離職的“學(xué)生”。
他們是最核心的知識提供者,但在價(jià)值的分配鏈條上,位置卻并不靠前。
![]()
這種“底層勞動支撐頂層技術(shù)”的現(xiàn)象,其實(shí)不是第一次出現(xiàn)。
2010 年前后,一位斯坦福大學(xué)的教授帶著團(tuán)隊(duì)在做一件事:給全世界的圖片打標(biāo)簽。貓、狗、椅子、汽車,一張圖片標(biāo)注一個(gè)類別。這個(gè)項(xiàng)目叫 ImageNet,后來被證明是深度學(xué)習(xí)革命最重要的燃料之一,幾乎所有現(xiàn)代 AI 視覺模型都從它那里汲取過養(yǎng)分。
打標(biāo)簽的人,是一批通過亞馬遜眾包平臺 Mechanical Turk 招募來的工人,大量來自東南亞和非洲,時(shí)薪約兩美元。他們坐在屏幕前,一張一張地點(diǎn)、標(biāo)注、提交,日復(fù)一日。ImageNet 最終收錄了超過 1400 萬張圖片,背后是無數(shù)個(gè)這樣的工時(shí)疊加起來的。
這位教授后來成了 AI 領(lǐng)域最有影響力的學(xué)者之一,ImageNet 催生的產(chǎn)業(yè)價(jià)值難以估量。但那些打標(biāo)簽的工人,還是拿著兩美元的時(shí)薪。
![]()
歷史正在翻開新的一頁。數(shù)據(jù)采集的規(guī)模快速擴(kuò)大,已經(jīng)形成了一條完整的產(chǎn)業(yè)鏈。上游是穿戴設(shè)備的硬件廠商,做頭戴攝像頭、腕部追蹤器、力感應(yīng)手套;中游是數(shù)采方案和數(shù)據(jù)清洗服務(wù)商,幫客戶設(shè)計(jì)采集流程、過濾低質(zhì)量數(shù)據(jù)、把原始視頻處理成模型可以直接消化的格式;下游是購買數(shù)據(jù)來訓(xùn)練模型的具身智能公司,多家科技巨頭都在加速入場。
而觸覺數(shù)據(jù)是下一個(gè)戰(zhàn)場。
僅靠視覺和軌跡數(shù)據(jù),機(jī)器人還學(xué)不會那些需要感知物體軟硬、表面紋理的精細(xì)動作——捏一個(gè)熟透的桃子和一個(gè)生桃子,力道完全不一樣,但攝像頭看不出來。擰一顆螺絲,擰到幾成力才算到位,眼睛同樣判斷不了。已經(jīng)有公司在數(shù)采方案里加入了六維力傳感器,實(shí)時(shí)采集接觸時(shí)的壓力方向和大小。
或許很快機(jī)器人就可以像科幻電影中那樣,自然而然地幫助人類做各種各樣的事情,從精細(xì)的家務(wù)到復(fù)雜的維修,從照顧老人到探索險(xiǎn)境。
![]()
對于那些因?yàn)殚L期重復(fù)動作而落下腱鞘炎、頸椎病的流水線工人來說,這當(dāng)然是一個(gè)好消息,技術(shù)本身不是敵人。我們真正需要關(guān)心的,是技術(shù)創(chuàng)造的價(jià)值能不能讓創(chuàng)造它的人一起受益。
如果說工業(yè)革命的機(jī)器是人類體力的延伸,那么現(xiàn)在的具身智能就是人類直覺的復(fù)現(xiàn)。這種進(jìn)化不該是以一部分人的退場為代價(jià),而應(yīng)當(dāng)是一次全人類的共同升級。
蓋好房子之后,不要忘記打地基的人。讓那些曾在煙塵與轟鳴中辛勞的雙手,最終能從繁瑣中解脫出來,轉(zhuǎn)而去擁抱生活里更多觸手可及的溫度。
這或許才是技術(shù)發(fā)展最完美的終點(diǎn):由人筑基,為人所用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.