網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

印度工人頭戴攝像頭，邊打工邊教機(jī)器人搶自己的飯碗？

2026-04-24 17:00:06　來源: 酷玩實(shí)驗(yàn)室

北京舉報(bào)

分享至

最近，一段來自印度南部服裝廠的視頻在國內(nèi)外社交平臺上瘋傳。

畫面里，流水線上的工人正在低頭縫紉，和普通的工廠場景沒什么兩樣，除了一件事——每個(gè)人頭上都戴著一個(gè)攝像頭環(huán)。

評論區(qū)吵成了兩派。一派說這是老板在監(jiān)視員工，抓人摸魚的新花樣；另一派說不對，這是在給機(jī)器人喂數(shù)據(jù)。

兩派說法都很地獄，但后者，才是整件事真正讓人坐立不安的地方。

01.打工人正在被錄像存檔

那個(gè)戴著攝像頭環(huán)的工人，正在做的事情有個(gè)技術(shù)名詞，叫采集"Ego 數(shù)據(jù)"，全稱是“第一人稱視角數(shù)據(jù)”。

邏輯很簡單：把攝像頭架在頭頂，記錄下工人干活時(shí)的第一視角，手怎么抬、怎么落、怎么捏住一根線穿過針眼。每一幀畫面，都會變成喂給 AI 模型的訓(xùn)練素材。

工人的雙手，成了機(jī)器人的老師。

親手教會機(jī)器人取代自己。普通人聽到這種事會感受到一種生理性的冒犯，但業(yè)內(nèi)對此很興奮，因?yàn)檫@種方式，實(shí)在太！便！宜！了！

過去，機(jī)器人行業(yè)訓(xùn)練模型的主流方式叫"真機(jī)遙操"，聽上去很科幻，操作起來其實(shí)很笨重：一個(gè)工程師戴上 VR 頭顯，眼前的畫面同步到機(jī)器人的攝像頭視角，然后他要像遙控玩具一樣，手把手地控制機(jī)器人的每一個(gè)動作——拿起這個(gè)杯子，放到那個(gè)托盤上，再拿起那塊布，折疊，放好。整個(gè)過程一幀一幀地被錄下來，這就是訓(xùn)練數(shù)據(jù)。

這套方案最大的問題是貴，而且慢。

一臺用于數(shù)采的機(jī)器人本體，動輒幾十萬。還得配專職的數(shù)采員，培訓(xùn)上崗，全程盯著。采集一條高質(zhì)量的操作數(shù)據(jù)，可能要耗掉工程師大半天時(shí)間，工程師的工資又很高。

Ego 數(shù)據(jù)方案把這套流程從根上改了：工人戴上頭頂?shù)臄z像頭，綁上腕部的追蹤器（有些方案還會配一副特制手套）。換裝完畢，正常上工就行。

這三層設(shè)備各有分工。頭戴攝像頭負(fù)責(zé)記錄第一視角的完整畫面——操作臺的布局、物體的位置、手和目標(biāo)物之間的空間關(guān)系；腕部攝像頭對準(zhǔn)手部，專門捕捉手在近距離操作時(shí)的細(xì)節(jié)；穿戴手套則完全不依賴視覺，直接用傳感器測量每根手指的關(guān)節(jié)角度。

三層疊加，就還原了一個(gè)完整的操作動作——人的眼睛看到了什么、手在哪里、手指該怎么動。通過這些樣本，機(jī)器人可以學(xué)習(xí)從視覺到動作的映射關(guān)系，即看到某個(gè)畫面時(shí)，應(yīng)該做些什么。

這里面有一個(gè)小 bug，機(jī)器人學(xué)誰，就像誰。

如果被采集的工人是個(gè)熟練工，動作干脆、力道精準(zhǔn)，那機(jī)器人學(xué)出來的就是一套行云流水的操作。可萬一這位工人習(xí)慣摸魚，比如擰螺絲前先撓撓頭，放零件時(shí)要抖兩下手腕，甚至一邊干活一邊東張西望……那機(jī)器人也會把這些多余的動作當(dāng)成標(biāo)準(zhǔn)流程學(xué)進(jìn)去。

所以視頻里，整個(gè)車間只有一排工人頭上戴了攝像頭，或許，他們是整個(gè)車間選出來的最好的工人。

還有更簡單粗暴的方式，是只篩選數(shù)據(jù)，不篩選人。美國有一家叫做 Generalist AI 的公司，他們用眾包的方式，把低成本穿戴設(shè)備分發(fā)給世界各地的普通人。不管是你在家折衣服、在廚房洗碗，還是在修車鋪擰螺絲，只要戴上設(shè)備，人人皆可邊干活邊采數(shù)據(jù)。

業(yè)內(nèi)對此充滿了懷疑，普通人在家里采出來的數(shù)據(jù)，質(zhì)量根本沒法和專業(yè)數(shù)采中心比，怎么能訓(xùn)練出高成功率的模型？

答案是大力出奇跡。海量的原始數(shù)據(jù)進(jìn)來，系統(tǒng)自動篩選，低質(zhì)量的直接丟掉，只留下那些三層數(shù)據(jù)對得上的高置信度樣本。數(shù)據(jù)量足夠大，過濾完還剩得夠多，就能用。

所以越來越多的數(shù)采方案開始強(qiáng)調(diào)"輕量化"，設(shè)備越做越小，目標(biāo)就是讓采集完全融入日常工作，對工人的動作干擾降到零。業(yè)內(nèi)已經(jīng)有團(tuán)隊(duì)在研究把攝像頭集成進(jìn)普通眼鏡，手套也在往更輕薄的方向迭代，最終形態(tài)可能是一副眼鏡加一塊手表，穿上就采，看不出來和普通上班有什么區(qū)別。

這張采集數(shù)據(jù)網(wǎng)正在全球快速鋪開。硅谷的實(shí)驗(yàn)室、東南亞的代工廠、北美的物流分揀中心、歐洲的家庭廚房里，成千上萬個(gè)傳感器正如同毛細(xì)血管般伸向人類的日常。

這種生意已經(jīng)催生出了專門的“數(shù)據(jù)供應(yīng)商”。比如許多公司正在推廣的通用移動接口（UMI）方案，它徹底切斷了數(shù)據(jù)與特定機(jī)器人硬件的綁定。有測算顯示，這種脫離了昂貴真機(jī)、只靠穿戴設(shè)備的采集方式，單條數(shù)據(jù)的生產(chǎn)成本僅為傳統(tǒng)方案的五分之一，效率卻翻了五倍。

印度工廠那個(gè)畫面，只是這張大網(wǎng)上，一個(gè)最先被普通人看見的節(jié)點(diǎn)。

而這種近乎掠奪式的大規(guī)模采集，背后折射出的是一個(gè)令 AI 巨頭們焦慮的真相：機(jī)器人沒“米”下鍋了！

02.機(jī)器人也有數(shù)據(jù)荒

在數(shù)字世界里，AI 是銜著金湯勺出生的。

大語言模型的訓(xùn)練素材來自整個(gè)互聯(lián)網(wǎng)。幾十年來人類隨手丟在網(wǎng)上的文字、代碼、新聞、甚至論壇里的廢話帖子，對 GPT 們來說都是取之不盡的養(yǎng)分。只要算力足夠，AI 能在幾天內(nèi)讀完人類幾千年的文明。

但機(jī)器人需要的數(shù)據(jù)完全是另一回事：每一次抓取、放置、翻轉(zhuǎn)，都必須真實(shí)發(fā)生在物理世界里，沒辦法從網(wǎng)上下載，更無法批量復(fù)制。

這就是為什么機(jī)器人馬拉松比賽中，那些重金打造的頂級人形機(jī)器人，還是會在走路時(shí)突然摔跟頭，看起來很不聰明的樣子。

那用仿真數(shù)據(jù)不行嗎？在電腦里搭一個(gè)虛擬工廠，讓機(jī)器人在里面反復(fù)練，不就解決了？

確實(shí)有人這么做，有效果，但有個(gè)繞不過去的問題，業(yè)內(nèi)叫"sim-to-real gap"（仿真到現(xiàn)實(shí)的鴻溝）。虛擬世界里的物理規(guī)則是被簡化過的，光線是理想的，桌面是平的，物體的摩擦力是預(yù)設(shè)的；而真實(shí)世界里，同一塊布料每次堆疊的形態(tài)都不一樣，同一個(gè)零件每次放置的角度都有偏差。在仿真世界里練了一萬次的機(jī)器人，搬到真實(shí)車間，往往還是一臉懵。

所以真實(shí)世界的操作數(shù)據(jù)，是無論都如何繞不開的。

行業(yè)里有一個(gè)著名的數(shù)據(jù)金字塔。最底層是互聯(lián)網(wǎng)上現(xiàn)成的視頻和圖片，量大管夠，但精度太低，機(jī)器人看著人類做飯的 YouTube 視頻，頂多學(xué)個(gè)大概方向。往上一層是專門采集的人類動作捕捉數(shù)據(jù)，需要穿戴設(shè)備，成本高一些，質(zhì)量也好一些。塔尖是真機(jī)遙操數(shù)據(jù)，精度最高，接近機(jī)器人實(shí)際執(zhí)行時(shí)的視角，數(shù)量最少，采集速度慢得像在手工打字，供給完全跟不上模型的需求。

機(jī)器人的數(shù)據(jù)困境有多夸張呢？有個(gè)數(shù)字可以感受一下。目前機(jī)器人領(lǐng)域頭部開源數(shù)據(jù)集 OpenX-Embodiment，匯聚了全球 22 種不同機(jī)器人本體、311 個(gè)場景下的 100 萬條操作軌跡。聽起來挺壯觀，但大語言模型的訓(xùn)練數(shù)據(jù)動輒萬億 token，和 100 萬放在一起，差了整整六個(gè)數(shù)量級。

真機(jī)遙操還有另外一個(gè)麻煩，數(shù)據(jù)和硬件強(qiáng)綁定。

過去大多數(shù)操作數(shù)據(jù)，都是用特定型號的機(jī)器人采集的。A 型機(jī)械臂的數(shù)據(jù)，很難直接拿去訓(xùn)練 B 型機(jī)械臂。機(jī)械臂的關(guān)節(jié)結(jié)構(gòu)不同、末端夾爪的形狀不同、攝像頭的位置不同，同樣的"拿起杯子"這個(gè)動作，在兩種機(jī)器人身上對應(yīng)的運(yùn)動軌跡可以完全不一樣。換一款硬件，數(shù)據(jù)就得重新采，等于每次升級硬件，都要回到原點(diǎn)重新開始。

要打破這個(gè)僵局，就需要把數(shù)據(jù)和機(jī)器解綁。比如不依賴特定型號的機(jī)器人，直接從人身上采集操作數(shù)據(jù)——無本體數(shù)據(jù)。

因?yàn)槿祟愖觥澳闷鸨印边@個(gè)動作，其手部軌跡（位置、姿態(tài)）是相對于世界坐標(biāo)系或自身軀干的，可以通過運(yùn)動學(xué)映射轉(zhuǎn)換到不同幾何尺寸和關(guān)節(jié)配置的機(jī)械臂上。數(shù)據(jù)采一次，可以反復(fù)用在不同硬件上。

更重要的是，這種采集方式成本足夠低，可以輕松覆蓋大量不同的真實(shí)場景。研究人員做過測試，同樣數(shù)量的數(shù)據(jù)，分布在 32 個(gè)不同環(huán)境、每個(gè)環(huán)境各 50 條，比全部集中在一個(gè)環(huán)境的 1600 條，訓(xùn)練出來的模型泛化能力強(qiáng)得多。

機(jī)器人需要見過足夠多"不一樣的世界"，才能在一個(gè)從沒見過的新場景里不慌不亂。這也是為啥 Ego 數(shù)據(jù)方案這么強(qiáng)調(diào)要在真實(shí)場景里采集。不同的工廠、不同的操作臺、不同的工人，每一個(gè)細(xì)微的差異，對模型來說都是養(yǎng)分。

今年4月，Generalist 發(fā)布 GEN-1。這款模型用 50 萬小時(shí)人類操作視頻訓(xùn)練而成，效果相當(dāng)驚人：在折紙箱、手機(jī)裝盒等任務(wù)上，平均成功率從 64% 直接拉到 99%，速度也比上一代提升了三倍。

更關(guān)鍵的是，新任務(wù)只需 1 小時(shí)真機(jī)數(shù)據(jù)就能完成遷移。吸收人類數(shù)據(jù)之后，機(jī)器人學(xué)習(xí)一個(gè)新技能的門檻大幅下降了。

技術(shù)進(jìn)步的速度令人振奮。但我們作為圍觀的打工人，感受大概完全不同——好像在幫未來的自己培養(yǎng)競爭對手？

03.技術(shù)進(jìn)化，還是技能剝離？

視野回到那家印度服裝廠吧！

這里有一個(gè)矛盾，仔細(xì)想想會有點(diǎn)微妙：一個(gè)縫紉工人越熟練，動作越標(biāo)準(zhǔn)，他采集出的數(shù)據(jù)質(zhì)量就越高，訓(xùn)練出的機(jī)器人就越容易學(xué)會這項(xiàng)技能。他正在用自己的手藝，教一個(gè)永遠(yuǎn)不會累、永遠(yuǎn)不會離職的“學(xué)生”。

他們是最核心的知識提供者，但在價(jià)值的分配鏈條上，位置卻并不靠前。

這種“底層勞動支撐頂層技術(shù)”的現(xiàn)象，其實(shí)不是第一次出現(xiàn)。

2010 年前后，一位斯坦福大學(xué)的教授帶著團(tuán)隊(duì)在做一件事：給全世界的圖片打標(biāo)簽。貓、狗、椅子、汽車，一張圖片標(biāo)注一個(gè)類別。這個(gè)項(xiàng)目叫 ImageNet，后來被證明是深度學(xué)習(xí)革命最重要的燃料之一，幾乎所有現(xiàn)代 AI 視覺模型都從它那里汲取過養(yǎng)分。

打標(biāo)簽的人，是一批通過亞馬遜眾包平臺 Mechanical Turk 招募來的工人，大量來自東南亞和非洲，時(shí)薪約兩美元。他們坐在屏幕前，一張一張地點(diǎn)、標(biāo)注、提交，日復(fù)一日。ImageNet 最終收錄了超過 1400 萬張圖片，背后是無數(shù)個(gè)這樣的工時(shí)疊加起來的。

這位教授后來成了 AI 領(lǐng)域最有影響力的學(xué)者之一，ImageNet 催生的產(chǎn)業(yè)價(jià)值難以估量。但那些打標(biāo)簽的工人，還是拿著兩美元的時(shí)薪。

歷史正在翻開新的一頁。數(shù)據(jù)采集的規(guī)模快速擴(kuò)大，已經(jīng)形成了一條完整的產(chǎn)業(yè)鏈。上游是穿戴設(shè)備的硬件廠商，做頭戴攝像頭、腕部追蹤器、力感應(yīng)手套；中游是數(shù)采方案和數(shù)據(jù)清洗服務(wù)商，幫客戶設(shè)計(jì)采集流程、過濾低質(zhì)量數(shù)據(jù)、把原始視頻處理成模型可以直接消化的格式；下游是購買數(shù)據(jù)來訓(xùn)練模型的具身智能公司，多家科技巨頭都在加速入場。

而觸覺數(shù)據(jù)是下一個(gè)戰(zhàn)場。

僅靠視覺和軌跡數(shù)據(jù)，機(jī)器人還學(xué)不會那些需要感知物體軟硬、表面紋理的精細(xì)動作——捏一個(gè)熟透的桃子和一個(gè)生桃子，力道完全不一樣，但攝像頭看不出來。擰一顆螺絲，擰到幾成力才算到位，眼睛同樣判斷不了。已經(jīng)有公司在數(shù)采方案里加入了六維力傳感器，實(shí)時(shí)采集接觸時(shí)的壓力方向和大小。

或許很快機(jī)器人就可以像科幻電影中那樣，自然而然地幫助人類做各種各樣的事情，從精細(xì)的家務(wù)到復(fù)雜的維修，從照顧老人到探索險(xiǎn)境。

對于那些因?yàn)殚L期重復(fù)動作而落下腱鞘炎、頸椎病的流水線工人來說，這當(dāng)然是一個(gè)好消息，技術(shù)本身不是敵人。我們真正需要關(guān)心的，是技術(shù)創(chuàng)造的價(jià)值能不能讓創(chuàng)造它的人一起受益。

如果說工業(yè)革命的機(jī)器是人類體力的延伸，那么現(xiàn)在的具身智能就是人類直覺的復(fù)現(xiàn)。這種進(jìn)化不該是以一部分人的退場為代價(jià)，而應(yīng)當(dāng)是一次全人類的共同升級。

蓋好房子之后，不要忘記打地基的人。讓那些曾在煙塵與轟鳴中辛勞的雙手，最終能從繁瑣中解脫出來，轉(zhuǎn)而去擁抱生活里更多觸手可及的溫度。

這或許才是技術(shù)發(fā)展最完美的終點(diǎn)：由人筑基，為人所用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.