![]()
![]()
文 _ 吳桐雨(浙江大學(xué)社會學(xué)系)
公眾在談?wù)撊斯ぶ悄埽ˋI)時,最常見的焦點仍是宏大而抽象的:會不會“失控”?會不會“取代人類”?倫理準則夠不夠用?……這些問題恢宏、正確,但也很容易把人帶到遠處,遠到幾乎讓我們都可以忽略AI也需要“吃飯”,也需要“練習(xí)”,也需要被一點一點教會關(guān)于人類社會的知識、價值和規(guī)范。
可當(dāng)我和華東師范大學(xué)的夏冰青老師開始做關(guān)于數(shù)據(jù)標注勞動的田野調(diào)查時,我們發(fā)現(xiàn)AI并不是一個未來主義的詞。它不懸在天上,而是落在地上——落在中西部的山谷里,落在“易地扶貧搬遷社區(qū)”里,落在一個個工位、鼠標、耳機、計時器和返工單上。
那里的人被媒體稱作“訓(xùn)練AI的老師”。這個說法不算錯,但也過于浪漫。更準確的說法應(yīng)該是:他們在做一種把世界“翻譯成機器語言”的工作——把圖像、語音、文本這些原始材料,整理、分類、標記成算法可識別的訓(xùn)練材料,供模型學(xué)習(xí)、糾錯、迭代。
在一線工程師的眼里,數(shù)據(jù)標注常常只是“訓(xùn)練數(shù)據(jù)的供給”;在中西部的山谷里,它卻是一種更具體的日常——給一張照片拉框,框出“人”“車”“坑洼”;給一段錄音切片,切成可對齊的詞句;給一段對話打分,告訴機器哪些是依人類社會的價值判斷能夠得高分的回答;用無數(shù)次點擊,把一個本來模糊的世界打磨得更清晰。
我們的田野就是進入AI世界中這個“隱秘的角落”,在里面一走就走了五年,越走越發(fā)現(xiàn):AI背后不是一條簡單的產(chǎn)業(yè)鏈,而是一張繃得很緊的網(wǎng)——沿海大廠的模型部門、產(chǎn)品經(jīng)理的需求表、遠程平臺的任務(wù)分發(fā)與排名、縣城邊緣機房里的質(zhì)檢與返工,全都被同一根線串起來。下面,我將從三個部分展開這張網(wǎng):產(chǎn)業(yè)如何“內(nèi)陸化”,性別如何進入數(shù)據(jù)標注這份工作,以及地方政府與地方管理者如何運用本土知識輔助大廠對于標注勞動的算法控制。
產(chǎn)業(yè)的落地:數(shù)據(jù)標注如何被“內(nèi)陸化”
在我們調(diào)查的“易地扶貧搬遷社區(qū)”里面,聚合著從周邊山上搬下來的四五個村寨。社區(qū)書記最常掛在嘴邊的一句話是“要留得住人”。這不是一句口號,而是一串現(xiàn)實問題:人搬下山了,地沒了,手藝不值錢,年輕人往外跑,老人、孩子留在樓里。要讓人真的在這里安頓下來,就得給他們一份能按月拿到錢的工作——不一定多,但要穩(wěn);不一定體面,但要近。
2018 年,機會終于來敲門。社區(qū)開始和一家頭部科技公司(我們用B-Tech作為其化名)談合作。幾輪談判后,B-Tech把它的第一座“數(shù)據(jù)標注基地”放進了山谷:搬遷社區(qū)給出三年免租優(yōu)惠,后續(xù)再補貼;水電網(wǎng)維護由社區(qū)承擔(dān);公司承諾逐步提供崗位,并按社區(qū)要求優(yōu)先招“處境困難的女性”——低學(xué)歷、中年、離異者先上。如果從外面看,這就是一筆“數(shù)字經(jīng)濟招商”的常規(guī)交易。但走進去就會發(fā)現(xiàn),這個基地更像一個夾層:它把沿海大廠的AI生產(chǎn)鏈條,硬生生地楔進了內(nèi)陸一座山谷的日常。
然而,這一圖景與國際上對于AI數(shù)據(jù)產(chǎn)業(yè)和勞動的研究發(fā)現(xiàn)是相悖的。國際上討論數(shù)據(jù)勞動,常見的圖景是“全球分工”:模型和工程師在全球北方,標注外包給全球南方的平臺和BPO(Business Process Outsourcing,商務(wù)流程外包);工資按“幾美分一單”或“一小時一美元多一點”結(jié)算。賬本寫得很明白:哪里便宜就往哪里去。
中國的大廠當(dāng)然也懂這筆賬,但在很多關(guān)鍵項目上,它們更怕另一件事——泄密。一位工程師說得很直白:大廠不愿把關(guān)鍵數(shù)據(jù)扔到公開平臺上,因為“標什么數(shù)據(jù)”會暴露公司下一步要做什么。數(shù)據(jù)在這里不僅是訓(xùn)練的燃料,更像研發(fā)路線圖。于是,把數(shù)據(jù)送到內(nèi)陸,送到更加封閉的社區(qū),就成了自然而然的選擇。
我們在近期發(fā)表的一個關(guān)于中美數(shù)據(jù)標注產(chǎn)業(yè)勞動的比較研究中把這種組織方式概括為inland-sourcing(內(nèi)陸化/內(nèi)循環(huán)回路):不是把標注外包到海外,而是把任務(wù)從北京、杭州、深圳這些一線或沿海城市總部,送到山西、陜西、甘肅、新疆、貴州、重慶、河南等內(nèi)陸省份的大廠自建和深度控制的標注基地(data labeling base)。[1]
具體來講,這種獨特的自建基地背后有幾股動力疊加在一起。第一重動力是數(shù)據(jù)的敏感性。就如上文提到的工程師所言:數(shù)據(jù)本身就是競爭優(yōu)勢,而“標什么數(shù)據(jù)”會泄露一家公司下一步要做什么。第二重動力來自地方政府對AI經(jīng)濟的參與:對很多內(nèi)陸三、四線城市來說,參與模型研發(fā)像天方夜譚:算力、人才、資本,哪一樣都不是說有就有的。但“數(shù)據(jù)產(chǎn)業(yè)”不一樣:它勞動密集,門檻相對低,能迅速吸納一批人。更重要的是,它可以被寫進一張張漂亮的匯報表:數(shù)字經(jīng)濟就業(yè)、AI相關(guān)崗位、產(chǎn)業(yè)落地、搬遷社區(qū)穩(wěn)定……第三重動力來自企業(yè)管理邏輯。標注是高頻、瑣碎、對質(zhì)量極其敏感的工作,完全依賴高流動的眾包,會把企業(yè)拖進無休止的培訓(xùn)與返工:工人剛熟悉規(guī)則就離職,新人進來又要從頭教;標注質(zhì)量忽高忽低,返工率上升,項目進度被拖慢。所以許多大廠最終選擇“落地”基地:把勞動固定在一個空間里,把經(jīng)驗沉淀在一群人身上,讓準確率、保密性與返工率可控。
于是你會看到一種非常中國式的合作形態(tài),正如我們的田野工作反映的那樣:數(shù)據(jù)標注基地的法人是社區(qū)書記,書記從社區(qū)里挑出一個“讀書讀得最好的年輕人”來當(dāng)基地經(jīng)理;工人則來自社區(qū)的勞動力池。這套結(jié)構(gòu)把企業(yè)最頭疼的兩件事也一并解決了:穩(wěn)定與低成本。穩(wěn)定來自社區(qū)與親緣網(wǎng)絡(luò)的“黏性”;低成本來自地方財政承擔(dān)的一部分基礎(chǔ)設(shè)施與運營費用。但別誤會,這份穩(wěn)定并不溫柔,它更像一種工業(yè)化的耐心:讓人留得住、學(xué)得會、跑不掉,從而把數(shù)據(jù)做得更準。有人甚至告訴我們,自建基地的數(shù)據(jù)準確率能做到 97%~98%,明顯高于多數(shù)外包平臺或第三方工廠。
性別進入工位:從“幽靈工作”到“巾幗車間”
歐美學(xué)者關(guān)于數(shù)據(jù)勞動的研究[2]很容易讓人形成一種“幽靈工”想象:勞動者分散在世界各地,在云端接單、提交、消失;平臺只看得見ID、評分、完成率,人本身是隱形的。也正因這種不可見性,女性更容易被吸引進去:平臺的“靈活”像一張網(wǎng),剛好兜住照護、家務(wù)、零碎時間,勞動被包裝成“補貼性收入”。
![]()
投喂AI
[英] 詹姆斯·馬爾登,等
中信出版集團2025
然而,我們進行田野調(diào)查的自建基地看起來很不一樣:雖然大部分也是女性工人(因為這個社區(qū)中的男性大多外出務(wù)工了),但是女性不是在家里接單,而是進基地打卡,坐在統(tǒng)一的機房里。然而,她們?nèi)匀怀尸F(xiàn)出一種與“幽靈工”相似的結(jié)構(gòu)性處境:工作被安排成可以隨時讓位于家庭的狀態(tài),家庭又被安排成可以隨時壓住工作的狀態(tài)。[3]
![]()
銷聲匿跡
[美] 瑪麗·L. 格雷 [美]西達爾特·蘇里
上海人民出版社2020
你在基地里待久了,就會發(fā)現(xiàn)這些女性工作和生活的邊界是如此模糊。很多“媽媽工”中午下班時一路小跑去買菜,回家把午飯、晚飯一起做出來,再趕回工位。到了下午四點半,她們又要從工位上撤離去接孩子:有人把孩子送回家,安排作業(yè)后,再回來補一兩個小時工;有人干脆把孩子帶回工位,一邊拉框一邊盯作業(yè)。她們的時間被切成了薄片,一片一片貼在生活的縫里。而就在她們來回奔波的時候,婆婆們往往聚在基地外的小廣場曬太陽、聊天——不慌不忙,像一座看不見的“家庭權(quán)力中心”。
也正是在這種結(jié)構(gòu)里,“管理”變得很難。基地經(jīng)理“黑崽”學(xué)歷高、年紀輕,按親屬輩分來算,只是“媽媽工”的“侄子輩”。他試著貼考勤表,宣布“從今天開始嚴格遵守上下班時間”,話還沒落地,就被二十多位“姑母”圍住教育:“你還沒結(jié)婚,不懂過日子的難處!”最后考勤表成了墻上一張沒人看的紙。這里的關(guān)鍵并不是“女人不守紀律”,而是紀律本身被家庭結(jié)構(gòu)重新改寫:真正約束“媽媽工”的不是經(jīng)理,而是婆媳關(guān)系、母職倫理以及那種無處可逃的家庭責(zé)任。
地方政府當(dāng)然看見了這一點。對搬遷社區(qū)來說,“留得住人”的關(guān)鍵往往在女性:男性繼續(xù)外出務(wù)工,房子要保、老人要照顧、孩子要上學(xué),能把這一切拴在社區(qū)里的,常常是媳婦和母親。于是政府在與B-Tech談判時堅持優(yōu)先雇女性,基地后來還被授予“巾幗車間”稱號,優(yōu)秀女工被推到鏡頭前講“在家門口上班”的體面。
鏡頭外,她們確實努力:主動加班、練習(xí)技巧、追求準確率和速度,不“愧對”那份“出人頭地”的榮譽。但更關(guān)鍵的是,這套“巾幗敘事”并沒有把女性從家庭里解放出來,它常常以溫柔的方式把家庭再次綁回工作制度中。比如,設(shè)置“4:30課堂”——孩子放學(xué)后可以托管到母親下班。它像一種善意的基礎(chǔ)設(shè)施,同時也是一種明確的暗示:你可以工作,但你要同時完成母職;你被允許進入數(shù)字經(jīng)濟,但前提是你不松開照護。
在照料的道德捆綁之下,是“內(nèi)疚”的政治經(jīng)濟。很多“媽媽工”年輕時南下打工,錯過了孩子的成長。回到家鄉(xiāng)后,那種缺席感變成一種補償:寧愿犧牲休息,也要把孩子留在身邊。在我們的訪談里,“可可媽”把這件事說得很具體:她在外七年,回來后下決心“孩子必須自己帶”,女兒成績掉下來,她就去爭取早班,把時間挪出來盯教育。
這種內(nèi)疚感會生成一種特殊的勞動順從:她們更愿意接受“我少賺一點也沒關(guān)系”,因為這份工作被她們定義為“離家近、能照顧人”的選擇。當(dāng)基地為了“保住訂單”重新分工,把“更香的任務(wù)”流向少數(shù)高效組時,很多“媽媽工”對被分到“油水更少”的工單往往不公開爭辯,她們更容易把差異解釋為自己的選擇:我得顧孩子,所以我就不搶更難、更賺錢的任務(wù)。久而久之,“巾幗英雄”的光環(huán)就成了一種潤滑劑:它讓結(jié)構(gòu)性不平等更容易被吞下去,讓“你被放到次要位置”聽起來像“你高尚地選擇了家庭”。
當(dāng)算法走到“最后一公里”:地方知識介入管理
在全球語境中討論AI時,人們常說,自動化最難的不是“起飛”,而是“落地”。機器可以“看見”世界,卻很難在復(fù)雜、含混、隨時變動的現(xiàn)實里穩(wěn)定運轉(zhuǎn)——它需要有人先把世界整理一遍,把臟亂差的生活折疊成它能吞下去的格式。數(shù)據(jù)標注就是這“最后一公里”的鋪路石:把圖像里的“人”“車”“坑洼”框出來;把語音切成詞句;把文本分成“攻擊性”“中性”“誤導(dǎo)性”。AI在屏幕上變得聰明之前,先在這些手指的點擊里變得可計算。
但我們在田野里看到的“最后一公里”并不只有“人教機器”這一層,還有另一層更少被寫進國際議題里:算法的控制要真正生效,也要走完自己的“最后一公里”——它得進入地方、進入關(guān)系、進入具體的生活節(jié)奏。而這段路的坎坷,往往要靠地方政府、社區(qū)組織以及一系列我們稱為“算法補足組織”[4]的組織去磨平。
首先,大廠的標注工作訂單量并不穩(wěn)定。訂單像潮水,有波峰,也有波谷。波谷一來,最先松動的是人心:沒活、工資不穩(wěn),就會有人走。人一走,波峰再來又得重新招、重新訓(xùn)、重新磨合——質(zhì)量掉、返工漲,保密風(fēng)險也跟著上來。大廠想要一池“穩(wěn)定”的勞動力,卻又不愿為“穩(wěn)定”長期買單。
這時候地方政府出手,方式看起來很樸素:用培訓(xùn)和補貼把人留在“可隨時上場”的狀態(tài)。訂單稀缺時,基地把工人送去參加就業(yè)局組織的培訓(xùn),內(nèi)容其實還是標注基礎(chǔ)訓(xùn)練;人只要簽到參訓(xùn),就能拿到每天50元的補貼。訂單驟降時,基地再去爭取與“扶貧車間”相關(guān)的各種補貼,讓符合條件的工人拿到一定比例的補貼(上限500元)。表面上,這是就業(yè)扶持;實際上,它承擔(dān)著更隱秘的功能:把離職沖動按住,把勞動力池維持在“可用”狀態(tài)——而維持成本并不完全由企業(yè)承擔(dān)。
“粉店姐姐”就是這套機制最生動的注腳。這位我們田野中的關(guān)鍵報道人不是等著工作的那種人:她有自己的小店,有客源,有一天的流水,可她仍然參加了一輪又一輪標注培訓(xùn)。第一次培訓(xùn)后,她開了粉店,還把培訓(xùn)里認識的人變成了顧客;第二次“進階培訓(xùn)”時,她甚至關(guān)店一周去上課,只為“更新技能、為將來留個機會”。這句話聽起來像個人選擇,實際上是一種特殊的、結(jié)構(gòu)性的勞動組織狀態(tài)。我們在論文里把它叫作 benching(板凳隊員):培訓(xùn)把人變成“半黏著”的勞動者——既不完全被雇傭,也不完全脫離基地;人生活在社區(qū)里,心卻被一條看不見的線牽在基地旁邊。對平臺/企業(yè)而言,這太好用了:培訓(xùn)成本被外部化給地方資源;勞動者通過反復(fù)訓(xùn)練提升熟練度,卻仍保持可替換性;更重要的是,它讓勞動供給能跟上AI開發(fā)那種忽高忽低、隨時加速又隨時剎車的節(jié)奏。
如果把這種現(xiàn)象放到國際學(xué)術(shù)語境里討論,它其實是一種“數(shù)字勞動再嵌入”的新版本:不是把市場重新嵌回傳統(tǒng)共同體,而是把平臺用工的波動嵌進地方政府的培訓(xùn)指標、項目資金和社區(qū)動員能力里——用地方經(jīng)濟來做平臺的減震器。
更反直覺的發(fā)現(xiàn)出現(xiàn)在管理環(huán)節(jié)。很多關(guān)于數(shù)字勞動與算法控制的研究都傾向認為:算法可以形成更精細、準確、無路可退的控制系統(tǒng)。因為它面對的不是活生生的人,而是工號、ID、評分、完成率,所以它的管控也更趨于“冷酷”:懲罰自動發(fā)生,分配自動完成,人似乎只能被動接受。
但我們在田野里卻反復(fù)看到另一種現(xiàn)實:在分工、排班、約束這些最具體的環(huán)節(jié)上,當(dāng)?shù)厝艘罁?jù)地方性知識做出的“人工優(yōu)化”,常常比平臺的算法優(yōu)化更有效,也更便宜。
一位大廠負責(zé)AI數(shù)據(jù)管理的項目經(jīng)理坦白說,他們確實在做“啟發(fā)式優(yōu)化算法”來生成分工與管理策略,但那需要“特別多的分析工作、數(shù)據(jù)和算力”。說白了,就是“要投入特別多的錢”,甚至“幾千萬元起步”。而后來他們發(fā)現(xiàn),基地經(jīng)理憑經(jīng)驗做的分工,“比啟發(fā)式算法準確有效得多,而且還省錢”。因為算法看見的是“ID”和“歷史表現(xiàn)”,而基地經(jīng)理看見的是人:誰家孩子幾點放學(xué)、誰最近眼睛發(fā)炎、誰的婆婆臥床、誰能熬夜但周末必須回村里辦事。這樣的知識無法被完全量化,卻能立刻轉(zhuǎn)化為管理——不是更溫情,而是更精準。
于是,在訂單高峰期,標注基地會把工人分成不同小組:更“年富力強”、更少家庭負擔(dān)、效率更高的被分到高效組;被家庭瑣事纏身的媽媽們則更多被分到難度相對低的小組。這種分工方式看似合理,但也非常殘酷:它把生活負擔(dān)直接轉(zhuǎn)譯成生產(chǎn)位置,把母職與照護再次寫進工序表里。平臺很難洞察每個人真實的生產(chǎn)潛能,基地經(jīng)理卻能用“對人”的認識來釋放效率。
地方知識不僅能幫平臺分工,還能幫平臺監(jiān)督,一個很小的例子是打卡。基地嵌在生活社區(qū)里,很多工人家離基地不到一公里,打卡程序會誤判“已經(jīng)到達”,工人就能在家里先線上打卡,遲到了平臺也發(fā)現(xiàn)不了。但經(jīng)理很快發(fā)現(xiàn)了這一漏洞,通過調(diào)整程序的距離敏感度將其堵住。這件事很說明問題:技術(shù)大廠的算法控制原本有縫,地方知識本可以成為“縫里的空氣”,讓生活喘一口氣;但它也可能成為“縫里的釘子”,把控制釘?shù)酶o。
結(jié)語
很多人以為AI的故事發(fā)生在云端——算力、模型、參數(shù)。可在山谷里,你會發(fā)現(xiàn)它更像一條貼地爬行的生產(chǎn)線——每一次點擊、每一次返工、每一次為了四點半接孩子沖出機房的腳步,都是它向前挪動的力量。當(dāng)我們重新把目光放低,才會看清:所謂“智能”,并不只屬于機器,它也來自那些最難被看見的人。
[1] Wu T, MULDOON J, XIA B. Global Data Empires: Analysing Artificial Intelligence Data Annotation in China and the USA[J]. Big Data & Society, 2025, 12(2): 20539517251340600.
[2] 格雷, 蘇里. 銷聲匿跡[M]. 左安浦, 譯. 上海: 上海人民出版社, 2020; 馬爾登, 格雷厄姆, 坎特. 投喂AI[M]. 賈青青, 牟一凡, 譯. 北京: 中信出版集團, 2025.
[3] 吳桐雨, 夏冰青. 科技資本與地方發(fā)展的糾葛——以G省T市數(shù)據(jù)標注基地為例[J]. 二十一世紀, 2025, 2: 78-92.
[4] 吳桐雨, 夏冰青. 計算與算計:數(shù)據(jù)標注勞動中的算法補足組織[J]. 社會學(xué)評論, 2023, 11(6): 66-86; XIA B, WU T. The Space-Time Game: Workers with Disabilities in China's AI Data Labeling Industry[J]. New Media & Society, 2025: 14614448251320114.
(原載于《信睿周報》第164期,題圖來自《投喂AI》書封)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.