![]()
圖片來源:豆包生成
藍鯨新聞12月12日訊(記者 武靜靜)大模型為什么能夠回答各種復雜問題,甚至超過普通人?答案的關鍵,還有一個不起眼,卻至關重要的環節——數據標注。
在模型運作中,數據標注者就像"老師":簡單任務時,他們為AI的回答打分,將最優答案呈現給用戶;復雜任務時,他們親自操作,讓AI學會理解:比如敘述一張圖所講的故事,完成一個操作界面中的具體步驟。
曾經被視為低門檻勞動的數據標注,正在大模型行業經歷深刻變革。多個行業內部招聘群出現一種特殊需求:金融、法律、物理等專業的碩士、博士,被高薪招募從事數據標注工作。
招聘要求與以往截然不同:985/頂尖院校碩士起步,部分需博士及2年以上行業經驗。工作內容不再是"標注撰寫",而是撰寫高難度專業題目、構建推理鏈條、解析模型輸出并糾錯。時薪從100元躍升至400元以上,更有甚者上不封頂。
多家標注公司證實,2024年行業出現了顯著的需求變化。隨著大模型競爭焦點轉向推理能力,訓練數據在專業性、精細度和邏輯復雜度上要求劇增。"不是我們想招博士,是行業現在需要博士。"一位負責人總結。這背后也反映了模型能力的變遷:競爭的核心已從比拼數據規模,轉向了比拼數據質量與智能水平。
從粗顆粒到"專家級標注":行業只用了1年
行業風向標在一年內驟然轉向。這印證了業界對于大型模型演進速度的超預期感受。在新一輪大模型迭代中,數據標注市場正在發生一次被忽視但極為關鍵的結構性變化。
記者從知情人士處了解到,某頭部大廠曾為應對當時的"普通標注"需求,在人力成本較低的三四線城市自建了標注基地。然而,大模型的進化速度遠超預期,對數據的質量要求變得更好,基地的團隊能力與培訓體系難以跟上這種突變。
據他透露,這種案例在業內并不是個例。"許多人低估了大模型的實際發展速度。他們原先的預期是普通標注階段需要三到五年時間,實際情況是,短短一年內就已經全部完成。"
關鍵的時間節點就在2024年左右,此前數據標注行業多圍繞CV、短文本、語音轉寫等低知識密度工作,普通的大學生就可以完成。
從2024年開始,隨著大模型在to B和to G行業落地加速:提升模型能力不再靠堆規模,而要靠"結構化知識"和"高質量數據"。這直接導致任務形態發生重構,出現大量專業門檻極高的內容需求:比如代碼模型的邏輯審校、解釋與優化;醫療、法律、金融等領域的專業問答;多語種、方言體系的對齊;復雜agent的任務鏈路構建等,越來越多任務必須由碩士、博士來完成。2025年起,這類專業深度的標注需求愈發明顯。
相應的,對參與數據標注的人要求也變得更高,薪資也水漲船高。記者查閱資料發現,在最頭部的平臺,這類人才的時薪已經從幾十漲到400元;醫療、法律類還更高。一位業內人士透露:"有大廠以月薪10萬的價格挖三甲醫院醫生做標注。"
一位金融從業者講述了試工經歷:實際任務是一道開放難題,連頭部大模型都無法直接解答,需應聘者獨立構建推理、提供解析并點評模型錯誤。"我寫了三小時,極其復雜。據說幾十人里就我一個過關。"他8月正式接單,一道金融題常需近4小時,但平臺結算時間封頂3小時。"質檢直接通過,無需返修,說明難度確實高。"
從供給側看,據記者了解,目前字節、騰訊、阿里、百度、美團等大廠,以及最近兩年加速推動大模型落地的大型B端機構是復雜知識類標注任務的主要買方。
大廠普遍自建標注平臺,個人可通過申請進入。以字節為例,其大模型標注與評測平臺Xpert在公開招聘中給出的區間是"100—500元/時",并強調已有專家"每天工作2小時、月入2萬+"。準入門檻同樣不低:要求國內外TOP高校在讀生,碩博優先。
記者了解到,申請流程除了提交基礎資料,還必須參加一次性的準入考試。平臺會在幾天內發放一套考卷,根據得分決定是否通過,且沒有重考機會。題目難度會依領域而異,但整體以專業知識為主,本科至博士階段的學術內容占比很高,也會結合候選人的背景與工作年限進行匹配。
![]()
OpenAI的300位生物學博士,只是開始
全球范圍內的競爭也推高了這股趨勢。OpenAI今年大規模招募生物學博士做專業標注,每小時100美元,300人團隊一周成本120萬美元,相當于一年支出接近6億元人民幣。而這僅是生物學一個領域的數據生產需求。物理、化學、數學、社會科學等專業加起來,數據預算的深度幾乎難以想象。
但錢只是第一步。真正的競爭焦點在于誰能把這些昂貴的專家數據真正轉化為模型能力。
業內普遍認為,這需要兩個工程鏈路同時跑通:能穩定生產高質量、結構化的專業知識;能讓模型真正學到路徑,而不是"背答案"。"如果只是靠人力寫出標準答案給模型背,那意義不大。關鍵是讓模型學到知識的結構。"一位參與某大廠項目的標注專家說。
也因此,資本與企業的注意力正在轉向數據生產的"工程化能力"。在海外,Scale AI、Surge、Mercor等平臺化公司迅速崛起,隨著標準化流程和工具鏈驅動規模增長,估值一路上漲。
Scale AI的成功用"平臺+標注工具+交付體系"模式,將傳統"數據外包"變成了的數據工業化流水線,完成了規模化擴張,最終Meta以約148億美元的價格收購了Scale AI 49%股份的收購。Mercor則憑借其在尖端人才招聘領域的積累,打造了面向高質量數據標注需求的新平臺,一躍成為這個賽道最年輕的百億美金獨角獸初創公司,其估值已突破100億美元。
國內的格局則有所不同。由于數據保密性要求更高,各大廠幾乎都自建平臺,并在內部形成了相對封閉的標注體系,單獨對外靈活招聘。同時,行業最有話語權的一批玩家是語音、自動駕駛和早期CV浪潮中成長起來的公司——海天瑞聲、數據堂、標貝等,它們憑借技術積累在這一輪大模型時代順利完成轉型,至今仍掌握著大量核心供應能力。與此同時,不少初創團隊也在圍繞持續變化的模型能力熱點如AI眼鏡的視覺交互、GUI模型的界面理解等領域,持續供給新的"數據燃料",成為大廠和傳統數據公司的上游補充力量。
數據標注的本質,是教會AI理解人類世界的邏輯、規則與常識。而對專業標準人才的爭奪的背后是一場更為深遠的競爭——在大模型愈發垂直化、復雜化的今天,誰掌握了這套"數據生產工程",誰就握住了下一代人工智能能力的底層鑰匙。
有公司甚至把崗位描述寫得極其文藝:"你將作為AI進化的關鍵參與者,沉淀行業智慧,指引模型能力的邊界。"然而,在這條將人的智慧抽象為"數據燃料"的生產鏈上,最現實、最直接的吸引力,還是錢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.