![]()
一個數據點正在硅谷流傳:75%的網頁內容已被AI生成。Scale AI CEO Alexandr Wang 在最新訪談中拋出這個數字時,整個行業的焦慮被徹底點燃——當機器開始用機器產出的內容訓練自己,這套循環還能轉多久?
數據饑荒:真人內容正在變成戰略物資
Scale AI 的核心業務是為AI公司提供訓練數據。Wang 描述了一個微妙的轉折點:2023年前,企業客戶問的是"能不能搞到更多數據";現在問的是"能不能搞到更多真人數據"。兩個字的差異,折射出整個行業的信任危機。
這種轉變有跡可循。Google 的搜索查詢、reCAPTCHA 的點擊驗證、DoorDash 的配送路線反饋——這些曾被視作副產品的人類行為痕跡,如今被重新定價。Niantic 更典型:《寶可夢Go》玩家隨手拍的街景照片,成了其AI子公司 Niantic Spatial 的地理空間數據庫核心資產。
Wang 的觀察很直接:「企業意識到,合成數據(synthetic data)在特定場景有用,但無法替代人類在真實環境中的決策痕跡。」他的客戶名單包括 OpenAI、Meta 和一眾自動駕駛公司,這些買家正在用真金白銀投票。
合成數據的悖論:越用越像,越像越錯
AI 公司并非沒有嘗試過"自我喂養"。用模型A的輸出訓練模型B,再用模型B的輸出訓練模型C——這套邏輯在數學上成立,在實踐中卻陷入退化循環。
研究人員給這種現象起了個名字:模型崩潰(model collapse)。就像復印機復印復印件,每一代都會丟失一些細節,最終變成無法辨認的噪點。2023年《自然》子刊的一項研究顯示,經過多代合成數據訓練后,模型對 minority groups 的表征會出現系統性扭曲——不是偏見放大,而是事實層面的扭曲。
![]()
Wang 對此的比喻更尖銳:「讓AI只學AI寫的東西,相當于讓一個人只和鏡子里的自己對話。」他的公司因此押注"人類在環"(human-in-the-loop)模式,用真人標注員介入關鍵決策節點,打斷純合成的死亡螺旋。
數據市場的分層:誰在賣,誰在買
真人數據的獲取渠道正在分化成三個層級。
第一層是科技巨頭的"內部油田"。Google 擁有搜索和 YouTube 的獨家開采權;Meta 坐擁數十億用戶的社交圖譜;亞馬遜的物流網絡實時生成物理世界的交互數據。這些公司很少外售核心資產,但會用數據合作換取模型訓練算力。
第二層是專業數據供應商。Scale AI 屬于這一層,雇傭全球約50萬標注員處理圖像、文本和語音。類似玩家還有 Appen、Telus International,它們的商業模式很像石油精煉廠——從各種渠道采購"原油",加工成AI公司需要的標注數據集。
第三層最隱蔽:普通用戶的無意識貢獻。點擊"我不是機器人"時勾選的圖片、語音助手的誤喚醒錄音、甚至智能馬桶的健康數據——這些碎片被聚合、脫敏、再出售。Wang 透露,某些醫療AI公司的訓練數據中,超過30%來自可穿戴設備的"被動采集"。
定價權的轉移:從算力到數據
2022年的AI敘事是"算力即權力",英偉達的GPU決定一切。Wang 認為這個框架正在過時:「前沿模型的差距不在芯片,在數據質量。」他的客戶中,有些公司用同樣的算力預算訓練,效果差異可達40%——差距完全來自訓練數據的清洗標準和人類反饋的介入深度。
![]()
這種變化正在重塑投資邏輯。紅杉資本2024年的AI報告中,"數據護城河"首次與"模型架構"并列評估維度。更激進的信號來自 OpenAI:2023年底與 Axel Springer 簽訂的內容授權協議,本質是用現金換取高質量人類文本的獨家開采權。
但數據交易的市場化也帶來新問題。Reddit 2024年修改API條款,對第三方數據抓取收費,直接導致多個學術研究項目中斷。當人類內容變成可囤積的商品,公共知識庫的開放性正在收縮。
75%之后的懸念
Wang 沒有解釋"75%網頁為AI生成"的具體測算方法,但這個數字本身已經成為行業隱喻。它暗示的不僅是內容質量的稀釋,更是一種結構性焦慮:當合成數據占比越過某個閾值,整個互聯網的"信噪比"可能發生不可逆的惡化。
一些公司正在嘗試技術解決方案。C2PA 內容溯源標準試圖給數字內容貼上"出生證明",追蹤其創作鏈條;Kaggle 等平臺的真人競賽數據被重新評估價值;甚至有初創公司專門提供"前2023年互聯網"的歸檔數據,作為"純凈訓練集"出售。
Wang 的立場很明確:合成數據不會消失,但必須與人類數據混合使用,比例和介入方式取決于具體場景。他的公司正在測試一種"動態配比"系統,根據模型在特定任務上的表現,實時調整合成與真人數據的比例。
采訪結束前,記者問了最后一個問題:如果五年后真人數據真的耗盡,Scale AI 的業務怎么辦?Wang 停頓了兩秒:「那我們可能需要重新定義'人類'——不是生物學意義上的,而是指那些能做出不可預測選擇的智能體。」
這個回答沒有出現在新聞稿里,但被在場的人記了下來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.