<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI公司狂囤真人數據:75%網頁已變"合成垃圾"

      0
      分享至


      一個數據點正在硅谷流傳:75%的網頁內容已被AI生成。Scale AI CEO Alexandr Wang 在最新訪談中拋出這個數字時,整個行業的焦慮被徹底點燃——當機器開始用機器產出的內容訓練自己,這套循環還能轉多久?

      數據饑荒:真人內容正在變成戰略物資

      Scale AI 的核心業務是為AI公司提供訓練數據。Wang 描述了一個微妙的轉折點:2023年前,企業客戶問的是"能不能搞到更多數據";現在問的是"能不能搞到更多真人數據"。兩個字的差異,折射出整個行業的信任危機。

      這種轉變有跡可循。Google 的搜索查詢、reCAPTCHA 的點擊驗證、DoorDash 的配送路線反饋——這些曾被視作副產品的人類行為痕跡,如今被重新定價。Niantic 更典型:《寶可夢Go》玩家隨手拍的街景照片,成了其AI子公司 Niantic Spatial 的地理空間數據庫核心資產。

      Wang 的觀察很直接:「企業意識到,合成數據(synthetic data)在特定場景有用,但無法替代人類在真實環境中的決策痕跡。」他的客戶名單包括 OpenAI、Meta 和一眾自動駕駛公司,這些買家正在用真金白銀投票。

      合成數據的悖論:越用越像,越像越錯

      AI 公司并非沒有嘗試過"自我喂養"。用模型A的輸出訓練模型B,再用模型B的輸出訓練模型C——這套邏輯在數學上成立,在實踐中卻陷入退化循環。

      研究人員給這種現象起了個名字:模型崩潰(model collapse)。就像復印機復印復印件,每一代都會丟失一些細節,最終變成無法辨認的噪點。2023年《自然》子刊的一項研究顯示,經過多代合成數據訓練后,模型對 minority groups 的表征會出現系統性扭曲——不是偏見放大,而是事實層面的扭曲。


      Wang 對此的比喻更尖銳:「讓AI只學AI寫的東西,相當于讓一個人只和鏡子里的自己對話。」他的公司因此押注"人類在環"(human-in-the-loop)模式,用真人標注員介入關鍵決策節點,打斷純合成的死亡螺旋。

      數據市場的分層:誰在賣,誰在買

      真人數據的獲取渠道正在分化成三個層級。

      第一層是科技巨頭的"內部油田"。Google 擁有搜索和 YouTube 的獨家開采權;Meta 坐擁數十億用戶的社交圖譜;亞馬遜的物流網絡實時生成物理世界的交互數據。這些公司很少外售核心資產,但會用數據合作換取模型訓練算力。

      第二層是專業數據供應商。Scale AI 屬于這一層,雇傭全球約50萬標注員處理圖像、文本和語音。類似玩家還有 Appen、Telus International,它們的商業模式很像石油精煉廠——從各種渠道采購"原油",加工成AI公司需要的標注數據集。

      第三層最隱蔽:普通用戶的無意識貢獻。點擊"我不是機器人"時勾選的圖片、語音助手的誤喚醒錄音、甚至智能馬桶的健康數據——這些碎片被聚合、脫敏、再出售。Wang 透露,某些醫療AI公司的訓練數據中,超過30%來自可穿戴設備的"被動采集"。

      定價權的轉移:從算力到數據

      2022年的AI敘事是"算力即權力",英偉達的GPU決定一切。Wang 認為這個框架正在過時:「前沿模型的差距不在芯片,在數據質量。」他的客戶中,有些公司用同樣的算力預算訓練,效果差異可達40%——差距完全來自訓練數據的清洗標準和人類反饋的介入深度。


      這種變化正在重塑投資邏輯。紅杉資本2024年的AI報告中,"數據護城河"首次與"模型架構"并列評估維度。更激進的信號來自 OpenAI:2023年底與 Axel Springer 簽訂的內容授權協議,本質是用現金換取高質量人類文本的獨家開采權。

      但數據交易的市場化也帶來新問題。Reddit 2024年修改API條款,對第三方數據抓取收費,直接導致多個學術研究項目中斷。當人類內容變成可囤積的商品,公共知識庫的開放性正在收縮。

      75%之后的懸念

      Wang 沒有解釋"75%網頁為AI生成"的具體測算方法,但這個數字本身已經成為行業隱喻。它暗示的不僅是內容質量的稀釋,更是一種結構性焦慮:當合成數據占比越過某個閾值,整個互聯網的"信噪比"可能發生不可逆的惡化。

      一些公司正在嘗試技術解決方案。C2PA 內容溯源標準試圖給數字內容貼上"出生證明",追蹤其創作鏈條;Kaggle 等平臺的真人競賽數據被重新評估價值;甚至有初創公司專門提供"前2023年互聯網"的歸檔數據,作為"純凈訓練集"出售。

      Wang 的立場很明確:合成數據不會消失,但必須與人類數據混合使用,比例和介入方式取決于具體場景。他的公司正在測試一種"動態配比"系統,根據模型在特定任務上的表現,實時調整合成與真人數據的比例。

      采訪結束前,記者問了最后一個問題:如果五年后真人數據真的耗盡,Scale AI 的業務怎么辦?Wang 停頓了兩秒:「那我們可能需要重新定義'人類'——不是生物學意義上的,而是指那些能做出不可預測選擇的智能體。」

      這個回答沒有出現在新聞稿里,但被在場的人記了下來。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      鬧大了!美軍東太平洋再開火!打爆44艘運輸船,150人被打死!

      鬧大了!美軍東太平洋再開火!打爆44艘運輸船,150人被打死!

      愛吃醋的貓咪
      2026-03-25 20:19:15
      沙特實戰封神!中國“天盾”21發全中,15億美制系統竟慘遭反殺

      沙特實戰封神!中國“天盾”21發全中,15億美制系統竟慘遭反殺

      老黯談娛
      2026-03-26 00:21:27
      都被騙了!從王金平、張顯耀到蕭旭岑看透馬英九的偽君子真面目

      都被騙了!從王金平、張顯耀到蕭旭岑看透馬英九的偽君子真面目

      現代小青青慕慕
      2026-03-26 00:34:54
      張雪峰最心疼的三個人:妻子閃婚陪他打拼,女兒是他放不下的軟肋

      張雪峰最心疼的三個人:妻子閃婚陪他打拼,女兒是他放不下的軟肋

      可樂談情感
      2026-03-25 19:58:12
      曼晚:胖虎合同有首發35場英超自動續約條款,但雙方同意放棄

      曼晚:胖虎合同有首發35場英超自動續約條款,但雙方同意放棄

      懂球帝
      2026-03-25 18:44:04
      學醫后才知道,保護心血管最好的運動,不是慢跑快走,而是這個

      學醫后才知道,保護心血管最好的運動,不是慢跑快走,而是這個

      醫學科普匯
      2026-03-23 21:55:03
      杭州球場突發,40歲男子心臟驟停倒地!緊急提醒:有這些信號,千萬別硬扛!

      杭州球場突發,40歲男子心臟驟停倒地!緊急提醒:有這些信號,千萬別硬扛!

      環球網資訊
      2026-03-25 17:34:17
      特朗普宣布:對伊朗戰爭已勝利,收到伊朗“價值連城的厚禮,與石油天然氣有關”!美國油價1個月暴漲35%,特朗普支持率大跌至36%創新低

      特朗普宣布:對伊朗戰爭已勝利,收到伊朗“價值連城的厚禮,與石油天然氣有關”!美國油價1個月暴漲35%,特朗普支持率大跌至36%創新低

      每日經濟新聞
      2026-03-25 12:22:42
      不可思議,德國人急了,日本急了,美國也急了,中國這下贏麻了。

      不可思議,德國人急了,日本急了,美國也急了,中國這下贏麻了。

      阿七說史
      2026-03-09 16:01:03
      警醒!中國該提防巴基斯坦了,他們的小孩,隨口就說“秦腔窮”

      警醒!中國該提防巴基斯坦了,他們的小孩,隨口就說“秦腔窮”

      原來仙女不講理
      2026-03-25 17:54:03
      別上頭,反彈就減倉?

      別上頭,反彈就減倉?

      隔壁老投
      2026-03-25 14:33:48
      高三男孩喀納斯湖失蹤,母親守岸7天后直言放棄,意外竟在此時發生

      高三男孩喀納斯湖失蹤,母親守岸7天后直言放棄,意外竟在此時發生

      古怪奇談錄
      2025-10-16 10:53:42
      上海一男子每天3包煙,持續幾十年!醫生:全身沒一根血管是好的

      上海一男子每天3包煙,持續幾十年!醫生:全身沒一根血管是好的

      上觀新聞
      2026-03-24 13:32:07
      張雪峰經典名言 100 條(完整版)

      張雪峰經典名言 100 條(完整版)

      新浪財經
      2026-03-25 06:17:25
      納斯達克綜合指數向上觸及22000點,最新報22011.97點,日內上漲1.15%

      納斯達克綜合指數向上觸及22000點,最新報22011.97點,日內上漲1.15%

      每日經濟新聞
      2026-03-25 22:26:16
      遼寧隊為何輸給吉林?賽后烏戈怒批球隊,直指三問題,一針見血

      遼寧隊為何輸給吉林?賽后烏戈怒批球隊,直指三問題,一針見血

      南海浪花
      2026-03-25 23:18:59
      年薪1億歐!曝33歲薩拉赫將簽沙特聯賽2年 新東家浮現:未聯手C羅

      年薪1億歐!曝33歲薩拉赫將簽沙特聯賽2年 新東家浮現:未聯手C羅

      風過鄉
      2026-03-25 12:13:30
      NBA新秀榜:克努佩爾榜首,前三保持不變,哈珀升至第四

      NBA新秀榜:克努佩爾榜首,前三保持不變,哈珀升至第四

      懂球帝
      2026-03-26 00:45:09
      金價銀價,突然飆升

      金價銀價,突然飆升

      環球網資訊
      2026-03-25 10:53:11
      張雪峰去世,開啟天花板悼念模式,官媒、AC米蘭、鄭大、大V在列

      張雪峰去世,開啟天花板悼念模式,官媒、AC米蘭、鄭大、大V在列

      好賢觀史記
      2026-03-25 18:14:26
      2026-03-26 06:03:00
      灰度測試中
      灰度測試中
      生活正在重構,目前還在灰度測試階段,暫不全量發布。
      58文章數 0關注度
      往期回顧 全部

      科技要聞

      紅極一時卻草草收場,Sora宣布正式關停

      頭條要聞

      伊朗軍方稱擊落美軍F-18戰機 現場畫面披露

      頭條要聞

      伊朗軍方稱擊落美軍F-18戰機 現場畫面披露

      體育要聞

      35歲替補門將,憑什么入選英格蘭隊?

      娛樂要聞

      張雪峰遺產分割復雜!是否立遺囑成關鍵

      財經要聞

      管濤:中東局勢如何影響人民幣匯率走勢?

      汽車要聞

      智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

      態度原創

      教育
      家居
      藝術
      手機
      數碼

      教育要聞

      雄安新區:北京史家胡同小學分校,傳承“和諧教育”理念

      家居要聞

      輕奢堇天府 小資情調

      藝術要聞

      原來唐朝貴婦的生活,比我們還會享受!

      手機要聞

      Bigme大我HiBreak Plus彩墨屏手寫手機亮相,預售價1699元

      數碼要聞

      英特爾發布基于第三代酷睿Ultra處理器vPro平臺

      無障礙瀏覽 進入關懷版