網易首頁 > 網易號 > 正文申請入駐

AI都有“代餐”和“預制菜”了！后果嚴重！

2025-11-11 07:07:12　來源: 秦朔朋友圈

上海舉報

分享至

10月30日，英偉達成為人類第一個市值跨過5萬億美元門檻的公司，人工智能的發展被繼續提速。

但在這場舉世矚目的繁榮背后，很少有人真正關注到一個更深層次的危機正在悄然醞釀：AI的野蠻生長已經到了臨界點，合成數據正以驚人速度碾壓真實數據。

各類語言大模型對數據的胃口普遍到了令人恐怖的程度——ChatGPT的訓練數據達到45TB，包含近萬億詞的文本，GPT-5的數據需求更加驚人。

然而互聯網并不是無限糧倉，研究預測顯示高質量文本數據最早將在2026年至2032年間被耗盡。

面對“數據荒”，AI產業正在進行一場看似完美的自救——用AI生成的“合成數據”來填補黑洞。

但這場自救隱藏著一個深刻的悖論：當AI越來越多地以AI生成的數據為食時，錯誤和偏見在封閉循環中被無限放大，模型性能逐代退化。

數據失真問題不會隨著AI的發展而自我解決，反而會越來越嚴重。最終的結果是，真假難辨、無法自拔的惡性循環正在形成，而這一切的代價，可能遠比市場看到的那5萬億美元要深遠得多。

合成數據：AI代餐預制菜

互聯網正在成為AI模型的“獵場枯竭區”。ChatGPT訓練所用的45TB文本數據，對標的是近萬億詞的語料庫，這個規模已經是互聯網歷史上最大規模的數據采集。

真實數據的供給之所以捉襟見肘，不僅因為量少，還有質劣和限制多重疊加?，F實數據天然充滿噪聲、錯誤和偏見，網絡文本魚龍混雜，有研究顯示ChatGPT等大模型已經從訓練語料中繼承了胡編亂造和傾向性之類的問題。

同時，全球隱私法規日趨嚴格，大量涉及個人隱私的真實數據無法直接用于AI訓練。

歐盟《通用數據保護條例》GDPR、中國《數據安全法》等一系列規定讓用戶的聊天記錄、郵件內容、醫療檔案等雖然對訓練有價值，卻受法律保護不可濫用。

在這樣的夾縫中，“數據荒”成為橫亙在AI繼續進化道路上的巨大障礙。

在這種被逼無奈的背景下，合成數據應運而生。它宣稱可以一舉化解傳統數據供給的多個難題。

理論上，只要算力充足，合成數據可以按需無限生產，不像真實數據受制于人類活動和采集周期。

人工標注一張圖像約需6美元，而用生成算法合成僅需0.06美元，成本優勢達到百倍。

合成數據的生產速度很快，利用云端集群幾天即可產出數十萬張圖像，傳統實地采集可能要數月甚至數年。

在隱私合規上，合成數據不直接引用具體個人信息，被視為一種隱私增強技術。使用合成患者病歷訓練AI診斷模型，可以避免觸碰真實病人的隱私。用仿真交易數據訓練金融風控模型，不會違反用戶數據保護規定。

這些誘人的前景讓合成數據正快速從實驗室走向產業。咨詢公司Gartner曾預測，到2030年合成數據將成為AI主要訓練源。

市場研究機構預計全球合成數據市場規模將以每年50%以上的速度增長。科技巨頭紛紛投入開發合成數據工具鏈。微軟、亞馬遜、谷歌等在云服務中都提供自動化合成數據平臺。在自動駕駛、機器人等垂直領域，一批垂直領域的合成數據創業公司快速崛起，融資熱度不減。

數據循環中的自我毒害

當AI開始大量以自食其力生成的數據為食時，一個致命的邏輯鏈條隨之啟動。這不是新穎的理論警告，而是已經被學術界用嚴謹實驗驗證的現實風險。

最近發表于《Nature》的研究給了這一現象一個明確的定義：模型崩潰是一個退化過程，模型生成的內容會污染下一代訓練數據，新模型在被污染數據上訓練后愈發誤解現實。

這個過程類似于近親繁殖或閉門造車，AI模型只和自己的“后代”對話，不再接觸新鮮真實的信息，最終會遺忘原有的見識，變得愈發愚鈍和偏狹。

實驗數據足夠駭人。研究人員用維基百科文章訓練了初代模型，讓其續寫中世紀建筑的文本。前幾代的輸出看起來尚可接受，但隨著合成數據迭代訓練，模型的回答逐漸語無倫次。到第五代時，輸出內容已經完全與輸入無關，充斥無意義的字符。到第九代時，模型已經徹底迷失自我，開始羅列兔子名字，離題萬里。

這不是孤立案例。劍橋大學和牛津大學的研究用125M參數的小模型驗證了相同的規律：只需用幾代模型生成的數據訓練數輪，模型性能便急劇滑坡。更可怕的是，這種退化一旦開始，就會呈現指數級加速。

Meta的模擬實驗揭示了更險惡的規律：僅1%的合成數據摻入都可能令大模型性能出現顯著下降。而且這個規律有一個明確的傾向——模型規模越大，崩潰現象越嚴重。參數越多的模型，對合成數據的“毒性”越敏感。這意味著那些性能最強、最受關注的大模型，反而最容易在合成數據的侵蝕中走向崩潰。

這不僅僅是技術層面的問題，更是一場關乎整個產業生態的危機。如果最先進的模型率先陷入這個泥沼，后續的研發和應用勢必受到致命打擊。

從幻覺到長尾消失

隨著合成數據的深度迭代使用，AI生成內容的質量開始出現多維度的惡化。

首先是“幻覺”加劇。模型輸出看似合理，實則荒誕，這種胡編亂造在每一輪迭代中都被強化而非糾正。

如果初代模型的輸出本身就含有錯誤，第二代模型學到的就是這種錯誤的模式，第三代則進一步強化了這種錯誤。錯誤像基因突變一樣在傳遞中累積放大。

其次是多樣性的衰減。模型往往高頻復用前代數據中常見的模式和詞句，輸出內容日趨單一和刻板，語言的豐富性逐步被侵蝕。

在圖像領域，實驗發現多代合成訓練后，生成的圖像細節盡失，風格趨同。最初幾代還像模像樣，迭代數次后畫出來的物體已經“面目全非”，失去真實世界的多樣性。

最嚴重的是長尾知識的消失。因為AI生成的數據大多基于主流模式，很少涵蓋極端或罕見情況，模型對長尾分布愈發陌生。用合成常見路況訓練的無人車模型，可能完全沒有見過真實世界中特殊天氣或奇異交通行為的場景。

這對安全要求極高的應用領域，如醫療診斷、自動駕駛、金融風控，構成了致命威脅。一個從未見過罕見疾病的診斷模型，可能在面對真實患者時徹底失效。

危機的工程學答案

不過，模型崩潰并非完全不可避免，而是可以用適當的工程方案加以解決。Nature的實驗確實顯示了危險，但同時也揭示了臨界點：當合成數據比例保持在30%～50%以下，并與高質量真實數據混合時，模型性能的退化曲線趨于平緩。

這意味著“崩潰”不是合成數據本身的原罪，而是比例失控的后果。

已有的緩解方案正在被實踐驗證——

真實數據的“硬杠桿”設置：強制保持訓練集的50%～70%來自真實世界，可以有效阻止熵坍塌；

更精細的詞元級編輯技術，即在真實句子上做細粒度改寫而非完全生成，同等數據量下能將困惑度降低8%～12%；

分布校正則通過重采樣和重要性加權保留低頻樣本，恢復長尾覆蓋率20%以上；

在醫療影像等高風險領域，引入人機協同驗證機制，由專家對關鍵樣本進行審計反饋，誤報率從9%降至3%；

物理仿真加真實閉環的方案：用仿真生成邊緣場景，再用真實路測校準，讓英偉達的自動駕駛路測事故率下降了18%。

這些都不是理論設想，而是已經寫入TensorFlow、NVIDIA Omniverse和微軟Azure中的開源工具。問題的關鍵不在于AI公司們能不能做到，而在于有沒有意愿堅守。

危機解法需要新的激勵

工程學的工具箱已經備好，但為什么企業仍在鋌而走險？答案很簡單：成本。把真實數據比例寫進代碼是容易的，困難的是在商業競爭中堅守這條底線。

監管框架本應阻止這種滑落，但現實的監管空窗讓企業有了充足的騰挪空間。GDPR和《數據安全法》確實要求“可審計”，但在AI訓練的源頭，這一要求形同虛設。

要打破這個悖論，需要改變激勵結構本身。監管部門必須讓“保留真實”成為最便宜、最安全的選項，而非最昂貴的道德選擇。

首先是建立真正有約束力的準入門檻。醫療、金融、自動駕駛等關鍵領域的訓練集必須包含50%以上的真實數據，低于這個紅線就無法獲批上線；

其次是建立可追溯的質檢機制。企業需要公開數據來源和檢驗報告，虛假標注將被視為“不合格產品”進行處罰；

第三是改變違規成本的天平。高額罰款加行業黑名單，讓“偷工減料”比“老實采購”更貴。

同時，政府應該主動降低企業獲取真實數據的成本，這是改變市場選擇的另一把鑰匙。

結語

在電影《黑客帝國》中，按照建筑師的說法，母體Matrix系統曾經連續6次崩潰，而原因并不是因為它使用了虛擬數據——整個系統本身就是虛擬的。

真正的致命之處在于系統徹底斷開了與真實世界的聯系，走進了一個完全的自我循環。

但電影也留下了一條逃生之路：只要系統保留一條與真實世界對話的“后門”，崩潰就可以被識別、被重啟、被修復。

今天，我們面對的AI危機其實也有同樣的“逃生鑰匙”。問題不在于能不能使用合成數據，而在于有沒有意愿保留“真實的插頭”。

當真實數據的比例被強制鎖定在30%以上、當每條合成樣本都標上溯源標簽、當困惑度指標連續下降時系統自動告警，模型崩潰就從“宿命”變成了“可控的邊界”。

這些都不是黑科技，而是工程學已經提供的、成熟的解決方案。

英偉達、微軟、谷歌已經在云服務中提供了質檢和溯源的功能，但沒有強制性的要求，企業就會選擇忽視。歐盟的《AI法案》、中國的《數據安全法》提出了可審計的要求，但如果只在部署階段補救而不在訓練源頭把關，監管就形同虛設。

所以，沉重的現實擺在面前！要么現在就設定清晰的工程紅線，讓合成數據永遠被真實世界的“抗體”錨定；要么繼續在短期效益的誘惑中滑行，直到有一天發現AI系統已經徹底迷失在自己的幻覺里，如同Matrix那樣無法逆轉。

No.6617 原創首發文章｜作者朱兆一

開白名單 duanyu_H｜投稿 tougao99999

歡迎點看【秦朔朋友圈】

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

景不動人動，OST-Bench揭示多模態大模型在線時空理解短板

機器之心Pro 2025-10-14 16:42:00
0 跟貼 0
「不僅會想，還能準確去做」VLA-R1把「推理+行動」帶進真實世界

機器之心Pro 2025-10-27 19:12:41
0 跟貼 0

為AI科學家提供安全鎖：UIUC團隊提出新框架，安全性能提升35%

DeepTech深科技 2025-12-06 21:15:35
0 跟貼 0

浙大00后碩士破局AI記憶難題！新技術讓長對話響應速度快十余倍

DeepTech深科技 2025-12-05 21:26:28
0 跟貼 0
【GET2025】阿里云張博：全棧AI助力在線教育全場景創新

芥末堆看教育 2025-12-07 19:38:11
0 跟貼 0

英霸已老，谷王當立 | 財經峰評

鈦媒體APP 2025-12-07 22:30:21
0 跟貼 0

靠一臺電腦和3D打印機，80后男子在杭州車庫手搓機器人

環球網資訊 2025-12-07 21:06:10
77 跟貼 77
當AI接管一切，人類存在的意義還剩什么？教皇警醒世人

新智元 2025-12-07 19:51:12
0 跟貼 0

【GET2025】即構科技：RTC+AI，AI伴學開啟在線課堂新范式

芥末堆看教育 2025-12-07 19:39:10
0 跟貼 0
北大才女成硅谷毒梟，用算法給10萬人投du

大貓財經Pro 2025-12-04 22:26:55
4 跟貼 4
幾萬塊壓包機被說預制菜，老板有苦說不出，果然野豬吃不來細糠

憨豆冒險旅行 2025-12-07 09:18:40
0 跟貼 0
成本0.3美元，耗時26分鐘！CudaForge：顛覆性低成本CUDA優化框架

機器之心Pro 2025-11-17 18:45:03
0 跟貼 0
輕量高效，即插即用：Video-RAG為長視頻理解帶來新范式

機器之心Pro 2025-10-20 18:23:17
0 跟貼 0
最愛吃的豬頭肉，意外發現是預制菜，愛吃豬頭肉的孩子碎了！

搞笑喵 2025-12-05 13:43:08
1 跟貼 1
推理新范式：動態效能算法讓算力資源實現最大化

智東西 2025-11-12 19:58:10
0 跟貼 0
北京胡同大爺說預制菜，出問題要嚴懲，鼓勵年輕人在家自己預制

地球小百科 2025-12-06 09:39:13
0 跟貼 0
老師陪學生做實驗，就地取材寓教于樂，孩子就是拿來玩的！

大蘭愛搞笑 2025-12-05 17:48:56
1 跟貼 1
哈工深大女生吐槽學計算機后自己是傻瓜!網友:你都不會,那雙非呢?

趣筆談 2025-12-07 14:21:24
18 跟貼 18
新型設計：RCT設置并行的真實世界數據收集

醫咖會 2025-09-11 20:04:56
0 跟貼 0
老外奇葩實驗

博聞視角 2025-12-05 14:08:01
0 跟貼 0
遇見小面連青菜都是預制菜？客服：加盟商只需準備剪刀和微波爐

柴狗夫斯基 2025-12-04 17:38:28
25 跟貼 25
真實世界研究的數據來源和流程

醫咖會 2025-09-11 20:04:50
0 跟貼 0
都說“預制菜”不好，為什么年輕人們還要“搶”著吃

虎嗅APP 2025-09-23 07:43:12
43 跟貼 43
剪刀拆袋即賣，遇見小面被網友質疑，雜醬、擂椒都是預制的！

你食不食油餅 2025-12-05 19:24:50
4 跟貼 4
這是把孩子當衣服實驗品嗎

橙子不是橘子 2025-12-06 18:02:19
1 跟貼 1
老美哪有六代機？我們也沒有真正的溜達雞

北京作家編劇肥豬滿圈 2025-12-07 18:18:18
0 跟貼 0
飯店點菜避坑指南：這4道菜慎點，可能全是預制菜，看后漲知識了

思思夜話 2025-12-05 19:56:31
13 跟貼 13
真是邏輯詭才啊，這么刁鉆的角度他是咋想到的

天才設計師 2025-12-06 23:22:23
0 跟貼 0
假扮男人做實驗最后搞得自己崩潰

多奇探知 2025-12-06 15:04:18
0 跟貼 0
是時候重新定義“朋友”了：基因如何影響孩子們的友誼選擇

科學伙伴 2025-12-07 14:25:46
0 跟貼 0
2025 ASH | 張曦教授點評：海曲泊帕治療ITP真實世界療效再添新證，賦能全病程個體化管理

醫脈通 2025-12-06 18:12:32
0 跟貼 0
算法的甜味：奶皮子糖葫蘆，如何精準投喂了這一屆年輕人？

中國社會科學網 2025-12-07 16:36:31
0 跟貼 0
西貝已死，能救活西貝的只有一個人

互聯網思維 2025-09-25 23:36:19
5610 跟貼 5610
FSHW | 從餐桌到臨床：代餐的生物醫療潛力解析

食品科學雜志 2025-12-03 22:00:39
2 跟貼 2
招人！部分崗位學歷初中以上

i金山 2025-12-06 10:18:14
0 跟貼 0
為什么對罪犯“越狠”，可能害處越大？——刑罰計算的底層邏輯

周兆成律師 2025-12-06 10:00:00
26 跟貼 26
人民日報：對最忙五人組不能一笑了之更需一查到底

人民網-人民日報 2025-12-07 16:49:26
5091 跟貼 5091
3000字拆解長城VLA，“AI越害怕”，駕駛越安全

駕仕派 2025-12-07 15:35:08
0 跟貼 0
俄官員：缺勞動力俄羅斯準備迎接"無限量"的印度工人

澎湃新聞 2025-12-07 22:25:23
3153 跟貼 3153
原來樊振東的女神是她！因訂婚火遍全網，曾在比賽前去看她而被罵

春若秋水 2025-12-08 01:51:33
1 跟貼 1

秦朔朋友圈

著名財經觀察家秦朔發起

6907文章數 281154關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

親子

手機

健康

游戲

手機 / 數碼

房產 / 家居

AI都有“代餐”和“預制菜”了！后果嚴重！

獨家|李笛再創業，炮轟大模型，再戰AI

馬斯克一句話說到梅德韋杰夫心里 卻引發歐洲政治風暴

馬斯克一句話說到梅德韋杰夫心里 卻引發歐洲政治風暴

梅開48度！2年半，這是梅西在邁阿密的一人一城

林俊杰AAA頒獎禮，韓娛愛豆均站起鞠躬

五糧液降價？回應來了

傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

態度原創

遼京：當一個媽媽開始寫作

最近一次開懷大笑是因為什么? 網友分享: 必須給姑娘撐場子

華為Mate80系列：已推送新系統版本！花粉：還沒搶到呢

甲狀腺結節"排雷"指南

重生之年我在倩女端游做地府主君，主導生死！這波操作太上頭

AI都有“代餐”和“預制菜”了！后果嚴重！

獨家|李笛再創業，炮轟大模型，再戰AI

馬斯克一句話說到梅德韋杰夫心里卻引發歐洲政治風暴

馬斯克一句話說到梅德韋杰夫心里卻引發歐洲政治風暴

林俊杰AAA頒獎禮，韓娛愛豆均站起鞠躬

傳奇超跑電動形態重生雷克薩斯LFA純電概念車

華為Mate80系列：已推送新系統版本！花粉：還沒搶到呢

重生之年我在倩女端游做地府主君，主導生死！這波操作太上頭