網易首頁 > 網易號 > 正文申請入駐

七年后，才發現誤會了老實人李彥宏

2025-09-18 22:24:40　來源: 財經故事薈

浙江舉報

分享至

隱私更安全和AI更聰明，你只能二選一了？

采寫/袁榭

編輯/天南

9月初，估值超過1800億美金的AI大廠Anthropic，宣布禁止中國公司控制的實體、在海外的分支機構等使用其主要產品Claude系列提供的AI服務。

靠“斷供”揚名的前后腳，Anthropic還悄悄修改了用戶隱私政策：所有Claude產品的個人消費用戶必須在9月28日前決定，“是否同意讓自己與AI對話、編碼等互動數據用于模型訓練”。

用大白話說，從9月28日起，個人用戶和Claude的對話、寫碼等數據，將被默認授權拿去訓練模型，除非用戶在交互界面手動點擊“不同意”。選擇“同意”的用戶數據將會被保留5年，選擇“不同意”的用戶數據將被保留30天。

此政策變動涵蓋Claude系列產品的Free、Pro和Max用戶，也就是該產品的所有免費和付費的個人用戶。提供給企業客戶的Claude for Work、給政府機構客戶的Claude Gov、給學術機構客戶的Claude for Education，和通過谷歌、亞馬遜等企業API接口調用的商業用戶則不在此變動的影響范圍內。

先別吐槽Anthropic“耍流氓”。只能說，這家公司面臨當下AI訓練優質數據枯竭的困境，選擇了和其他中外AI大廠差不多的應對之策，不得不降低用戶隱私保護標準。

這個真相，李彥宏七年前就已揭示過，當時還引得大眾一片吐槽，“我想中國人可以更加開放，對隱私問題沒有那么敏感。如果他們愿意用隱私交換便捷性，很多情況下他們是愿意的，那我們就可以用數據做一些事情”。

其實，老實人李彥宏，只是把其他AI廠商的心里話放在明面上了。

一、要么向AI交錢，要么向AI“交數據”？

大模型用戶的活動數據，作為訓練數據是最優質的。因為用戶的使用過程，本身就是對模型生成答案向真實世界基準值的調校和標注。

從2023年開始，OpenAI奠定了AI大廠們對待用戶數據的主流態度：付費或者明確拒絕的用戶，不用其對話數據訓練AI模型。低付費和免費用戶若不主動點擊界面的“拒絕”按鈕，默認將其對話數據作為訓練數據來源。

2023年4月底，OpenAI允許所有ChatGPT用戶關閉聊天記錄。禁用聊天記錄后開始的對話不會用于訓練和改進AI模型。隨后，OpenAI表示計劃推出ChatGPT Business，稱這是為“需要更多控制數據的專業人士以及尋求管理最終用戶的企業”開發，默認情況下不會調取用戶的數據來訓練模型。

2023年5月初，OpenAI的CEO山姆·阿爾特曼稱公司不再使用API（應用程序接口）客戶的數據，去訓練ChatGPT模型，因為很多客戶曾明確表示拒絕。

這些“宣示”不妨反著讀——不付費或者付費不多的普通用戶如果沒明確拒絕，數據和聊天記錄可能被默認可以用于模型訓練。

時至今日，這已經是全球AI大廠普遍認可的通用標準。

在用戶數據權限上，Anthropic曾是大廠中的少數異類。舊版本的Anthropic產品的隱私政策明確規定：用戶不需要額外操作，就默認不使用用戶對話數據來訓練模型。直到最近，Anthropic調低了用戶隱私保護的標準，和一眾AI大廠看齊。

舊版Anthropic用戶政策明說默認不使用用戶數據訓練模型，包括免費

不止海外大廠，中國大模型廠商亦是如此，官方法規也承認了AI模型供應商使用用戶對話和活動數據訓練模型的合法性。

中國2024年2月頒布的官方標準TC260-003《生成式人工智能服務安全基本要求》（以下簡稱《要求》）第5.1條規定：“將使用者輸入信息當作語料時，應具有使用者授權記錄”。

第7.c條則規定：“當收集使用者輸入信息用于訓練時：

1）應為使用者提供關閉其輸入信息用于訓練的方式，例如為使用者提供選項或語音控制指令；關閉方式應便捷，例如采用選項方式時使用者從服務主界面開始到達該選項所需操作不超過4次點擊；

2）應將收集使用者輸入的狀態，以及1）中的關閉方式顯著告知使用者”。

《財經故事薈》嘗試測評了主流國產大模型的數據隱私合規性，確定大廠們大多做到了前述《要求》第5.1條的授權條款，但并非所有大廠完全做到第7.c條的“便捷撤回授權”條款。

國產大模型產品基本會在“用戶協議”的“隱私政策”與“知識產權”部分，完成授權合規動作，要求用戶授權使用數據，措辭大同小異：

“用戶輸入的信息經過安全加密技術處理、嚴格去標識化且無法重新識別特定個人......授權我們用于優化/改進/訓練模型和服務……”。

關于撤回授權的方式，幾乎所有國產大模型的“用戶協議”都表示，用戶在授權后可以拒絕，不過要按用戶協議公示的聯系方式向客服反饋，或發送聯系郵件。

這是軟件業過去遵循《中華人民共和國個人信息保護法》第15條的保底合規方式，很難視為符合《要求》第7.c條明確規定的“撤回從主界面開始不超過4步”要求。

根據《財經故事薈》測評，目前主流國產大模型產品中，豆包、通義千問等在App客戶端界面提供了語音信息的便捷關閉功能。例如豆包用戶可通過關閉“設置”-“隱私與權限”-“改進語音服務”中的按鈕來撤回授權，此功能并不涵蓋用戶非語音的其他輸入數據。騰訊元寶和DeepSeek則在“用戶設置”-“數據管理”-“優化體驗”中的按鈕能提供用戶對話內容的完全授權撤回。

二、AI不會主動泄露隱私，但員工是風險變量

眼下，讓大模型用戶掛心的，是自己的隱私數據會否被大模型當成答案滿世界分發。其實，主流AI大模型產品基本能保障不會被簡單提示詞直接誘導出用戶隱私信息。

2024年9月，字節跳動研究人員曾做過測評，試圖用輸入關鍵字提示詞，誘使大模型說出不合規、帶隱私性的數據。

在這個實驗的系列測試中，“隱私信息提取”安全測試是直接拿大模型“用戶協議”里提到的關鍵字硬問用戶私密信息，得分前三甲分別是99.8分的谷歌gemini-1.5-flash、99.7分的月之暗面的moonshot_8k_v、99.6分的GPT-4o。

“合法規關鍵點”檢測是評估大模型對用戶私密信息的第三方分享權限、處理時長有無超標、存儲地點的安全性、隱私政策的時效性、用戶行使數據隱私權在產品用戶協議中的描述等方面，得分最高的是94.4分的OpenAI的GPT系列與谷歌gemini-1.5-flash 。

在研究中，測試人員直接詢問主流AI產品“某用戶姓名/住址/手機號”，基本無法獲得真實答案。

研究者測試大模型的提問關鍵字集合

系統還算可靠，但人未必可靠。算法程序不會滿世界張揚用戶的隱私數據，AI公司員工出個BUG，很有可能就會無意間導致用戶隱私泄露。

2025年夏天，業界發生了數起暴露用戶對話等隱私記錄的安全事故。

7月，一個生成情話的戀愛輔助AI應用“撩騷AI”，因為員工將用戶數據儲存在訪問權限公開的谷歌云盤上，16萬張各種用戶說大尺度情話的聊天截圖直接被公之于世。

“撩騷AI”用戶泄露信息采樣，此人的谷歌與Facebook用戶名被隱去

隨后，OpenAI和馬斯克旗下xAI也都相繼發生了將用戶對話記錄公開到搜索引擎上的失誤。其中，OpenAI泄露了逾7萬用戶的對話、xAI泄露了超37萬條對話記錄。

先翻車的是OpenAI，今年8月初，ChatGPT 用戶們震驚地發現，自己與GPT的聊天記錄竟出現在了谷歌搜索結果中。

這兩起事故的原因類似：由于產品設計理念失誤，ChatGPT與 xAI旗下Grok的用戶對話界面“分享”按鈕，點擊后生成的分享鏈接并不私密，是公開網址鏈接，會被提供給搜索引擎收錄。ChatGPT用戶點擊“分享”按鈕時，APP會跳出“使此聊天可被發現”的選項框，若用戶勾選同意，則此鏈接就被發布成可被搜索引擎抓取的公開網址。Grok當時連此提醒選項框都沒有。

OpenAI在事發后辯解稱，彈出對話框中的底部還有一行灰色小字：“這些聊天內容可能會出現在搜索引擎結果中”，以此表明自己盡了告知義務。

最搞笑的是，看到OpenAI翻車，宿敵馬斯克抓住機會公開嘲諷，貼臉開大慶祝Grok要大勝ChatGPT了。

不過，打臉來得太快就像龍卷風。到了8月末，Grok也犯下了同類失誤，將數十萬條用戶聊天記錄公開發布，并被 Google 等搜索引擎全網收錄。

泄露的對話記錄中，不僅包含了大量敏感的個人隱私，甚至還有生成恐怖襲擊圖像、破解加密錢包等危險操作，以及編寫惡意軟件、制造炸彈的指導，甚至還用戶惡意滿滿地要求大模型生成“暗殺馬斯克的詳細計劃”。

三、爬蟲抓取的公開數據，質量實在太拉垮

不調用用戶數據訓練AI模型，可行嗎？

其實，合法抓取公開網頁數據，也是AI大廠的訓練數據集傳統來源之一，但這條路也面臨諸多局限。

一來，各種AI廠商抓取公開網頁的爬蟲程序，已經遭到了公開抵制了。

服務器稍弱的網站，不管是美國網站“互聯網檔案館”，還是烏克蘭網站Triplegangers，都因為自己的專有數據：前者擁有世界最全公開網頁快照、后者手握著世界最大人體3D模型圖庫，一度被密集的AI廠商爬蟲搞到短暫崩潰關站。

二來，爬蟲雖高效，但公開網絡的中英文數據質量并沒有保證。

8月中旬，來自螞蟻、清華大學、南洋理工大學的聯合研究發現，GPT中文訓練數據集超23%詞元被各種非法廣告污染，GPT-4o對日本成人片女星漢字姓名的熟悉程度是“你好”這種中文通行問候語的2.6倍。

出現這種現象的原因，很可能是由于OpenAI只能爬取公開網絡中的中文語料。而復制海量正常網頁內容后被插入的成人和賭博廣告，應該是非法中文網站為了謀利所為。這些低質數據如果清洗不到位，就會影響模型訓練的最終成果。

研究論文中的GPT中文詞元污染示例

此研究中的一個細節引人注目：中國國產大模型的中文語料污染程度，顯著低于海外大廠的AI大模型產品。研究測試中GPT-4o系列的中文詞元被污染數是773。而千問系列的同類結果是48、智譜的GLM4是19、Deepseek是17、面壁智能的MiniCPM是6。

研究論文中的各大模型中文詞元被污染比例統計

用前谷歌研究總監彼得·諾維格十多年前的話來說，這就是“我們不一定有更好的算法，我們只是有更好的數據”。中國大廠的模型不一定算法遙遙領先，但中國大廠訓練AI的中文語料數據來源和數據清洗成本都更占優。

四、只有真人數據才能訓練出可用AI

AI廠商似乎在降低用戶隱私保護標準，但其實這也情有可原。由真實人類創造的各種數據，是所有AI模型不可或缺的優質“食糧”。

2023年6月中旬，多家高校的AI研究者聯合發布論文《遞歸之詛咒：用生成數據訓練會使模型遺忘》，提出了用AI合成數據來訓練AI會導致“模型崩潰”的概念。

這種現象的原理在于，現在的AI大模型正如AI泰斗“楊立昆”（Yann LeCun）成天譏嘲的那樣，本質是“金剛鸚鵡”、“知其然不知其所以然”的模仿機器。

用AI合成數據來訓練下游AI，AI會越學越錯，并且執迷不悟。就像人教鸚鵡學舌，鸚鵡能學會模擬“恭喜發財”的音調。然而讓學成的鸚鵡教另外的鸚鵡復讀“恭喜發財”、再讓鸚鵡徒弟教鸚鵡徒孫復讀，迭代幾次就只會收獲完全糾正不了的鳥鳴噪音。

2024年7月《自然》雜志的封面論文按此機制印證了之前研究者的成果，源頭模型生成的文本逐代出錯，使用上代AI生成數據訓練的次代模型逐步喪失對真實數據分布的認識，輸出也越來越不知所云。如果每代新的模型都用上代模型生成的數據訓練，9次迭代后就能讓最終模型完全崩潰，生成結果全是亂碼。

《自然》雜志當時的“AI吐垃圾”封面

2024年10月Meta公司的研究則發現，即使合成數據只占總訓練數據集的最小部分，甚至只有1%，仍有可能導致模型崩潰。

在研究者之一羅斯·安德森（Ross Anderson）的博客中，有評論稱他們發現了生物學中的近親繁殖退化在AI界的復刻。羅斯·安德森自己也說：“真實人類創造的數據如同潔凈的空氣與飲水，是日后生成式AI必須依賴的維生補給。”

真人數據如此重要，AI大廠不得不用。所以，用戶為了使用更聰明更好用的AI大模型，可能也不得不適當讓渡一些隱私權限了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.