網易首頁 > 網易號 > 正文申請入駐

Anthropic「蒸餾」了人類最大的知識庫

2026-02-24 18:53:38　來源: AppSo

廣東舉報

分享至

　　2024 年初，在美國某處的一座倉庫里，工人們正在做一件看起來有些奇怪的事：把書一本本送進機器，切掉書脊，掃描，然后把剩下的紙送去回收。

　　這些書是剛買來的，有些甚至是新的。沒有人會讀它們，它們存在的唯一目的，就是被數字化掃描，然后被銷毀。

　　下令做這件事的，是一家名為 Anthropic 的 AI 公司。

　　在他們的內部文件里，這項計劃有個代號：「巴拿馬項目」。一份規(guī)劃文件里如此寫道：「這是我們以破壞性方式掃描全球所有書籍的計劃，我們不希望外界知道我們正在做這件事。」

　　但這件事最終還是被人知道了。

　　上個月，一名美國聯邦法官解封了一批與版權訴訟相關的文件，總計超過 4000 頁。外界由此看到的，不只是一家 AI 公司的秘密，而是整個 AI 行業(yè)在數據爭奪戰(zhàn)中的真實面目。

　　被大模型「吃」掉的實體書

　　為什么這些處于技術前沿的科技巨頭，會用如此原始甚至粗暴的方式對待紙質書？答案其實藏在 AI 對高質量數據的極度渴求里。

　　Anthropic 內部很早就意識到，訓練 AI 模型光靠網絡上的內容不夠用。

　　根據《華盛頓郵報》報道，一位Anthropic 聯合創(chuàng)始人在 2023 年 1 月的文件中寫道，用書籍訓練模型，可以讓 AI 學會「如何寫得更好」，而不是只會模仿質量參差不齊的網絡語言。

　　書籍經過嚴格編輯和校對，內容結構清晰，是網絡文本難以替代的高質量語料。

　　這個邏輯本身并不難理解，但問題是，既然承認書籍有價值，為什么不付錢？究其原因，挨個找出版社和作者談授權，費時費力，成本也高。于是 Anthropic 啟動了「巴拿馬項目」。僅憑那句「不希望外界知道」，說明它也清楚這件事不見得光。

　　甚至「巴拿馬項目」還沒啟動的時候，Anthropic 已經嘗試通過另一種方式獲取書籍。

　　Ben Mann

　　法院文件顯示， Anthropic 聯合創(chuàng)始人 Ben Mann 曾在 2021 年 6 月的 11 天里，從一個叫 LibGen 的「影子圖書館」網站下載了大量侵權小說和非小說類書籍。

　　一年后，另一個網站 Pirate Library Mirror 于 2022 年 7 月上線，該網站公開宣稱「在大多數國家故意違反版權法」。

　　Mann 把這個網站的鏈接發(fā)給了其他 Anthropic 員工，并留言寫道：「來得正是時候！！！」從這些感嘆號，我們也能看出一位公司高管對一個公開承認違法的盜版網站表達的真實態(tài)度。

　　Anthropic 事后表示，公司從未用這些數據訓練過正式發(fā)布的商業(yè)模型。但這種解釋多少有些勉強，下載了，存著，只是「沒有用在正式模型上」，這條線究竟劃在哪里，恐怕連 Anthropic 自己也說不清楚。

　　為了「巴拿馬項目」，Anthropic 還專門聘請了 Tom Turvey 來主持這項工作。Turvey 曾參與創(chuàng)建 Google 圖書項目，那個項目同樣因大規(guī)模掃描書籍引發(fā)了長達多年的版權爭議。Anthropic 選擇這個人來主導這件事，很難說是一種巧合。

　　最終，Anthropic 主要依賴兩家書商批量供貨：

　　美國二手書零售商 Better World Books，以及總部位于英國的 World of Books，每次采購動輒數萬冊。內部文件還顯示，員工曾討論接洽紐約公共圖書館，甚至提到可以找某家長期資金不足的新圖書館。

　　采購完之后，整個掃描過程，就像一條工業(yè)流水線。

　　掃描、數字化并銷毀數百萬圖書的圖書倉庫。圖片來自：華盛頓郵報

　　供應商用液壓切割機把書脊整齊切掉，散開的書頁隨即被送進高速工業(yè)掃描儀，掃完之后，剩下的紙張交給回收公司處理。一家參與報價的掃描服務商在提案中寫道，Anthropic 希望在六個月內完成 50 萬到 200 萬冊書的數字化工作。

　　Anthropic 副總法律顧問 Aparna Sridhar 回應稱，法院已裁定 AI 訓練「本質上具有轉化性」，Anthropic 選擇和解的問題在于「部分材料的獲取方式，而不是我們是否可以使用這些材料」。

　　這套說辭在法律上也許站得住腳，但它同時也揭示了一件事：這家公司從未認為自己做錯了什么，只是某些手段不夠干凈。

　　拿你的書訓練，再搶你的飯碗

　　同樣的事情，也在其他公司身上發(fā)生著，而且有些細節(jié)更為戲劇性。

　　針對 Meta 的訴訟文件顯示，有員工在 2023 年直接寫道：「用公司筆記本進行種子下載感覺不太對勁。」他后來還專門向法務團隊反映，稱使用種子網站可能意味著向他人分發(fā)盜版作品，「這在法律上可能行不通。」

　　但這些顧慮最終沒有改變任何事情。

　　2023 年 12 月的一封內部郵件顯示，使用 LibGen 已在「上報至 MZ」之后獲批，MZ 指的是 CEO 馬克·扎克伯格。

　　郵件還坦率地寫明了他們自己都清楚的風險：「如果媒體報道暗示我們使用了已知為盜版的數據集，這可能會削弱我們在監(jiān)管問題上的談判立場。」

　　換句話說，他們不是不知道這樣做不對，只是在權衡被抓包的代價。

　　為了降低這個風險，員工們特意租用亞馬遜的服務器來做種子下載，而不是用 Meta 自己的服務器，原因是避免被追蹤到 Meta 公司。

　　OpenAI 和微軟同樣面臨圖書作者的版權指控。OpenAI 甚至承認曾下載過 LibGen，但稱在 ChatGPT 發(fā)布前已刪除相關文件。

　　而 AI 公司與創(chuàng)作者之間的版權沖突，并非從 Anthropic 才開始。早在 2000 年代初，Google 就曾大規(guī)模掃描圖書館館藏，同樣引發(fā)了長達十年的訴訟。

　　最終法院認定Google 的做法屬于「合理使用」，因為它只提供片段摘要，目的是引導讀者找到書，而不是取代書本身。

　　這個判決在當時看來合情合理，卻在二十年后為整個 AI 行業(yè)提供了一塊擋箭牌。

　　Google 圖書是個索引工具，而生成式 AI 直接消化書籍內容，然后輸出文字，在某些情況下與作者產生直接競爭。性質變了，但援引的法律邏輯還是同一套，這本身就值得思考。

　　去年 6 月，聯邦法官 William Alsup 裁定，Anthropic 用書籍訓練 AI 屬于合法行為，他將這個過程比作教師「訓練學生寫好文章」。這個比喻聽起來溫和，但現實中的老師不會同時訓練幾百萬個學生，也不會靠這些學生賺幾十億美元。

　　最終，Anthropic 選擇支付 15 億美元和解金，在 AI 版權訴訟史上創(chuàng)下紀錄，但細看之下，賬算得并不虧。按照美國版權法，每件作品的法定賠償上限可達 15 萬美元，而此次和解折算下來，每本書約賠 3000 美元，僅為上限的 2%。

　　賠償金由作者和出版商平分，只是，這一安排在創(chuàng)作者群體內部引發(fā)了爭議。

　　不少作者認為，出版商在保護作品不被 AI 濫用這件事上沒有盡力，卻拿走了一半賠償。更關鍵的是，和解協議并不要求 Anthropic 承認任何違法行為，法院對「AI 訓練屬于合理使用」的認定照樣有效。

　　換句話說，Anthropic 用 15 億美元買到的，不只是和解，還有一份背書：我們可以繼續(xù)這么做。有分析人士指出，隨著這個先例確立，版權侵權對 AI 公司來說已經不再是一條紅線，而是一筆可以提前計入成本的「過路費」。

　　對許多寫書的人來說，這件事意味著的遠不止一張支票。美國作家的年收入中位數約為 2 萬美元，而市值數千億的 AI 公司在未獲授權的情況下大量使用他們的作品，事后折算的賠償標準遠低于法律上限。

　　更讓人憂慮的是，AI 正在批量生成文字內容，這些低成本的文本涌入市場，讓原本就艱難的寫作謀生變得更難。訓練 AI 用的是人寫的書，而 AI 產出的內容，正在擠壓人繼續(xù)寫書的空間，循環(huán)往復。

　　支持者自有另一套邏輯：AI 并不儲存書里的內容，而是從中提取語言規(guī)律，這更像是一個人博覽群書之后形成自己的表達。這個類比并非毫無道理，但卻省略了一個關鍵差異：

　　人讀了一本書，不會同時讀一百萬本；而 AI 在幾個月內消化了人類幾十年的寫作積累，隨后以極低的邊際成本無限復制輸出，規(guī)模改變了性質，把兩件事等同起來其實是一種精致的詭辯。

　　數百萬冊書被切開、掃描、回收，最后換來一份和解協議。那些書，早已不在了。而 AI 還在繼續(xù)寫作，且會越來越快。這大概就是這件事最讓人不安的地方：對于書被銷毀，被肆意用來訓練 AI 這件事，沒有人真正付出了代價。

附上參考地址：

https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.