昨天,看到了一個特別離譜的事。
特別有意思。
Anthropic(就是做Claude的那家公司)在官網發(fā)了一篇博客,標題起的特別正式,叫《檢測和防止蒸餾攻擊》。
![]()
我本來以為是啥學術報告或者新論文,點進去一看,嚯。
內容大意是說,他們發(fā)現(xiàn)了三家中國AI公司,分別是DeepSeek、Moonshot(就是Kimi的母公司)和MiniMax,對Claude進行了"工業(yè)規(guī)模的蒸餾攻擊"。
![]()
我看到我都懵了,蒸餾攻擊,我說實話,這詞我第一次知道能這么組合在一起用的。
然后又說,造成了重大國家安全風險。。。
![]()
然后他們也發(fā)了一個X,直接爆了,現(xiàn)在將近3000萬的閱讀。
![]()
最搞笑的是,這個評論區(qū)炸了。
不是那種底下歌舞升平,一片支持Anthropic維護權益的炸。
是那種,你個 Anthropic也有碧蓮說別人的炸。
一條推文,引起全網群嘲,我說實話,已經很久沒有看到全世界的AI圈聯(lián)合起來,一起群嘲,同仇敵愾的了。。。
![]()
我隨手給大家貼幾個看看。。。
有人說,你們不也最開始從OpenAI蒸餾的嗎。
![]()
然后經典的梗圖就出來了。。。
![]()
真的,底下一堆人罵的。
![]()
![]()
甚至還有人貼出了Claude Sonnet 4.6 API輸出經典問題“你是什么模型”的圖,然后發(fā)現(xiàn),Sonnet 4.6說自己是DeepSeek。。。
![]()
天下模型一大蒸,你清高你別用當年蒸了DeepSeek的數(shù)據(jù)去訓練啊。
給不太了解技術的朋友解釋一下什么叫"蒸餾"。
蒸餾(Distillation)是AI行業(yè)一個非常常見的訓練技術。
簡單說,就是用一個大模型,也就是常說的教師模型的輸出來訓練一個小模型(也叫學生模型),讓小模型能夠學到大模型的一部分能力,但體積更小、運行更快、成本更低。
打個比方,你可以簡單的把它理解成師傅帶徒弟。
徒弟不需要重走師傅幾十年的路,只要跟著師傅學,看師傅怎么處理問題,模仿師傅的思路,就能在短時間內獲得不錯的能力。
至于為什么叫蒸餾,這個詞其實是從化學里借來的。
化學上的蒸餾是把混合物加熱,讓沸點低的成分先變成蒸汽,然后冷凝收集,得到更純凈的物質。
AI里的蒸餾也是類似的意思,從一個復雜的大模型里提取出精華,灌注到一個更小的模型里。
這也是我們常說的,為啥蒸餾的模型大概率整體能力是不如被蒸餾的模型的。
你可能見過一些場景,就比如每次有新模型發(fā)布,評論區(qū)總有一堆人跑去問"你是什么模型"之類的話。
如果模型回答了"我是GPT-XX"或者"我是Claude XX",馬上就有人截圖發(fā)帖:"你看,套殼吧。"
這個測試方法其實挺扯淡的。
套殼是你直接調用別人的API,包一層皮就說是自己的模型,這是欺騙。
而蒸餾是你用別人的輸出作為訓練數(shù)據(jù),訓練出一個全新的模型。
這個模型的權重是你自己的,推理是在你自己的服務器上跑的,跟原模型可以說已經沒有任何直接關系了。
所以說,蒸餾這個事,本身其實是很正常的行為。
Anthropic自己也用蒸餾來做Claude的小模型,比如從Opus蒸餾出Sonnet,再從Sonnet蒸餾出Haiku。OpenAI也這么干,Google也這么干,大家都這么干。
問題在于,你蒸餾自己的模型沒問題,但如果你蒸餾別人的模型,那就涉及到一個關鍵問題:
你獲取那些訓練數(shù)據(jù)的方式,合法嗎?
Anthropic說這三家中國公司創(chuàng)建了24000個假賬戶來大規(guī)模提取Claude的輸出,從某種意義上講,這確實違反了Anthropic它自己的服務條款。
但網友們暴動的原因也特別簡單,就是你Anthropic有什么臉說別人?
就像馬斯克說的。
![]()
2025年9月,Anthropic達成了一項歷史性的和解協(xié)議,花了15億美元。
這應該是美國版權訴訟史上最大的和解金額。
![]()
Anthropic被發(fā)現(xiàn)從盜版網站LibGen和PiLiMi下載了超過700萬本書,用來訓練Claude。
這些書都是有版權的,作者們沒有同意,也沒有拿到任何報酬。
對,你沒看錯, Anthropic從盜版網站下書然后訓模型。。。
這個案子的來龍去脈也挺有意思的。
2024年的時候,三位作家,分別是驚悚小說作家Andrea Bartz、非虛構作家Charles Graeber和Kirk Wallace Johnson,這三個大神,把Anthropic告上了法庭。
因為他們發(fā)現(xiàn)自己的書被用來訓練Claude,但沒人問過他們同意不同意。
后來呢,調查發(fā)現(xiàn),Anthropic不只是用了這幾個人的書,它建了一個巨大的中央圖書館,目標賊離譜,是收集全世界所有的書,而且要永遠保留。
收集方式也很有意思。
一部分是花錢買的,買完以后把書脊拆掉,一頁一頁掃描,然后銷毀原書。
這個操作雖然粗暴,但咋說呢,從法律上說是合法的。
但另一部分就相當呆逼了,從LibGen和PiLiMi這些盜版網站上下載。
LibGen是全球最大的盜版電子書網站,被各國執(zhí)法機構圍追堵截了好幾輪,但一直死而不僵。
Anthropic在2021年6月從LibGen下載了大約500萬本書,2022年7月又從PiLiMi下載了大約200萬本。
法官William Alsup在判決中說了一句很精彩的話:
"你不能僅僅因為聲稱自己有研究目的,就去拿走任何你想要的教科書。"
有意思的是,法官同時做出了兩個判決:
第一,用合法購買的書籍來訓練AI模型,屬于合理使用,不構成侵權。這個判決對AI行業(yè)其實是一個利好消息。
法官說這種使用是"我們這輩子能看到的最具變革性的使用之一",因為AI模型學習的是模式和規(guī)律,不是要復制或取代原作。
第二,用盜版書籍來訓練AI模型,不屬于合理使用,構成侵權,這是Anthropic輸?shù)舻牟糠帧?/p>
法官原話是:"盜版本身就是侵權,不可救藥的侵權,不管你拿盜版的東西去做什么。"
所以從這個判決上,能看出來美國那邊司法的態(tài)度,就是訓練AI本身可以是合法的,但你獲取數(shù)據(jù)的方式必須合法。
按照美國版權法,故意侵權的賠償金可以高達每部作品15萬美元,50萬本書乘以15萬美元,那就是750億美元。當然不可能真賠這么多,但Anthropic面臨的風險確實也是沒法整的級別。
所以它選擇了和解,賠了15億美元,大約是每本書3000美元。
![]()
但其實這還沒完。
2026年1月,音樂出版商們又對Anthropic提起了新的訴訟,指控它通過BitTorrent下載了超過2萬首歌曲來訓練Claude,涉及的歌曲包括"Wild Horses"、"Sweet Caroline"、"Bennie and the Jets"、"Eye of the Tiger"這些經典名曲。
這個案子目前還在審理中,索賠金額據(jù)說高達30億美元。
所以你看,什么叫雙標。
這就是雙標。
Anthropic一邊在說中國公司偷它的模型輸出,一邊自己在用盜版書籍和歌曲訓練模型。
所以啊。。。
![]()
說實話,這件事吃完瓜也就算了。
但是,有一個點,我其實還想聊一聊。
就是在AI時代,“偷”這個字,到底意味著什么。
因為我自己是做UI出身的,所以呢,UI圈子里,之前一直有一個很經典的故事。
當年蘋果的Mac之所以能有革命性的圖形用戶界面,也就是GUI,是因為喬布斯參觀了施樂的帕洛阿爾托研究中心(PARC),看到了他們開發(fā)的圖形界面原型,然后就"借鑒"了過來。
![]()
施樂的工程師們氣得要死,但也沒辦法。
后來微軟的Windows出來了,界面跟Mac長得很像。
喬布斯暴跳如雷,說比爾蓋茨偷了蘋果的東西。
比爾蓋茨的回應賊經典:
"我們都有一個有錢的鄰居叫施樂,我闖進他家想偷電視,結果發(fā)現(xiàn)你已經偷走了。"
傳統(tǒng)意義上的偷,是你拿走了東西,別人就沒有了,你偷了我的錢包,我的錢包就不見了,這是一個零和游戲。
但數(shù)據(jù)不一樣,我復制了你的數(shù)據(jù),你的數(shù)據(jù)還在那兒,沒有減少一個字節(jié)。
從物理意義上說,什么都沒有丟。
所以,這就引出了一個非常老的問題。
知識產權到底是不是一種真正的財產?
有一派觀點認為,知識產權是人類社會為了激勵創(chuàng)新而人為創(chuàng)造的制度,本質上是一種壟斷權。
托馬斯杰斐遜之前說過一句話,大概意思就是,思想就像火焰,我用你的火點燃我的蠟燭,你的火不會變小。
如果按這個邏輯,"偷"知識產權這個說法本身就是有問題的,因為你并沒有拿走任何東西。
但另一派觀點認為,創(chuàng)作者付出了時間、精力和天賦來創(chuàng)造作品,他們理應獲得回報。
如果任何人都可以免費使用他們的作品,那誰還愿意創(chuàng)作?從這個角度說,"偷"知識產權就是偷走了創(chuàng)作者本應獲得的收益。
這兩種觀點坦誠的講,我自己作為一個創(chuàng)作者,我認為都有道理,人類爭論了幾百年也沒有定論。
但AI的出現(xiàn)把這個問題推到了一個新的極端。
有人可能會說,那不還是侵犯了版權嗎?沒錯,但這里面有一個很微妙的悖論。
AI公司用盜版書籍訓練模型,這是違法。
AI公司用合法購買的書籍訓練模型,這是合法。
有人用AI公司的模型輸出訓練自己的模型,違反服務條款。
有一個很老的笑話:
一個人偷了另一個人的錢包,然后錢包又被第三個人偷走了。第一個小偷報警說自己的錢包被偷了,警察問他:"你自己的錢包???"
19世紀的美國,是全球最大的盜版國家。當時美國不承認外國作品的版權,英國作家的書在美國被瘋狂盜印,狄更斯每次訪問美國都要罵一通。美國出版商就非常理直氣壯,說,知識應該屬于全人類,憑什么要付錢給英國人?
后來美國自己的文化產業(yè)發(fā)展起來了,好萊塢成了全球電影中心,美國突然就變成了全世界最積極的知識產權捍衛(wèi)者。
歷史總是驚人地相似。
我不是說誰對誰錯,我只是覺得這種我可以你不行的態(tài)度,確實也挺抽象的。
坦率的講,AI行業(yè)現(xiàn)在面臨的版權問題,其實是整個技術史上反復出現(xiàn)的老問題的新版本。
印刷機發(fā)明的時候,手抄圣經的修士們抗議過,錄音技術發(fā)明的時候,現(xiàn)場音樂家們抗議過,錄像機發(fā)明的時候,好萊塢抗議過。
每一次,都有人說新技術會毀掉創(chuàng)作者。
但每一次,最后都找到了某種平衡。
但這次的新問題在于。
AI不只是復制和分發(fā)內容,它也在學習如何創(chuàng)造新內容。
這就觸及到了另一個更根本的問題,人類的創(chuàng)造力本身是可以被復制的嗎?
我自己寫公眾號三年多了,說實話,我寫的每一篇文章,都是我讀過的所有書、看過的所有電影、聊過的所有天的某種"蒸餾"。
我沒有付錢給每一個影響過我的作者和創(chuàng)作者。
但沒人會說我"偷"了他們。
因為我是人類,學習和創(chuàng)作是人類的基本權利。
那AI呢,AI學習人類的作品,創(chuàng)造新的內容,這算"偷"嗎?
這就像望遠鏡之于人眼。
望遠鏡讓人類能看到肉眼看不到的東西,但我們不會說望遠鏡偷了星星的光。
AI讓人類能處理和學習肉腦處理不了的信息量,那我們?yōu)槭裁匆fAI偷了數(shù)據(jù)呢?
當然,這個類比也不完美。望遠鏡不會直接輸出跟星星一模一樣的東西,但AI有時候會輸出跟訓練數(shù)據(jù)很像的內容。
亂糟糟的說了這么多,有點亂。
但我想表達的是,關于AI和版權的爭論,不應該簡化成"偷"或"不偷"的二元對立。
這里面有太多的灰色地帶,需要法律、倫理、技術等多個領域的專家一起來討論。
而某些公司打著保護版權的旗號,更需要警惕一下。
如果只有少數(shù)幾家公司可以訓練大模型,而且這些公司還都在美國,那對全世界的其他國家來說,意味著什么?
這個問題。
答案我相信大家都懂。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.