<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      讓 Anthropic 破防的「蒸餾」風(fēng)波,美國 AI 大牛潑冷水:中國 AI 成功不靠走捷徑

      0
      分享至

      Anthropic 昨天點名 DeepSeek、月之暗面、MiniMax 三家中國 AI 實驗室「蒸餾」Claude 模型,全網(wǎng)炸鍋。

      對于此事件,RLHF (基于人類反饋的強化學(xué)習(xí))領(lǐng)域最知名的研究者之一,《RLHF》一書的作者 Nathan Lambert 指出,這件事沒有人們想象的那么嚴(yán)重,但也沒有那么簡單。

      他認(rèn)為,中國 AI 公司的基礎(chǔ)設(shè)施非常好,取得了很多創(chuàng)新,也在攻克各種技術(shù)難題,但它們?nèi)〉眠@樣的結(jié)果,靠的并不是「走捷徑」。

      在討論蒸餾這件事之前,先看看 Lambert 的話為什么值得聽。

      Nathan Lambert 是 Allen AI 研究所的科學(xué)家,博士畢業(yè)于加州大學(xué)伯克利分校,師從機器人領(lǐng)域的著名學(xué)者 Pieter Abbeel。他并非 RLHF 技術(shù)的發(fā)明者,但他寫的《RLHF》這本開源書籍,如今是 AI 從業(yè)者理解大模型訓(xùn)練流程的標(biāo)準(zhǔn)參考材料之一。

      和到處都是的 AI 網(wǎng)紅不一樣,他是真正上手訓(xùn)練過大模型的人。

      在 Anthropic 博客發(fā)出的當(dāng)天,Lambert 就發(fā)布了一篇詳細(xì)分析文章《蒸餾對于中國大模型到底有多重要?》。他的核心論點,和主流媒體的解讀方向截然不同,也比一般網(wǎng)友更加深入和全面。


      蒸餾是什么,Anthropic 又說了什么?

      首先我們來看 Anthropic 指控的核心:「蒸餾」(distillation)。

      它指的是讓弱模型學(xué)習(xí)強模型的輸出,從而快速獲得相似能力。

      Anthropic 指控三家公司通過約 2.4 萬個虛假賬號,在違反服務(wù)條款和地區(qū)訪問限制的情況下,用 Claude 生成了超過 1600 萬次對話,用于訓(xùn)練各自的模型。

      博客還附上了安全警告:非法蒸餾出來的模型可能缺失原模型的安全護(hù)欄,一旦被用于網(wǎng)絡(luò)攻擊、生物武器研發(fā)或大規(guī)模監(jiān)控,后果難以預(yù)測。

      Anthropic 把這套基礎(chǔ)設(shè)施叫做「九頭蛇集群」(hydra cluster)——多達(dá)數(shù)萬個賬號的分布式網(wǎng)絡(luò),流量同時分散在 Anthropic 自己的 API 和多個第三方 API 聚合平臺上。

      在最極端的案例里,一個代理網(wǎng)絡(luò)同時管理超過 2 萬個虛假賬號,還把蒸餾流量混入普通用戶請求流里,用來規(guī)避檢測算法。這種網(wǎng)絡(luò)沒有單點故障,封掉一個賬號,馬上換一個。

      海外媒體隨即跟進(jìn),復(fù)述了 Anthropic 的話術(shù)。然而這套敘事邏輯很快就翻車了:畢竟「蒸餾」這件事美國 AI 公司訓(xùn)練的時候也會做,更何況 Anthropic 自己也有類似行為:


      以及:Anthropic「蒸餾」了人類最大的知識庫

      但 Lambert 更加冷靜,他認(rèn)為要先把這三家中國 AI 實驗室分開來看

      Lambert 指出,Anthropic 把三家公司并排列在同一篇博客里,掩蓋了一個關(guān)鍵差異:它們做的根本不是同一件事,量級天差地別,動機也各有側(cè)重。

      按照 Anthropic 的指控,DeepSeek 的蒸餾數(shù)量最少,只有 15 萬次,但手法更精準(zhǔn)。與其直接收集答案,Anthropic 指控 DeepSeek 在做的是批量生產(chǎn)思維鏈 (chain-of-thought)訓(xùn)練數(shù)據(jù)。

      要的不是「你得出了什么結(jié)論」,而是得到結(jié)論的過程。

      但 15 萬次是個什么體量?Lambert 認(rèn)為,這點數(shù)據(jù)對 DeepSeek 傳聞中的 V4 模型或任何模型整體訓(xùn)練的影響可以忽略不計,「更像是某個小團隊在內(nèi)部做實驗,大概率連訓(xùn)練負(fù)責(zé)人都不知道。」


      月暗的規(guī)模就不是「可以忽略」了:340 萬次交互,目標(biāo)集中在智能體推理、、工具調(diào)用、代碼與數(shù)據(jù)分析、computer-use 開發(fā)、計算機視覺等方向——這些方向當(dāng)中,大部分都是 Claude 近期最受企業(yè)客戶歡迎的能力組合。

      Anthropic 指出三家里流量最大的是 MiniMax,約 1300 萬次,目標(biāo)是代理編碼、工具調(diào)用和復(fù)雜任務(wù)編排。

      月暗和 MiniMax 相加約 1650 萬次,按對話平均 token 量估算,總量大約在 1500 億到 4000 億 token 之間,折合數(shù)百到上千萬美元的 token 成本。

      但問題是,只盯著蒸餾看,其實有很大問題。

      蒸餾的天花板在哪里?

      這才是 Lambert 真正想說的部分,也是整件事里最被忽視的地方。

      把強模型的輸出喂給弱模型,弱模型能快速獲得類似能力——這個邏輯本身成立,Lambert 沒有否認(rèn)。但他指出了一個沒人說清楚的問題:蒸餾的天花板到底在哪里,取決于你想要的是什么類型的能力。

      作為 RLHF 方面的專家,Lambert 認(rèn)為,當(dāng)前最頂尖的模型訓(xùn)練,已經(jīng)高度依賴強化學(xué)習(xí)(RL)。而 RL 和蒸餾在本質(zhì)上是兩種不同的事情:

      蒸餾是模仿,學(xué)強模型的輸出,把它的「答案形狀」復(fù)制過來;RL 是探索,模型必須大量自己推理、自己生成、在錯誤里反復(fù)迭代,從試錯中提煉能力。

      換言之,真正強大的模型,需要的從來不只是正確答案,而往往要靠模型自己摸索出來的解題路徑,這是依靠蒸餾別人 API 的輸出,得不到的東西。


      以 DeepSeek 自己做的蒸餾嘗試為例:基于隔壁千問蒸餾自家的 R1 模型后得到的 DeepSeek-R1-Distill-Qwen 1.5B 這個小模型,僅靠 7000 條樣本和極低的計算成本,就在 AIME24 數(shù)學(xué)競賽基準(zhǔn)上超越了 OpenAI 的 o1-preview。

      但關(guān)鍵在于:這個提升等多仰仗強化學(xué)習(xí)的結(jié)果,而非來自蒸餾這個行為本身。

      換句話說,蒸餾能幫你更快「熱身」,要真正到達(dá)頂級水平,還是得靠自己跑 RL。

      不同模型之間的數(shù)據(jù)分布差異

      Lambert 還指出了一個技術(shù)層面很少被外界提及的問題:不同模型之間存在微妙的數(shù)據(jù)分布差異。

      把 Claude 的輸出直接喂給另一個架構(gòu)的模型,不一定有效,有時甚至?xí)a(chǎn)生干擾。兩個模型內(nèi)部表征空間的差異,會讓「老師」的回答在「學(xué)生」那里引發(fā)意想不到的偏差。

      這意味著蒸餾從來不是「拿來用就行」的事,而是需要大量工程工作才能真正發(fā)揮效果。這本身就是一個研究課題。

      這也是為什么 Lambert 將 Anthropic 所指控的「蒸餾」行為,看作是一種創(chuàng)新的做法,可以理解為試圖攻克這一研究課題的努力。


      Anthropic 的殺手锏,恰恰最難蒸餾

      Anthropic 點名的三家公司,抓取的重心都落在代理行為 (agentic behavior) 這同一個方向上,包括 AI 自主規(guī)劃、工具調(diào)用、分解復(fù)雜任務(wù)并逐步執(zhí)行的能力等。

      這是 Claude 目前最突出的方向,也是 Anthropic 最不想被復(fù)制的能力。

      但 Lambert 的判斷是,這些能力恰恰也是最難通過蒸餾獲得的。

      正如前面提到,一個強大的 AI agent,強大之處從來不在于知道或者訓(xùn)練過正確答案,而是「在面對沒見過的情況時能自主探索出解決路徑」,可以理解為一種 0-shot 或 few-shot 實現(xiàn) SOTA 效果的能力。

      這個過程中產(chǎn)生的價值,體現(xiàn)在推理軌跡,而推理軌跡是很難通過蒸餾習(xí)得的——至少現(xiàn)在是這樣。

      DeepSeek-R1-Distill(蒸餾模型)和 DeepSeek-R1(蒸餾對象)之間的差距,是 Lambert 論點最直接的例證。

      在格式化的數(shù)學(xué)推理任務(wù)上,前者表現(xiàn)不錯;但在需要自主探索、動態(tài)規(guī)劃的復(fù)雜代理任務(wù)上,兩者的差距是真實存在的。


      為什么 Anthropic 現(xiàn)在公開說?

      Lambert 有一個判斷,很多人可能都有同感:這次 Anthropic 公開點名中國 AI 公司,「技術(shù)防御」壓根不是首要動機。

      在 Anthropic 這篇博客發(fā)出的幾天前,美國國防部剛剛威脅 Anthropic 配合提供「不受限制的使用權(quán)限」,否則就將做出對后者不利的安排,比如將其標(biāo)記為「供應(yīng)鏈危險」,也即無法進(jìn)入國防/政府供應(yīng)商名單。

      Anthropic 現(xiàn)在處于一個「既要又要」的兩難境地:既想維持安全、不反人性的模型定位和公司形象,又不愿意錯過美國政府的大單。

      Lambert 指出了一個根本矛盾:美國的學(xué)術(shù)界和開源模型開發(fā)者也在做蒸餾行為,但包括 Anthropic 在內(nèi)的大廠并沒有對它們做出實質(zhì)性的打擊。如果僅因為對方是中國公司,未免地緣的意味太重了。

      結(jié)果就是,Anthropic 這篇博客與其說是報告一個重大技術(shù)風(fēng)險事件……其實更像是一封「投名狀」。


      雙標(biāo)

      關(guān)于 Anthropic 在這件事上的立場,有一個繞不開的背景。

      APPSO 在昨天的文章里也有提到:Anthropic「蒸餾」了人類最大的知識庫

      2024 年年初,美國某倉庫里,工人們把一本本新書送進(jìn)機器,切掉書脊,掃描,然后把紙送去回收。下令做這件事的是 Anthropic,項目內(nèi)部代號「巴拿馬」,目標(biāo)是以破壞性方式掃描全球所有書籍——Anthropic不希望外界知道他們做了這件事。

      2021 年,Anthropic 聯(lián)合創(chuàng)始人 Ben Mann 在 11 天里從盜版網(wǎng)站 LibGen 下載了大量侵權(quán)書籍;次年,另一個公開宣稱「在大多數(shù)國家故意違反版權(quán)法」的網(wǎng)站 Pirate Library Mirror 上線,Mann 把鏈接發(fā)給同事,留言:「來得正是時候!!!」

      在后來的書籍版權(quán)訴訟中,Anthropic 被迫支付 15 億美元和解金,折算下來每本書約賠 3000 美元。

      斯坦福和耶魯?shù)难芯空甙l(fā)現(xiàn),Claude 3.7 Sonnet 在特定條件下會以 95.8% 的準(zhǔn)確率「近乎逐字逐句」地輸出《哈利波特》等受版權(quán)保護(hù)的作品——這不僅與 Anthropic 長期以來關(guān)于「模型只是學(xué)習(xí)了語言規(guī)律」的說法背道而馳,更讓該公司對任何人的「蒸餾」指控顯得缺乏底氣。

      Futurism 的標(biāo)題寫得很直接:「Anthropic 對 DeepSeek 未經(jīng)授權(quán)復(fù)制 AI 大發(fā)雷霆——考慮到它是怎么構(gòu)建 Claude 的,這相當(dāng)諷刺。」


      Musk 在 X 上也補了一刀:「Anthropic 大規(guī)模竊取訓(xùn)練數(shù)據(jù),還為此支付了數(shù)十億美元的和解金。這是事實。」


      反駁者還有一個更尖銳的邏輯:Anthropic 當(dāng)年從那些書里拿走的,不僅沒付過任何使用費,回頭還用于商業(yè)行為(Claude 和 Anthropic API 都是付費服務(wù));而從商業(yè)角度來看,蒸餾 Claude 的公司至少付了錢……

      當(dāng)然,從法律層面來看,這兩件事的性質(zhì)完全不同。但不論怎樣,Anthropic 看起來還是很像個偽善的雙標(biāo)者。

      「后蒸餾時代」

      最后再強調(diào)一遍:蒸餾有用,但沒有你們想象的那么有用。

      DeepSeek 的 15 萬次,按任何合理標(biāo)準(zhǔn)來看都是可以忽略的數(shù)字。Moonshot 和 MiniMax 合計 1650 萬次,量級是另一回事——但能轉(zhuǎn)化成多少真實能力,取決于他們能不能解決「如何用好這些數(shù)據(jù)」的技術(shù)問題。

      考慮到數(shù)據(jù)分布差異、模型架構(gòu)差異,以及代理能力的獲得本身對于強化學(xué)習(xí)的重度依賴,蒸餾從來不是「拿來就用」那么簡單。

      Lambert 還是給了 Anthropic 面子:「快速迭代加上高質(zhì)量數(shù)據(jù)可以走很遠(yuǎn),讓學(xué)生模型超越老師也并非不可能。」


      但他也明確指出,真正的創(chuàng)新靠的是強化學(xué)習(xí),不是蒸餾。從 DeepSeek、月暗、MiniMax 公開的論文來看,它們都用有相當(dāng)完善的基礎(chǔ)設(shè)施和優(yōu)秀的人才,遠(yuǎn)非只靠小聰明小伎倆企圖彎道超車的「小作坊」。

      蒸餾能幫你更快入場,但真要打到頂級水平,從來沒有捷徑。

      某種意義上,Anthropic 提出的「蒸餾」?fàn)幾h,本身就是這個 AI 時代縮影。

      整個行業(yè)打一開始就建立在曖昧不清的規(guī)則上:用人類寫的東西訓(xùn)練,用別人的開源成果迭代,在法律沒有明確禁止的地方快速行動。

      現(xiàn)在,規(guī)則開始慢慢收緊——先是版權(quán),再是芯片,現(xiàn)在又是 API……誰在制定規(guī)則?誰受益于規(guī)則?誰一邊打著人類的旗號,卻濫用規(guī)則謀求私利?

      這些問題的答案,都越來越清晰。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      原油直線跳水10%,特朗普稱美國對伊朗戰(zhàn)事已基本結(jié)束

      原油直線跳水10%,特朗普稱美國對伊朗戰(zhàn)事已基本結(jié)束

      21世紀(jì)經(jīng)濟報道
      2026-03-10 06:48:30
      王俊杰發(fā)布長文:回首整個賽季感覺心酸;還沒思考好未來的路

      王俊杰發(fā)布長文:回首整個賽季感覺心酸;還沒思考好未來的路

      懂球帝
      2026-03-10 00:50:13
      亞足聯(lián)嚴(yán)懲!中國女足贏朝鮮后,2個重大誤判被曝光,足協(xié)應(yīng)上訴

      亞足聯(lián)嚴(yán)懲!中國女足贏朝鮮后,2個重大誤判被曝光,足協(xié)應(yīng)上訴

      侃球熊弟
      2026-03-09 19:47:04
      騰訊QClaw官網(wǎng)上線:可一鍵部署“龍蝦”,兼容QQ、微信

      騰訊QClaw官網(wǎng)上線:可一鍵部署“龍蝦”,兼容QQ、微信

      PChome電腦之家
      2026-03-09 14:37:39
      2-1!澳大利亞隊悲劇了,挑選中國女足,卻遇亞洲第2,進(jìn)4強難了

      2-1!澳大利亞隊悲劇了,挑選中國女足,卻遇亞洲第2,進(jìn)4強難了

      何老師呀
      2026-03-09 19:48:19
      別被文化同化騙了,漢族能延續(xù)幾千年,靠的從來不是講道理

      別被文化同化騙了,漢族能延續(xù)幾千年,靠的從來不是講道理

      掠影后有感
      2026-03-09 09:52:38
      打工人的天徹底塌了!養(yǎng)龍蝦全網(wǎng)爆火,24小時干完6個人三周的活

      打工人的天徹底塌了!養(yǎng)龍蝦全網(wǎng)爆火,24小時干完6個人三周的活

      烏娛子醬
      2026-03-09 14:40:50
      閃充換電吵上熱搜!比亞迪蔚來接連回應(yīng),奇瑞老板也來站隊了

      閃充換電吵上熱搜!比亞迪蔚來接連回應(yīng),奇瑞老板也來站隊了

      車東西
      2026-03-09 21:34:13
      川音“淫魔”校長:88名女音樂教師,霸占87人,細(xì)節(jié)曝光不堪入目

      川音“淫魔”校長:88名女音樂教師,霸占87人,細(xì)節(jié)曝光不堪入目

      就一點
      2026-03-08 10:54:42
      震驚金融圈!知名國有平臺投資大佬墜樓身亡,享年54歲

      震驚金融圈!知名國有平臺投資大佬墜樓身亡,享年54歲

      新浪財經(jīng)
      2026-03-09 17:56:41
      聚餐后瘋狂砸家后續(xù):原因曝光,想讓兒子擔(dān)保借錢,女兒再曝黑料

      聚餐后瘋狂砸家后續(xù):原因曝光,想讓兒子擔(dān)保借錢,女兒再曝黑料

      奇思妙想草葉君
      2026-03-10 01:26:22
      深度長文:動物都是雄性漂亮,為什么人類恰好相反?

      深度長文:動物都是雄性漂亮,為什么人類恰好相反?

      宇宙時空
      2026-03-08 18:15:06
      中國男子在中東教漢語,娶三位本地姑娘,生下混血,卻直言養(yǎng)不起

      中國男子在中東教漢語,娶三位本地姑娘,生下混血,卻直言養(yǎng)不起

      暗香暗香
      2026-03-09 21:07:32
      官方:阿根廷國家隊將于3月12日在工體舉行2026世界杯發(fā)布會

      官方:阿根廷國家隊將于3月12日在工體舉行2026世界杯發(fā)布會

      懂球帝
      2026-03-09 21:09:05
      明星在景區(qū)錄綜藝,將消費游客趕走?景區(qū)回應(yīng):未影響正常游覽

      明星在景區(qū)錄綜藝,將消費游客趕走?景區(qū)回應(yīng):未影響正常游覽

      半島晨報
      2026-03-09 20:01:20
      你身邊有吃絕戶的親戚嗎?網(wǎng)友:肯定有很多人想和你結(jié)婚吧

      你身邊有吃絕戶的親戚嗎?網(wǎng)友:肯定有很多人想和你結(jié)婚吧

      帶你感受人間冷暖
      2026-02-16 00:27:46
      封神一戰(zhàn)!伊朗導(dǎo)彈把以色列命脈炸成火海,特朗普語無倫次露底牌

      封神一戰(zhàn)!伊朗導(dǎo)彈把以色列命脈炸成火海,特朗普語無倫次露底牌

      李健政觀察
      2026-03-09 17:31:41
      離譜!主裁助朝鮮逃2紅 縱容蹬踏+肘擊 提前41秒完賽看懵雙方球員

      離譜!主裁助朝鮮逃2紅 縱容蹬踏+肘擊 提前41秒完賽看懵雙方球員

      我愛英超
      2026-03-09 19:21:27
      拉塞爾抵達(dá)上海曬出外灘天際線風(fēng)光:嗨,上海

      拉塞爾抵達(dá)上海曬出外灘天際線風(fēng)光:嗨,上海

      懂球帝
      2026-03-09 22:11:18
      炸場!特朗普怒批澳洲:送伊朗女足回國等于害命,美國接盤

      炸場!特朗普怒批澳洲:送伊朗女足回國等于害命,美國接盤

      老馬拉車莫少裝
      2026-03-10 00:07:32
      2026-03-10 07:52:49
      愛范兒 incentive-icons
      愛范兒
      消費科技第一媒體
      38512文章數(shù) 2601114關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw更新,"養(yǎng)蝦"再也不會犯健忘癥了

      頭條要聞

      媒體:一次越界打擊揭開美以裂痕 伊朗向美國傳遞信號

      頭條要聞

      媒體:一次越界打擊揭開美以裂痕 伊朗向美國傳遞信號

      體育要聞

      36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

      娛樂要聞

      薛之謙老婆懷二胎,現(xiàn)身產(chǎn)檢心情愉快

      財經(jīng)要聞

      油價破100美元年內(nèi)漲80% 全球市場劇震

      汽車要聞

      對標(biāo)奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

      態(tài)度原創(chuàng)

      游戲
      時尚
      本地
      家居
      教育

      《怪物獵人物語3:命運雙龍》評測:融為一體"/> 主站 商城 論壇 自運營 登錄 注冊 《怪物獵人物語3:命運雙龍》評測:融為一體 伊東 2026-03...

      今年最流行的5條半裙,怎么搭都好看!

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      家居要聞

      獨棟獨院 精致親子墅

      教育要聞

      “趕緊把你兒子放生了吧!”8天花了3w,換來兒子34分,母親崩潰

      無障礙瀏覽 進(jìn)入關(guān)懷版