![]()
這篇由麻省理工學院的Shayne Longpre和Hugging Face公司的Lucie-Aimée Kaffee共同領導的重磅研究,發表于2025年11月,論文編號為arXiv:2512.03073v1。研究團隊匯集了來自MIT、Data Provenance Initiative、ScaDS.AI Leipzig、愛丁堡大學、南加州大學、北卡羅來納大學教堂山分校以及Hugging Face等多個知名機構的頂尖學者。這項研究有著一個頗具雄心的目標:通過分析全球最大開放AI模型平臺Hugging Face上的完整歷史數據,首次系統性地揭示開放人工智能世界中權力分配和技術發展的真實面貌。
你可能很難想象,在看似開放自由的AI模型世界里,竟然隱藏著一場激烈的權力爭奪戰。就像現實世界的國際政治版圖一樣,AI模型的世界也在經歷著勢力范圍的重新劃分。美國科技巨頭曾經的絕對統治地位正在動搖,中國企業異軍突起,而無數個人開發者和社區組織也在這場變革中扮演著越來越重要的角色。
這項研究的獨特之處在于,它并不是簡單的學術理論分析,而是基于真實世界中最大規模數據的實證研究。研究團隊獲得了Hugging Face平臺從2020年6月到2025年8月期間的完整下載記錄——總共22億次下載,涉及85萬多個模型。這就好比拿到了全球AI模型"人口普查"的完整檔案,能夠看清楚每一個模型的"出生地"、"血統關系"以及"受歡迎程度"。
通過這些珍貴的數據,研究團隊發現了一些令人驚訝的趨勢。曾經由Google、Meta、OpenAI等美國科技巨頭主導的開放AI世界,正在經歷一場深刻的重新洗牌。中國的DeepSeek和Qwen等模型正在快速崛起,個人開發者和社區組織的影響力也在大幅提升。與此同時,AI模型本身也在發生著翻天覆地的變化——它們變得更大、更聰明、能處理更多類型的信息,但同時也變得更加"神秘",因為越來越多的模型不再公開它們的訓練數據來源。
這項研究的意義遠不止于學術價值。在當前全球AI競爭日趨激烈的背景下,理解開放AI生態系統的權力分布和發展趨勢,對于政策制定者、企業決策者以及普通用戶都具有重要意義。畢竟,今天在Hugging Face平臺上的模型分布格局,很可能就是明天AI技術發展的風向標。
一、開放AI世界的"聯合國":權力版圖的歷史變遷
如果把全球的開放AI模型比作一個虛擬的"聯合國",那么Hugging Face平臺就是這個聯合國的總部大樓。自2019年成立以來,這個平臺已經從最初簡單的模型分享工具,發展成為全球開放AI模型的中央樞紐,托管著超過200萬個模型,累計下載量達到17億次。
在這個AI世界的"聯合國"里,每個模型都有自己的"國籍"和"身份證"。研究團隊就像是進行了一次史無前例的"人口普查",詳細記錄了每個模型的"出生地"(開發國家)、"制作者"(開發機構)、"技能特長"(功能類型)以及"受歡迎程度"(下載次數)。通過分析這些數據,他們發現了一個令人震驚的事實:這個看似開放平等的AI世界,實際上正在經歷著三次重大的權力重新分配。
第一個時代可以稱為"美國霸權時代"(2020年末到2022年末)。在這個階段,整個開放AI世界基本上是美國科技巨頭的天下。Google、Meta和OpenAI這三大巨頭就像是AI世界的"超級大國",控制著40%到60%的"市場份額"。當時最受歡迎的模型幾乎都來自美國,比如BERT、CLIP、DistilBERT等,它們就像是AI世界的"通用貨幣",被廣泛應用于各種場景。這個時期的特點是高度集中化,就好比現實世界中冷戰時期的兩極格局,只不過在AI世界里是美國一家獨大。
第二個時代是"民主化浪潮時代"(2022年末到2024年初)。這個轉折點的到來要歸功于一個名為Stable Diffusion的圖像生成模型。這個模型的出現就像是在AI世界里引發了一場"民主革命"。突然間,不再只有大公司才能制作出優秀的AI模型。成千上萬的個人開發者、藝術家和小型社區開始基于Stable Diffusion創建自己的模型變體。這就好比從原本只有大型制片廠才能制作電影,突然變成了人人都可以用手機拍攝并制作出精彩作品的時代。在這個階段,那些來自"民間"的開發者所創建的模型,其總下載量甚至超過了傳統科技巨頭的產品。
第三個時代是當前正在進行的"中美雙雄爭霸時代"(2024年至今)。在這個最新階段,一個令人矚目的變化是中國AI企業的強勢崛起。DeepSeek和Qwen這兩個來自中國的模型系列,在2025年異軍突起,單獨就占據了14%的全球下載份額。更令人驚訝的是,中國整體的模型下載份額已經達到17.1%,首次超越了美國的15.8%。這就好比在AI世界的"奧運會"上,中國隊首次在金牌榜上超越了美國隊。
這種變化的深層原因是什么呢?研究團隊發現,這與AI技術本身的發展趨勢密切相關。當前最受歡迎的AI模型已經不再是早期那種只能處理單一類型信息的"專家型"模型,而是能夠同時處理文本、圖像、語音甚至視頻的"全能型"模型。這些新一代模型就像是從單科狀元變成了全科狀元,而在這個技術轉型的關鍵時期,中國企業展現出了強大的技術實力和創新能力。
值得注意的是,這種權力轉移并不是簡單的"零和游戲"。雖然中美兩國在頂尖模型競爭中你追我趕,但同時也有一股不可忽視的"第三勢力"在快速崛起——那就是來自世界各地的個人開發者和社區組織。這些"草根英雄"現在已經占據了全球AI模型下載量的近40%,他們的作用越來越不可忽視。這就好比在傳統的大國競爭之外,還有一大批"城邦國家"在發揮著獨特而重要的作用。
為了更準確地衡量這種權力分布的變化,研究團隊使用了經濟學中的專業工具——赫芬達爾-赫希曼指數(HHI)和基尼系數。這兩個指標就像是測量"貧富差距"的工具,只不過這里測量的是AI模型世界中的"權力集中度"。數據顯示,從2021年到2024年,整個開放AI世界的權力集中度持續下降,這意味著權力分布變得更加分散和民主化。但是到了2025年,這個趨勢開始出現逆轉,主要是因為中國頂尖模型的快速崛起重新帶來了一定程度的集中化。
這種權力版圖的變遷不僅僅是數字上的變化,更反映了AI技術發展的深層邏輯。每一次技術突破都會重新洗牌既有的競爭格局,就像歷史上蒸汽機、電力、互聯網等技術革命一樣。當前我們正在見證的,可能是AI歷史上最重要的一次權力重新分配,而這種變化的影響將遠遠超出技術本身,深刻地塑造著未來的全球創新版圖。
二、技術革命的三重奏:從"專家"到"全才"的進化之路
在AI模型的世界里,正在發生著一場靜悄悄但又翻天覆地的技術革命。這場革命可以用一個簡單的比喻來理解:AI模型正在從"專業醫生"轉變為"全科醫生",從只能處理單一類型信息的"專家"變成能夠同時掌握多種技能的"全才"。
回到五年前,大部分AI模型就像是各自專精某一領域的專科醫生。有些模型只擅長理解文本,就像是"內科醫生";有些只能識別圖片,就像是"影像科醫生";還有些專門處理語音,就像是"耳鼻喉科醫生"。當時最受歡迎的模型,比如BERT,就是這樣一個"文本專家"——它能夠深刻理解文字的含義,但如果你給它一張圖片,它就完全"不知所云"了。
但現在的情況完全不同了。最新一代的AI模型更像是"全科醫生",它們不僅能讀懂文字,還能看懂圖片,聽懂語音,甚至能夠觀看和理解視頻內容。研究數據顯示,這種"多模態生成"能力的模型使用量在過去幾年中增長了3.4倍。更令人驚訝的是,能夠生成視頻的AI模型使用量也增長了3.4倍,這意味著AI已經從靜態的文字和圖片處理,發展到了能夠創造動態視覺內容的水平。
這種技術進化帶來的最直接影響是模型體積的急劇增大。如果把AI模型比作汽車引擎,那么過去的模型就像是小排量的家用車引擎,而現在的模型則更像是大排量的跑車引擎。具體來說,2025年下載的模型平均大小達到了208億個參數,比2020年的2.17億參數增長了整整17倍。這就好比汽車引擎從1.0升一下子跳躍到了17升的超級跑車引擎。
但這里有一個有趣的發現:雖然平均模型大小增長了17倍,但"中位數"(也就是處于中間位置的典型模型)的增長幅度要小得多,只是從3.26億參數增長到4.06億參數。這說明什么呢?這說明AI世界正在出現"兩極分化"——少數"超級模型"變得越來越強大和龐大,而大部分普通模型仍然保持著相對"輕量級"的體型。這就像是在體育界,頂尖運動員的成績在不斷刷新紀錄,但普通運動員的水平提升相對有限。
為了應對模型體積暴增帶來的挑戰,AI開發者們想出了幾個聰明的解決方案。第一個方案叫做"量化技術",這就好比把一部4K高清電影壓縮成720P格式,雖然畫質稍有下降,但文件大小大幅減少,便于存儲和傳輸。研究顯示,使用量化技術的模型數量增長了5倍,這表明開發者們正在積極尋找在性能和效率之間的最佳平衡點。
第二個方案是"混合專家架構"(Mixture-of-Experts),這是一個特別巧妙的設計。可以把它想象成一個"智能顧問團隊":雖然團隊總共有100個專家,但對于任何特定問題,只需要調動其中10個最相關的專家來解決。這樣既保持了整個系統的強大能力,又避免了每次都動用全部資源的浪費。使用這種架構的模型數量增長了7.2倍,成為了當前AI技術發展的一個重要趨勢。
第三個方案是"參數高效微調"技術,這就像是給一輛已經很優秀的汽車更換特定零件,而不是重新制造一輛全新的車。比如,如果你想讓一個通用的AI模型變得更擅長處理醫學文本,你不需要從頭訓練一個全新的模型,而是只需要"微調"其中一小部分參數。這種技術的使用量增長了1.4倍,顯示了開發者們越來越青睞這種"精準改造"的方法。
在這場技術革命中,還有一個重要的發展就是AI模型的"感官能力"全面升級。早期的AI模型主要處理文本信息,就像是一個只會閱讀的學者。但現在的AI模型不僅能讀,還能看、能聽,甚至能夠創造各種類型的內容。數據顯示,處理語音信息的模型使用量增長了1.2倍,而能夠同時處理多種類型信息的"多模態嵌入"模型也顯著增長。這就好比從培養單一技能的專才,轉向培養具備綜合能力的通才。
更有趣的是,研究團隊發現AI模型的"輸出能力"比"輸入能力"發展得更快。也就是說,相比于理解各種類型的信息,AI模型在創造各種類型內容方面的進步更為顯著。這就像是一個學生,相比于理解老師講的內容,他在創作方面的天賦發展得更快。這可能預示著AI技術正在從"理解型"向"創造型"轉變,未來的AI將更多地扮演內容創作者的角色。
這些技術變革的背后,反映的是AI應用場景的根本性變化。過去,AI主要用于分析和分類現有信息,就像是圖書管理員的工作。而現在,AI越來越多地被用于生成新的內容,無論是文字、圖像、語音還是視頻。這種從"分析型AI"向"生成型AI"的轉變,正在重新定義AI技術的價值和應用邊界,也為整個AI產業開啟了全新的發展空間。
三、幕后英雄的崛起:AI世界的"中介服務商"
在AI模型的生態系統中,一個全新的角色正在悄然崛起,他們就像是傳統商業世界中的"中介服務商"或"系統集成商"。這些組織不直接生產原創的AI模型,但他們做的事情同樣重要——他們把那些強大但"難以使用"的原始模型,改造成普通用戶和開發者真正能夠便利使用的產品。
想象一下這樣的場景:一家汽車制造商生產了一款性能卓越的跑車引擎,但這個引擎只適合在專業賽道上使用,普通司機根本無法在日常生活中駕馭。這時候就需要一些專業的改裝公司,他們能夠把這個強大的引擎改造成適合不同用途的版本:有些改造成適合城市駕駛的版本,有些改造成節能環保的版本,有些改造成適合越野的版本。在AI世界里,這些"改裝公司"就是我們說的中介服務商。
研究數據顯示,這些中介服務商的影響力正在快速擴大。以lmstudio-community、comfy和mlx-community為例,這三個組織在2025年的最近一年中,總共占據了超過22%的模型下載量。這是一個相當驚人的數字,要知道即使是傳統的科技巨頭,單獨一家公司能達到這個水平也是不容易的。
這些中介服務商主要從事幾種類型的"改造"工作。第一種是"量化服務",就好比把一部4K電影轉換成1080P或720P版本,讓普通用戶也能在自己的設備上流暢播放。許多最新的AI模型動輒需要幾十GB甚至上百GB的存儲空間,普通用戶的電腦根本無法承載。量化服務商就專門解決這個問題,他們能夠把這些"龐然大物"壓縮成普通電腦也能運行的版本,雖然性能會有一定損失,但對于大多數應用場景來說已經足夠了。
第二種是"格式轉換服務",這就像是把同一個軟件制作成Windows版、Mac版和手機版。不同的AI開發平臺和工具往往支持不同的模型格式,一個模型可能在A平臺上運行得很好,但在B平臺上就無法使用。格式轉換服務商就專門解決這種"兼容性"問題,確保同一個模型能夠在各種不同的平臺和設備上正常工作。
第三種是"藝術定制服務",這主要集中在圖像生成領域。許多藝術家和設計師希望AI能夠生成特定風格的作品,比如油畫風格、水彩風格或者特定藝術家的風格。但原始的AI模型通常只能生成"通用"風格的作品。藝術定制服務商就專門訓練和調整模型,讓它們能夠生成各種特定風格的藝術作品。這就像是把一個通用的畫筆改造成專門畫油畫或水彩畫的專用工具。
第四種是"效率優化服務",主要是讓AI模型運行得更快、更省電。就好比汽車的燃油經濟性改裝,原本的跑車引擎可能很強勁但也很耗油,經過優化改裝后,在保持足夠性能的同時,燃油消耗大幅降低。在AI領域,這種優化可能涉及算法改進、硬件適配等多個方面。
這些中介服務商的崛起,實際上反映了AI技術發展的一個重要趨勢:技術創新和實際應用之間的"最后一公里"問題變得越來越重要。那些在實驗室里表現卓越的AI模型,要真正為普通用戶所用,往往還需要大量的適配、優化和改造工作。這就像是從實驗室里的新藥到最終能在藥店買到的成品藥之間,還需要經過制劑工藝優化、包裝設計、質量控制等許多環節。
更有趣的是,這些中介服務商往往比原始模型的創造者更了解用戶的真實需求。他們直接面對終端用戶,能夠快速感知市場的變化和用戶的痛點,因此能夠提供更貼近實際需求的解決方案。這就像是零售店的老板往往比生產廠家更了解消費者真正想要什么一樣。
這種現象的出現,也標志著AI產業正在從"技術驅動"向"應用驅動"轉變。在早期的AI發展階段,擁有最強技術的公司往往能夠主導整個市場。但現在,僅僅擁有強大的技術還不夠,更重要的是能夠把技術轉化為用戶真正能夠使用和受益的產品和服務。這種轉變正在重新定義AI產業的價值鏈,也為更多類型的公司和組織提供了參與這個快速發展市場的機會。
從某種意義上說,這些中介服務商的成功,也證明了開放AI生態系統的健康發展。在一個成熟的技術生態系統中,往往會自然形成各種專業化的分工,每個參與者都在自己最擅長的環節發揮價值。基礎模型的開發者專注于技術創新和突破,而中介服務商則專注于應用優化和用戶體驗。這種分工協作的模式,不僅提高了整個生態系統的效率,也為用戶提供了更加豐富和便利的選擇。
四、透明度的暗流:開放世界中的"商業機密"
在開放AI的世界里,正在發生著一個看似矛盾的現象:雖然模型本身變得越來越"開放",但關于這些模型如何被訓練出來的信息卻變得越來越"神秘"。這就好比一家餐廳愿意免費分享他們的招牌菜,但卻不愿意透露菜譜的具體配方和制作過程。
這種現象在研究數據中表現得非常明顯。2022年時,大約79.3%的模型下載量來自那些公開了訓練數據信息的模型,也就是說,當時的AI開發者大多愿意告訴用戶"我用什么材料訓練了這個模型"。但到了2025年,這個比例急劇下降到了39%。這意味著現在超過60%的熱門模型都不再公開它們的"訓練食譜"。
這種變化的背后有著復雜的原因。首先是商業價值的考量。隨著AI模型的商業價值越來越高,許多公司開始將訓練數據視為核心商業機密。這就像是可口可樂的配方一樣,一旦公開就可能被競爭對手復制,從而失去競爭優勢。特別是那些表現卓越的模型,往往是因為使用了特別高質量或獨特的訓練數據,這些數據本身就具有巨大的價值。
其次是法律風險的考慮。在當前的法律環境下,使用網絡上的公開內容訓練AI模型可能面臨版權糾紛。許多內容創作者和出版商開始質疑AI公司是否有權使用他們的作品來訓練商業模型。為了避免潛在的法律風險,一些開發者選擇不公開訓練數據的具體來源,就像是"少說少錯,多說多錯"的謹慎策略。
第三個原因是技術競爭的加劇。在AI技術快速發展的當下,數據工程(也就是如何收集、清洗、組織訓練數據)已經成為了一個關鍵的技術競爭領域。一些公司認為,他們在數據處理方面的創新和技巧本身就是重要的技術秘密,不應該輕易分享給競爭對手。
更令人擔憂的是,這種透明度下降的趨勢還體現在模型訪問方式的變化上。越來越多的模型開始采用"門檻式訪問"(gating),也就是用戶必須先同意某些條件或提供個人信息才能下載使用。研究顯示,需要用戶"接受條件并分享信息"的模型比例增長了1.7倍,而需要"接受條件"的模型比例增長了1.2倍。這就好比從原來的"免費開放圖書館"變成了需要"登記身份才能進入的會員圖書館"。
在許可證(license)的使用上,變化也很明顯。傳統的"開放使用"許可證正在減少,取而代之的是更多帶有限制條件的許可證。比如,一些模型現在要求使用者必須"署名"(attribution)原作者,這種要求的比例增長了1.6倍。還有一些模型采用了"可接受使用政策"(Acceptable Usage Policy),這類許可證的使用保持穩定,但在整體許可證使用中的占比在上升。
這種趨勢引發了關于"真正的開放"和"表面的開放"之間區別的重要討論。按照開源倡議組織(Open Source Initiative)的定義,真正的"開源AI模型"不僅要提供模型的權重參數,還要提供"關于訓練數據的充分詳細信息"。如果沒有訓練數據的披露,這樣的模型只能稱為"開放權重"模型,而不是"開源"模型。
研究發現,2025年首次出現了一個歷史性的轉折點:開放權重模型的下載量超過了真正開源模型的下載量。這就好比在一個本來強調透明度的市場中,越來越多的產品開始只展示"成品"而不展示"制作過程"。這種變化可能會對AI技術的發展產生深遠影響,因為缺乏訓練數據信息會讓研究人員更難理解和改進現有模型,也會讓用戶更難評估模型的可靠性和偏見問題。
然而,這種透明度下降的趨勢并非不可逆轉。一些學術機構和非營利組織仍然堅持完全開放的原則,繼續發布包含完整訓練數據信息的模型。同時,一些新的技術解決方案也在出現,比如"差分隱私"技術可以在保護敏感信息的同時仍然提供有用的數據統計信息,"聯邦學習"技術則可以在不共享原始數據的情況下實現模型的協作訓練。
這個問題的核心在于如何在商業利益、法律合規、技術競爭和開放透明之間找到平衡。就像現實世界中的許多其他技術領域一樣,AI產業也需要在創新激勵和公共利益之間尋找合適的平衡點。這不僅僅是技術問題,更是涉及法律、倫理、商業和社會政策的復雜問題,需要各方利益相關者的共同努力來解決。
五、全球AI版圖中的"國別差異"
在這個看似無國界的數字世界里,AI模型的開發卻呈現出鮮明的"國別特色"。就像不同國家有著不同的文化傳統和制度安排一樣,各國在AI模型開發的組織方式上也表現出了有趣的差異。
美國的AI開發呈現出明顯的"大企業主導"特征。在美國開發的AI模型中,有高達67%來自大型科技公司,這就好比美國的AI世界主要由"大型軍工集團"在主導。Google、Meta、OpenAI這些科技巨頭就像是美國AI領域的"航空母艦",擁有強大的資源和技術實力,能夠開發出那些需要巨額投資和大量計算資源的前沿模型。相比之下,來自大學、非營利組織和個人開發者的模型只占很小的比例。
中國的情況與美國類似,也是以企業為主導,占比達到65%。但與美國不同的是,中國的AI企業發展歷史相對較短,許多公司都是在最近幾年才進入AI領域的"新兵"。這些公司往往具有更強的技術敏銳度和市場適應能力,能夠快速響應最新的技術趨勢。DeepSeek和Qwen等模型的快速崛起,就反映了中國AI企業在技術創新方面的強大活力。
英國的模式也偏向企業主導,占比為83%,甚至比美國還要高。這可能與英國作為傳統金融中心和創新高地的地位有關,許多AI初創公司和科技企業都把倫敦作為重要的發展基地。英國的AI發展具有"小而精"的特點,雖然總量不如美中兩國,但在特定領域往往有著很強的技術實力。
相比之下,歐洲大陸國家則展現出了更加"多元化"的發展模式。德國是一個特別有趣的例子,企業占比只有34%,而來自大學、非營利組織和社區的貢獻分別占36%、30%和42%。這種分布更像是一個"多方合作"的生態系統,而不是企業一家獨大的格局。這可能與德國重視產學研合作的傳統有關,也反映了歐洲在AI發展方面更加注重社會責任和公共利益的價值觀。
法國的情況類似于德國,企業占比為48%,而大學、非營利組織和社區的參與度都相對較高。法國政府在AI發展方面有著明確的國家戰略,既支持企業創新,也重視學術研究和公共部門的參與。這種"國家協調"的模式在一定程度上促進了各類機構的協同發展。
更有趣的是那些被歸類為"國際/在線"組織開發的模型。這些組織往往沒有明確的國別歸屬,而是由來自世界各地的開發者通過網絡協作完成。在這類組織中,企業占比只有6%,而社區開發者的占比高達70%。這就像是一個"虛擬聯合國",不同國家和地區的開發者為了共同的技術目標而聚集在一起,形成了一種全新的協作模式。
亞洲其他國家和地區也表現出了相對多元化的特征。企業占比為32%,大學占比為10%,社區占比為37%。這種分布反映了亞洲地區AI發展的多樣性,既有像新加坡、韓國這樣的技術強國,也有許多新興的AI發展中心。
這種"國別差異"的產生有著深刻的制度和文化根源。美國的風險投資體系和創業文化促進了大型科技公司的快速發展,這些公司擁有充足的資金來進行長期的AI研究投資。中國的政府政策支持和巨大的市場規模,為AI企業的快速成長提供了良好的環境。而歐洲的多元化發展模式則反映了該地區對于平衡商業利益和社會價值的重視。
這些差異不僅僅是統計數字,它們實際上影響著不同國家和地區AI技術的發展方向和特色。企業主導的模式往往更注重商業應用和技術突破,而學術機構主導的模式可能更重視基礎研究和理論創新。社區主導的模式則通常更加開放和多樣化,能夠探索一些大企業可能不會關注的小眾應用領域。
這種多樣性對于全球AI技術的健康發展實際上是非常有益的。就像生物多樣性對于生態系統健康的重要性一樣,組織多樣性也為AI技術的發展提供了更多的可能性和創新路徑。不同類型的組織有著不同的優勢和關注點,它們的競爭與合作共同推動著AI技術向更加豐富和平衡的方向發展。
六、數據背后的故事:22億次下載的深層洞察
要理解這項研究的價值,我們需要先了解研究團隊是如何從海量數據中挖掘出有意義信息的。這個過程就像是考古學家從古代遺址中還原歷史真相一樣,需要精心的設計、細致的分析和嚴謹的驗證。
首先,獲取如此大規模的數據本身就是一個挑戰。Hugging Face平臺每天都有數以萬計的模型下載,要準確記錄和分析這些數據,就像要實時監控一個繁忙機場的所有航班起降情況一樣復雜。研究團隊采用了一種叫做"滾動窗口過濾"的方法來確保數據的準確性。這種方法的核心思想是:只有在模型發布后一年內的下載才被計入統計,超過一年的下載往往是由自動化程序產生的"噪音",并不代表真實的使用需求。
這就好比統計一首歌曲的流行度,如果簡單地計算總播放次數,可能會被一些"刷榜"行為誤導。但如果只統計歌曲發布后一定時間內的播放量,就能更準確地反映它的真實受歡迎程度。通過這種過濾方法,研究團隊從188萬個模型中篩選出了85.1萬個"真正被使用"的模型,這些模型占據了97.6%的總下載量。
為了更深入地了解模型的特征,研究團隊還進行了大量的手工標注工作。他們雇傭了專業的標注員,以每小時25美元的標準(遠高于美國最低工資標準)對最受歡迎的模型進行詳細分析。這些標注員就像是"模型檔案管理員",為每個模型建立詳細的"身份檔案",包括它的架構類型、功能特點、訓練方法、數據來源等信息。
在模型規模的統計上,研究團隊遇到了一個有趣的挑戰:許多模型并沒有明確標注自己有多少參數。這就好比許多產品沒有標明重量一樣。為了解決這個問題,他們使用了一種叫做RANSAC回歸的統計方法,通過分析模型文件的大小來推估參數數量。這種方法就像是通過包裝盒的大小來推測里面產品的重量,雖然不是100%精確,但在大樣本統計中具有很好的可靠性。
為了衡量AI世界中的"權力集中度",研究團隊借用了經濟學中的專業工具。赫芬達爾-赫希曼指數(HHI)就像是測量市場壟斷程度的"溫度計",指數越高說明市場越集中,指數越低說明競爭越激烈。基尼系數則像是測量"貧富差距"的工具,在這里被用來衡量不同開發者之間影響力的分布是否均勻。
一個特別值得關注的發現是關于"遞歸模型歸因"的處理。當一個模型A是基于另一個模型B開發的時候,A的下載量應該算在誰的頭上?這就像是一個哲學問題:如果你用面粉做出了面包,面包的價值應該歸功于誰?研究團隊采用了兩種不同的統計方法:一種是把功勞歸給直接的開發者(面包師),另一種是把功勞歸給原始的基礎模型開發者(面粉生產商)。通過對比這兩種方法的結果,能夠更全面地理解AI生態系統中的價值分配。
在地理位置的歸屬上,研究團隊也面臨著挑戰。對于企業和機構,他們根據總部所在地來確定國別歸屬。但對于個人開發者,出于隱私保護的考慮,他們選擇不進行國別統計,而是統一歸類為"個人用戶"。這種處理方法平衡了研究需要和隱私保護的要求。
數據的時間跨度從2020年6月延續到2025年8月,總共覆蓋了265周。這就像是拍攝了一部長達五年的"延時攝影"電影,記錄了整個AI生態系統的變遷過程。通過分析不同時間段的數據變化,研究團隊能夠識別出重要的轉折點和發展趨勢。
為了驗證研究結果的可靠性,研究團隊還與其他數據源進行了對比。雖然他們發現其他平臺(如OpenRouter)的數據存在選擇偏差,但Hugging Face作為目前最大最全面的開放模型平臺,其數據確實能夠代表整個開放AI生態系統的真實狀況。
這種嚴謹的數據處理方法確保了研究結論的可信度。就像建造一座摩天大樓需要堅實的地基一樣,得出可靠的研究結論也需要高質量的數據基礎。通過這些精心設計的數據收集和處理方法,研究團隊為我們提供了迄今為止最全面、最準確的開放AI生態系統"全景圖"。
這項研究的另一個重要貢獻是建立了一個持續監測的機制。研究團隊不僅發布了歷史數據的分析結果,還建立了一個實時更新的監控面板,讓任何感興趣的人都能夠跟蹤AI生態系統的最新變化。這就像是為AI世界安裝了一個"實時監控系統",讓我們能夠及時發現和理解新的發展趨勢。
說到底,這項研究最大的價值在于它提供了一個前所未有的"透明窗口",讓我們能夠看清楚這個快速發展的AI世界中到底在發生什么。在一個充滿炒作和猜測的技術領域,這樣基于大規模真實數據的嚴謹分析就像是黑暗中的一盞明燈,為理解AI技術的真實發展狀況提供了可靠的指引。無論是政策制定者、企業決策者還是普通的技術愛好者,都能從這項研究中獲得有價值的洞察,更好地理解和參與這個正在塑造我們未來的技術革命。
Q&A
Q1:Hugging Face平臺上的模型下載數據能代表整個AI產業的發展狀況嗎?
A:研究團隊選擇Hugging Face是經過深思熟慮的。這個平臺目前托管著超過200萬個AI模型,累計下載量達到17億次,是全球最大的開放AI模型平臺。雖然它主要反映的是開放模型的情況,但考慮到開放模型在整個AI生態系統中的重要地位,以及該平臺的全球覆蓋范圍,這些數據確實能夠很好地代表開放AI領域的發展趨勢,對理解整個AI產業也有重要參考價值。
Q2:中國AI模型下載量超越美國意味著什么?
A:這個變化確實很有意義。2025年中國模型的下載份額達到17.1%,首次超過美國的15.8%,主要是由DeepSeek和Qwen等模型的優異表現推動的。這表明中國在AI技術創新方面已經達到了世界一流水平,特別是在大規模語言模型和多模態模型方面。不過需要注意的是,這個變化主要反映在開放模型領域,整個AI產業的競爭格局仍然很復雜,包括硬件、軟件生態、應用場景等多個維度。
Q3:AI模型變得越來越不透明對普通用戶有什么影響?
A:這確實是一個值得關注的趨勢。研究發現,公開訓練數據信息的模型比例從2022年的79.3%下降到2025年的39%。對普通用戶來說,這意味著我們越來越難以了解AI模型是如何被訓練的,可能存在什么偏見或局限性。這會讓用戶更難評估模型的可靠性和適用性。同時,這種趨勢也可能阻礙學術研究和技術創新,因為研究人員需要了解訓練數據才能更好地理解和改進模型。不過,一些新的技術解決方案正在出現,試圖在保護商業秘密的同時提供必要的透明度。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.