當(dāng) Meta 發(fā)布 Llama、DeepSeek 開(kāi)放 R1 權(quán)重時(shí),整個(gè)技術(shù)社區(qū)都在歡呼AI 開(kāi)源時(shí)代來(lái)了。但一個(gè)關(guān)鍵問(wèn)題被忽略了:把模型權(quán)重掛到網(wǎng)上供人下載,就等于"開(kāi)源"了嗎?如果沒(méi)有人能真正參與到模型的共同開(kāi)發(fā)中,那這種"開(kāi)源"與免費(fèi)發(fā)放產(chǎn)品試用裝之間,究竟有什么區(qū)別?
在傳統(tǒng)開(kāi)源軟件(OSS)的黃金年代,Eric Raymond 提出的"集市"模式(Bazaar)被奉為開(kāi)源協(xié)作開(kāi)發(fā)的典范:開(kāi)發(fā)者分布式參與,流程開(kāi)放透明,用戶可以自下而上驅(qū)動(dòng)創(chuàng)新。從 Linux 內(nèi)核到 Apache,再到 PyTorch,無(wú)數(shù)成功案例證明了這一范式的強(qiáng)大生命力。然而,在人工智能時(shí)代,所謂的開(kāi)源 AI 模型(以下簡(jiǎn)稱 OSM)正在悄然背離這一經(jīng)典范式。
北京大學(xué)開(kāi)源軟件分析實(shí)驗(yàn)室團(tuán)隊(duì)完成了一項(xiàng)大規(guī)模混合方法實(shí)證研究,結(jié)合大規(guī)模數(shù)據(jù)挖掘(GitHub 上 1,428,792 個(gè) OSS 倉(cāng)庫(kù) vs. Hugging Face 上 1,440,527 個(gè) OSM 倉(cāng)庫(kù))、社會(huì)網(wǎng)絡(luò)分析、主題建模分析以及對(duì)數(shù)十名核心開(kāi)發(fā)者與社區(qū)參與者的深度訪談,系統(tǒng)性地對(duì)比了傳統(tǒng)開(kāi)源軟件與開(kāi)源 AI 模型在協(xié)作模式上的差異,是目前該領(lǐng)域規(guī)模最大的跨平臺(tái)實(shí)證對(duì)比研究。
![]()
核心發(fā)現(xiàn)可以概括為一句話:當(dāng)前的開(kāi)源 AI,在很大程度上是一種"只讀式開(kāi)源":模型可以下載和使用,但協(xié)作開(kāi)發(fā)的大門(mén)幾乎是關(guān)閉的。 但故事并沒(méi)有止步于此,在舊范式失靈的裂隙中,新的協(xié)作形態(tài)正在萌芽。
一、消失的互動(dòng):協(xié)作數(shù)據(jù)的全景掃描
把近 288 萬(wàn)個(gè)倉(cāng)庫(kù)的數(shù)據(jù)攤開(kāi)對(duì)比,可以發(fā)現(xiàn)開(kāi)源 AI 社區(qū)的協(xié)作強(qiáng)度相比傳統(tǒng)開(kāi)源軟件,不是略有下降,而是斷崖式塌陷:
- 近 140 倍的活躍度鴻溝:在核心開(kāi)發(fā)指標(biāo)上,傳統(tǒng) OSS 倉(cāng)庫(kù)的平均提交數(shù)(Commits)達(dá)到 1,464 次,而 OSM 僅為 10.65 次。一個(gè)典型的開(kāi)源 AI 倉(cāng)庫(kù)的全部開(kāi)發(fā)活躍度,可能還不如一個(gè)活躍的傳統(tǒng)開(kāi)源項(xiàng)目一個(gè)月的貢獻(xiàn)頻次。
- 近乎沉寂的社區(qū)討論:傳統(tǒng) OSS 平均每個(gè)倉(cāng)庫(kù)的 Issue 數(shù)量為 35.94 條,而 OSM 倉(cāng)庫(kù)的社區(qū)討論平均僅有 0.20 條(約 180 倍的差距)。絕大多數(shù)開(kāi)源 AI 模型的倉(cāng)庫(kù)頁(yè)面更像一個(gè)靜默的文件下載站,而非一個(gè)活躍的協(xié)作社區(qū)。
- 高度中心化的協(xié)作網(wǎng)絡(luò):社會(huì)網(wǎng)絡(luò)分析進(jìn)一步揭示,傳統(tǒng) OSS 的開(kāi)發(fā)者協(xié)作網(wǎng)絡(luò)在深度和廣度上都遠(yuǎn)超 OSM。在 OSM 的提交網(wǎng)絡(luò)中,頭部項(xiàng)目的核心開(kāi)發(fā)往往被同一小批內(nèi)部成員包攬,外部節(jié)點(diǎn)極度稀疏。
- 極低的外部貢獻(xiàn)率:開(kāi)源的精髓不只是"結(jié)果可獲取",更在于"過(guò)程可參與",但在當(dāng)前的開(kāi)源 AI 領(lǐng)域,這種參與的開(kāi)放性幾乎名存實(shí)亡。OSM 的直接貢獻(xiàn)(代碼/權(quán)重提交)極度封閉,98.91% 的貢獻(xiàn)者來(lái)自發(fā)布機(jī)構(gòu)內(nèi)部或在線托管平臺(tái)員工,外部開(kāi)發(fā)者的直接貢獻(xiàn)僅占 1.09%。換句話說(shuō),絕大多數(shù)開(kāi)源 AI 模型的開(kāi)發(fā)過(guò)程,外界幾乎無(wú)從介入。而即便是傳統(tǒng)商業(yè)公司主導(dǎo)的 OSS 項(xiàng)目,其外部開(kāi)發(fā)者的貢獻(xiàn)比例通常也能達(dá)到 56.7%。
指標(biāo) 傳統(tǒng)開(kāi)源軟件 (OSS) 開(kāi)源 AI 模型 (OSM) 差異倍數(shù)
平均 Commits
1,464 10.65 ~140x 平均 Issues / Discussions 35.94 0.20 ~180x
外部貢獻(xiàn)者比例
超過(guò) 56.7% 1.09% ~50x
二、從“共同開(kāi)發(fā)者”到“適配使用者”:用戶角色的遷移
數(shù)字背后是更根本的分歧:傳統(tǒng)開(kāi)源社區(qū)的對(duì)話圍繞"如何一起把它改好",而AI開(kāi)源社區(qū)的對(duì)話圍繞"我該怎么把它跑通"。基于數(shù)萬(wàn)條在線托管平臺(tái)交流記錄的主題分析印證了這一判斷。
- 傳統(tǒng) OSS:圍繞“改進(jìn)”展開(kāi)。溝通內(nèi)容高度集中于"Bug 報(bào)告"(42.7%)和"功能改進(jìn)建議"(28.2%),用戶以"共同開(kāi)發(fā)者"的身份深度參與產(chǎn)品打磨。一條典型的 Issue 可能是:"我發(fā)現(xiàn)某某函數(shù)在并發(fā)場(chǎng)景下存在競(jìng)態(tài)條件,附上復(fù)現(xiàn)代碼和修復(fù) PR。"
- OSM:圍繞“使用”展開(kāi)。社區(qū)討論的主流變成了"使用問(wèn)題"(40.0%)和"性能評(píng)估"(22.3%)。一條典型的 Discussion 更像是:"我在 4-bit 量化后推理結(jié)果出現(xiàn)亂碼,有人遇到過(guò)同樣問(wèn)題嗎?"
用戶不再致力于改進(jìn)模型本身,而是專注于在下游應(yīng)用中進(jìn)行環(huán)境適配和微調(diào)。他們正從"開(kāi)發(fā)者"(Developer)演變?yōu)?適配者"(Adaptor)。這意味著所謂的開(kāi)源 AI 社區(qū)在協(xié)作性質(zhì)上更接近一個(gè)用戶論壇,而非一個(gè)共建社區(qū)。
三、為什么“集市”在模型開(kāi)發(fā)的語(yǔ)境下失靈了?
協(xié)作的塌陷不是偶然的,對(duì)數(shù)?名領(lǐng)域?qū)<业纳疃仍L談反復(fù)傳遞著同一個(gè)信號(hào):不是人們不愿意協(xié)作,而是AI模型開(kāi)發(fā)的技術(shù)現(xiàn)實(shí)和產(chǎn)業(yè)邏輯,從根本上堵死了傳統(tǒng)協(xié)作的入口。
- 策略性開(kāi)放的出發(fā)點(diǎn)定位。在 AI 領(lǐng)域,開(kāi)源往往是企業(yè)競(jìng)爭(zhēng)的戰(zhàn)略棋子:構(gòu)建生態(tài)鎖定、爭(zhēng)奪開(kāi)發(fā)者、對(duì)抗競(jìng)爭(zhēng)對(duì)手的封閉策略,而并非完全為了社區(qū)共建。正如一位受訪者所言:"雖然大家都在說(shuō)開(kāi)源,但大公司之間其實(shí)幾乎不存在真正的協(xié)作,說(shuō)到底還是商業(yè)競(jìng)爭(zhēng)和壟斷",另一位受訪者補(bǔ)充道:"小公司也不太可能真正開(kāi)源自己的模型,因?yàn)橘u(mài) API 就是它們的主營(yíng)業(yè)務(wù)。大公司可以靠其他增值服務(wù)賺錢(qián),但對(duì)小公司來(lái)說(shuō),模型本身就是全部家當(dāng)“。這種策略性開(kāi)放從動(dòng)機(jī)層面就決定了社區(qū)參與的天花板。
- 技術(shù)架構(gòu)的黑盒壁壘。傳統(tǒng)軟件的源代碼是人類(lèi)可讀的文本,開(kāi)發(fā)者可以逐行審查、定位問(wèn)題、提交修改。但模型權(quán)重是高維的二進(jìn)制數(shù)值文件,無(wú)法像讀代碼一樣讀懂一個(gè) 70B 參數(shù)模型的某一層為什么會(huì)產(chǎn)生某種輸出。更關(guān)鍵的是,當(dāng)前模型主流架構(gòu)具有高度的全局耦合性,難以像傳統(tǒng)軟件那樣實(shí)現(xiàn)清晰的模塊化分工。代碼是可以被理解的協(xié)作對(duì)象,而模型權(quán)重不是。
- 算力構(gòu)筑的參與門(mén)檻。訓(xùn)練一個(gè)前沿大模型所需的算力投入,已經(jīng)從"昂貴"升級(jí)為"天文數(shù)字"。一位受訪者直接提及:“我們公司去年投入超過(guò) 5 億美元,其中 70% 花在了算力上,個(gè)人開(kāi)發(fā)者根本承擔(dān)不起這種級(jí)別的參與。” 當(dāng)核心開(kāi)發(fā)的入場(chǎng)券標(biāo)價(jià)數(shù)億美元,獨(dú)立開(kāi)發(fā)者和小型團(tuán)隊(duì)就被徹底排除在了核心協(xié)作圈之外。
- 基礎(chǔ)設(shè)施的結(jié)構(gòu)性錯(cuò)位。以Git為代表的、驅(qū)動(dòng)了傳統(tǒng)開(kāi)源繁榮的版本控制基礎(chǔ)設(shè)施,擅長(zhǎng)追蹤代碼的逐行變更,卻無(wú)法有效管理動(dòng)輒數(shù)十 GB 的模型權(quán)重文件。當(dāng)每次提交的具體修改內(nèi)容都無(wú)法明確追蹤的時(shí)候,模型審查和協(xié)作迭代就失去了基礎(chǔ)。
四、舊范式失靈,但新芽已現(xiàn):OSM中的全新協(xié)作形態(tài)
如果故事止步于“集市”模式的失靈,那未免過(guò)于悲觀。事實(shí)上,在傳統(tǒng)協(xié)作范式瓦解的裂隙中,幾種全新的協(xié)作形態(tài)正在自發(fā)生長(zhǎng)。
- 外圍知識(shí)生產(chǎn)。被算力和技術(shù)壁壘擋在核心開(kāi)發(fā)之外的貢獻(xiàn)者,并沒(méi)有徹底沉默。他們正在開(kāi)辟另一條路徑:不觸碰模型權(quán)重本身,而是圍繞模型構(gòu)建獨(dú)立于模型結(jié)構(gòu)之外的知識(shí)公共財(cái)產(chǎn),例如提示詞庫(kù)(Prompt Libraries)的集體編寫(xiě)、評(píng)測(cè)基準(zhǔn)(Benchmarks)的共同開(kāi)發(fā)、使用文檔和最佳實(shí)踐的社區(qū)積累。這些貢獻(xiàn)并未改動(dòng)模型的參數(shù),卻推進(jìn)了模型被理解、被評(píng)估、被使用的方式。“改不了黑盒本身,就去改黑盒周?chē)囊磺?/strong>”,這正是外圍貢獻(xiàn)者找到的協(xié)作突破口。
- 集體邊界探測(cè)。另一種引人注目的協(xié)作形態(tài)是,大量用戶通過(guò)分布式的實(shí)驗(yàn)測(cè)試,協(xié)同探索模型的行為邊界和能力極限。紅隊(duì)測(cè)試、對(duì)抗性提示、邊界案例收集……這些看似零散的用戶行為,匯聚起來(lái)構(gòu)成了一種大規(guī)模的協(xié)同評(píng)估機(jī)制。即便核心訓(xùn)練過(guò)程仍然封閉,這些來(lái)自外圍的信號(hào)也能反向引導(dǎo)上游開(kāi)發(fā)者優(yōu)化模型對(duì)齊,形成一種間接但真實(shí)的協(xié)作閉環(huán)。
- 基于資源互補(bǔ)的聯(lián)盟式協(xié)作。傳統(tǒng)軟件可以通過(guò)功能模塊的分解實(shí)現(xiàn)分工協(xié)作,但 AI 模型的不可分解性使得一種新的協(xié)作模式萌生:不再拆分任務(wù),而是交換資源,大型機(jī)構(gòu)貢獻(xiàn)算力,合作方和社區(qū)貢獻(xiàn)領(lǐng)域知識(shí)與專有數(shù)據(jù)。這種資源互補(bǔ)式的聯(lián)盟,讓大模型開(kāi)發(fā)變成了參與方各出所長(zhǎng)的聯(lián)合行動(dòng),它不是集市,更像是一種以資源為紐帶的協(xié)作聯(lián)邦。
五、通往 AI 協(xié)作新范式的四條路徑
識(shí)別了問(wèn)題的根源和新生的協(xié)作萌芽之后,一個(gè)自然的追問(wèn)是:能否主動(dòng)設(shè)計(jì)方案和工具,促使OSM中協(xié)作的發(fā)生?破局的關(guān)鍵不在于空泛地呼吁更多人來(lái)貢獻(xiàn),而在于重新定義什么叫貢獻(xiàn)、重新設(shè)計(jì)協(xié)作的基礎(chǔ)設(shè)施,上述實(shí)證發(fā)現(xiàn)和訪談洞察共同指向了四條通往AI協(xié)作新范式的路徑。
- 標(biāo)準(zhǔn)化訓(xùn)練配方(Recipes)。完整復(fù)現(xiàn)一個(gè)大模型的算力門(mén)檻極高,但透明性可以通過(guò)另一條路徑實(shí)現(xiàn):將數(shù)據(jù)處理邏輯、超參數(shù)配置、環(huán)境規(guī)格等打包為標(biāo)準(zhǔn)化的訓(xùn)練配方,讓社區(qū)無(wú)需重跑訓(xùn)練,也能評(píng)估和驗(yàn)證模型的構(gòu)建過(guò)程。配方將開(kāi)發(fā)邏輯與硬件需求解耦,社區(qū)參與者跑不起同樣的訓(xùn)練不要緊,但至少能看懂它是怎么做出來(lái)的,這是彌合模型生產(chǎn)者與社區(qū)之間資源鴻溝的重要一步。
- 構(gòu)建“偽模塊化”的協(xié)作接口。AI模型整體難以模塊化切分,而包括但不限于PEFT(參數(shù)高效微調(diào))技術(shù)和模型融合在內(nèi)的新技術(shù)卻正在模擬模塊化,為更加解耦的開(kāi)發(fā)流程鋪路。將模型變體的生產(chǎn)從端到端的完整訓(xùn)練流程中剝離出來(lái),獨(dú)立貢獻(xiàn)者無(wú)需重跑預(yù)訓(xùn)練,就可以開(kāi)發(fā)面向特定任務(wù)的模型變體。這種"偽模塊化"讓協(xié)作可以異步發(fā)生,從而繞開(kāi)了預(yù)訓(xùn)練階段的巨額算力門(mén)檻,讓更多人有機(jī)會(huì)真正參與到模型開(kāi)發(fā)中來(lái)。
- 開(kāi)發(fā)適配 AI 特性的協(xié)作基礎(chǔ)設(shè)施。一套為 AI 協(xié)作設(shè)計(jì)的新工具鏈正亟待設(shè)計(jì)和實(shí)現(xiàn),以面向大規(guī)模二進(jìn)制文件的語(yǔ)義化差分存儲(chǔ)與版本控制、標(biāo)準(zhǔn)化的插件式推理接口、低門(mén)檻的在線實(shí)驗(yàn)環(huán)境等。正如 Git 和 GitHub 催生了傳統(tǒng)開(kāi)源的黃金時(shí)代,AI 開(kāi)源的繁榮同樣需要屬于自己的基礎(chǔ)設(shè)施革命。
- 重構(gòu)貢獻(xiàn)度評(píng)價(jià)體系。當(dāng)前的開(kāi)源貢獻(xiàn)評(píng)估高度依賴代碼提交(Commit)和合并請(qǐng)求(Pull Request),但在OSM開(kāi)發(fā)語(yǔ)境下,許多關(guān)鍵貢獻(xiàn)形式被系統(tǒng)性地低估了。正如第四部分所揭示的那樣,外圍知識(shí)生產(chǎn)、集體邊界探測(cè)、資源互補(bǔ)協(xié)同,這些不寫(xiě)代碼的協(xié)作形式對(duì)模型質(zhì)量和安全同樣至關(guān)重要,卻長(zhǎng)期游離在正式的貢獻(xiàn)激勵(lì)體系之外。承認(rèn)并量化這些貢獻(xiàn),才能讓更多樣化的參與者找到協(xié)作的入口。
一方面,傳統(tǒng)開(kāi)源的"集市"模式在 AI 模型開(kāi)發(fā)的場(chǎng)域下正經(jīng)歷嚴(yán)重的失靈:協(xié)作強(qiáng)度斷崖式下跌,外部參與近乎封閉,用戶從共同開(kāi)發(fā)者退化為被動(dòng)使用者;而另一方面,在舊范式瓦解的縫隙中,新的協(xié)作形態(tài)正在萌生:外圍知識(shí)生產(chǎn)、集體邊界探測(cè)、資源互補(bǔ)協(xié)同等,共同指向了一種與AI模型技術(shù)特性相適應(yīng)的全新協(xié)作邏輯。
開(kāi)源 AI 的未來(lái)不應(yīng)止步于開(kāi)放權(quán)重,真正需要的不僅是理念上的重申,更是技術(shù)基礎(chǔ)設(shè)施、協(xié)作工具鏈和貢獻(xiàn)評(píng)價(jià)體系的系統(tǒng)性重建。"集市"或許不會(huì)終結(jié),但它需要一場(chǎng)深刻的自我革新:在算力障礙與黑盒架構(gòu)的重壓之下,重新找到人人可參與的協(xié)作之路,而那些正在萌芽的新協(xié)作形態(tài),或許正是這場(chǎng)革新最有希望的起點(diǎn)。
-- 論文信息:
> 論文標(biāo)題:From OSS to Open Source AI: an Exploratory Study of Collaborative Development Paradigm Divergence
> 發(fā)表于:The 29th ACM Conference on Computer-Supported Cooperative Work & Social Computing (CSCW’26)
> 作者:Hengzhi Ye, Minghui Zhou
> 全文鏈接:http://arxiv.org/abs/2604.08888
> 歡迎引用、討論與批評(píng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.