如果有一天,全球科研人員突然無(wú)法訪問(wèn) arXiv,許多領(lǐng)域的研究節(jié)奏可能會(huì)被打亂。每天清晨刷新論文列表,已經(jīng)成為部分?jǐn)?shù)學(xué)家、物理學(xué)家和AI研究者的固定習(xí)慣。許多重要研究從誕生到傳播的第一站,往往不是期刊,而是這個(gè)界面樸素的預(yù)印本服務(wù)器。
然而,這個(gè)支撐全球科研交流的基礎(chǔ)設(shè)施,在很長(zhǎng)時(shí)間里卻只是康奈爾大學(xué)圖書館中的一個(gè)項(xiàng)目。最近公布的計(jì)劃顯示,arXiv正在準(zhǔn)備從康奈爾大學(xué)系統(tǒng)中獨(dú)立出來(lái),成立一個(gè)新的非營(yíng)利機(jī)構(gòu)。這一變化意味著,運(yùn)行了三十多年的arXiv平臺(tái),將從一個(gè)非營(yíng)利項(xiàng)目轉(zhuǎn)變成擁有獨(dú)立法人地位的非營(yíng)利機(jī)構(gòu)。
過(guò)去arXiv也在做非營(yíng)利的工作,但獨(dú)立才是這次轉(zhuǎn)變的題眼。正如arXiv招聘CEO的公告所強(qiáng)調(diào)的,“arXiv正在轉(zhuǎn)變?yōu)橐粋€(gè)獨(dú)立的非營(yíng)利組織。這轉(zhuǎn)型將有助于加快技術(shù)開發(fā)速度、增強(qiáng)組織靈活性、擴(kuò)大合作伙伴關(guān)系,并實(shí)現(xiàn)長(zhǎng)期的財(cái)務(wù)可持續(xù)性 。獨(dú)立身份使 arXiv 能夠緊跟其發(fā)展的各個(gè)要素:實(shí)現(xiàn)基礎(chǔ)設(shè)施現(xiàn)代化 、擴(kuò)大學(xué)科覆蓋范圍,并與國(guó)際利益相關(guān)方進(jìn)行更深入的互動(dòng)”[1]。
從一位科學(xué)家隨手搭建的小系統(tǒng),到全球最大的論文預(yù)印本平臺(tái)。從最初的個(gè)人服務(wù)器,到掛靠康奈爾大學(xué)圖書館的項(xiàng)目,再到今天的獨(dú)立非營(yíng)利機(jī)構(gòu)。arXiv 的發(fā)展歷程,本身就帶著某種偶然性。
01
偶然誕生的全球科學(xué)基礎(chǔ)設(shè)施
1991 年夏天,物理學(xué)家保羅·金斯伯格(Paul Ginsparg)偶然聽到同行抱怨,這位同行擔(dān)心自己出差時(shí),郵箱里堆積的論文會(huì)把自己有限的磁盤配額撐爆。那時(shí),物理學(xué)家之間交換研究成果的方式仍然主要依靠郵件列表,很多研究者甚至要等待數(shù)月才能讀到同行的最新成果,而且郵件內(nèi)容也不能主動(dòng)選擇。
金斯伯格當(dāng)時(shí)在洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室工作。他很快寫出了一套程序,建立一個(gè)中央自動(dòng)化存儲(chǔ)庫(kù)和提醒系統(tǒng),研究者可以把論文上傳到服務(wù)器,僅根據(jù)需求向訂閱者發(fā)送全文。這個(gè)系統(tǒng)最初的版本運(yùn)行在一臺(tái) NeXT 計(jì)算機(jī)上,只是一個(gè)面向少數(shù)高能物理學(xué)家的工具。
要知道,1991年的時(shí)候萬(wàn)維網(wǎng)(World Wide Web)都還沒有發(fā)明。要到一年之后,他才在同事的引薦下認(rèn)識(shí)了萬(wàn)維網(wǎng)之父蒂姆·伯納斯-李(Tim Berners-Lee),并且?guī)椭鷧f(xié)助測(cè)試了美國(guó)第一個(gè) Web 服務(wù)器。后來(lái),他也把自己發(fā)明的論文分發(fā)系統(tǒng)搬上了萬(wàn)維網(wǎng)。
幾年之后,這個(gè)系統(tǒng)開始通過(guò)網(wǎng)頁(yè)訪問(wèn),并逐漸獲得更廣泛的用戶。隨著互聯(lián)網(wǎng)在學(xué)術(shù)界迅速普及,上傳論文、公開分享研究成果的方式逐漸成為一種新的研究習(xí)慣。
最初,金斯伯格計(jì)劃每年接收來(lái)自高能粒子物理一個(gè)小分支的約 100 篇投稿,但其用戶和范圍迅速擴(kuò)大,頭半年就收到了 400 篇投稿。當(dāng)時(shí),這個(gè)系統(tǒng)仍帶著一種世外桃源般的自由感,金斯伯格回憶,“在那些日子里,編輯控制幾乎是不必要的,互聯(lián)網(wǎng)仍是學(xué)術(shù)界的私人游樂(lè)場(chǎng),極少受到外界干擾”[2]。
三十多年后的今天,arXiv已經(jīng)收錄超過(guò)兩百多萬(wàn)篇論文,每年新增投稿超過(guò)二十萬(wàn)篇。在數(shù)學(xué)、理論物理和人工智能等領(lǐng)域,研究成果往往會(huì)先出現(xiàn)在 arXiv 上,再進(jìn)入期刊或?qū)W術(shù)會(huì)議的正式發(fā)表流程。
很多有影響力的論文最初都是發(fā)表于arXiv,例如俄羅斯數(shù)學(xué)家 Grigori Perelman 證明龐加萊猜想的論文。以及2017年發(fā)布的AI領(lǐng)域著名論文,開創(chuàng)如今大模型時(shí)代的《注意力即一切》(Attention Is All You Need)。
當(dāng)然,一個(gè)沒有同行評(píng)審的平臺(tái),也會(huì)有很多有問(wèn)題的論文,比如2023年引起常溫超導(dǎo)討論熱潮的,來(lái)自韓國(guó)科學(xué)家的論文《首個(gè)常溫常壓超導(dǎo)體》(The First Room-Temperature Ambient-Pressure Superconductor)也發(fā)表于arXiv。
近年來(lái),AI研究的爆發(fā)讓 arXiv的重要性進(jìn)一步提高。許多機(jī)器學(xué)習(xí)論文在完成后幾乎會(huì)立即上傳,隨后再提交到會(huì)議或期刊。不知不覺,arXiv已經(jīng)成為了學(xué)術(shù)界的基礎(chǔ)設(shè)施。
金斯伯格原本的設(shè)想是很快從這一事務(wù)中抽身,繼續(xù)投入科學(xué)研究,可平臺(tái)的擴(kuò)張吞噬了他的時(shí)間。
在2011年,也就是arXiv誕生20年之際,金斯伯格曾經(jīng)打算離開這個(gè)平臺(tái),當(dāng)時(shí)他表示“對(duì)我而言,這個(gè)數(shù)據(jù)庫(kù)本該是一次三小時(shí)的旅行,而不是終生事業(yè)。arXiv 最初的構(gòu)想是完全自動(dòng)化,這樣就不會(huì)耽誤我的研究生生涯。然而,每天與其運(yùn)行相關(guān)的管理事務(wù),往往會(huì)占用每個(gè)工作日數(shù)小時(shí)的時(shí)間,而且沒有假期可言”。
至于arXiv平臺(tái),金斯伯格也認(rèn)為它到了需要變革的關(guān)鍵節(jié)點(diǎn),“20年后,看到 arXiv 穩(wěn)定且成功地運(yùn)行著一些原始軟件,并為規(guī)模比預(yù)期大近千倍的社區(qū)提供服務(wù),令人倍感振奮 。但在未來(lái)的某個(gè)時(shí)間點(diǎn),它需要進(jìn)行徹底的改革,以緊跟新的在線趨勢(shì)和時(shí)機(jī)[3]”。
02
arXiv與康奈爾大學(xué)的分合
盡管 arXiv 在學(xué)術(shù)交流中扮演著越來(lái)越重要的角色,它的組織結(jié)構(gòu)卻一直比較簡(jiǎn)單,創(chuàng)始者金斯伯格的個(gè)人色彩也很濃。
2001 年,由于當(dāng)時(shí)洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室氣氛緊張,金斯伯格轉(zhuǎn)去了母校康奈爾大學(xué)工作,那時(shí)候arXiv已經(jīng)有了不小的影響力,但還是被帶去了康奈爾大學(xué),由大學(xué)圖書館負(fù)責(zé)運(yùn)營(yíng)。從法律意義上說(shuō),arXiv 并不是一個(gè)獨(dú)立機(jī)構(gòu),而是康奈爾圖書館的一項(xiàng)服務(wù)。
大學(xué)圖書館看起來(lái)很適合運(yùn)行一個(gè)論文平臺(tái),但是隨著平臺(tái)的膨脹以及時(shí)間的推移,arXiv的本身的運(yùn)作變得越來(lái)越復(fù)雜,圖書館也很難給到合適的支持。不說(shuō)其他的管理難題,就說(shuō)代碼一項(xiàng),arXiv誕生于萬(wàn)維網(wǎng)出現(xiàn)之前,代碼庫(kù)不斷堆疊,只是維護(hù)運(yùn)營(yíng)就是一個(gè)很大的工程。
而這個(gè)系統(tǒng)最初不過(guò)是金斯伯格隨手搭建的,他根本沒料到后來(lái)會(huì)面臨如此復(fù)雜的運(yùn)維問(wèn)題。金斯伯格本人并非職業(yè)程序員,也不具備程序員的工作習(xí)慣,卻長(zhǎng)期親自參與代碼維護(hù),同時(shí)拒絕與同事或在 GitHub 上共享代碼,這反而把問(wèn)題搞得更復(fù)雜了。
在接受《連線》雜志采訪時(shí),程序員出身的記者聽到了金斯伯格同事的不少抱怨,于是詢問(wèn)他是否準(zhǔn)備了文檔,以幫助后續(xù)開發(fā)者理解新的代碼庫(kù)。結(jié)果他卻回答“真正的程序員是不寫文檔的”[4]。
另外一點(diǎn)就是錢的問(wèn)題。
2001 年,arXiv 剛剛遷至康奈爾大學(xué)圖書館 ,當(dāng)時(shí)年度運(yùn)營(yíng)成本定為 30 萬(wàn)美元,由美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)、美國(guó)能源部(DOE)以及洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室提供的資金共同覆蓋 。到了2018年,arXiv年預(yù)算已經(jīng)增長(zhǎng)到了143萬(wàn)美元。
學(xué)術(shù)出版領(lǐng)域的資深專家、學(xué)術(shù)出版協(xié)會(huì)(Society for Scholarly Publishing)前主席肯特·安德森(Kent Anderson)并不看好arXiv的發(fā)展,據(jù)他測(cè)算,arXiv 的直接成本(如開發(fā)與維護(hù))和間接成本(如基礎(chǔ)設(shè)施、管理)的增長(zhǎng)速度都非常快,2010–2018 年平均增速分別約為 24% 和 18%。這段時(shí)間,arXiv共虧損了 74.5萬(wàn)美元[5]。
從歷年的預(yù)算報(bào)告來(lái)看,arXiv 大體上還能維持收支平衡。但這種平衡很大程度上建立在康奈爾大學(xué)承擔(dān)大量間接成本的基礎(chǔ)上。例如行政支持、辦公空間和基礎(chǔ)設(shè)施等,都由康奈爾提供,并以“實(shí)物捐贈(zèng)”的形式計(jì)入平臺(tái)的預(yù)算。arXiv免費(fèi)的背后,康奈爾大學(xué)一直在為它付費(fèi)。
以 2018 年為例,arXiv 當(dāng)年的預(yù)算約為 143 萬(wàn)美元,其中間接成本就接近 45 萬(wàn)美元。2019 年,arXiv 公布了自己的資金來(lái)源結(jié)構(gòu)。其中康奈爾大學(xué)每年為 arXiv 提供 17 萬(wàn)美元的直接補(bǔ)貼,并承擔(dān)全部間接成本,這部分支持約占平臺(tái)運(yùn)營(yíng)總支出的 37%[6]。
另一方面,作為一個(gè)對(duì)用戶完全免費(fèi)的學(xué)術(shù)基礎(chǔ)設(shè)施,arXiv 的收入來(lái)源一直相對(duì)有限。為了拓寬資金渠道,2010 年康奈爾為 arXiv 引入了一套全球圖書館會(huì)員制度,向使用量較大的研究機(jī)構(gòu)征求年度支持。數(shù)百所大學(xué)圖書館和科研機(jī)構(gòu)根據(jù)下載量被劃分為不同層級(jí),承諾為期五年的資助,每年繳納 1000 至 4400 美元不等的會(huì)員費(fèi),用于支持服務(wù)器運(yùn)行和技術(shù)團(tuán)隊(duì)的維護(hù)。但整體而言,這部分收入的增長(zhǎng)始終十分有限。
2019年,康奈爾大學(xué)將 arXiv 從學(xué)校的圖書館系統(tǒng),轉(zhuǎn)移到了學(xué)校的計(jì)算與信息科學(xué)部門。但根據(jù)《連線》的報(bào)道,幾個(gè)月后arXiv 又被交給了其他部門,還換了一位盈利性學(xué)術(shù)出版背景的新主任,這些變化導(dǎo)致arXiv陷入了動(dòng)蕩,這段時(shí)間雙方的合作并不愉快。
直到2022年,西蒙斯基金會(huì)(the Simons Foundation)承諾給予資助后,arXiv才從動(dòng)蕩中抽身出來(lái),開始大規(guī)模的招聘, 此后還把代碼庫(kù)用Python重構(gòu)了一遍。
2023 年,arXiv 從西蒙斯基金會(huì)和美國(guó)國(guó)家科學(xué)基金會(huì)獲得了 1000 萬(wàn)美元的資助[7]。2025 年,運(yùn)營(yíng)arXiv康奈爾理工學(xué)院獲得了 NASA 和施密特科學(xué)公司的 700 萬(wàn)美元資金[8]。arXiv 目前的年度預(yù)算約為 600 萬(wàn)美元,擁有約 27 名員工(主要在美國(guó)遠(yuǎn)程辦公)。
和多年合作的康奈爾大學(xué)分開后,arXiv獲得了獨(dú)立非營(yíng)利組織的身份,這也意味著,它不能再依賴大學(xué)體系的行政和基礎(chǔ)設(shè)施支持。在脫離大學(xué)體系的支持后,如何長(zhǎng)期維持自身的財(cái)務(wù)和治理穩(wěn)定?這是一個(gè)娜拉走后怎么辦的問(wèn)題。
在肯特·安德森看來(lái),這種變化并非孤例,而是近年來(lái)學(xué)術(shù)基礎(chǔ)設(shè)施的一種趨勢(shì)。隨著資助的收緊,一些大學(xué)正在逐漸從這些理想主義色彩濃厚、但維護(hù)成本不斷上升的學(xué)術(shù)平臺(tái)中抽身。類似的例子還包括 2025年冷泉港實(shí)驗(yàn)室將運(yùn)營(yíng)十年的 bioRxiv 和 medRxiv 移交給新成立的非營(yíng)利機(jī)構(gòu) openRxiv。越來(lái)越多的預(yù)印本服務(wù)器,正在從大學(xué)體系中分離出來(lái),轉(zhuǎn)向獨(dú)立的機(jī)構(gòu)治理模式[9]。
在招聘CEO的公告里,arXiv介紹資金來(lái)源時(shí),也并沒有明確提到康奈爾后續(xù)會(huì)進(jìn)行實(shí)物資助,卻給CEO開出了30萬(wàn)美元的年薪。這似乎也預(yù)示著,曾經(jīng)生長(zhǎng)在大學(xué)體系內(nèi)部的arXiv,正在逐漸轉(zhuǎn)向一種更加獨(dú)立、并依賴基金會(huì)和社會(huì)捐贈(zèng)支持的非營(yíng)利模式。
參考資料:
[1] The Chronicle of Higher Education. (2025).Chief executive officer—arXiv.
[2] Ginsparg, P. (2011).It was twenty years ago today. arXiv.
[3] Ginsparg, P. (2011).ArXiv at 20. Nature, 476, 145–147.
[4] McKenzie, L. (2022).Inside arXiv—the most transformative platform in all of science. WIRED.
[5] Anderson, K. (2019).Examining the finances of arXiv. The Geyser.
[6] arXiv. (2019).arXiv sustainability and funding update.
[7] Cornell University. (2023, October).Research repository arXiv receives $10M for upgrades.
[8] Cornell Tech. (2025).arXiv receives support from NASA and Schmidt Sciences.
[9] Anderson, K. (2025). Bespoke preprint servers fade. The Geyser.
來(lái)源:知識(shí)分子
編輯:檸七
轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)
不代表中科院物理所立場(chǎng)
如需轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.