聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
較真還得是程序員。
2025已經(jīng)過去,2026已經(jīng)到了……但也有較真的科研、程序員,決定站出來整治一下業(yè)內(nèi)的不正之風(fēng)。
啥事兒呢?
AI學(xué)術(shù)界的假開源問題。
就是發(fā)論文的時候說開源,還像模像樣掛了GitHub鏈接,結(jié)果后來就沒有后來了。
這不,一位匿名AI研究員,直接拿著AI領(lǐng)域最頂?shù)腘eurIPS 2024來檢驗,看看那些被接收的論文,白紙黑字寫上了開源的項目,最后究竟有多少是兌現(xiàn)了的。
不統(tǒng)計不知道,一查錘出大窟窿了——
![]()
從NeurIPS 2024收錄的4035篇論文數(shù)據(jù)來看,其中真實開源的論文有2404篇;
除了沒有提供鏈接的1533篇之外,有98篇論文明確表示了開源,也給出了鏈接,結(jié)果代碼倉庫點進去不是爛尾就是待建狀態(tài)。
當(dāng)然,可能也有錯漏,因為這個工作是AI來查的。
但這個“項目”,堪稱對事也對人了,有圖有真相,有統(tǒng)計有數(shù)據(jù),指名道姓把單位都放上了……
太太太刺激了。
較真的AI研究員
據(jù)說一切的一切,是因為這位程序員懷著學(xué)習(xí)之心點開開源鏈接,結(jié)果被一個又一個404和“Code coming soon”浪費時間,直接怒了。
于是,當(dāng)他再次被空倉庫擺了一道之后,終于決定不忍了。
直接扒了一遍NeurIPS 2024這個已經(jīng)結(jié)束了一年多的AI領(lǐng)域頂會,截至目前還沒填上坑的,Coming Soon大概率也已經(jīng)是Coming Never了。
![]()
用來爬代碼倉庫的系統(tǒng)只用了一個晚上就Vibe Coding出來。
作者表示,在Agentic AI崛起的時代,深度核查學(xué)術(shù)誠信的成本將趨近于零,誰腳踏實地,誰投機取巧,在大數(shù)據(jù)下一覽無余
用來核查的AI系統(tǒng)融合了OpenReview/GitHub API以及PDF解析技術(shù),也就是說,直接從論文PDF上查地址,然后一個個去驗證這個鏈接里到底有沒有真東西。
當(dāng)然了,這位研究員也強調(diào)了,系統(tǒng)基于自動化爬取與啟發(fā)式邏輯,難免存在誤判(假陽性/假陰性)。統(tǒng)計結(jié)果僅供參考,還請自行核驗。
從檢索的結(jié)果來看,這份檢索數(shù)據(jù)公開了各個機構(gòu)(橫軸)的論文錄用數(shù)量、真實開源數(shù)量、未標(biāo)明鏈接文章數(shù)和最重磅的假開源數(shù)。
![]()
以及,98份明確承諾開源,掛了代碼地址,鏈接里卻只有空倉庫的假開源名單,把學(xué)術(shù)鴿王們真實了一波。
![]()
看完之后只能說震驚,麻了,真麻了……
會議結(jié)束已經(jīng)一年多,這些Coming Soon為啥就成了Coming Never呢?
為啥出現(xiàn)這種“假開源”?
直接原因還是審稿。
從2021年起,NeurIPS等頂會強制要求填寫可復(fù)現(xiàn)性檢查表(Reproducibility Checklist);
2024年的要求更嚴格,不光要填的內(nèi)容更細,連沒法開源的理由也得寫明白,這些因素都會直接影響論文審稿打分。
在這種機制下,勾選“愿意開源”幾乎成了錄用的潛規(guī)則加分項,代碼倉庫里的Coming Soon也開始盛行起來。
頂會雖然強制提交Checklist,但均不強制驗證可復(fù)現(xiàn)性,于是不免有一些模糊空間。
![]()
當(dāng)然,現(xiàn)實情況可能也比純粹的偷懶更復(fù)雜。
有些來自工業(yè)界的論文,代碼發(fā)布需要經(jīng)過漫長的合規(guī)審批流程,于是團隊干脆先往倉庫里丟個占位符,給idea占坑;
還有一些項目復(fù)現(xiàn)門檻太高,訓(xùn)練一次燒幾百塊卡,用的數(shù)據(jù)可能還是內(nèi)部的,基本上沒人能跑通,反而會引來復(fù)現(xiàn)質(zhì)疑,索性也就不放了;
再加上一些人生意外,比如課題組轉(zhuǎn)向或者專利卡殼,許多本能放出來的代碼,最終也都不了了之……
其實,代碼倉庫放鴿子這事兒也不只是私下牢騷,前Stability AI研究總監(jiān)Tanishq Mathew Abraham就直接公開diss過這種現(xiàn)象。
![]()
不少網(wǎng)友也苦空倉庫久矣。
![]()
況且AI圈里還有卡帕西大神這樣的開源模范,論文一出代碼立刻跟上,甚至還能順便出個保姆級視頻教程。
正因如此,難怪大家看多了404和Coming Soon之后會破防。
![]()
One More Thing
這個AI研究員匿名留言說:
- “沒時間”永遠不是違背承諾的借口。若無力開源,便不該在論文中畫餅。
菜不是原罪;但當(dāng)貪欲超出了能力的邊界,迫使你獻祭學(xué)術(shù)道德來換取虛名時,這就是罪。
我不是針對誰,只想給圈子提個醒。
AI領(lǐng)域如今飛速發(fā)展,各種新想法新技術(shù)新產(chǎn)品層出不窮,但科研誠信或許是最該被“Fork”和“Star”的東西。
由于打擊面太具體,也不符合作者初衷,完整名單和鏈接我們就不公開了吧…
希望AI研究都越來越好。
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.