![]()
機器之心報道
機器之心編輯部
近日,Waymo 發(fā)布了一篇深度博客,詳細(xì)介紹了該公司的 AI 戰(zhàn)略以及以 Waymo 基礎(chǔ)模型為核心的整體 AI 方法。
谷歌首席科學(xué)家 Jeff Dean 也在 X 上分享了這篇博客,并重點介紹了 Waymo 用到的蒸餾方法,他寫到:「就像我們使用蒸餾從更大規(guī)模的專業(yè)模型中創(chuàng)建高質(zhì)量、計算效率極高的 Gemini Flash 模型一樣,Waymo 也類似地使用了蒸餾,來基于更大的模型創(chuàng)建可機載運行的高計算效率模型。」
![]()
而在這條帖子下方,Jeff Dean 又再一次回憶了最初那篇蒸餾論文的悲慘遭遇:被 NeurIPS 2014 拒收了。而他收到的拒收理由是它「不太可能產(chǎn)生重大影響」。
![]()
當(dāng)時,評審認(rèn)為這篇由 Geoffrey Hinton、Oriol Vinyals、Jeff Dean 合著的論文只是對早期模型壓縮(Model Compression)工作的增量改進(jìn)。而事后來看,NeurIPS 2014 評審的這個決定可謂是錯得非常離譜。如今,「知識蒸餾(Knowledge Distillation)」已然成為模型壓縮和大模型落地的標(biāo)配方法。其論文引用量也已經(jīng)超過了 2.8 萬!
![]()
這件事也成了 Jeff Dean 的意難平,讓他每有機會就會拿出來曬一曬。
![]()
其實 Jeff Dean 的遭遇并非個例。
回顧 AI 的發(fā)展歷程,同行評審制度雖然扮演著質(zhì)量守門人的關(guān)鍵角色,但它并非全能。
事實上,當(dāng)我們回溯歷史,會發(fā)現(xiàn)一個令人深思的現(xiàn)象:許多當(dāng)下支撐起萬億級 AI 產(chǎn)業(yè)的基石技術(shù)(從訓(xùn)練大模型的優(yōu)化器,到計算機視覺的特征提取,再到自然語言處理的底層邏輯)在最初問世時,都曾被頂級會議拒之門外。
Geoffrey Hinton、Yann LeCun、Schmidhuber…… 這些如雷貫耳的名字,都曾站在拒稿信的對面。那些理由在今天看來甚至或許有些荒謬:「缺乏理論依據(jù)」、「只是工程技巧」、「太簡單了不可能有效」。
今天,我們盤點一下那些曾經(jīng)淪為「棄子」、后來卻引發(fā)范式轉(zhuǎn)移(Paradigm Shift)的殿堂級論文。這不僅是對歷史的回顧,更是為了探尋一個問題的答案:當(dāng)一項研究過于超前或離經(jīng)叛道時,我們該如何識別它的價值?
LSTM:跨越 20 年的回響
![]()
- 論文:Long Short-Term Memory
- 作者:Sepp Hochreiter, Jürgen Schmidhuber
- 拒稿經(jīng)歷:NIPS 1996 Rejected
- 如今引用量:139707
作為處理序列數(shù)據(jù)的里程碑,LSTM 在 1996 年被 NIPS 拒之門外。
當(dāng)時正值神經(jīng)網(wǎng)絡(luò)的寒冬(AI Winter),支持向量機(SVM)等統(tǒng)計方法大行其道。LSTM 引入的門控機制被認(rèn)為參數(shù)過多、過于復(fù)雜且缺乏生物學(xué)合理性。
直到 2010 年代,隨著算力和大數(shù)據(jù)的爆發(fā),LSTM 才在語音識別和機器翻譯中展現(xiàn)出統(tǒng)治級表現(xiàn)。這不僅是技術(shù)的勝利,更是對堅持者的獎賞。
SIFT:前深度學(xué)習(xí)時代的王者
![]()
- 論文:Object Recognition from Local Scale-Invariant Features
- 作者:David G. Lowe
- 拒稿經(jīng)歷:ICCV 1997, CVPR 1998 Rejected
- 如今引用量:27389
David Lowe 提出的 SIFT(尺度不變特征變換)算法,曾統(tǒng)治 CV 領(lǐng)域長達(dá) 15 年。但在 1997 年和 1998 年,它先后被 ICCV 和 CVPR 拒稿。
拒稿理由很有時代特色。當(dāng)時的學(xué)術(shù)界偏好基于幾何理論和嚴(yán)密數(shù)學(xué)推導(dǎo)的方法。SIFT 包含了一系列復(fù)雜的工程步驟(高斯差分金字塔、關(guān)鍵點定位等),被評審認(rèn)為「過于繁瑣」、「不夠優(yōu)雅」。
SIFT 最終以 Poster 形式發(fā)表。它證明了在處理現(xiàn)實世界圖像的旋轉(zhuǎn)、縮放和遮擋問題時,魯棒的工程設(shè)計往往比完美的數(shù)學(xué)理論更有生命力。
Dropout:被誤解的「有性繁殖」
![]()
- 論文:Dropout: A Simple Way to Prevent Neural Networks from Overfitting
- 作者:Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov
- 拒稿經(jīng)歷:NIPS 2012 Rejected
- 如今引用量:60231
如果說有一項技術(shù)定義了深度神經(jīng)網(wǎng)絡(luò)的正則化方法,那非 Dropout 莫屬。然而,這項后來獲得 NeurIPS 時間檢驗獎(Test of Time Award) 的技術(shù),在 2012 年投稿 NIPS 時卻遭遇了滑鐵盧。
在這篇論文中,Geoffrey Hinton 團隊提出的核心思想是在訓(xùn)練中隨機「刪掉」一半神經(jīng)元,而這在當(dāng)時的評審看來過于激進(jìn)且缺乏數(shù)理邏輯。Hinton 使用了生物學(xué)中「有性繁殖」的隱喻來解釋其有效性(基因不能依賴于特定的伙伴存在),這被一些嚴(yán)謹(jǐn)?shù)脑u審人認(rèn)為「不夠科學(xué)」,更像是一個工程 Hack。
盡管被拒,Dropout 迅速成為了 AlexNet 奪冠 ImageNet 的秘密武器。它證明了在過參數(shù)化的深度網(wǎng)絡(luò)中,通過引入隨機性來打破特征間的共適應(yīng)(Co-adaptation),比復(fù)雜的貝葉斯正則化更為有效。
Word2Vec:被質(zhì)疑的「工程奇跡」
![]()
- 論文:Efficient Estimation of Word Representations in Vector Space
- 作者:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean
- 拒稿經(jīng)歷:ICLR 2013 Strong Reject
- 如今引用量:50855
是的,這里又出現(xiàn)了 Jeff Dean 的名字。
Word2Vec 讓 King - Man + Woman = Queen 成為了 AI 領(lǐng)域最著名的算式,但在首屆 ICLR 會議上,它收到了「Strong Reject」。
其收到的評審意見極其尖銳,認(rèn)為作者 Tomas Mikolov 等人「比較不科學(xué)」、「定義模糊」,且過度關(guān)注工程優(yōu)化(如分層 Softmax、負(fù)采樣),缺乏對「為何簡單的線性映射能捕捉復(fù)雜語義」的理論解釋。
而作者直接開源了代碼。憑借極高的訓(xùn)練效率,Word2Vec 迅速橫掃 NLP 社區(qū),成為深度學(xué)習(xí)時代文本表示的基石。2023 年,NeurIPS 授予這篇曾被拒稿的論文「時間檢驗獎」,完成了歷史性的「平反」。
![]()
知識蒸餾:被低估的「暗知識」
![]()
- 論文:Distilling the Knowledge in a Neural Network
- 作者:Geoffrey Hinton, Oriol Vinyals, Jeff Dean
- 拒稿經(jīng)歷:NIPS 2014 Rejected
- 如今引用量:28600
這正是前文提到的論文。
在當(dāng)時,評審未能洞察到 Hinton 提出的 「暗知識」(Dark Knowledge) 這一概念的深遠(yuǎn)意義:神經(jīng)網(wǎng)絡(luò)學(xué)到的知識不僅存在于正確的預(yù)測中,更隱含在對錯誤類別的概率分布里(比如寶馬像垃圾車的概率遠(yuǎn)高于像胡蘿卜的概率)。
![]()
https://www.ttic.edu/dl/dark14.pdf
這篇論文最終僅在 Workshop 發(fā)表。它開啟了模型壓縮作為獨立研究領(lǐng)域的序幕,更成為了如今大模型向小模型遷移能力的理論源頭。
YOLO:速度與精度的偏見
![]()
- 論文:You Only Look Once: Unified, Real-Time Object Detection
- 作者:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
- 拒稿經(jīng)歷:ICCV 2015 Rejected
- 如今引用量:69782
YOLO(You Only Look Once)徹底改變了物體檢測的游戲規(guī)則,將檢測問題從分類問題轉(zhuǎn)化為回歸問題。
其被拒理由也很簡單。在 R-CNN 系列(雙階段檢測器)統(tǒng)治的時代,評審們習(xí)慣了用 mAP(平均精度均值)的微小提升來衡量價值。YOLO 雖然實現(xiàn)了驚人的 45 FPS 實時檢測,但其定位精度確實不如 R-CNN。評審因其「定位不準(zhǔn)」而拒絕了它,卻忽視了數(shù)量級的速度提升所開啟的全新應(yīng)用場景(如自動駕駛、實時監(jiān)控)。
YOLO 系列如今已迭代至 v13,成為工業(yè)界最受歡迎的檢測框架。它提醒我們:在工程應(yīng)用中,速度本身就是一種精度。
RoBERTa:被嘲諷為「炒冷飯」的調(diào)參藝術(shù)
![]()
- RoBERTa: A Robustly Optimized BERT Pretraining Approach
- 作者:Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov
- 拒稿經(jīng)歷:ICLR 2020 Rejected
- 如今引用量:23479
如果說前面的論文是因為「太超前」被拒,那么 RoBERTa 的被拒則是因為「看起來太平庸」。
2019 年,BERT 橫空出世,風(fēng)頭無兩。Facebook AI(現(xiàn) Meta AI)的研究人員并沒有急于提出一種全新的架構(gòu),而是耐心地對 BERT 的預(yù)訓(xùn)練過程進(jìn)行了極其詳盡的復(fù)現(xiàn)和優(yōu)化。他們發(fā)現(xiàn),BERT 實際上被「訓(xùn)練不足」了。通過調(diào)整超參數(shù)、增加數(shù)據(jù)量、去除 Next Sentence Prediction (NSP) 任務(wù),RoBERTa 在所有基準(zhǔn)測試上都超越了原始 BERT。
然而,這篇扎實的工作在投稿 ICLR 2020 時,卻遭到了評審的冷遇。評審意見非常直白且刺耳:「這篇論文的新穎性和技術(shù)貢獻(xiàn)相當(dāng)有限」。在評審看來,只是發(fā)現(xiàn)「仔細(xì)調(diào)參很有用」和「更多數(shù)據(jù)很有用」,并不足以登上頂會的舞臺。
最終,RoBERTa 只能再次以被拒稿的身份流傳于世。但歷史證明了它的價值:RoBERTa 不僅成為了后續(xù) NLP 研究的標(biāo)準(zhǔn)基線,更向業(yè)界揭示了一個樸素的真理 —— 在深度學(xué)習(xí)時代,清洗數(shù)據(jù)和優(yōu)化訓(xùn)練細(xì)節(jié),往往比設(shè)計花哨的新架構(gòu)更具實戰(zhàn)價值。
Mamba:挑戰(zhàn) Transformer 霸權(quán)的「落選者」
![]()
- 論文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- 作者:Albert Gu, Tri Dao
- 拒稿經(jīng)歷:ICLR 2024 Rejected
- 如今引用量:6799
這可能是最近發(fā)生的最具戲劇性的「拒稿」事件。
在 Transformer 一統(tǒng)天下的今天,Mamba 的出現(xiàn)原本被視為一種顛覆。作者 Albert Gu 和 Tri Dao 提出了一種基于選擇性狀態(tài)空間模型(SSM)的架構(gòu),它在實現(xiàn)線性時間復(fù)雜度的同時,居然在語言建模任務(wù)上達(dá)到了媲美 Transformer 的性能。這意味著,我們終于有望打破 Attention 機制帶來的計算瓶頸,讓大模型在長序列推理上實現(xiàn)飛躍。
然而,這篇在 arXiv 上一經(jīng)發(fā)布就引爆社區(qū)、被無數(shù)開發(fā)者復(fù)現(xiàn)和膜拜的神作,卻在 ICLR 2024 的評審中折戟沉沙。評審給出的分?jǐn)?shù)并不高,理由集中在「與其前作 S4 相比增量不足」、「在某些特定任務(wù)上未能全面超越 Transformer」以及對實驗細(xì)節(jié)的質(zhì)疑。參閱報道《8/8/6/3 的 Mamba 論文,最終還是被 ICLR 2024 拒了,網(wǎng)友:懸著的心終于死了》
結(jié)果十分諷刺:當(dāng) ICLR 2024 公布接收結(jié)果時,AI 社區(qū)討論最熱烈的話題之一卻是「Mamba 竟然被拒了?」。就在被拒稿的短短幾個月后,基于 Mamba 的變體(如 Jamba、Vision Mamba)如雨后春筍般涌現(xiàn),它實際上已經(jīng)成為了 2024 年最具影響力的架構(gòu)創(chuàng)新之一。Mamba 的遭遇再次提醒我們:當(dāng)一種反共識的新范式出現(xiàn)時,舊范式的評價標(biāo)準(zhǔn)往往會失效。
科研評價體系的局限與反思
![]()
綜合上述案例,我們可以看到頂會評審系統(tǒng)在面對顛覆性創(chuàng)新時,往往存在某種系統(tǒng)性的認(rèn)知滯后:
- 簡單性陷阱:評審傾向于將「數(shù)學(xué)復(fù)雜性」等同于「研究貢獻(xiàn)」。當(dāng) Dropout 或 Word2Vec 這樣簡單有效的方法出現(xiàn)時,評審的第一反應(yīng)往往是質(zhì)疑其理論深度。
- 范式慣性:評審?fù)桥f范式的維護(hù)者。當(dāng) YOLO 提出放棄 Region Proposal,或 Deep Image Prior 提出無需學(xué)習(xí)的先驗時,舊范式的標(biāo)準(zhǔn)(如精度、數(shù)據(jù)依賴)成為了阻礙新思想的壁壘。
- 嚴(yán)謹(jǐn)性的暴政:在深度學(xué)習(xí)這個實驗科學(xué)屬性極強的領(lǐng)域,過度要求理論證明(如 Adam 優(yōu)化器初期面臨的收斂性質(zhì)疑)可能會扼殺具有巨大實用價值的工程突破。
這些「被拒稿的杰作」向我們揭示了科學(xué)發(fā)展的非線性。它們證明了,同行評審雖然是科學(xué)共同體的基石,但它很難擺脫人類認(rèn)知的局限性 —— 它善于識別錯誤,卻往往拙于鑒別天才。
事實上,這種遭遇并非 AI 領(lǐng)域的特產(chǎn),甚至連物理學(xué)神壇上的名字也無法幸免。
1936 年,阿爾伯特?愛因斯坦(Albert Einstein)將一篇關(guān)于引力波的論文投給了權(quán)威期刊《Physical Review》。在此之前,愛因斯坦習(xí)慣了編輯直接錄用他的文章,但這一次,主編 John Tate 決定將其送審。
隨后,愛因斯坦收到了一份寫滿修改意見的匿名評審報告。這位驕傲的物理學(xué)家被徹底激怒了,他在給主編的回信中寫下了一段著名的話:「我把文章寄給你是為了發(fā)表,并沒有授權(quán)你在它付印前拿給專家看。我沒有通過以此來回答你們那匿名專家的錯誤評論的必要。」隨后,他撤回了論文。
雖然歷史極其幽默地反轉(zhuǎn)了 —— 那位匿名評審人其實指出了愛因斯坦論文中一個致命的數(shù)學(xué)錯誤(愛因斯坦后來在另一本期刊發(fā)表時悄悄修正了它),但這個故事依然不僅是一個關(guān)于「糾錯」的軼事,更是一個關(guān)于「摩擦」的隱喻。
![]()
阿爾伯特·愛因斯坦和內(nèi)森·羅森關(guān)于引力波的解的修訂版論文最后發(fā)表在 Journal of the Franklin Institute 上
對于正在經(jīng)歷 Peer Review 陣痛的研究者而言,Jeff Dean 的憤怒、YOLO 的委屈、甚至愛因斯坦的傲慢,都指向了同一個事實:真正決定一項研究生命力的,從來不是幾位評審在幾周內(nèi)做出的決定,而是它是否真正解決了問題,以及它在時間長河中留下的回響。
如果你的 Paper 最近也被拒了,別灰心。你只是加入了一個包括圖靈獎得主和諾貝爾獎得主在內(nèi)的「被拒稿俱樂部」而已。
保持韌性,真理有時只是遲到了一點。
你還知道哪些雖被拒稿但影響深遠(yuǎn)的論文?
https://x.com/JeffDean/status/1998454348125536736
https://x.com/Yuchenj_UW/status/1998485506699702403
https://www.reddit.com/r/MachineLearning/comments/vywfx3/d_are_there_any_rejected_papers_that_ended_up/
https://physicstoday.aip.org/features/einstein-versus-the-physical-review
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.