![]()
新智元報道
編輯:KingHZ 桃子
【新智元導讀】今天,NeurIPS 2025最佳論文出爐!4篇最佳論文,華人占多半,何愷明孫劍等人曾提出的Faster R-CNN獲「時間檢驗獎」,實至名歸。
NeurIPS 2025最佳論文開獎了!
今天,NeurIPS組委會公布了今年「最佳論文」獲獎名單,一共有4篇最佳論文。
![]()
此外,還有3篇亞軍論文(Runners Up)獲獎。這七篇獲獎論文橫跨了多個領域:
擴散模型理論、自監督RL、注意力機制、LLM推理能力、在線學習理論、神經Scaling,以及衡量語言模型多樣性的基準評測方法
更重磅的是,這一次「時間檢驗獎」頒給了Faster R-CNN,這篇由任少卿、何愷明、Ross Gisshick、孫劍合著的論文。
![]()
今年,是NeurIPS第39屆年會,與往年不同,NeurIPS 2025是首個雙城會議,分別于:
12月2日-7日在圣地亞哥會議中心舉辦
11月30日-12月5日在墨西哥城舉辦
![]()
當前,正值墨西哥城分會召開期間,最佳論文一并出爐。
一起來看看,都有哪些大佬斬獲大獎?
最佳論文,華人占AI半壁
論文一:Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
作者:Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi
機構:華盛頓大學,卡內基梅隆大學,艾倫人工智能研究院,Lila Sciences,斯坦福大學
![]()
論文地址:https://openreview.net/forum?id=saDOrrnNTz
大語言模型在生成多樣化、類人創造性內容時常顯乏力,引發對長期接觸同質化輸出可能導致人類思維趨同的擔憂。
然而,目前可擴展的LM輸出多樣性評估方法仍顯不足,尤其在超越隨機數生成等狹窄任務或單一模型重復采樣場景時更為凸顯。
為填補這一空白,來自華盛頓大學等機構的研究人員,推出了大規模數據集Infinity-Chat。
Infinity-Chat包含2.6萬條真實世界開放式用戶查詢,這些查詢允許多元合理答案共存,不存在唯一標準解。
![]()
圖1:針對「寫一個關于時間的隱喻」查詢的響應聚類(通過主成分分析將句子嵌入降維至二維空間的可視化呈現)
這是首次提出了針對LM開放式提示的完整分類體系,包含6大頂層類別(如創意內容生成、頭腦風暴與構思)及其下17個子類別。
![]()
通過Infinity-Chat,研究人員開展了LM模式坍塌的大規模研究,發現在開放式生成中存在顯著的「人工蜂群思維效應」(Artificial Hivemind effect),具體表現為:
模型內部重復——單個模型持續生成相似回應;
![]()
模型間同質化——不同模型產生驚人相似的輸出。
![]()
該數據集還包含31,250條人類標注,涵蓋絕對評分與兩兩偏好比較,每個示例均獲25位標注者獨立評判,為研究開放式查詢中群體與個體偏好提供了可能。
研究顯示,最先進的LM、獎勵模型與LM評判器在面對引發標注者個體偏好的模型生成結果時,雖保持整體質量相當,卻較難校準人類評分。
![]()
總體而言,Infinity-Chat為首個系統研究現實世界開放式LLM查詢的大規模資源,為緩解人工蜂群思維帶來的長期AI安全風險提供了關鍵洞見。
論文二:GatedAttentionfor Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
作者:Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin
機構:阿里千問團隊,愛丁堡大學,斯坦福大學,MIT,清華大學
![]()
論文地址:https://openreview.net/pdf?id=1b7whO4SfY
門控機制自早期LSTM與高速公路網絡便獲廣泛應用,直至近期狀態空間模型、線性注意力及Softmax注意力仍見其身影。
然而,現有研究鮮少深入解析門控的具體作用效應。
本研究通過系統化實驗對門控增強型Softmax注意力變體展開全面探究:在3.5萬億詞元數據集上訓練了15B混合專家模型(30種變體)與1.7B稠密模型進行對比分析。
![]()
核心發現表明,僅需在縮放點積注意力(SDPA)后引入頭部特異性Sigmoid門控這一簡單修改,即可持續提升模型性能。該改進同時增強訓練穩定性、允許更大學習率,并改善縮放特性。
![]()
通過對比不同門控位置與計算變體,研究人員將其有效性歸因于兩個關鍵因素:
(1)在Softmax注意力的低秩映射中引入非線性變換;
(2)采用查詢依賴的稀疏門控分數調控SDPA輸出。
值得注意的是,該稀疏門控機制可緩解「激活爆炸」、「注意力沉沒」,并提升長上下文外推性能。
為了促進后續研究,相關代碼與模型已開源。這項最高效的SDPA輸出門控技術已應用于Qwen3-Next模型系列。
![]()
Qwen3-Next-80B-A3B-Thinking-FP8架構
論文三:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
作者:Kevin Wang, Ishaan Javali, Micha? Bortkiewicz, Tomasz Trzcinski, Benjamin Eysenbach
機構:普林斯頓大學,華沙理工大學
![]()
論文地址:https://openreview.net/pdf?id=s0JVsx3bx1
規模化自監督學習的進展持續推動語言與視覺領域的突破,然而在強化學習(RL)領域卻始終未能實現可比肩的突破。
本文聚焦于自監督強化學習的核心構建模塊,通過挖掘網絡深度的關鍵價值,最終實現了可擴展性的質的飛躍。
與近年多數強化學習研究采用的淺層架構(約2-5層)形成鮮明對比的是,這次的實驗證明將網絡深度提升至1024層可帶來顯著性能突破。
![]()
網絡架構
在無監督目標條件設定下,研究人員開展實驗——不提供任何示范數據或獎勵信號,智能體必須從零開始探索環境,并自主學會如何最大化達成指定目標的可能性。
在模擬運動與操控任務上的評估結果表明,新方法將自監督對比強化學習算法的性能提升了2至50倍,顯著超越其他目標條件基線模型。

網絡深度的增加不僅提升了任務成功率,更引發了智能體學習行為的質性轉變。
論文四:Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training
作者:Tony Bonnaire, Rapha?l Urfin, Giulio Biroli, Marc Mezard
機構: 巴黎PSL大學,米蘭博科尼大學
![]()
論文地址:https://openreview.net/pdf?id=BSZqpqgqM0
擴散模型,已在眾多生成任務中取得顯著成功,而理解其避免訓練數據記憶并實現泛化的內在機制仍是關鍵難題。
通過系統探究訓練動態中泛化與記憶的轉換規律,此研究發現兩個關鍵時間尺度:早期階段τgen標志著模型開始生成高質量樣本的起點,而后期階段τmem則是記憶現象顯現的轉折點。
![]()
圖1:本研究貢獻的定性總結
值得關注的是,τmem隨訓練數據量n呈線性增長,而τgen始終保持恒定。
這一規律形成了隨n擴大的有效訓練時間窗口——
在該區間內模型能保持良好泛化能力,但若持續訓練超越該窗口則會引發強烈記憶效應。
僅當n超越模型相關閾值時,無限時長訓練中的過擬合現象才會消失。
這些發現揭示了訓練動態中存在的隱式動態正則化機制,即使在高度過參數化場景下仍能有效規避記憶效應。
此結論通過以下實驗得到驗證:基于標準U-Net架構在真實與合成數據集上的數值實驗,以及采用高維極限可解析隨機特征模型的理論分析。
![]()
三篇Runners Up
此外,這一次還公布了三篇亞軍(Runners Up)論文獎。
論文一:DoesReinforcement LearningReally Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
作者:Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang
機構:清華大學LeapLab,上海交通大學
![]()
論文地址:https://openreview.net/pdf?id=4OsgYD7em5
論文系統評估了RLVR對大語言模型推理力的真實增益,覆蓋多種模型家族、RL算法與數學/編碼/視覺推理基準,并用大k取值下的pass@k衡量「能力邊界」。
結果顯示:RLVR主要提升采樣效率,在小k(如k=1)更易命中正確路徑;但在大k時,基座模型反而表現更好。
![]()
覆蓋率與困惑度分析表明,RLVR生成的推理路徑原本已存在于基座模型的采樣分布中,說明當前RL訓練并未誘發全新的推理模式,且隨著訓練推進,模型的推理空間常被收窄。
進一步比較發現,六種主流RLVR算法彼此差距有限,距離充分釋放基座潛力仍有距離;相對而言,蒸餾可以從教師處引入新的推理模式,實質擴展學生模型能力。
作者呼吁探索更有效的RL范式,如持續規模化與多輪智能體交互訓練,以真正突破現有邊界。
論文二:Optimal Mistake Bounds for Transductive Online Learning
作者:Zachary Chase, Steve Hanneke, Shay Moran, Jonathan Shafer
機構:肯特州立大學,普渡大學,谷歌研究院,MIT
![]()
論文地址:https://openreview.net/pdf?id=EoebmBe9fG
這項研究解決了「無標簽數據在在線學習中的力量」這一延宕30年的開放問題:
對任意Littlestone維度為d的概念類,傳導式在線學習的最小錯誤次數精確為Θ(√d),與標準在線學習的Θ(d)形成嚴格的二次差距。
作者給出匹配的上下界:下界構造中,對手利用「樹路徑」結構在迫使犯錯與控制版本空間收縮間取得平衡;
上界算法則構建帶「稀疏編碼」的假設類,并以「危險區最小化」「裂變專家(乘法權重)」與「切換到對半算法」的組合策略高效學習。
![]()
相較既有工作,本成果在下界上實現對歷史對數級結論的指數級提升,并改進了此前最優上界,最終閉合了界限。
該結果突出顯示,在在線學習里,提前獲取無標簽實例序列能帶來本質性優勢,這與PAC場景中傳導式與標準學習樣本復雜度相近的現象形成對比,為理解與利用無標簽數據提供了新的理論基線。
論文三:Superposition Yields Robust Neural Scaling
作者:Yizhou Liu, Ziming Liu, Jeff Gore
機構:MIT
![]()
論文地址:https://openreview.net/pdf?id=knPz7gtjPW
這篇來自MIT最新論文,提出「表征疊加」是神經縮放律(Neural Scaling)的關鍵機制:
LLM用少量維度承載超量特征,由此產生向量幾何重疊并決定損失的Scaling形態。
基于Anthropic模型,作者以權重衰減控制疊加強度并系統分析——疊加弱時,只有當特征頻率本身服從冪律,損失才隨模型規模呈冪律下降;
疊加強時,損失對廣泛的頻率分布都近似按1/維度Scaling。
![]()
作者在開LLM上驗證了強疊加regime的存在,并指出這些觀測與Chinchilla Scaling Law一致。
它不僅解釋了「模型越大越好」的來源,也明確了Scaling Law改進與失效的邊界條件,提示通過調節正則化、設計數據的特征頻率結構與規劃表示維度,可主動塑造縮放曲線,預測并避免性能瓶頸。
時間檢驗獎
同時,公布了 NeurIPS 2025「時間考驗論文獎」(Test of Time Paper Awards)的獲獎名單。該獎項旨在表彰十年前發表的論文。
![]()
今年的獲獎論文是:
![]()
作者包括任少卿、何愷明、Ross Gisshick和孫劍。
《Faster R-CNN》論文已被引用超過56,700次。該論文對計算機視覺領域產生了深遠影響,成為眾多后續研究工作的基石。
論文在實現極高的檢測精度的同時,達到了接近實時的檢測速度(每秒5幀),使基于神經網絡的目標檢測模型得以應用于現實世界的各種場景。這是首個用完全可學習的兩階段流程取代傳統選擇性搜索(Selective Search)和人工設計候選框方法的工作,該流程包括區域建議網絡(RPN)和檢測網絡。
![]()
在肯定這項工作的同時,評獎委員會也對孫劍博士的離世表示深切哀悼。孫博士在該領域留下了不可磨滅的印記。
正如其合作者所言:
孫劍博士是人工智能領域,尤其是計算機視覺方向的先驅與奠基人。他的開創性工作深刻重塑了學術界與工業界的研究范式,有力推動了人工智能技術的發展與廣泛應用,其影響歷久彌新。
參考資料:
https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/
https://blog.neurips.cc/2025/11/26/announcing-the-test-of-time-paper-award-for-neurips-2025/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.