網易首頁 > 網易號 > 正文申請入駐

NeurIPS 2025放榜：阿里Qwen門控注意力獲最佳論文

2025-11-27 11:08:44　來源: 量子位

北京舉報

分享至

嘻瘋發自凹非寺
量子位 | 公眾號 QbitAI

剛剛，NeurIPS 2025最佳論文獎、時間檢驗獎出爐！

今年Best Paper共有4篇，3篇為華人一作，阿里Qwen門控注意力獲獎

Best Paper Runner-up也有三篇

這七篇論文聚焦于擴散模型理論、自監督強化學習、大語言模型注意力機制、大語言模型推理能力、在線學習理論、神經縮放定律以及語言模型多樣性基準測試方法等領域的突破性進展。

另外，任少卿、何愷明、Ross Girshick、孫劍團隊2015年提出的深度學習模型Faster R-CNN拿下時間檢驗獎

Faster R-CNN用于解決目標檢測問題，目標檢測的任務不僅要知道一張圖片里有什么物體（分類），還要知道這些物體在圖片的什么位置（定位）。

它的名字“Faster”已經點明了其最大貢獻：極大地提升了目標檢測的速度，真正實現了端到端的、接近實時的檢測。

4篇Best Paper，3篇華人一作

1、《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》

論文一作為來自華盛頓大學的Liwei Jiang。

這篇工作聚焦大語言模型在開放式生成任務中的多樣性問題，提出“人工蜂群思維（Artificial Hivemind）”概念。

核心發現是當前大模型存在顯著的模型內重復和模型間同質性：

單一模型對同一開放式查詢會生成相似響應，不同模型（無論開源還是閉源、不同規模）也會收斂到相似輸出，即便采用min-p等增強多樣性的解碼策略，仍有超60%的響應相似度超過0.8。

例如，對查詢“寫一個關于時間的隱喻”的響應通過主成分分析（PCA）將句子嵌入降至二維后進行聚類。25個不同家族、規模的模型以top-p=0.9、temperature=1.0生成50條響應，所有響應僅形成兩個主要聚類：“時間是一條河流”“時間是一位織工”。

為支撐研究，作者構建了含26K真實世界開放式查詢的INFINITY-CHAT數據集，涵蓋創意內容生成、頭腦風暴、哲學問題等6大類17個子類，并收集了31250條人類標注，形成首個系統評估開放式查詢的資源。

同時，研究還發現，現有大模型、獎勵模型和大模型評判器在評估人類偏好分歧大或質量相近的開放式響應時，與人類評分的校準度較低，難以捕捉人類多元偏好。

論文通過大量實驗（涉及70+模型）驗證了“人工蜂群思維”的普遍性，討論了其對人類思維同質化的潛在風險，并為未來開發更具多樣性、更貼合人類多元需求的AI系統提供了基準和方向，也指出了數據集語言局限性、創意表達維度簡化等研究不足。

2、《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》

論文共同一作Zihan Qiu、Zekun Wang、Bo Zheng均來自阿里Qwen團隊，Zeyu Huang來自愛丁堡大學。

該論文聚焦大語言模型中的門控注意力機制，通過對15B混合專家（MoE）模型和1.7B稠密模型在3.5萬億token數據集上的30種變體進行全面實驗，系統探究了門控增強型softmax注意力的效果。

研究核心發現，在縮放點積注意力（SDPA）后應用特定于注意力頭的sigmoid門控能持續提升模型性能，同時增強訓練穩定性、容忍更大學習率并改善縮放特性。

該門控機制的有效性源于兩大關鍵因素：一是在softmax注意力的低秩映射中引入非線性，二是通過查詢依賴的稀疏門控分數調節SDPA輸出。

這種稀疏門控不僅緩解了大規模激活和注意力沉陷問題，將基線模型中平均46.7%指向首個token的注意力占比降至4.8%，還提升了長上下文外推性能，在RULER基準上實現超10分的增益。

實驗還對比了不同門控位置、粒度、共享方式、作用形式及激活函數的效果，證實SDPA輸出的元素級門控最優，且頭特定門控比頭共享門控更有效，乘法門控優于加法門控，sigmoid激活函數表現最佳。

此外，該門控機制在MoE模型和稠密模型中均有效，能支持更大學習率和批次大小的穩定訓練，且在上下文長度擴展至128k時仍保持優越性能，相關代碼和模型已公開，其核心設計也被應用于Qwen3-Next模型中。

3、《1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities》

論文一作Kevin Wang，來自普林斯頓大學，同時是OpenAI研究員。

這篇論文聚焦于解決強化學習中模型規模擴展的難題，探索了網絡深度作為關鍵因素對自監督強化學習性能的影響。

與近年來RL領域普遍采用2-5層的淺層架構不同，研究團隊將網絡深度提升至1024層，結合自監督RL算法（對比性RL，CRL）、GPU加速框架以及殘差連接、層歸一化、Swish激活等架構技術，在無演示、無獎勵的無監督目標條件設置下開展實驗。

實驗覆蓋移動、導航和機器人操作等多種任務。

結果顯示，加深網絡深度使CRL算法性能提升2-50倍，在半數環境中實現超20倍的性能飛躍，且在10個任務中的8個超越SAC、TD3+HER等主流目標條件基線算法。

深度增加不僅提高任務成功率，還會觸發質的行為變化，當達到特定臨界深度（如Ant Big Maze的8層、Humanoid U-Maze的64層）時，智能體將習得全新技能（如類人機器人的翻墻、坐姿移動等）。

研究還揭示，深度擴展比寬度擴展更具計算效率（參數與計算量增長更平緩），且能與批量大小擴展協同作用。

同時，actor和critic網絡的聯合深度擴展可互補提升性能；深層網絡通過增強對比表征能力、優化探索與表征效率的協同作用、合理分配關鍵狀態區域的表征容量等機制實現性能提升，還在組合泛化任務中表現更優。

此外，研究發現深度擴展的優勢主要體現在在線RL場景，離線設置下效果有限，且僅CRL等自監督算法能有效利用深度擴展，傳統TD類算法難以從中獲益。

論文通過詳盡的實驗驗證、架構消融和機制分析，為RL的規模擴展提供了新范式，同時也指出了計算成本較高等局限性。

4、《Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training》

論文共同一作Tony Bonnaire、Rapha?l Urfin，來自巴黎高等科學與研究學院。

論文深入探究了擴散模型避免訓練數據記憶化、實現泛化的核心機制，聚焦訓練動態中的隱式動力學正則化作用。

論文首先指出，擴散模型在圖像、音頻、視頻等生成任務中表現出色，但理解其防止記憶化、保障泛化能力的機制是關鍵挑戰。通過大量數值實驗與理論分析，研究識別出兩個關鍵訓練時間尺度：

一是泛化時間，即模型開始生成高質量樣本所需的最短訓練時間，該時間與訓練集大小無關；二是記憶化時間，超過此時間模型會開始記憶訓練數據，且該時間隨訓練集大小呈線性增長。

這兩個時間尺度形成的泛化窗口會隨訓練集規模擴大而拓寬，只要訓練在泛化窗口內停止，模型就能高效泛化，只有當訓練集大小超過模型相關閾值時，無限訓練時間下的過擬合才會消失，這一發現揭示了隱式動力學正則化能讓擴散模型即便在高度過參數化場景下也可避免記憶化。

在實驗驗證方面，研究以CelebA人臉數據集為對象，將圖像轉為灰度下采樣圖像，采用U-Net架構構建分數模型，通過改變訓練集大小和模型參數數量（調整U-Net基礎寬度）展開實驗。

結果顯示，不同訓練集大小下，泛化時間基本穩定，記憶化時間隨訓練集增大而線性延長，且模型容量會影響兩個時間尺度（參數越多，泛化和記憶化出現越早），同時排除了數據重復導致記憶化的可能性，證明記憶化由損失景觀的本質變化驅動。

理論分析層面，研究采用隨機特征神經網絡模型，在高維極限下結合隨機矩陣理論等工具，分析訓練動態。

結果表明，訓練動態的時間尺度與隨機特征相關矩陣的特征值倒數相關，過參數化場景下會出現兩個分離的特征值區間，分別對應泛化和記憶化時間尺度，泛化階段依賴數據總體協方差，與具體數據集無關，記憶化階段則與數據集相關的高頻特征有關，進一步印證了實驗觀察到的規律。

此外，論文還探討了優化器影響、條件生成場景等擴展情況，同時指出研究局限，如未充分探索更寬范圍的模型參數、未深入分析條件生成對時間尺度的具體影響等。

Faster R-CNN獲時間檢驗獎

Faster R-CNN目標檢測框架，核心創新是引入區域提議網絡（RPN），通過與檢測網絡共享全圖像卷積特征，解決了傳統目標檢測中區域提議計算耗時的瓶頸問題，實現了高效且高精度的目標檢測。

RPN作為全卷積網絡，能在特征圖的每個位置同時預測目標邊界框和目標性得分，其設計的“錨點”機制通過3種尺度和3種長寬比的參考框，無需圖像金字塔或濾波器金字塔即可覆蓋多種尺度和形狀的目標，兼具平移不變性且參數規模遠小于MultiBox等方法，有效降低過擬合風險。

論文設計了多任務損失函數，結合分類損失（log損失）和回歸損失（smooth L1損失），通過4步交替訓練策略將 RPN與Fast R-CNN融合為統一網絡，實現卷積特征的共享——

RPN扮演注意力角色指示檢測網絡關注區域，Fast R-CNN負責對提議區域進行精確分類和邊界框修正。

在實驗驗證方面，該框架在PASCAL VOC 2007、2012和MS COCO等數據集上均取得當時最先進的檢測精度，使用VGG-16模型時在GPU上達到5fps的幀率（含所有步驟），僅需300個提議區域即可優于傳統Selective Search（2000個提議）的性能，且提議計算僅耗時10ms。

在ILSVRC和COCO 2015競賽中，Faster R-CNN和RPN成為多個賽道冠軍方案的基礎。

此外，論文還通過消融實驗驗證了錨點設置、損失函數平衡參數等超參數的魯棒性，對比了單階段與兩階段檢測框架的優劣，證明兩階段架構更具精度優勢，同時探索了MS COCO大規模數據集對PASCAL VOC任務的遷移提升作用，通過跨數據集預訓練實現了檢測精度的顯著提高。

該框架不僅為實時目標檢測提供了實用解決方案，其共享特征和錨點機制也深刻影響了后續3D目標檢測、實例分割等多個計算機視覺領域的發展，相關代碼已公開供學術界和工業界使用。

[1]https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/
[2]https://blog.neurips.cc/2025/11/26/announcing-the-test-of-time-paper-award-for-neurips-2025/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.