<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      NeurIPS 2025放榜:阿里Qwen門控注意力獲最佳論文

      0
      分享至

      嘻瘋 發自 凹非寺
      量子位 | 公眾號 QbitAI

      剛剛,NeurIPS 2025最佳論文獎、時間檢驗獎出爐!

      今年Best Paper共有4篇,3篇為華人一作,阿里Qwen門控注意力獲獎

      Best Paper Runner-up也有三篇

      這七篇論文聚焦于擴散模型理論、自監督強化學習、大語言模型注意力機制、大語言模型推理能力、在線學習理論、神經縮放定律以及語言模型多樣性基準測試方法等領域的突破性進展。



      另外,任少卿、何愷明、Ross Girshick、孫劍團隊2015年提出的深度學習模型Faster R-CNN拿下時間檢驗獎

      Faster R-CNN用于解決目標檢測問題,目標檢測的任務不僅要知道一張圖片里有什么物體(分類),還要知道這些物體在圖片的什么位置(定位)。

      它的名字“Faster”已經點明了其最大貢獻:極大地提升了目標檢測的速度,真正實現了端到端的、接近實時的檢測。



      4篇Best Paper,3篇華人一作

      1、《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》



      論文一作為來自華盛頓大學的Liwei Jiang。

      這篇工作聚焦大語言模型在開放式生成任務中的多樣性問題,提出“人工蜂群思維(Artificial Hivemind)”概念。

      核心發現是當前大模型存在顯著的模型內重復和模型間同質性:

      單一模型對同一開放式查詢會生成相似響應,不同模型(無論開源還是閉源、不同規模)也會收斂到相似輸出,即便采用min-p等增強多樣性的解碼策略,仍有超60%的響應相似度超過0.8。



      例如,對查詢“寫一個關于時間的隱喻”的響應通過主成分分析(PCA)將句子嵌入降至二維后進行聚類。25個不同家族、規模的模型以top-p=0.9、temperature=1.0生成50條響應,所有響應僅形成兩個主要聚類:“時間是一條河流”“時間是一位織工”。



      為支撐研究,作者構建了含26K真實世界開放式查詢的INFINITY-CHAT數據集,涵蓋創意內容生成、頭腦風暴、哲學問題等6大類17個子類,并收集了31250條人類標注,形成首個系統評估開放式查詢的資源。



      同時,研究還發現,現有大模型、獎勵模型和大模型評判器在評估人類偏好分歧大或質量相近的開放式響應時,與人類評分的校準度較低,難以捕捉人類多元偏好。



      論文通過大量實驗(涉及70+模型)驗證了“人工蜂群思維”的普遍性,討論了其對人類思維同質化的潛在風險,并為未來開發更具多樣性、更貼合人類多元需求的AI系統提供了基準和方向,也指出了數據集語言局限性、創意表達維度簡化等研究不足。

      2、《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》



      論文共同一作Zihan Qiu、Zekun Wang、Bo Zheng均來自阿里Qwen團隊,Zeyu Huang來自愛丁堡大學。

      該論文聚焦大語言模型中的門控注意力機制,通過對15B混合專家(MoE)模型和1.7B稠密模型在3.5萬億token數據集上的30種變體進行全面實驗,系統探究了門控增強型softmax注意力的效果。

      研究核心發現,在縮放點積注意力(SDPA)后應用特定于注意力頭的sigmoid門控能持續提升模型性能,同時增強訓練穩定性、容忍更大學習率并改善縮放特性。



      該門控機制的有效性源于兩大關鍵因素:一是在softmax注意力的低秩映射中引入非線性,二是通過查詢依賴的稀疏門控分數調節SDPA輸出。

      這種稀疏門控不僅緩解了大規模激活和注意力沉陷問題,將基線模型中平均46.7%指向首個token的注意力占比降至4.8%,還提升了長上下文外推性能,在RULER基準上實現超10分的增益。



      實驗還對比了不同門控位置、粒度、共享方式、作用形式及激活函數的效果,證實SDPA輸出的元素級門控最優,且頭特定門控比頭共享門控更有效,乘法門控優于加法門控,sigmoid激活函數表現最佳。



      此外,該門控機制在MoE模型和稠密模型中均有效,能支持更大學習率和批次大小的穩定訓練,且在上下文長度擴展至128k時仍保持優越性能,相關代碼和模型已公開,其核心設計也被應用于Qwen3-Next模型中。

      3、《1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities》



      論文一作Kevin Wang,來自普林斯頓大學,同時是OpenAI研究員。

      這篇論文聚焦于解決強化學習中模型規模擴展的難題,探索了網絡深度作為關鍵因素對自監督強化學習性能的影響。

      與近年來RL領域普遍采用2-5層的淺層架構不同,研究團隊將網絡深度提升至1024層,結合自監督RL算法(對比性RL,CRL)、GPU加速框架以及殘差連接、層歸一化、Swish激活等架構技術,在無演示、無獎勵的無監督目標條件設置下開展實驗。



      實驗覆蓋移動、導航和機器人操作等多種任務。

      結果顯示,加深網絡深度使CRL算法性能提升2-50倍,在半數環境中實現超20倍的性能飛躍,且在10個任務中的8個超越SAC、TD3+HER等主流目標條件基線算法。



      深度增加不僅提高任務成功率,還會觸發質的行為變化,當達到特定臨界深度(如Ant Big Maze的8層、Humanoid U-Maze的64層)時,智能體將習得全新技能(如類人機器人的翻墻、坐姿移動等)。



      研究還揭示,深度擴展比寬度擴展更具計算效率(參數與計算量增長更平緩),且能與批量大小擴展協同作用。



      同時,actor和critic網絡的聯合深度擴展可互補提升性能;深層網絡通過增強對比表征能力、優化探索與表征效率的協同作用、合理分配關鍵狀態區域的表征容量等機制實現性能提升,還在組合泛化任務中表現更優。



      此外,研究發現深度擴展的優勢主要體現在在線RL場景,離線設置下效果有限,且僅CRL等自監督算法能有效利用深度擴展,傳統TD類算法難以從中獲益。

      論文通過詳盡的實驗驗證、架構消融和機制分析,為RL的規模擴展提供了新范式,同時也指出了計算成本較高等局限性。

      4、《Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training》



      論文共同一作Tony Bonnaire、Rapha?l Urfin,來自巴黎高等科學與研究學院。

      論文深入探究了擴散模型避免訓練數據記憶化、實現泛化的核心機制,聚焦訓練動態中的隱式動力學正則化作用。

      論文首先指出,擴散模型在圖像、音頻、視頻等生成任務中表現出色,但理解其防止記憶化、保障泛化能力的機制是關鍵挑戰。通過大量數值實驗與理論分析,研究識別出兩個關鍵訓練時間尺度:

      一是泛化時間,即模型開始生成高質量樣本所需的最短訓練時間,該時間與訓練集大小無關;二是記憶化時間,超過此時間模型會開始記憶訓練數據,且該時間隨訓練集大小呈線性增長。

      這兩個時間尺度形成的泛化窗口會隨訓練集規模擴大而拓寬,只要訓練在泛化窗口內停止,模型就能高效泛化,只有當訓練集大小超過模型相關閾值時,無限訓練時間下的過擬合才會消失,這一發現揭示了隱式動力學正則化能讓擴散模型即便在高度過參數化場景下也可避免記憶化。



      在實驗驗證方面,研究以CelebA人臉數據集為對象,將圖像轉為灰度下采樣圖像,采用U-Net架構構建分數模型,通過改變訓練集大小和模型參數數量(調整U-Net基礎寬度)展開實驗。



      結果顯示,不同訓練集大小下,泛化時間基本穩定,記憶化時間隨訓練集增大而線性延長,且模型容量會影響兩個時間尺度(參數越多,泛化和記憶化出現越早),同時排除了數據重復導致記憶化的可能性,證明記憶化由損失景觀的本質變化驅動。



      理論分析層面,研究采用隨機特征神經網絡模型,在高維極限下結合隨機矩陣理論等工具,分析訓練動態。

      結果表明,訓練動態的時間尺度與隨機特征相關矩陣的特征值倒數相關,過參數化場景下會出現兩個分離的特征值區間,分別對應泛化和記憶化時間尺度,泛化階段依賴數據總體協方差,與具體數據集無關,記憶化階段則與數據集相關的高頻特征有關,進一步印證了實驗觀察到的規律。



      此外,論文還探討了優化器影響、條件生成場景等擴展情況,同時指出研究局限,如未充分探索更寬范圍的模型參數、未深入分析條件生成對時間尺度的具體影響等。

      Faster R-CNN獲時間檢驗獎



      Faster R-CNN目標檢測框架,核心創新是引入區域提議網絡(RPN),通過與檢測網絡共享全圖像卷積特征,解決了傳統目標檢測中區域提議計算耗時的瓶頸問題,實現了高效且高精度的目標檢測。

      RPN作為全卷積網絡,能在特征圖的每個位置同時預測目標邊界框和目標性得分,其設計的“錨點”機制通過3種尺度和3種長寬比的參考框,無需圖像金字塔或濾波器金字塔即可覆蓋多種尺度和形狀的目標,兼具平移不變性且參數規模遠小于MultiBox等方法,有效降低過擬合風險。

      論文設計了多任務損失函數,結合分類損失(log損失)和回歸損失(smooth L1損失),通過4步交替訓練策略將 RPN與Fast R-CNN融合為統一網絡,實現卷積特征的共享——

      RPN扮演注意力角色指示檢測網絡關注區域,Fast R-CNN負責對提議區域進行精確分類和邊界框修正。



      在實驗驗證方面,該框架在PASCAL VOC 2007、2012和MS COCO等數據集上均取得當時最先進的檢測精度,使用VGG-16模型時在GPU上達到5fps的幀率(含所有步驟),僅需300個提議區域即可優于傳統Selective Search(2000個提議)的性能,且提議計算僅耗時10ms。



      在ILSVRC和COCO 2015競賽中,Faster R-CNN和RPN成為多個賽道冠軍方案的基礎。

      此外,論文還通過消融實驗驗證了錨點設置、損失函數平衡參數等超參數的魯棒性,對比了單階段與兩階段檢測框架的優劣,證明兩階段架構更具精度優勢,同時探索了MS COCO大規模數據集對PASCAL VOC任務的遷移提升作用,通過跨數據集預訓練實現了檢測精度的顯著提高。

      該框架不僅為實時目標檢測提供了實用解決方案,其共享特征和錨點機制也深刻影響了后續3D目標檢測、實例分割等多個計算機視覺領域的發展,相關代碼已公開供學術界和工業界使用。


      [1]https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/
      [2]https://blog.neurips.cc/2025/11/26/announcing-the-test-of-time-paper-award-for-neurips-2025/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中方嚴厲警告:如果日艦再闖臺海就擊沉,會被視為侵略可無限反擊

      中方嚴厲警告:如果日艦再闖臺海就擊沉,會被視為侵略可無限反擊

      愛吃醋的貓咪
      2025-12-06 21:02:16
      一覺醒來,不僅賣電車的傻眼了,就連生產廠家也驚呆了!

      一覺醒來,不僅賣電車的傻眼了,就連生產廠家也驚呆了!

      今朝牛馬
      2025-12-06 12:21:16
      六臺:老佛爺是最后一個離開伯納烏的,這非常罕見

      六臺:老佛爺是最后一個離開伯納烏的,這非常罕見

      懂球帝
      2025-12-08 10:45:10
      225單退款女后續:鄰居爆料炸裂,全家都是“慣犯”,都不是善茬

      225單退款女后續:鄰居爆料炸裂,全家都是“慣犯”,都不是善茬

      鋭娛之樂
      2025-12-08 08:48:31
      16歲讀博的神童張炘煬,如今無業躺平啃老,坦然承認:我不是神童

      16歲讀博的神童張炘煬,如今無業躺平啃老,坦然承認:我不是神童

      不寫散文詩
      2025-12-07 19:20:12
      雙胞胎認親反目后續:爸爸簽永不尋找保證書,哥哥棄房退親但原諒

      雙胞胎認親反目后續:爸爸簽永不尋找保證書,哥哥棄房退親但原諒

      鋭娛之樂
      2025-12-08 08:19:16
      曝阿隆索3天后再輸就下課!推卸責任:對球員感到失望 主裁瞎出牌

      曝阿隆索3天后再輸就下課!推卸責任:對球員感到失望 主裁瞎出牌

      風過鄉
      2025-12-08 07:29:34
      中國第一省會,到底“養活”了多少人?

      中國第一省會,到底“養活”了多少人?

      孫不熟讀城市
      2025-12-07 23:33:17
      “浙江投行一哥”被帶走

      “浙江投行一哥”被帶走

      財通社
      2025-12-07 11:55:49
      1955年授銜主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

      1955年授銜主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

      宅家伍菇涼
      2025-12-07 10:00:04
      湖北一副局長被查

      湖北一副局長被查

      越喬
      2025-12-08 07:10:30
      李澤鉅近照變化巨大!滿頭白發,身材發福,帶兩位助理參加選舉!

      李澤鉅近照變化巨大!滿頭白發,身材發福,帶兩位助理參加選舉!

      阿纂看事
      2025-12-07 22:14:52
      人生趁早要做三件事:賺錢、戀愛、見世面

      人生趁早要做三件事:賺錢、戀愛、見世面

      蘇格拉高
      2025-12-08 10:48:17
      國家隊低調布局:這5只科技股或成明年主線,概念炒作請讓道

      國家隊低調布局:這5只科技股或成明年主線,概念炒作請讓道

      慧眼看世界哈哈
      2025-12-08 07:05:03
      曾風靡一時,又突然消失的7件家電:科技進步太快,難怪被淘汰

      曾風靡一時,又突然消失的7件家電:科技進步太快,難怪被淘汰

      小柱解說游戲
      2025-12-07 10:04:13
      “畸形”的輪胎市場:外國人愛用的中國輪胎,國人為啥就是不買賬

      “畸形”的輪胎市場:外國人愛用的中國輪胎,國人為啥就是不買賬

      毒sir財經
      2025-12-06 22:07:18
      闞清子孕晚期腫成饅頭臉,老公全程貼心攙扶,30斤幸福肥超有愛

      闞清子孕晚期腫成饅頭臉,老公全程貼心攙扶,30斤幸福肥超有愛

      鑫鑫愛吃糖
      2025-12-07 18:19:19
      南京雙胞胎反目后續:爸爸支持弟弟,讓弟弟不要低頭一家三口慶祝

      南京雙胞胎反目后續:爸爸支持弟弟,讓弟弟不要低頭一家三口慶祝

      漢史趣聞
      2025-12-06 11:05:31
      曼聯冬窗簽加拉格爾計劃獲確認!6000萬鐵腰恐遭清洗,土超感興趣

      曼聯冬窗簽加拉格爾計劃獲確認!6000萬鐵腰恐遭清洗,土超感興趣

      羅米的曼聯博客
      2025-12-08 11:22:41
      奚美娟兒子生父曝光:隱藏30年,圈內幕后大佬非前夫

      奚美娟兒子生父曝光:隱藏30年,圈內幕后大佬非前夫

      探索新高度
      2025-12-07 19:05:37
      2025-12-08 12:07:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11820文章數 176340關注度
      往期回顧 全部

      科技要聞

      萬億蘋果,正在經歷一場嚴重的“大失血”

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      家居
      藝術
      本地
      健康
      公開課

      家居要聞

      有限無界 打破慣有思維

      藝術要聞

      從3萬人的“小香港”到十室九空!江西深山被廢棄的煤礦小鎮

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      甲狀腺結節到這個程度,該穿刺了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色橹橹欧美在线观看视频高清| 国内精品一区二区三区| aⅴ精品无码无卡在线观看| 亚洲一区二区av| 桑日县| 乱妇乱女熟妇熟女网站| 在线亚洲+欧美+日本专区| 亚洲中文字幕人妻| 久久精品欧美一区二区三区麻豆 | 97精品超碰一区二区三区| 精品九九在线| 关岭| 国产jizzjizz视频| 人妻少妇精品无码专区二区| 欧美精品XXX| 95国产精品| 秋霞无码一区二区| 国产jlzzjlzz视频免费看| 狠狠干性视频| 日日插中文字幕| 中文www新版资源在线| 中文字幕有码无码AV| 91白浆| 国产白丝jk捆绑束缚调教视频| 国产精品18久久久久久vr| 三级色网| 宣城市| 天天干天天日三级| 日本久久高清一区二区三区毛片| 精品综合精品产品| 人妻蜜桃臀中文字幕破解版一区 | 国产精品任我爽爆在线播放| 亚洲人成18在线看久| 久久免费少妇高潮久久精品99| 阳信县| 国精产品999国精产| 两个人看的www视频免费完整版| jizz免费| 生产安全高潮呻吟久久av| 亚洲人成人无码www| 无码人妻精品一区二区三区东京热|