<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<ruby id="mxokb"></ruby>

<ruby id="mxokb"><progress id="mxokb"></progress></ruby>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

華為新架構砍了Transformer大動脈！任意模型推理能力原地飆升

2025-12-06 21:41:29　來源: 量子位

北京舉報

0

分享至

金磊發自凹非寺
量子位 | 公眾號 QbitAI

是時候給Transformer的大動脈動刀子了。

因為即便它享有當下AI世界基石的地位，但自身問題也是非常明顯：

一旦遇到復雜的數學題或者需要多步邏輯推理的時候，就開始一本正經地胡說八道了……

問題究竟出在了哪里？

答案就藏在Transformer的核心機制里——Attention。

傳統Attention機制本質上像是一種配對比較：每個詞只和另一個詞直接發生關系，生成一個注意力權重。

這種架構雖然擅長捕捉長距離依賴，但在建模復雜、多跳、多點之間的邏輯關系時卻顯得力不從心了。

例如它能輕松理解“A認識B”，但如果要它理解“張三通過李四認識了王五”，即多跳、多點之間的復雜、間接關系，它的腦回路就顯得不夠深，推理能力的天花板瞬間觸頂。

現在，這個天花板，被華為諾亞方舟實驗室捅破了！

因為就在最近，團隊祭出了一種全新架構，叫做Nexus，即高階注意力機制（Higher-Order Attention Mechanism）。

它可以說是直接狙擊了Attention機制的核心痛點，使用更高階注意力，就能有效地建模多跳、多點之間的復雜關聯。

并且從實驗結果來看，效果也是有點驚艷在身上的。

只要換上Nexus這個新架構，模型在數學和科學等復雜推理任務上的能力，都能立馬實現大幅飆升，而且還是參數零增的那種。

妙哉，著實妙哉。

接下來，就讓我們一同來深入了解一下Nexus的精妙一刀。

高階注意力機制砍出的精妙一刀

要理解高階的意義，我們必須先回顧傳統自注意力機制的根本缺陷。

標準的自注意力機制本質上是將輸入序列X分別通過三個線性變換WQ，WK，WV生成Query（Q）、Key（K）、Value（V），再通過softmax計算注意力權重：

但這里就出現了一個關鍵的問題：Q和K都是靜態的、與上下文無關的線性投影。

也就是說，某個token的Query向量僅由它自己決定，無法感知其他token的存在；這導致注意力權重只能反映兩兩之間的直接關系。

精妙第一刀：Q和K的革新

華為諾亞方舟實驗室的第一個刀法，就精妙地砍在了這里：Nexus讓Q和K的生成過程本身也變成一個注意力操作。

換句話說，token在計算最終的Q和K之前，會先進行一次“預推理”；這個過程，其實就是一個嵌套的自注意力機制。

Token首先通過這個內部循環，從全局上下文中聚合信息，形成一個更加精煉、更具上下文感知能力的表示，然后再用這個表示去計算最終的Q和K。

這就好比，在你問我答（Q和K計算Attention）之前，每個token都先在內部進行了深思熟慮，充分吸收了它在整個序列中的環境信息。

這樣生成的Q和K，自然就擺脫了線性投影的僵硬，具備了捕捉復雜關系的動態性。

精妙第二刀：巧用遞歸框架

Nexus架構最精妙之處，還在于它的遞歸框架（Recursive Framework）。

這個內部注意力循環可以被遞歸地來嵌套。

如果我們將一層Attention視為一階關系（A認識B），那么將Attention的輸出作為下一層Attention的輸入，就可以構建二階關系（張三通過李四認識王五），乃至更高階的關系。

在Nexus中，這種遞歸嵌套被巧妙地集成在一個單層結構中，形成了一個層次化的推理鏈。

論文進一步將上述過程遞歸化，定義第m階注意力為：

其中，m=1就是標準注意力；m=2表示Q和K由一次內層注意力生成；m=3表示Q和K由二階注意力生成，相當于“注意力的注意力的注意力”。

這種結構天然支持多跳推理鏈，就像人在解一道數學題時，先理解題干中的關鍵變量（第1層），再思考它們之間的公式關系（第2層），最后驗證整體邏輯是否自洽（第3層）。

精妙第三刀：不增參數

復雜架構往往意味著更高的計算開銷和更多的參數量，但Nexus通過精巧的設計，完全規避了這些問題——權重共享策略。

具體來說，無論是內層還是外層的注意力模塊，都復用同一組投影權重WQ，WK，WV。

這意味著，盡管計算路徑更復雜，但模型參數量和原始Transformer完全一致。

這種設計背后有一個關鍵假設：無論處于遞歸的哪一層，將token投影為Query或Key的語義變換方式是相似的。

團隊通過實驗證明，這一假設是成立的。

在Pythia-70M的消融實驗中，使用權重共享的Nexus-QK-Shared版本，平均準確率仍比基線高出近1個百分點，而參數量毫無增加。

這就讓Nexus成為了一種極其高效的表達密度提升器——用相同的參數，實現更強的推理能力。

只要換上Nexus，推理效果立竿見影

那么Nexus的效果到底如何？

論文在兩個維度做了驗證：從零訓練的小模型，以及對已有大模型的架構改造。

小模型全面領先

研究團隊在 Pythia 系列（70M 到 1B）上從頭訓練 Nexus，并在六個標準推理數據集上評估：ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ。

結果非常一致：Nexus 在所有規模上都優于原始Transformer。

尤其在需要多步推理或科學常識的任務中提升顯著。例如：

在SciQ（科學問答）上，70M模型準確率從61.5%提升至68.5%，提升7個百分點；
在PiQA（物理常識推理）上，1B模型從62.5%提升至63.6%。

這說明Nexus特別擅長處理那些不能靠表面模式匹配解決的問題，是真的有在做推理。

大模型改裝即用

面對規模更大的模型，Nexus還體現出了即插即用的能力。

團隊將Qwen2.5的1.5B和7B版本的標準注意力層直接替換為Nexus結構，僅在SFT（監督微調）階段進行訓練，未改動預訓練權重。

結果表明，在三個高難度數學推理基準上（MATH-500、AIME24、GPQA-Diamond），Nexus 均帶來穩定提升：

Qwen2.5-1.5B在MATH-500上準確率從78.6% → 80.1%；
Qwen2.5-7B在AIME24上從 45.2% → 47.5%。

尤其值得注意的是AIME24的提升，因為這類題目要求嚴格的多步邏輯推導，錯誤一步就全盤皆輸。Nexus 的改進說明，它確實在內部構建了更連貫的推理鏈。

從這一層面來看，Nexus不僅是一個新訓練范式，還是一套架構升級套件。你不用重新訓練一個千億模型，只需在微調階段替換注意力層，就能解鎖更強的推理能力。

推理能力可內生于架構

雖然Nexus目前聚焦于語言模型，但其思想具有普適性。

高階關系建模在視覺、圖神經網絡、多模態任務中同樣關鍵；例如，在視頻理解中，“A看到B打了C” 就是一個典型的三元關系，傳統Attention難以直接捕捉。

華為諾亞團隊表示，下一步將探索Nexus在視覺Transformer和多模態大模型中的應用，并優化其計算效率。

Transformer 的智商天花板，或許從來不在參數量，而在其注意力機制的表達能力。華為諾亞的 Nexus，用一種優雅而高效的方式，為這一核心模塊注入了高階推理能力。

它不靠堆料，不靠提示工程，而是從架構底層重構了模型的思考方式。

因此，Nexus也提醒了我們：有時候，聰明的架構比規模的大小更重要。

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

華為云又有大動作

華爾街見聞官方 2025-12-06 23:52:27
21 跟貼 21
基于文本AI的終結？Agent協作可直接「復制思維」，Token效率暴漲

機器之心Pro 2025-12-05 14:08:05
1 跟貼 1

Mini-Omni-Reasoner：實時推理，定義下一代端到端對話模型

機器之心Pro 2025-09-22 14:01:53
0 跟貼 0

第二波DeepSeek沖擊：V3.2 改寫中國云生態與芯片生態

華爾街見聞官方 2025-12-06 15:30:07
7 跟貼 7
AGILE：自監督+交互式強化學習助力VLMs感知與推理全面提升

機器之心Pro 2025-10-20 18:30:03
0 跟貼 0

讓大模型學會「心靈感應」：基于思維溝通的多智能體合作范式來了

機器之心Pro 2025-11-18 10:12:54
0 跟貼 0

1.5B模型新SOTA，RL訓練新解法打破「簡單題過擬合、難題學不動」

機器之心Pro 2025-10-04 20:47:58
0 跟貼 0
Transformer作者：DeepSeek才有搞頭，OpenAI指望不上了

量子位 2025-09-12 11:07:58
0 跟貼 0

Ilya剛預言完，世界首個原生多模態架構就來了：視覺和語言被焊死

量子位 2025-12-06 21:40:40
16 跟貼 16
英偉達周末雙炸！CUDA二十年最大更新，順手屠榜AGI比賽

新智元 2025-12-06 20:41:27
0 跟貼 0
開源RL框架Verlog來了，專為LLM智能體打造，400回合不成問題

機器之心Pro 2025-10-08 15:52:12
0 跟貼 0
基于ASPP-Swin Transformer模型的加密流量識別方法

通信世界 2025-10-28 11:31:02
0 跟貼 0
模型不用微調，靠上下文就能自我進化？

機器之心Pro 2025-10-11 20:20:59
0 跟貼 0
黃仁勛：中國的AI市場無論有沒有英偉達都會進步與華為是競爭對手不是敵人

財聯社 2025-07-21 10:22:14
7 跟貼 7
90后“稚暉君”，任上緯新材董事長！他是原華為天才少年

每日經濟新聞 2025-11-26 14:49:35
3 跟貼 3
15 萬級唯一搭載華為乾崑智駕 ADS 4 SE 的 SUV！

李大錘同學 2025-12-06 12:00:00
2 跟貼 2
在華為練秋湖，看頂尖程序員比賽是什么體驗？

酷玩實驗室 2025-12-05 10:41:52
0 跟貼 0
余承東：我有一個夢想馬路上的所有車里都有華為的技術

每日經濟新聞 2025-07-23 17:06:16
261 跟貼 261
揭秘！華為乾崑ADS這么多版本，到底該怎么選？

極駕Auto 2025-12-06 19:48:27
0 跟貼 0
國外兩個倔犟的老頭，互相炫耀手機功能，國貨之光華為贏麻了

生活笑料鋪 2025-12-05 16:32:59
3 跟貼 3
明星扎堆取機刷爆社交平臺，華為門店體驗新款折疊屏

摸娛大傻春 2025-12-06 14:06:51
2 跟貼 2
女子用華為手機拍月亮，拍照后ai瞬間放大了月亮

南陽日報 2025-12-06 12:47:25
0 跟貼 0
河南農業大學黨委書記，去深圳了

植物研究進展 2025-12-06 23:38:33
23 跟貼 23
華為Mate X7 首銷日當天，73歲演員唐國強到店喜提新手機網友：怎么感覺明星都在買華為啊

營天下 2025-12-06 11:37:34
22 跟貼 22
華為mate80現場展示“魔法”，以后想去哪兒就去哪兒

今日消費 2025-12-06 13:25:25
0 跟貼 0
AI的下一代底座？華為超節點架構創新，從巨頭到中小企業都能用

量子位 2025-09-24 18:14:46
2 跟貼 2
唐DMI的無線充為啥華為手機不行，小米的手機卻可以充？

大志聊車 2025-12-03 20:02:29
5 跟貼 5
華為智慧屏 MateTV 有多強，像玩手機一樣玩電視

南陽日報 2025-12-06 17:30:25
1 跟貼 1
鴻蒙系統獨家的智感握姿單手操作體驗up！華為手機的“黑科技”智感握姿功能體驗，你覺得好用嗎？#華...

凰家評測 2025-12-05 11:30:14
0 跟貼 0
蘋果華為OPPO實測，長焦人像你愛哪張？

數科先驅 2025-12-06 12:41:34
0 跟貼 0
多個黑衣年輕男女手持手機站在華為門店路人直呼搞笑

直擊新鮮事 2025-12-05 12:27:25
0 跟貼 0
女生展示華為MateX7手機有多薄，用其他手機都感覺自己在負重訓練

CQTV新視界 2025-12-06 16:53:49
0 跟貼 0
華為Mate X7新功能，AI動態圖書讓插畫“活”起來了！

VDGER唯界 2025-12-04 21:11:10
1 跟貼 1
華為門店偶遇于榮光老師，新機發布就是有吸引力

探山城 2025-12-05 18:36:07
0 跟貼 0
華為任正非最新講話！談到AI、算力、年輕人，“教育是教育，商業是商業”

每日經濟新聞 2025-12-05 21:23:07
0 跟貼 0
乾崑智駕2.0月使用509萬次

科技Sex 2025-12-05 14:52:24
4 跟貼 4
百年豪華的抉擇，與華為乾崑的標準輸出

財聯社 2025-11-28 16:10:34
0 跟貼 0
昀冢科技：公司消費電子產品主要應用于華為等主流品牌智能手機

界面新聞 2025-12-04 17:22:11
0 跟貼 0
色彩還原鏡頭影響大嗎？蘋果華為OPPO實測看看

數科先驅 2025-12-04 17:05:26
0 跟貼 0
華為 X3 Pro 日照金山開箱體驗：有這么好看的路由器擺在桌面上

愛范兒 2025-11-26 17:29:45
0 跟貼 0

兩中國女子在日本路口被撞死近一年，家屬起訴索賠1.4 億日元

兩中國女子在日本路口被撞死近一年，家屬起訴索賠1.4 億日元

揚子晚報

2025-12-06 20:35:15

五糧液突然降價，十年首次

大風新聞

2025-12-06 21:17:16

中世紀歐洲貴婦有多“臟”？在裙子里大小便，糞便和尿液無處不在

中世紀歐洲貴婦有多“臟”？在裙子里大小便，糞便和尿液無處不在

銘記歷史呀

2025-12-06 02:50:03

欺騙了全世界的把戲，巴沙爾真的亡國了？泰國：別信，都是障眼法

欺騙了全世界的把戲，巴沙爾真的亡國了？泰國：別信，都是障眼法

小莜讀史

2025-12-06 16:44:11

“作死”的DELL，在中國市場，已把自己徹底作沒了

“作死”的DELL，在中國市場，已把自己徹底作沒了

互聯網.亂侃秀

2025-12-06 12:20:58

就在今日！全港市民涌入街頭......

就在今日！全港市民涌入街頭......

港港地

2025-12-07 10:50:40

“畸形”的輪胎市場：外國人愛用的中國輪胎，國人為啥就是不買賬

“畸形”的輪胎市場：外國人愛用的中國輪胎，國人為啥就是不買賬

毒sir財經

2025-12-06 22:07:18

女兒失蹤3年，竟托夢說在鄰居家魚缸里，警察趕到后當場愣了

女兒失蹤3年，竟托夢說在鄰居家魚缸里，警察趕到后當場愣了

罪案洞察者

2025-09-16 14:31:27

湖北中獎1200萬幸運兒現狀：6張銀行卡余額加起來不到100元

湖北中獎1200萬幸運兒現狀：6張銀行卡余額加起來不到100元

諸神的護佑

2025-12-06 22:18:38

日本右翼一語驚人：若中國核彈造成日本幾百萬人死亡，那剩下~~~

日本右翼一語驚人：若中國核彈造成日本幾百萬人死亡，那剩下~~~

魔都姐姐雜談

2025-12-07 06:29:53

要小心了！原來微信發消息就可以查到對方位置，看看你知道嗎？

要小心了！原來微信發消息就可以查到對方位置，看看你知道嗎？

CG說科技

2025-11-21 23:35:05

“鎩羽而歸”的“鎩”不讀“shà”，正確讀音是什么？成語源自“社畜鼻祖”鮑照的求職書！

“鎩羽而歸”的“鎩”不讀“shà”，正確讀音是什么？成語源自“社畜鼻祖”鮑照的求職書！

中國社會科學網

2025-12-06 14:06:35

伊迪：期待楊瀚森在場的表現；在場看到另一位亞洲球員很特別

伊迪：期待楊瀚森在場的表現；在場看到另一位亞洲球員很特別

懂球帝

2025-12-07 11:43:05

原來醫學界也有自己的江湖門派！看網友評論：引起萬千共鳴！

原來醫學界也有自己的江湖門派！看網友評論：引起萬千共鳴！

另子維愛讀史

2025-12-06 22:17:13

馬斯克：SpaceX正以8000億美元估值融資的消息并不準確

馬斯克：SpaceX正以8000億美元估值融資的消息并不準確

IT之家

2025-12-07 07:11:06

鬧大了！三亞大東海沙灘發生慘案，男子持刀捅人，3人不幸身亡

鬧大了！三亞大東海沙灘發生慘案，男子持刀捅人，3人不幸身亡

一杯咖啡語

2025-12-06 22:54:23

一場大洪水，他信家族起死回生了！

一場大洪水，他信家族起死回生了！

天真無牙

2025-12-07 08:00:17

毛澤東如何動用最高機密力量，救出那位曾拿功名保他的恩師？

毛澤東如何動用最高機密力量，救出那位曾拿功名保他的恩師？

清澈之玹

2025-12-05 10:08:41

瓜帥：英超奪冠得靠穩定性；我從未見過梅西像謝爾基那樣傳中

瓜帥：英超奪冠得靠穩定性；我從未見過梅西像謝爾基那樣傳中

懂球帝

2025-12-07 03:01:17

為什么感覺金融圈子很淫亂呢？看完回答感受到人性欲望的丑惡

為什么感覺金融圈子很淫亂呢？看完回答感受到人性欲望的丑惡

另子維愛讀史

2025-12-05 21:20:39

追蹤人工智能動態

11820文章數 176340關注度

往期回顧全部

科技要聞

連芯片大神都想跑，蘋果還留得住誰？

頭條要聞

歐盟對馬斯克開出巨額罰單美國外交"一二把手"開噴

頭條要聞

歐盟對馬斯克開出巨額罰單美國外交"一二把手"開噴

體育要聞

兩個女生，用165天劃船橫渡太平洋

娛樂要聞

尖叫之夜修羅場魏大勛不顧秦嵐猛炒CP

財經要聞

五糧液降價？回應來了

汽車要聞

傳奇超跑電動形態重生雷克薩斯LFA純電概念車

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

房產

數碼

公開課

軍事航空

伊姐周六熱推：電視劇《亦舞之城》；電視劇《時差一萬公里》......

房產要聞

封關啟幕宜居新時代！觀嵐森嶼定義三亞旅居度假新范本

數碼要聞

華碩ROG CES 2026暨品牌20周年發布活動1月6日7:00舉行

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產30天

軍事要聞

日本自衛隊飛機多次滋擾遼寧艦航母編隊訓練

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：精品少妇爆乳无码aⅴ区| 91社视频在线观看| 国产精品17p| 下面一进一出好爽视频| 青椒国产97在线熟女| 亚洲精品无码你懂的网站| av黄色| 日韩综合| 亚洲熟妇无码爱v在线观看| 人妻激情文学| 精品中文人妻在线不卡| 欧美粗又大| 久久9199| 人妻激情偷乱一区二区三区| 国产精品美女久久久久av爽| 国产精品青草久久久久福利99| 五月丁香中文字幕| 老头边吃奶边弄进去呻吟| 亚洲色成人一区二区三区小说| 中文日韩在线一区二区| 亚洲熟妇AV乱码在线观看| 措美县| 欧洲精品码一区二区三区| 国产综合无码一区二区色蜜蜜| 国产精品久久毛片| 九九热色| 在线视频精品中文无码| 久久久噜噜噜久久| 国产日韩精品欧美一区灰| 人人操网| 黑人巨茎大战白人美女| 久久男人av资源网站无码软件| 日韩视频在线观看网址| 肥东县| 精品无码久久久久久久动漫| 嫩草研究院久久久精品| 在线视频免费看3| 中国一区二区三区| 久久天堂av综合合色蜜桃网| 无码AV中文字幕久久专区| av无码免费|

<sub id="sxkz1"><rt id="sxkz1"></rt></sub>

<blockquote id="sxkz1"></blockquote>