金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
是時候給Transformer的大動脈動刀子了。
因為即便它享有當下AI世界基石的地位,但自身問題也是非常明顯:
一旦遇到復雜的數學題或者需要多步邏輯推理的時候,就開始一本正經地胡說八道了……
![]()
問題究竟出在了哪里?
答案就藏在Transformer的核心機制里——Attention。
傳統Attention機制本質上像是一種配對比較:每個詞只和另一個詞直接發生關系,生成一個注意力權重。
這種架構雖然擅長捕捉長距離依賴,但在建模復雜、多跳、多點之間的邏輯關系時卻顯得力不從心了。
例如它能輕松理解“A認識B”,但如果要它理解“張三通過李四認識了王五”,即多跳、多點之間的復雜、間接關系,它的腦回路就顯得不夠深,推理能力的天花板瞬間觸頂。
現在,這個天花板,被華為諾亞方舟實驗室捅破了!
因為就在最近,團隊祭出了一種全新架構,叫做Nexus,即高階注意力機制(Higher-Order Attention Mechanism)。
![]()
它可以說是直接狙擊了Attention機制的核心痛點,使用更高階注意力,就能有效地建模多跳、多點之間的復雜關聯。
并且從實驗結果來看,效果也是有點驚艷在身上的。
只要換上Nexus這個新架構,模型在數學和科學等復雜推理任務上的能力,都能立馬實現大幅飆升,而且還是參數零增的那種。
妙哉,著實妙哉。
接下來,就讓我們一同來深入了解一下Nexus的精妙一刀。
高階注意力機制砍出的精妙一刀
要理解高階的意義,我們必須先回顧傳統自注意力機制的根本缺陷。
標準的自注意力機制本質上是將輸入序列X分別通過三個線性變換WQ,WK,WV生成Query(Q)、Key(K)、Value(V),再通過softmax計算注意力權重:
![]()
但這里就出現了一個關鍵的問題:Q和K都是靜態的、與上下文無關的線性投影。
也就是說,某個token的Query向量僅由它自己決定,無法感知其他token的存在;這導致注意力權重只能反映兩兩之間的直接關系。
精妙第一刀:Q和K的革新
華為諾亞方舟實驗室的第一個刀法,就精妙地砍在了這里:Nexus讓Q和K的生成過程本身也變成一個注意力操作。
換句話說,token在計算最終的Q和K之前,會先進行一次“預推理”;這個過程,其實就是一個嵌套的自注意力機制。
Token首先通過這個內部循環,從全局上下文中聚合信息,形成一個更加精煉、更具上下文感知能力的表示,然后再用這個表示去計算最終的Q和K。
這就好比,在你問我答(Q和K計算Attention)之前,每個token都先在內部進行了深思熟慮,充分吸收了它在整個序列中的環境信息。
這樣生成的Q和K,自然就擺脫了線性投影的僵硬,具備了捕捉復雜關系的動態性。
![]()
精妙第二刀:巧用遞歸框架
Nexus架構最精妙之處,還在于它的遞歸框架(Recursive Framework)。
這個內部注意力循環可以被遞歸地來嵌套。
如果我們將一層Attention視為一階關系(A認識B),那么將Attention的輸出作為下一層Attention的輸入,就可以構建二階關系(張三通過李四認識王五),乃至更高階的關系。
在Nexus中,這種遞歸嵌套被巧妙地集成在一個單層結構中,形成了一個層次化的推理鏈。
論文進一步將上述過程遞歸化,定義第m階注意力為:
![]()
其中,m=1就是標準注意力;m=2表示Q和K由一次內層注意力生成;m=3表示Q和K由二階注意力生成,相當于“注意力的注意力的注意力”。
這種結構天然支持多跳推理鏈,就像人在解一道數學題時,先理解題干中的關鍵變量(第1層),再思考它們之間的公式關系(第2層),最后驗證整體邏輯是否自洽(第3層)。
精妙第三刀:不增參數
復雜架構往往意味著更高的計算開銷和更多的參數量,但Nexus通過精巧的設計,完全規避了這些問題——權重共享策略。
具體來說,無論是內層還是外層的注意力模塊,都復用同一組投影權重WQ,WK,WV。
這意味著,盡管計算路徑更復雜,但模型參數量和原始Transformer完全一致。
這種設計背后有一個關鍵假設:無論處于遞歸的哪一層,將token投影為Query或Key的語義變換方式是相似的。
團隊通過實驗證明,這一假設是成立的。
![]()
在Pythia-70M的消融實驗中,使用權重共享的Nexus-QK-Shared版本,平均準確率仍比基線高出近1個百分點,而參數量毫無增加。
這就讓Nexus成為了一種極其高效的表達密度提升器——用相同的參數,實現更強的推理能力。
只要換上Nexus,推理效果立竿見影
那么Nexus的效果到底如何?
論文在兩個維度做了驗證:從零訓練的小模型,以及對已有大模型的架構改造。
小模型全面領先
研究團隊在 Pythia 系列(70M 到 1B)上從頭訓練 Nexus,并在六個標準推理數據集上評估:ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ。
結果非常一致:Nexus 在所有規模上都優于原始Transformer。
尤其在需要多步推理或科學常識的任務中提升顯著。例如:
- 在SciQ(科學問答)上,70M模型準確率從61.5%提升至68.5%,提升7個百分點;
- 在PiQA(物理常識推理)上,1B模型從62.5%提升至63.6%。
![]()
這說明Nexus特別擅長處理那些不能靠表面模式匹配解決的問題,是真的有在做推理。
大模型改裝即用
面對規模更大的模型,Nexus還體現出了即插即用的能力。
團隊將Qwen2.5的1.5B和7B版本的標準注意力層直接替換為Nexus結構,僅在SFT(監督微調)階段進行訓練,未改動預訓練權重。
結果表明,在三個高難度數學推理基準上(MATH-500、AIME24、GPQA-Diamond),Nexus 均帶來穩定提升:
- Qwen2.5-1.5B在MATH-500上準確率從78.6% → 80.1%;
- Qwen2.5-7B在AIME24上從 45.2% → 47.5%。
![]()
尤其值得注意的是AIME24的提升,因為這類題目要求嚴格的多步邏輯推導,錯誤一步就全盤皆輸。Nexus 的改進說明,它確實在內部構建了更連貫的推理鏈。
從這一層面來看,Nexus不僅是一個新訓練范式,還是一套架構升級套件。你不用重新訓練一個千億模型,只需在微調階段替換注意力層,就能解鎖更強的推理能力。
推理能力可內生于架構
雖然Nexus目前聚焦于語言模型,但其思想具有普適性。
高階關系建模在視覺、圖神經網絡、多模態任務中同樣關鍵;例如,在視頻理解中,“A看到B打了C” 就是一個典型的三元關系,傳統Attention難以直接捕捉。
華為諾亞團隊表示,下一步將探索Nexus在視覺Transformer和多模態大模型中的應用,并優化其計算效率。
Transformer 的智商天花板,或許從來不在參數量,而在其注意力機制的表達能力。華為諾亞的 Nexus,用一種優雅而高效的方式,為這一核心模塊注入了高階推理能力。
它不靠堆料,不靠提示工程,而是從架構底層重構了模型的思考方式。
因此,Nexus也提醒了我們:有時候,聰明的架構比規模的大小更重要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.