<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      華為新架構砍了Transformer大動脈!任意模型推理能力原地飆升

      0
      分享至

      金磊 發自 凹非寺
      量子位 | 公眾號 QbitAI

      是時候給Transformer的大動脈動刀子了。

      因為即便它享有當下AI世界基石的地位,但自身問題也是非常明顯:

      一旦遇到復雜的數學題或者需要多步邏輯推理的時候,就開始一本正經地胡說八道了……



      問題究竟出在了哪里?

      答案就藏在Transformer的核心機制里——Attention

      傳統Attention機制本質上像是一種配對比較:每個詞只和另一個詞直接發生關系,生成一個注意力權重。

      這種架構雖然擅長捕捉長距離依賴,但在建模復雜、多跳、多點之間的邏輯關系時卻顯得力不從心了。

      例如它能輕松理解“A認識B”,但如果要它理解“張三通過李四認識了王五”,即多跳、多點之間的復雜、間接關系,它的腦回路就顯得不夠深,推理能力的天花板瞬間觸頂。

      現在,這個天花板,被華為諾亞方舟實驗室捅破了!

      因為就在最近,團隊祭出了一種全新架構,叫做Nexus,即高階注意力機制(Higher-Order Attention Mechanism)。



      它可以說是直接狙擊了Attention機制的核心痛點,使用更高階注意力,就能有效地建模多跳、多點之間的復雜關聯。

      并且從實驗結果來看,效果也是有點驚艷在身上的。

      只要換上Nexus這個新架構,模型在數學和科學等復雜推理任務上的能力,都能立馬實現大幅飆升,而且還是參數零增的那種。

      妙哉,著實妙哉。

      接下來,就讓我們一同來深入了解一下Nexus的精妙一刀。

      高階注意力機制砍出的精妙一刀

      要理解高階的意義,我們必須先回顧傳統自注意力機制的根本缺陷。

      標準的自注意力機制本質上是將輸入序列X分別通過三個線性變換WQ,WK,WV生成Query(Q)、Key(K)、Value(V),再通過softmax計算注意力權重:



      但這里就出現了一個關鍵的問題:Q和K都是靜態的、與上下文無關的線性投影。

      也就是說,某個token的Query向量僅由它自己決定,無法感知其他token的存在;這導致注意力權重只能反映兩兩之間的直接關系。

      精妙第一刀:Q和K的革新

      華為諾亞方舟實驗室的第一個刀法,就精妙地砍在了這里:Nexus讓Q和K的生成過程本身也變成一個注意力操作。

      換句話說,token在計算最終的Q和K之前,會先進行一次“預推理”;這個過程,其實就是一個嵌套的自注意力機制

      Token首先通過這個內部循環,從全局上下文中聚合信息,形成一個更加精煉、更具上下文感知能力的表示,然后再用這個表示去計算最終的Q和K。

      這就好比,在你問我答(Q和K計算Attention)之前,每個token都先在內部進行了深思熟慮,充分吸收了它在整個序列中的環境信息。

      這樣生成的Q和K,自然就擺脫了線性投影的僵硬,具備了捕捉復雜關系的動態性。



      精妙第二刀:巧用遞歸框架

      Nexus架構最精妙之處,還在于它的遞歸框架(Recursive Framework)。

      這個內部注意力循環可以被遞歸地來嵌套。

      如果我們將一層Attention視為一階關系(A認識B),那么將Attention的輸出作為下一層Attention的輸入,就可以構建二階關系(張三通過李四認識王五),乃至更高階的關系。

      在Nexus中,這種遞歸嵌套被巧妙地集成在一個單層結構中,形成了一個層次化的推理鏈。

      論文進一步將上述過程遞歸化,定義第m階注意力為:



      其中,m=1就是標準注意力;m=2表示Q和K由一次內層注意力生成;m=3表示Q和K由二階注意力生成,相當于“注意力的注意力的注意力”。

      這種結構天然支持多跳推理鏈,就像人在解一道數學題時,先理解題干中的關鍵變量(第1層),再思考它們之間的公式關系(第2層),最后驗證整體邏輯是否自洽(第3層)。

      精妙第三刀:不增參數

      復雜架構往往意味著更高的計算開銷和更多的參數量,但Nexus通過精巧的設計,完全規避了這些問題——權重共享策略

      具體來說,無論是內層還是外層的注意力模塊,都復用同一組投影權重WQ,WK,WV。

      這意味著,盡管計算路徑更復雜,但模型參數量和原始Transformer完全一致。

      這種設計背后有一個關鍵假設:無論處于遞歸的哪一層,將token投影為Query或Key的語義變換方式是相似的。

      團隊通過實驗證明,這一假設是成立的。



      在Pythia-70M的消融實驗中,使用權重共享的Nexus-QK-Shared版本,平均準確率仍比基線高出近1個百分點,而參數量毫無增加。

      這就讓Nexus成為了一種極其高效的表達密度提升器——用相同的參數,實現更強的推理能力。

      只要換上Nexus,推理效果立竿見影

      那么Nexus的效果到底如何?

      論文在兩個維度做了驗證:從零訓練的小模型,以及對已有大模型的架構改造。

      小模型全面領先

      研究團隊在 Pythia 系列(70M 到 1B)上從頭訓練 Nexus,并在六個標準推理數據集上評估:ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ。

      結果非常一致:Nexus 在所有規模上都優于原始Transformer。

      尤其在需要多步推理或科學常識的任務中提升顯著。例如:

      • 在SciQ(科學問答)上,70M模型準確率從61.5%提升至68.5%,提升7個百分點;
      • 在PiQA(物理常識推理)上,1B模型從62.5%提升至63.6%。



      這說明Nexus特別擅長處理那些不能靠表面模式匹配解決的問題,是真的有在做推理。

      大模型改裝即用

      面對規模更大的模型,Nexus還體現出了即插即用的能力。

      團隊將Qwen2.5的1.5B和7B版本的標準注意力層直接替換為Nexus結構,僅在SFT(監督微調)階段進行訓練,未改動預訓練權重。

      結果表明,在三個高難度數學推理基準上(MATH-500、AIME24、GPQA-Diamond),Nexus 均帶來穩定提升:

      • Qwen2.5-1.5B在MATH-500上準確率從78.6% → 80.1%;
      • Qwen2.5-7B在AIME24上從 45.2% → 47.5%。



      尤其值得注意的是AIME24的提升,因為這類題目要求嚴格的多步邏輯推導,錯誤一步就全盤皆輸。Nexus 的改進說明,它確實在內部構建了更連貫的推理鏈。

      從這一層面來看,Nexus不僅是一個新訓練范式,還是一套架構升級套件。你不用重新訓練一個千億模型,只需在微調階段替換注意力層,就能解鎖更強的推理能力。

      推理能力可內生于架構

      雖然Nexus目前聚焦于語言模型,但其思想具有普適性。

      高階關系建模在視覺、圖神經網絡、多模態任務中同樣關鍵;例如,在視頻理解中,“A看到B打了C” 就是一個典型的三元關系,傳統Attention難以直接捕捉。

      華為諾亞團隊表示,下一步將探索Nexus在視覺Transformer和多模態大模型中的應用,并優化其計算效率。

      Transformer 的智商天花板,或許從來不在參數量,而在其注意力機制的表達能力。華為諾亞的 Nexus,用一種優雅而高效的方式,為這一核心模塊注入了高階推理能力。

      它不靠堆料,不靠提示工程,而是從架構底層重構了模型的思考方式。

      因此,Nexus也提醒了我們:有時候,聰明的架構比規模的大小更重要。

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      湖南煙花店老板放煙花自殺事件后續來了:真相大白,令人唏噓

      湖南煙花店老板放煙花自殺事件后續來了:真相大白,令人唏噓

      復轉這些年
      2025-12-07 18:02:55
      開始上強度了,就差直接發射!日本F15被照后,轉頭就找美國哭訴

      開始上強度了,就差直接發射!日本F15被照后,轉頭就找美國哭訴

      青青子衿
      2025-12-08 02:32:59
      為烏克蘭捐款的明星名人有哪些?

      為烏克蘭捐款的明星名人有哪些?

      難得君
      2025-12-07 00:21:21
      太美了!為馬克龍獻花的川大女孩身份曝光!顏值極高,還是學霸!

      太美了!為馬克龍獻花的川大女孩身份曝光!顏值極高,還是學霸!

      鋭娛之樂
      2025-12-07 20:53:34
      華為Mate X7在出廠前經歷了什么?來場深度體檢看看

      華為Mate X7在出廠前經歷了什么?來場深度體檢看看

      極果酷玩
      2025-12-05 12:56:25
      全網封禁后在海外發聲?陳震的迷之操作,撞上央視的整治槍口

      全網封禁后在海外發聲?陳震的迷之操作,撞上央視的整治槍口

      雷科技
      2025-12-07 13:15:52
      爆砍29+7+6,詹姆斯打爆喬治!東契奇怒砍3雙,湖人重回西部第2

      爆砍29+7+6,詹姆斯打爆喬治!東契奇怒砍3雙,湖人重回西部第2

      籃球圈里的那些事
      2025-12-08 11:48:12
      15連勝本季最長!雷霆大勝爵士24戰23勝 亞歷山大缺席雙少50分

      15連勝本季最長!雷霆大勝爵士24戰23勝 亞歷山大缺席雙少50分

      醉臥浮生
      2025-12-08 11:31:23
      海參崴本該在1995年歸還中國斯大林親筆簽名同意,后來為何黃了?

      海參崴本該在1995年歸還中國斯大林親筆簽名同意,后來為何黃了?

      霹靂炮
      2025-12-06 21:45:58
      iPhone 17 Pro官方降價

      iPhone 17 Pro官方降價

      大象新聞
      2025-12-08 11:30:46
      黃一鳴帶女兒醫院看病,意外曝光女兒名字,網友:王思聰會后悔的

      黃一鳴帶女兒醫院看病,意外曝光女兒名字,網友:王思聰會后悔的

      小咪侃娛圈
      2025-12-08 09:04:58
      三大賽第三套大滿貫!塞爾比10-8特魯姆普,9年后再奪英錦賽冠軍

      三大賽第三套大滿貫!塞爾比10-8特魯姆普,9年后再奪英錦賽冠軍

      全景體育V
      2025-12-08 07:07:05
      江蘇少婦出軌已婚男同事:高顏值照曝光,少婦一句話爭議大

      江蘇少婦出軌已婚男同事:高顏值照曝光,少婦一句話爭議大

      老貓觀點
      2025-12-08 10:27:14
      要是10年內經濟持續下行,普通老百姓該怎么面對?

      要是10年內經濟持續下行,普通老百姓該怎么面對?

      經濟學教授V
      2025-12-07 18:07:14
      痛心!連霍高速十幾車連撞9死7傷,現場曝光十分慘烈,網友求改名

      痛心!連霍高速十幾車連撞9死7傷,現場曝光十分慘烈,網友求改名

      派大星紀錄片
      2025-12-07 11:46:14
      越老越妖!詹姆斯末節13分,助湖人4分險勝,這一戰我看清6大球星

      越老越妖!詹姆斯末節13分,助湖人4分險勝,這一戰我看清6大球星

      籃球看比賽
      2025-12-08 11:47:04
      跟風被咀嚼過的《芳華》,一場庸眾的鬧劇

      跟風被咀嚼過的《芳華》,一場庸眾的鬧劇

      關爾東
      2025-12-07 12:44:17
      楊瀚森閃耀NBA!絲滑轉身暴扣,連得4分!賽后斯普利特作出評價

      楊瀚森閃耀NBA!絲滑轉身暴扣,連得4分!賽后斯普利特作出評價

      球場沒跑道
      2025-12-08 09:50:39
      26歲閔超已任浙江大學博導

      26歲閔超已任浙江大學博導

      極目新聞
      2025-12-08 10:18:43
      馬斯克被干懵了:特斯拉全球第4,前3全是中國車,小米都排第7了

      馬斯克被干懵了:特斯拉全球第4,前3全是中國車,小米都排第7了

      互聯網.亂侃秀
      2025-12-07 11:37:05
      2025-12-08 12:00:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11820文章數 176340關注度
      往期回顧 全部

      科技要聞

      萬億蘋果,正在經歷一場嚴重的“大失血”

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      健康
      家居
      旅游
      親子
      軍事航空

      甲狀腺結節到這個程度,該穿刺了!

      家居要聞

      有限無界 打破慣有思維

      旅游要聞

      今起,云南這一知名景區恢復開放!

      親子要聞

      家長帶孩子跑了很多家醫院,你是我們最后的希望

      軍事要聞

      日本稱中方雷達照射日戰機 國防部回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品无码专区| 国产精品日韩av在线播放| 中文字幕人妻小说| 亚洲AV日韩AV激情亚洲| 玩成熟老熟女视频| 亚洲乱亚洲乱妇50p| 亚州精品熟女在线| 国产在线观看网址不卡一区| 国语对白做受xxxxx在线中国| 伊人a?v| 人妻人人操| 成人av中文字幕在线播放 | 亚洲高清aⅴ日本欧美视频| 亚洲成人首页| 国产av日韩av| 亚洲AV自拍| 人妻少妇精品无码专区二区| 久久综合九色综合欧洲98| 亚洲日韩精品一区二区三区| 萍乡市| 亚洲无码人妻| 亚洲日韩国产精品第一页一区 | 最近中文字幕在线中文视频 | 国产欧美日韩高清在线不卡| 邻居少妇张开双腿让我爽一夜| 99热这里只有精品免费播放| 中文字幕精品无亚洲字幕| 91精品国产综合久久久蜜臀酒店| 亚洲夂夂婷婷色拍ww47| 熟妇人妻中文字幕| 中文字幕乱码亚洲无线三区 | 野花在线观看免费观看高清| 国产精品久久无码一区二区三区网| 裸身美女无遮挡永久免费视频| 牟定县| 国产丝袜打飞机免费在线| 正在播放肥臀熟妇在线视频| 日产精品久久久久久久蜜臀| 成人国产欧美大片一区| 少妇无套内谢久久久久| 赫章县|