<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      華為新架構砍了Transformer大動脈!任意模型推理能力原地飆升

      0
      分享至

      金磊 發自 凹非寺
      量子位 | 公眾號 QbitAI

      是時候給Transformer的大動脈動刀子了。

      因為即便它享有當下AI世界基石的地位,但自身問題也是非常明顯:

      一旦遇到復雜的數學題或者需要多步邏輯推理的時候,就開始一本正經地胡說八道了……



      問題究竟出在了哪里?

      答案就藏在Transformer的核心機制里——Attention

      傳統Attention機制本質上像是一種配對比較:每個詞只和另一個詞直接發生關系,生成一個注意力權重。

      這種架構雖然擅長捕捉長距離依賴,但在建模復雜、多跳、多點之間的邏輯關系時卻顯得力不從心了。

      例如它能輕松理解“A認識B”,但如果要它理解“張三通過李四認識了王五”,即多跳、多點之間的復雜、間接關系,它的腦回路就顯得不夠深,推理能力的天花板瞬間觸頂。

      現在,這個天花板,被華為諾亞方舟實驗室捅破了!

      因為就在最近,團隊祭出了一種全新架構,叫做Nexus,即高階注意力機制(Higher-Order Attention Mechanism)。



      它可以說是直接狙擊了Attention機制的核心痛點,使用更高階注意力,就能有效地建模多跳、多點之間的復雜關聯。

      并且從實驗結果來看,效果也是有點驚艷在身上的。

      只要換上Nexus這個新架構,模型在數學和科學等復雜推理任務上的能力,都能立馬實現大幅飆升,而且還是參數零增的那種。

      妙哉,著實妙哉。

      接下來,就讓我們一同來深入了解一下Nexus的精妙一刀。

      高階注意力機制砍出的精妙一刀

      要理解高階的意義,我們必須先回顧傳統自注意力機制的根本缺陷。

      標準的自注意力機制本質上是將輸入序列X分別通過三個線性變換WQ,WK,WV生成Query(Q)、Key(K)、Value(V),再通過softmax計算注意力權重:



      但這里就出現了一個關鍵的問題:Q和K都是靜態的、與上下文無關的線性投影。

      也就是說,某個token的Query向量僅由它自己決定,無法感知其他token的存在;這導致注意力權重只能反映兩兩之間的直接關系。

      精妙第一刀:Q和K的革新

      華為諾亞方舟實驗室的第一個刀法,就精妙地砍在了這里:Nexus讓Q和K的生成過程本身也變成一個注意力操作。

      換句話說,token在計算最終的Q和K之前,會先進行一次“預推理”;這個過程,其實就是一個嵌套的自注意力機制

      Token首先通過這個內部循環,從全局上下文中聚合信息,形成一個更加精煉、更具上下文感知能力的表示,然后再用這個表示去計算最終的Q和K。

      這就好比,在你問我答(Q和K計算Attention)之前,每個token都先在內部進行了深思熟慮,充分吸收了它在整個序列中的環境信息。

      這樣生成的Q和K,自然就擺脫了線性投影的僵硬,具備了捕捉復雜關系的動態性。



      精妙第二刀:巧用遞歸框架

      Nexus架構最精妙之處,還在于它的遞歸框架(Recursive Framework)。

      這個內部注意力循環可以被遞歸地來嵌套。

      如果我們將一層Attention視為一階關系(A認識B),那么將Attention的輸出作為下一層Attention的輸入,就可以構建二階關系(張三通過李四認識王五),乃至更高階的關系。

      在Nexus中,這種遞歸嵌套被巧妙地集成在一個單層結構中,形成了一個層次化的推理鏈。

      論文進一步將上述過程遞歸化,定義第m階注意力為:



      其中,m=1就是標準注意力;m=2表示Q和K由一次內層注意力生成;m=3表示Q和K由二階注意力生成,相當于“注意力的注意力的注意力”。

      這種結構天然支持多跳推理鏈,就像人在解一道數學題時,先理解題干中的關鍵變量(第1層),再思考它們之間的公式關系(第2層),最后驗證整體邏輯是否自洽(第3層)。

      精妙第三刀:不增參數

      復雜架構往往意味著更高的計算開銷和更多的參數量,但Nexus通過精巧的設計,完全規避了這些問題——權重共享策略

      具體來說,無論是內層還是外層的注意力模塊,都復用同一組投影權重WQ,WK,WV。

      這意味著,盡管計算路徑更復雜,但模型參數量和原始Transformer完全一致。

      這種設計背后有一個關鍵假設:無論處于遞歸的哪一層,將token投影為Query或Key的語義變換方式是相似的。

      團隊通過實驗證明,這一假設是成立的。



      在Pythia-70M的消融實驗中,使用權重共享的Nexus-QK-Shared版本,平均準確率仍比基線高出近1個百分點,而參數量毫無增加。

      這就讓Nexus成為了一種極其高效的表達密度提升器——用相同的參數,實現更強的推理能力。

      只要換上Nexus,推理效果立竿見影

      那么Nexus的效果到底如何?

      論文在兩個維度做了驗證:從零訓練的小模型,以及對已有大模型的架構改造。

      小模型全面領先

      研究團隊在 Pythia 系列(70M 到 1B)上從頭訓練 Nexus,并在六個標準推理數據集上評估:ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ。

      結果非常一致:Nexus 在所有規模上都優于原始Transformer。

      尤其在需要多步推理或科學常識的任務中提升顯著。例如:

      • 在SciQ(科學問答)上,70M模型準確率從61.5%提升至68.5%,提升7個百分點;
      • 在PiQA(物理常識推理)上,1B模型從62.5%提升至63.6%。



      這說明Nexus特別擅長處理那些不能靠表面模式匹配解決的問題,是真的有在做推理。

      大模型改裝即用

      面對規模更大的模型,Nexus還體現出了即插即用的能力。

      團隊將Qwen2.5的1.5B和7B版本的標準注意力層直接替換為Nexus結構,僅在SFT(監督微調)階段進行訓練,未改動預訓練權重。

      結果表明,在三個高難度數學推理基準上(MATH-500、AIME24、GPQA-Diamond),Nexus 均帶來穩定提升:

      • Qwen2.5-1.5B在MATH-500上準確率從78.6% → 80.1%;
      • Qwen2.5-7B在AIME24上從 45.2% → 47.5%。



      尤其值得注意的是AIME24的提升,因為這類題目要求嚴格的多步邏輯推導,錯誤一步就全盤皆輸。Nexus 的改進說明,它確實在內部構建了更連貫的推理鏈。

      從這一層面來看,Nexus不僅是一個新訓練范式,還是一套架構升級套件。你不用重新訓練一個千億模型,只需在微調階段替換注意力層,就能解鎖更強的推理能力。

      推理能力可內生于架構

      雖然Nexus目前聚焦于語言模型,但其思想具有普適性。

      高階關系建模在視覺、圖神經網絡、多模態任務中同樣關鍵;例如,在視頻理解中,“A看到B打了C” 就是一個典型的三元關系,傳統Attention難以直接捕捉。

      華為諾亞團隊表示,下一步將探索Nexus在視覺Transformer和多模態大模型中的應用,并優化其計算效率。

      Transformer 的智商天花板,或許從來不在參數量,而在其注意力機制的表達能力。華為諾亞的 Nexus,用一種優雅而高效的方式,為這一核心模塊注入了高階推理能力。

      它不靠堆料,不靠提示工程,而是從架構底層重構了模型的思考方式。

      因此,Nexus也提醒了我們:有時候,聰明的架構比規模的大小更重要。

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      兩中國女子在日本路口被撞死近一年,家屬起訴索賠1.4 億日元

      兩中國女子在日本路口被撞死近一年,家屬起訴索賠1.4 億日元

      揚子晚報
      2025-12-06 20:35:15
      五糧液突然降價,十年首次

      五糧液突然降價,十年首次

      大風新聞
      2025-12-06 21:17:16
      中世紀歐洲貴婦有多“臟”?在裙子里大小便,糞便和尿液無處不在

      中世紀歐洲貴婦有多“臟”?在裙子里大小便,糞便和尿液無處不在

      銘記歷史呀
      2025-12-06 02:50:03
      欺騙了全世界的把戲,巴沙爾真的亡國了?泰國:別信,都是障眼法

      欺騙了全世界的把戲,巴沙爾真的亡國了?泰國:別信,都是障眼法

      小莜讀史
      2025-12-06 16:44:11
      “作死”的DELL,在中國市場,已把自己徹底作沒了

      “作死”的DELL,在中國市場,已把自己徹底作沒了

      互聯網.亂侃秀
      2025-12-06 12:20:58
      就在今日!全港市民涌入街頭......

      就在今日!全港市民涌入街頭......

      港港地
      2025-12-07 10:50:40
      “畸形”的輪胎市場:外國人愛用的中國輪胎,國人為啥就是不買賬

      “畸形”的輪胎市場:外國人愛用的中國輪胎,國人為啥就是不買賬

      毒sir財經
      2025-12-06 22:07:18
      女兒失蹤3年,竟托夢說在鄰居家魚缸里,警察趕到后當場愣了

      女兒失蹤3年,竟托夢說在鄰居家魚缸里,警察趕到后當場愣了

      罪案洞察者
      2025-09-16 14:31:27
      湖北中獎1200萬幸運兒現狀:6張銀行卡余額加起來不到100元

      湖北中獎1200萬幸運兒現狀:6張銀行卡余額加起來不到100元

      諸神的護佑
      2025-12-06 22:18:38
      日本右翼一語驚人:若中國核彈造成日本幾百萬人死亡,那剩下~~~

      日本右翼一語驚人:若中國核彈造成日本幾百萬人死亡,那剩下~~~

      魔都姐姐雜談
      2025-12-07 06:29:53
      要小心了!原來微信發消息就可以查到對方位置,看看你知道嗎?

      要小心了!原來微信發消息就可以查到對方位置,看看你知道嗎?

      CG說科技
      2025-11-21 23:35:05
      “鎩羽而歸”的“鎩”不讀“shà”,正確讀音是什么?成語源自“社畜鼻祖”鮑照的求職書!

      “鎩羽而歸”的“鎩”不讀“shà”,正確讀音是什么?成語源自“社畜鼻祖”鮑照的求職書!

      中國社會科學網
      2025-12-06 14:06:35
      伊迪:期待楊瀚森在場的表現;在場看到另一位亞洲球員很特別

      伊迪:期待楊瀚森在場的表現;在場看到另一位亞洲球員很特別

      懂球帝
      2025-12-07 11:43:05
      原來醫學界也有自己的江湖門派!看網友評論:引起萬千共鳴!

      原來醫學界也有自己的江湖門派!看網友評論:引起萬千共鳴!

      另子維愛讀史
      2025-12-06 22:17:13
      馬斯克:SpaceX正以8000億美元估值融資的消息并不準確

      馬斯克:SpaceX正以8000億美元估值融資的消息并不準確

      IT之家
      2025-12-07 07:11:06
      鬧大了!三亞大東海沙灘發生慘案,男子持刀捅人,3人不幸身亡

      鬧大了!三亞大東海沙灘發生慘案,男子持刀捅人,3人不幸身亡

      一杯咖啡語
      2025-12-06 22:54:23
      一場大洪水,他信家族起死回生了!

      一場大洪水,他信家族起死回生了!

      天真無牙
      2025-12-07 08:00:17
      毛澤東如何動用最高機密力量,救出那位曾拿功名保他的恩師?

      毛澤東如何動用最高機密力量,救出那位曾拿功名保他的恩師?

      清澈之玹
      2025-12-05 10:08:41
      瓜帥:英超奪冠得靠穩定性;我從未見過梅西像謝爾基那樣傳中

      瓜帥:英超奪冠得靠穩定性;我從未見過梅西像謝爾基那樣傳中

      懂球帝
      2025-12-07 03:01:17
      為什么感覺金融圈子很淫亂呢?看完回答感受到人性欲望的丑惡

      為什么感覺金融圈子很淫亂呢?看完回答感受到人性欲望的丑惡

      另子維愛讀史
      2025-12-05 21:20:39
      2025-12-07 15:08:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11820文章數 176340關注度
      往期回顧 全部

      科技要聞

      連芯片大神都想跑,蘋果還留得住誰?

      頭條要聞

      歐盟對馬斯克開出巨額罰單 美國外交"一二把手"開噴

      頭條要聞

      歐盟對馬斯克開出巨額罰單 美國外交"一二把手"開噴

      體育要聞

      兩個女生,用165天劃船橫渡太平洋

      娛樂要聞

      尖叫之夜修羅場 魏大勛不顧秦嵐猛炒CP

      財經要聞

      五糧液降價?回應來了

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      時尚
      房產
      數碼
      公開課
      軍事航空

      伊姐周六熱推:電視劇《亦舞之城》;電視劇《時差一萬公里》......

      房產要聞

      封關啟幕宜居新時代!觀嵐森嶼定義三亞旅居度假新范本

      數碼要聞

      華碩ROG CES 2026暨品牌20周年發布活動1月6日7:00舉行

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      日本自衛隊飛機多次滋擾遼寧艦航母編隊訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品少妇爆乳无码aⅴ区| 91社视频在线观看| 国产精品17p| 下面一进一出好爽视频| 青椒国产97在线熟女| 亚洲精品无码你懂的网站| av黄色| 日韩综合| 亚洲熟妇无码爱v在线观看| 人妻激情文学| 精品中文人妻在线不卡| 欧美粗又大| 久久9199| 人妻激情偷乱一区二区三区| 国产精品美女久久久久av爽| 国产精品青草久久久久福利99| 五月丁香中文字幕| 老头边吃奶边弄进去呻吟| 亚洲色成人一区二区三区小说| 中文日韩在线一区二区| 亚洲熟妇AV乱码在线观看| 措美县| 欧洲精品码一区二区三区| 国产综合无码一区二区色蜜蜜| 国产精品久久毛片| 九九热色| 在线视频精品中文无码| 久久久噜噜噜久久| 国产日韩精品欧美一区灰| 人人操网| 黑人巨茎大战白人美女| 久久男人av资源网站无码软件| 日韩视频在线观看网址| 肥东县| 精品无码久久久久久久动漫| 嫩草研究院久久久精品| 在线视频免费看3| 中国一区二区三区| 久久天堂av综合合色蜜桃网| 无码AV中文字幕久久专区| av无码免费|