<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      阿里開源全新MoE架構Qwen3-Next,是不是在適配它的自研芯片

      0
      分享至

      就在市場傳聞阿里已經開始使用自研芯片訓練AI模型時,阿里推出了其下一代模型的雛形Qwen3-Next。

      阿里巴巴正式開源的兩款模型,分別是Qwen3-Next-80B-A3B的指令(Insctruct)模型和推理(Thinking)模型。兩者在在大多數標準化基準測試中,接近阿里旗下旗艦模型Qwen3-235B-A22B系列對應最新模型。相當于在總參數規模下降2/3,激活參數規模下降5/6的前提下,輸出大致相當的結果。

      這不是一次常規的模型迭代。通義千問大模型負責人林俊旸自稱為“大膽”。它嘗試用極致稀疏MoE,低成本擴展模型的智能涌現的上限;邁出了高度復雜的混合注意力(Hybrid Attention)的一大步,既高效又精準地擴展上下文長度。


      這背后是阿里通義千問團隊對大模型技術趨勢的兩大預判,即未來將主要依賴總參數規模和上下文長度的擴展??倕狄幠T酱?,模型潛在能力和智能涌現上限越高;上下文長度越長,模型的記憶能力和持續交互能力也隨之增強。

      在一片阿里開始使用自研芯片訓練模型的傳聞中,阿里并沒有透露它用什么芯片訓練出來的。而軟硬件之間的高效協調適配,降低token成本,已經成為定制芯片(ASIC)的趨勢。

      據科技媒體Information報道,阿里的Zhenwu處理器今年已經投入實用,性能略優于英偉達的A100,目前主要用于較小模型的訓練。

      隨著稠密模型參數規模接近萬億,繼續擴展變得愈發昂貴。受限于先進芯片供給,中國開源模型陣營普遍轉向稀疏專家模型,以實現知識容量與計算成本的解耦。而且,通義千問團隊發現,增加總專家數量往往可以持續降低訓練損失。因此,通過壓縮每次激活參數規模的占比,就可以盡可能地擴展總參數規模;當然,實現它仍然需要非常多的技術創新,包括更精準的路由策略。

      Qwen3-Next要比之前的Qwen3-MoE稀疏得多。Qwen3-MoE擁有128個專家模型和8個路由專家,Qwen3-Next則擴展到了512個總專家,10路由專家與1共享專家的組合。同行最近發布的Kimi-K2模型,也實現了384 個專家激活8個的配置。

      Qwen3-Next系列的總參數規模不會止步于800億。在GPT時代之前,阿里巴巴就嘗試過萬億參數級稀疏模型;近期又預覽了1萬億參數規模的Qwen3-Max-Preview。本次Qwen3-Next的預訓練僅使用了15T tokens,相比Qwen3的36T tokens顯著減少。可以將其看作一次對現有技術的“中試”,為未來工程優化后的“量產”版本奠定基礎。真正的“Qwen 3.5”將提供更多可選配置,在相同硬件和工作負載條件下,不同的總參數規模與激活參數規模組合將影響模型部署成本,并在推理階段決定成本、速度與性能的權衡空間。

      上下文長度是另一個關鍵維度。目前Qwen3-Next系列原生支持262k上下文長度,并可擴展至百萬tokens。理論上,上下文越長越好。然而,作為Transformer的核心創新,大模型與生成式AI的基礎,標準自注意力機制在長序列下的計算復雜度呈二次增長:在預填充(prefill)階段主要體現為算力需求的急劇增加,而在解碼(decode)階段則受內存帶寬限制成為瓶頸。

      這也是為什么中國開源大模型普遍將自注意力機制的優化作為重點。DeepSeek提出了潛在多頭注意力(MLA),嘗試減少內存占用;MiniMax的閃電注意力(Lightning Attention)則是線性注意力(Linear Attention)的變體,旨在降低算力消耗;月之暗面的MoBA,事實上是基于塊(Block)的稀疏注意力(Sparse Attention)。這些優化路線雖各具特色,但并不適用于所有任務,尤其在需要高精度和復雜推理的場景下仍存在局限。

      混合注意力正成為下一代大模型中被廣泛關注的重點探索方向。幾個月前,MiniMax-01架構負責人在采訪中承認,完全的線性注意力在長上下文里準確“找回”關鍵信息的能力并不好。MiniMax判斷,未來將屬于混合注意力機制,M1就是該公司對此的初步驗證;英偉達的Nemotron-H同樣如此。


      目前,Qwen3-Next邁出的步子最大,75%采用線性注意力,25%保留標準注意力。線性注意力的Gated DeltaNet用于長程信息掃描,并可及時清除無關歷史信息;阿里自研的Gated Attention則專注捕獲關鍵局部信息。這一比例顯示,每一項改進都是整套混合注意力機制的核心,而非點綴。在發布前,通義千問團隊已對線性注意力進行了約一年的持續探索,用林俊旸的話說,期間經歷了“大量試錯”。

      越是稀疏的模型,越是難以訓練。此前,Meta在Llama 4中首次嘗試引入MoE架構就遇到挫折。針對這一挑戰,通義千問團隊設計了多項訓練優化措施,確保訓練過程的穩定性。同時,Qwen3-Next原生集成了多token預測(MTP)技術,有效提升了解碼階段的推理速度。

      Qwen3-Next終將向各類應用場景落地。未來,硬件定制、軟硬件協同以及工作負載優化,仍是在實踐中提升AI體驗的關鍵路徑。英偉達為上下文處理專門定制了Rubin CPX芯片,阿里巴巴自研芯片與新模型架構之間的協同,也是令人興奮的關注點。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣州人注意!陽性率上升,傳染性強!目前暫無疫苗或者特效藥!

      廣州人注意!陽性率上升,傳染性強!目前暫無疫苗或者特效藥!

      羊城攻略
      2026-01-24 22:58:42
      曝特斯拉2026版Model Y搭載HW 4.5輔助駕駛硬件

      曝特斯拉2026版Model Y搭載HW 4.5輔助駕駛硬件

      IT之家
      2026-01-26 18:46:20
      李湘王詩齡被曝已經跑路,妄圖用外籍身份扯保護旗,逃脫法律制裁

      李湘王詩齡被曝已經跑路,妄圖用外籍身份扯保護旗,逃脫法律制裁

      花哥扒娛樂
      2026-01-24 16:06:55
      閆學晶最愁的不是代言掉沒掉,兒子上啥班,而是兒媳婦徐夢迪

      閆學晶最愁的不是代言掉沒掉,兒子上啥班,而是兒媳婦徐夢迪

      夢錄的西方史話
      2026-01-26 18:03:40
      國安部“點名”張藝謀,釋放三個強烈信號,原來我們確實低估他了

      國安部“點名”張藝謀,釋放三個強烈信號,原來我們確實低估他了

      生命之泉的奧秘
      2026-01-25 06:30:36
      美論壇:孟買已領先上海30年,可為什么中國人仍覺得印度落后?

      美論壇:孟買已領先上海30年,可為什么中國人仍覺得印度落后?

      快看張同學
      2026-01-26 20:05:27
      三十歲高顏值少婦賣淫:一次僅百元,時長不限,一畫面信息量大

      三十歲高顏值少婦賣淫:一次僅百元,時長不限,一畫面信息量大

      博士觀察
      2026-01-25 20:18:40
      “家里東西被移動過!”女子查看路由器記錄發現……真相令人毛骨悚然!

      “家里東西被移動過!”女子查看路由器記錄發現……真相令人毛骨悚然!

      深圳晚報
      2026-01-26 12:16:04
      蒙古國首都騷亂再起,社會矛盾愈發尖銳,反華到底圖啥

      蒙古國首都騷亂再起,社會矛盾愈發尖銳,反華到底圖啥

      素衣讀史
      2026-01-24 17:12:53
      Lululemon新款瑜伽褲因易走光下架后重新上架,中國電商渠道暫未銷售,創始人發聲:公司已經完全迷失方向

      Lululemon新款瑜伽褲因易走光下架后重新上架,中國電商渠道暫未銷售,創始人發聲:公司已經完全迷失方向

      魯中晨報
      2026-01-24 21:59:13
      外媒:多架巴空軍戰略運輸機現身成都,殲-35已經開始交貨?

      外媒:多架巴空軍戰略運輸機現身成都,殲-35已經開始交貨?

      頭條爆料007
      2026-01-26 19:43:57
      為什么說別對外賣員太過信任?網友:理解不了對外賣員的這種心疼

      為什么說別對外賣員太過信任?網友:理解不了對外賣員的這種心疼

      帶你感受人間冷暖
      2026-01-22 00:05:10
      《太平年》把趙匡胤拍得太完美?歷史真相:他的“仁”都是算計

      《太平年》把趙匡胤拍得太完美?歷史真相:他的“仁”都是算計

      七彩論世
      2026-01-23 22:35:24
      新郎曬44張婚紗照,僅有6張新娘正臉,其余大半是母親,女方回應

      新郎曬44張婚紗照,僅有6張新娘正臉,其余大半是母親,女方回應

      小涵愛說事
      2026-01-23 14:28:54
      連續18個漲停!浙江一上市公司發布最新公告

      連續18個漲停!浙江一上市公司發布最新公告

      臺州交通廣播
      2026-01-26 07:20:03
      140億賣身美國!中國養大的AI白眼狼,被商務部一招摁死!

      140億賣身美國!中國養大的AI白眼狼,被商務部一招摁死!

      快樂彼岸
      2026-01-24 17:57:59
      我和堂妹九零年考上中專,我讀商校她讀師范,如今千差萬別!

      我和堂妹九零年考上中專,我讀商校她讀師范,如今千差萬別!

      人間百態大全
      2026-01-26 06:45:02
      竇靖童:我媽錢多到用不完,但窮苦潦倒的爸爸,成了我如今的心病

      竇靖童:我媽錢多到用不完,但窮苦潦倒的爸爸,成了我如今的心病

      璀璨幻行者
      2026-01-20 04:29:30
      關凌新買的衣服被老公當垃圾扔掉,夫妻吵架,對老公微信備注搶鏡

      關凌新買的衣服被老公當垃圾扔掉,夫妻吵架,對老公微信備注搶鏡

      八怪娛
      2026-01-26 16:31:35
      30年營養謊言被戳穿:為什么醫生們突然改口讓你吃肉?

      30年營養謊言被戳穿:為什么醫生們突然改口讓你吃肉?

      富貴說
      2026-01-18 20:36:47
      2026-01-26 22:08:49
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      292文章數 61關注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      村民用無人機吊運年豬掛住高壓線致停電 維修成本近萬

      頭條要聞

      村民用無人機吊運年豬掛住高壓線致停電 維修成本近萬

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被抵制成功!遼視春晚已將她除名

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      教育
      時尚
      健康
      本地
      旅游

      教育要聞

      2026年中國教育改革或推出普及高中!留學蕭條期真的來了?

      綠色+棕色、藍色+棕色,這3組配色高級又好看!

      耳石脫落為何讓人天旋地轉+惡心?

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      旅游要聞

      “最虹橋”文旅季,來長寧騎行“尋馬吉”,逛愚園路有專業導游

      無障礙瀏覽 進入關懷版