<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Sebastian Raschka 2026預測:Transformer統治依舊,擴散模型崛起

      0
      分享至



      編輯|+0

      站在 2026 年的開端回望,LLM 的架構之爭似乎進入了一個新的微妙階段。過去幾年,Transformer 架構以絕對的統治力橫掃了人工智能領域,但隨著算力成本的博弈和對推理效率的極致追求,挑戰者們從未停止過腳步。

      知名 AI 研究員 Sebastian Raschka 的最新洞察中,他不僅回應了關于「Transformer 是否會被取代」的年度終極之問,更敏銳地捕捉到了近期業界的一個重要轉向:從單純追求模型參數的「大力出奇跡」,轉向了混合架構與效率微調的精細化戰爭。

      同時,文章還探討了一個極具潛力的變量:擴散語言模型。這類模型在 Google 等巨頭的布局下會有怎樣的表現?它們在「工具調用」上的天然缺陷是否會成為阿喀琉斯之踵?而在高質量數據日益枯竭的今天,擴散模型又是否能憑借「超級數據學習者」的特性,成為打破數據墻的關鍵?

      以下內容編譯自 Sebastian Raschka 的最新博文,并結合文中提及的前沿論文及往期深度分析進行了系統性拓展,以便讀者獲取更完整的上下文視角。



      • 博客地址:https://x.com/rasbt/status/2010376305720594810

      最近幾周,我經常被問到的一個問題是:在 2026 年,我們是否會看到自回歸 Transformer 架構(即標準的 LLM)的替代方案。

      就目前而言,我堅信Transformer 在未來(至少一到幾年內)仍將保持其在 SOTA 性能方面的地位。它是當前 AI 生態系統的基石,擁有最成熟的工具鏈和優化方案。

      但是,情況確實會發生一些微調。這并不是說架構會一成不變,而是這種變化更多體現在「效率」和「混合」上,而非徹底的推倒重來。

      效率戰爭:

      混合架構與線性注意力的崛起

      臨近去年年底,我們看到業界更加關注混合架構以及如何提高其效率。當然,這并不是什么新想法,但近期來自頂尖實驗室的發布表明,目前的側重點已明顯向此傾斜。

      我們回顧一下 DeepSeek V3 以及隨后的 R1,它們展示了混合專家模型(MoE)和多頭潛在注意力(MLA)的強大之處。DeepSeek V3 通過 MLA 顯著減少了推理時的 KV Cache 占用,而 MoE 架構則允許模型在擁有 6710 億參數的同時,每次推理僅激活 370 億參數。這種在保持模型巨大容量的同時極致壓縮推理成本的設計思路,正是 2025 年末到 2026 年的主旋律。

      但這還不是全部。除了 MoE,我們看到了更激進的效率嘗試,例如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3,以及采用了稀疏注意力機制的 DeepSeek V3.2。(如果您對更多細節感興趣,我在之前的《Big LLM Architecture Comparison》一文中對此進行了報道。)



      帶有這類效率調整的 Transformer 架構示意圖。

      • 相關鏈接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

      為什么大家都在卷「線性注意力」或「稀疏注意力」?

      標準的 Transformer 注意力機制(Scaled Dot-Product Attention)具有 O(N^2) 的復雜度,這意味著隨著上下文長度的增加,計算成本呈二次方爆炸式增長。

      • Qwen3-NextKimi Linear采用了一種混合策略:它們并非完全拋棄標準注意力,而是將高效的線性層(如 Gated DeltaNet)與全注意力層以一定比例(如 3:1)混合。這種設計試圖在捕捉長距離依賴(全注意力的強項)和推理速度(線性層的強項)之間找到最佳平衡點。
      • DeepSeek V3.2則引入了稀疏注意力,通過只計算最重要的 Token 之間的相互作用,進一步降低了計算開銷。

      這些「微調」表明,2026 年的競爭不再僅僅是看誰的模型更聰明,而是看誰能在更長的上下文、更低的延遲下提供同等的智能。

      擴散語言模型:

      速度與代價的博弈

      話說回來,除了 Transformer 的變體,擴散語言模型怎么樣?

      擴散語言模型之所以具有吸引力,是因為它們能夠以相對快速且低廉的成本生成 Token。與自回歸模型(AR)那種「一個字接一個字」的串行生成不同,擴散模型采用的是并行生成。

      想象一下,自回歸模型像是一個人在打字,必須打完上一個字才能打下一個;而擴散模型更像是在沖洗一張照片,整段文字從模糊的噪聲中同時顯現,經過數次「去噪」迭代后變得清晰。

      我前陣子在《Beyond Standard LLMs》一文中對此多寫了一些。簡而言之,我認為 2026 年我們會看到更多相關內容,Google 可能會推出Gemini Diffusion作為其更便宜的 Flash 模型的替代品。Google 已經在其技術博客中暗示了這一點,強調其生成速度「明顯快于我們目前最快的模型」。

      • 相關鏈接:https://magazine.sebastianraschka.com/p/beyond-standard-llms

      然而,雖然擴散語言模型的優勢在于它們可以并行生成 Token,但這同時也是一個巨大的缺點。因為由于并行生成的特性,它們無法在響應鏈中原生地整合工具調用。

      在自回歸模型中,模型可以生成「調用計算器」的指令,暫停,等待結果,然后再繼續生成。而在擴散模型中,整個響應是同時生成的,很難在中間插入一個外部工具的交互步驟。這使得它們在作為智能體使用時面臨巨大挑戰。



      文本擴散過程示例。

      此外,雖然眾所周知文本擴散推理效率更高,但最近的研究也表明,如果你為了提升質量而增加去噪步數以匹配自回歸模型的性能,那么最終的計算預算其實是相差無幾的。

      數據枯竭時代的「超級學習者」

      那么,我想表達什么呢?既然擴散模型有這些缺陷,為什么我還認為它值得關注?

      我原本計劃討論一月份發布的近期一系列有趣的研究,但我還是想簡要重點介紹一篇我在「待讀論文」清單上的、2025 年 11 月的有趣論文,它強調了擴散語言模型的一個有趣優勢:《Diffusion Language Models are Super Data Learners》。

      • 論文地址:https://arxiv.org/abs/2511.03276



      來自論文《Diffusion Language Models are Super Data Learners》的帶注釋圖表。

      這篇論文提出了一個在 2026 年至關重要的觀點:當高質量數據變得稀缺時,擴散模型可能是更好的學習者。

      眾所周知,互聯網上的高質量文本數據正在接近枯竭。對于自回歸(AR)模型來說,通常我們只讓模型把數據「看」一遍(1 Epoch)。如果讓 AR 模型反復在同一份數據上訓練,它們很容易過擬合,即死記硬背訓練數據,導致在未見過的新任務上表現下降。

      然而,上述論文表明,當進行多 Epoch 訓練時,文本擴散模型的表現可能優于標準的自回歸(AR)大語言模型。

      根據論文的研究結果,在嚴格控制的預訓練設置下,當唯一數據量有限時,通過增加訓練輪數,擴散語言模型的表現持續超越了自回歸模型。

      這一現象被稱為「Crossover(交叉點)」:

      • 當數據量充足時,AR 模型學得更快。
      • 但當數據受限時,DLM 是最終的贏家。例如,一個 10 億參數的 DLM 模型,僅僅通過反復訓練 10 億個 Token(這在今天看是非常小的數據量),在 HellaSwag 和 MMLU 基準測試上分別達到了 >56% 和 >33% 的準確率,且沒有使用任何特殊技巧。

      為什么會這樣?論文歸結為三個因素:

      • 任意順序建模:AR 模型被迫只能從左到右學習,而擴散模型可以學習文本中任意位置之間的依賴關系。
      • 超高密度計算:通過迭代的雙向去噪,DLM 在訓練時實際上對每個樣本進行了更深度的壓榨。
      • 內置的蒙特卡洛增強:擴散過程本身就是一種數據增強。同一個句子,每次加噪的方式都不一樣,相當于把一條數據變成了無數條變體。

      更有趣的是,論文發現,對于 DLM 來說,驗證集損失的上升并不意味著下游能力的下降。即便模型在驗證集上看起來「過擬合」了,它在實際任務(如代碼生成、推理)上的表現仍在提升。

      由于成本原因,過去沒有人會在多個 Epoch 上訓練大語言模型。但在數據枯竭的今天,如果我們不得不進行多 Epoch 訓練,擴散模型似乎提供了一條新出路。

      這確實是有趣的結果!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      0-1,62歲穆帥率隊不敵老東家,慘遭淘汰,無緣葡萄牙杯四強

      0-1,62歲穆帥率隊不敵老東家,慘遭淘汰,無緣葡萄牙杯四強

      側身凌空斬
      2026-01-15 06:51:22
      一場3-1,讓孔帕尼創造歷史,締造德甲新紀錄,冠軍恐無懸念

      一場3-1,讓孔帕尼創造歷史,締造德甲新紀錄,冠軍恐無懸念

      足球狗說
      2026-01-15 06:53:51
      不到 20 萬元買特斯拉?“廉價版” Model 3 或進工信部目錄,FSD全面轉向訂閱制

      不到 20 萬元買特斯拉?“廉價版” Model 3 或進工信部目錄,FSD全面轉向訂閱制

      每日經濟新聞
      2026-01-14 19:32:05
      51票對50票!美國參議院否決限制特朗普戰爭權議案

      51票對50票!美國參議院否決限制特朗普戰爭權議案

      新京報
      2026-01-15 08:28:04
      現役國手!0分0板0助0斷,1分鐘3犯規,球迷:憑什么進的國家隊?

      現役國手!0分0板0助0斷,1分鐘3犯規,球迷:憑什么進的國家隊?

      南海浪花
      2026-01-15 09:09:25
      人干事?父母搬家走了,把14歲女兒留在原地獨自生活一年!警方都驚了...

      人干事?父母搬家走了,把14歲女兒留在原地獨自生活一年!警方都驚了...

      英國那些事兒
      2026-01-14 23:25:56
      4連鞭,6-2!羅伯遜壓哨晉級,大師賽神奇定律應驗,8強對陣揭曉

      4連鞭,6-2!羅伯遜壓哨晉級,大師賽神奇定律應驗,8強對陣揭曉

      劉姚堯的文字城堡
      2026-01-15 06:57:46
      59歲女子成功誕下4斤4兩男嬰,產婦:因大女兒長期定居國外,夫妻倆感到寂寞,57歲開始備孕

      59歲女子成功誕下4斤4兩男嬰,產婦:因大女兒長期定居國外,夫妻倆感到寂寞,57歲開始備孕

      觀威海
      2026-01-13 15:34:07
      再提長株潭一體化,湖南為何急著把“三市變一城”?

      再提長株潭一體化,湖南為何急著把“三市變一城”?

      時代周報
      2026-01-14 15:23:36
      2-1!0-0!U23亞洲杯8強全出爐,具體對陣如下:中國隊碰烏茲別克

      2-1!0-0!U23亞洲杯8強全出爐,具體對陣如下:中國隊碰烏茲別克

      侃球熊弟
      2026-01-14 21:31:50
      3+2!重擊后腦勺!勇士主帥點評楊瀚森

      3+2!重擊后腦勺!勇士主帥點評楊瀚森

      籃球實戰寶典
      2026-01-14 14:59:04
      告別校外供餐 2027年底所有北京中小學將實現校內食堂供餐

      告別校外供餐 2027年底所有北京中小學將實現校內食堂供餐

      新京報
      2026-01-14 20:24:05
      你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

      你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

      帶你感受人間冷暖
      2025-11-26 00:10:06
      一年賺大陸游客14億!轉投美澳后竟拒接中國航班,該國現狀如何?

      一年賺大陸游客14億!轉投美澳后竟拒接中國航班,該國現狀如何?

      知鑒明史
      2026-01-13 19:03:36
      U23亞洲杯小組賽解圍榜:彭嘯37次斷檔領先,賀一然排名第六

      U23亞洲杯小組賽解圍榜:彭嘯37次斷檔領先,賀一然排名第六

      懂球帝
      2026-01-15 00:14:22
      瑤瑤弟弟回應二審擇期宣判:“金毛”爸還沒放棄,為救兒四處活動

      瑤瑤弟弟回應二審擇期宣判:“金毛”爸還沒放棄,為救兒四處活動

      江山揮筆
      2026-01-14 22:00:44
      我國一個二線城市,居然有三所985高校!讓省會城市情何以堪?

      我國一個二線城市,居然有三所985高校!讓省會城市情何以堪?

      小熊侃史
      2026-01-05 10:42:11
      “讓我睡一次,不然死給你看!”17歲少年持刀,威脅舅媽發生關系

      “讓我睡一次,不然死給你看!”17歲少年持刀,威脅舅媽發生關系

      有書
      2026-01-09 21:30:59
      在本賽季剩余賽程里,哈登還有望迎來7個紀錄!

      在本賽季剩余賽程里,哈登還有望迎來7個紀錄!

      郝小小看體育
      2026-01-15 07:55:53
      突發!香港知名男星宣布和妻子離婚,婚后不出門工作在家吃軟飯

      突發!香港知名男星宣布和妻子離婚,婚后不出門工作在家吃軟飯

      全球風情大揭秘
      2026-01-15 02:45:28
      2026-01-15 09:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12117文章數 142536關注度
      往期回顧 全部

      科技要聞

      反壟斷大棒,為何砸向了攜程

      頭條要聞

      特朗普:同委代總統通電話 美方同她"合作得非常好"

      頭條要聞

      特朗普:同委代總統通電話 美方同她"合作得非常好"

      體育要聞

      你是個好球員,我們就拿你交易吧

      娛樂要聞

      網紅彭十六偷稅被封殺 曾成功轉型明星

      財經要聞

      “瘋狂的白銀”,還能走多遠?

      汽車要聞

      曝Model Y或降到20萬以內!

      態度原創

      藝術
      房產
      本地
      家居
      公開課

      藝術要聞

      歷代書家集字春聯大集合

      房產要聞

      熱銷17億后!天正·三亞灣壹號,被爆違建!

      本地新聞

      邵陽公益訴訟檢察主題曲:《守望星》

      家居要聞

      心之所向 現代建構之美

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 伊人久久大香线蕉亚洲五月天| 日本55丰满熟妇厨房伦| 99麻豆| 无码国产精品一区二区免费16| 人妻互换一二三区激情视频| 国产婬妇无码无遮挡A片在线观看| 国产农村乱子伦精品视频| gogogo高清在线播放免费| 久久99国产伦精品免费| 337p日本欧洲亚洲大胆| 含山县| 国产麻豆剧传媒精品国产av| 操碰网| 日韩十八不禁| 亚洲无av在线中文字幕| 国产sm重味一区二区三区| 国产爆乳无码一区二区在线| 美女裸体自慰在线观看| 国产精品爽爽va吃奶在线观看| 中文字幕乱码无码人妻系列蜜桃| 亚洲123区| 亚洲成人精品免费| 婷婷综合缴情亚洲| 国产91丝袜在线播放动漫| 欧美高清一区三区在线专区| 999在线视频精品免费播放观看 | 又大又粗又爽18禁免费看| 狠狠干狠狠操狠狠撸| 人妻资源站| 男人天堂社区| 人妻自拍网| 成人午夜视频一区二区无码| 久久国产一区二区日韩av| 久久精品国产一区二区蜜芽| 国产成人无码A在线观看不卡| 爱啪啪av导航| 日韩人妻系列无码专区| 人妻无码第一区二区三区| 日韩在线视频线观看一区| 欧美丰满老妇性猛交| 乌拉特前旗|