<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Sebastian Raschka 2026預測:Transformer統治依舊,擴散模型崛起

      0
      分享至



      編輯|+0

      站在 2026 年的開端回望,LLM 的架構之爭似乎進入了一個新的微妙階段。過去幾年,Transformer 架構以絕對的統治力橫掃了人工智能領域,但隨著算力成本的博弈和對推理效率的極致追求,挑戰者們從未停止過腳步。

      知名 AI 研究員 Sebastian Raschka 的最新洞察中,他不僅回應了關于「Transformer 是否會被取代」的年度終極之問,更敏銳地捕捉到了近期業界的一個重要轉向:從單純追求模型參數的「大力出奇跡」,轉向了混合架構與效率微調的精細化戰爭。

      同時,文章還探討了一個極具潛力的變量:擴散語言模型。這類模型在 Google 等巨頭的布局下會有怎樣的表現?它們在「工具調用」上的天然缺陷是否會成為阿喀琉斯之踵?而在高質量數據日益枯竭的今天,擴散模型又是否能憑借「超級數據學習者」的特性,成為打破數據墻的關鍵?

      以下內容編譯自 Sebastian Raschka 的最新博文,并結合文中提及的前沿論文及往期深度分析進行了系統性拓展,以便讀者獲取更完整的上下文視角。



      • 博客地址:https://x.com/rasbt/status/2010376305720594810

      最近幾周,我經常被問到的一個問題是:在 2026 年,我們是否會看到自回歸 Transformer 架構(即標準的 LLM)的替代方案。

      就目前而言,我堅信Transformer 在未來(至少一到幾年內)仍將保持其在 SOTA 性能方面的地位。它是當前 AI 生態系統的基石,擁有最成熟的工具鏈和優化方案。

      但是,情況確實會發生一些微調。這并不是說架構會一成不變,而是這種變化更多體現在「效率」和「混合」上,而非徹底的推倒重來。

      效率戰爭:

      混合架構與線性注意力的崛起

      臨近去年年底,我們看到業界更加關注混合架構以及如何提高其效率。當然,這并不是什么新想法,但近期來自頂尖實驗室的發布表明,目前的側重點已明顯向此傾斜。

      我們回顧一下 DeepSeek V3 以及隨后的 R1,它們展示了混合專家模型(MoE)和多頭潛在注意力(MLA)的強大之處。DeepSeek V3 通過 MLA 顯著減少了推理時的 KV Cache 占用,而 MoE 架構則允許模型在擁有 6710 億參數的同時,每次推理僅激活 370 億參數。這種在保持模型巨大容量的同時極致壓縮推理成本的設計思路,正是 2025 年末到 2026 年的主旋律。

      但這還不是全部。除了 MoE,我們看到了更激進的效率嘗試,例如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3,以及采用了稀疏注意力機制的 DeepSeek V3.2。(如果您對更多細節感興趣,我在之前的《Big LLM Architecture Comparison》一文中對此進行了報道。)



      帶有這類效率調整的 Transformer 架構示意圖。

      • 相關鏈接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

      為什么大家都在卷「線性注意力」或「稀疏注意力」?

      標準的 Transformer 注意力機制(Scaled Dot-Product Attention)具有 O(N^2) 的復雜度,這意味著隨著上下文長度的增加,計算成本呈二次方爆炸式增長。

      • Qwen3-NextKimi Linear采用了一種混合策略:它們并非完全拋棄標準注意力,而是將高效的線性層(如 Gated DeltaNet)與全注意力層以一定比例(如 3:1)混合。這種設計試圖在捕捉長距離依賴(全注意力的強項)和推理速度(線性層的強項)之間找到最佳平衡點。
      • DeepSeek V3.2則引入了稀疏注意力,通過只計算最重要的 Token 之間的相互作用,進一步降低了計算開銷。

      這些「微調」表明,2026 年的競爭不再僅僅是看誰的模型更聰明,而是看誰能在更長的上下文、更低的延遲下提供同等的智能。

      擴散語言模型:

      速度與代價的博弈

      話說回來,除了 Transformer 的變體,擴散語言模型怎么樣?

      擴散語言模型之所以具有吸引力,是因為它們能夠以相對快速且低廉的成本生成 Token。與自回歸模型(AR)那種「一個字接一個字」的串行生成不同,擴散模型采用的是并行生成。

      想象一下,自回歸模型像是一個人在打字,必須打完上一個字才能打下一個;而擴散模型更像是在沖洗一張照片,整段文字從模糊的噪聲中同時顯現,經過數次「去噪」迭代后變得清晰。

      我前陣子在《Beyond Standard LLMs》一文中對此多寫了一些。簡而言之,我認為 2026 年我們會看到更多相關內容,Google 可能會推出Gemini Diffusion作為其更便宜的 Flash 模型的替代品。Google 已經在其技術博客中暗示了這一點,強調其生成速度「明顯快于我們目前最快的模型」。

      • 相關鏈接:https://magazine.sebastianraschka.com/p/beyond-standard-llms

      然而,雖然擴散語言模型的優勢在于它們可以并行生成 Token,但這同時也是一個巨大的缺點。因為由于并行生成的特性,它們無法在響應鏈中原生地整合工具調用。

      在自回歸模型中,模型可以生成「調用計算器」的指令,暫停,等待結果,然后再繼續生成。而在擴散模型中,整個響應是同時生成的,很難在中間插入一個外部工具的交互步驟。這使得它們在作為智能體使用時面臨巨大挑戰。



      文本擴散過程示例。

      此外,雖然眾所周知文本擴散推理效率更高,但最近的研究也表明,如果你為了提升質量而增加去噪步數以匹配自回歸模型的性能,那么最終的計算預算其實是相差無幾的。

      數據枯竭時代的「超級學習者」

      那么,我想表達什么呢?既然擴散模型有這些缺陷,為什么我還認為它值得關注?

      我原本計劃討論一月份發布的近期一系列有趣的研究,但我還是想簡要重點介紹一篇我在「待讀論文」清單上的、2025 年 11 月的有趣論文,它強調了擴散語言模型的一個有趣優勢:《Diffusion Language Models are Super Data Learners》。

      • 論文地址:https://arxiv.org/abs/2511.03276



      來自論文《Diffusion Language Models are Super Data Learners》的帶注釋圖表。

      這篇論文提出了一個在 2026 年至關重要的觀點:當高質量數據變得稀缺時,擴散模型可能是更好的學習者。

      眾所周知,互聯網上的高質量文本數據正在接近枯竭。對于自回歸(AR)模型來說,通常我們只讓模型把數據「看」一遍(1 Epoch)。如果讓 AR 模型反復在同一份數據上訓練,它們很容易過擬合,即死記硬背訓練數據,導致在未見過的新任務上表現下降。

      然而,上述論文表明,當進行多 Epoch 訓練時,文本擴散模型的表現可能優于標準的自回歸(AR)大語言模型。

      根據論文的研究結果,在嚴格控制的預訓練設置下,當唯一數據量有限時,通過增加訓練輪數,擴散語言模型的表現持續超越了自回歸模型。

      這一現象被稱為「Crossover(交叉點)」:

      • 當數據量充足時,AR 模型學得更快。
      • 但當數據受限時,DLM 是最終的贏家。例如,一個 10 億參數的 DLM 模型,僅僅通過反復訓練 10 億個 Token(這在今天看是非常小的數據量),在 HellaSwag 和 MMLU 基準測試上分別達到了 >56% 和 >33% 的準確率,且沒有使用任何特殊技巧。

      為什么會這樣?論文歸結為三個因素:

      • 任意順序建模:AR 模型被迫只能從左到右學習,而擴散模型可以學習文本中任意位置之間的依賴關系。
      • 超高密度計算:通過迭代的雙向去噪,DLM 在訓練時實際上對每個樣本進行了更深度的壓榨。
      • 內置的蒙特卡洛增強:擴散過程本身就是一種數據增強。同一個句子,每次加噪的方式都不一樣,相當于把一條數據變成了無數條變體。

      更有趣的是,論文發現,對于 DLM 來說,驗證集損失的上升并不意味著下游能力的下降。即便模型在驗證集上看起來「過擬合」了,它在實際任務(如代碼生成、推理)上的表現仍在提升。

      由于成本原因,過去沒有人會在多個 Epoch 上訓練大語言模型。但在數據枯竭的今天,如果我們不得不進行多 Epoch 訓練,擴散模型似乎提供了一條新出路。

      這確實是有趣的結果!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      難以置信!女子十二樂坊成員直播養不活自己,一晚上打賞不到3000

      難以置信!女子十二樂坊成員直播養不活自己,一晚上打賞不到3000

      火山詩話
      2026-01-24 11:37:19
      中方發出唁電,美國全國將降半旗,拜登籌劃國葬

      中方發出唁電,美國全國將降半旗,拜登籌劃國葬

      趣生活
      2026-01-24 09:34:17
      央視揭秘“奪命紅薯”!商家故意投毒,已蔓延全國多地,趕緊扔掉

      央視揭秘“奪命紅薯”!商家故意投毒,已蔓延全國多地,趕緊扔掉

      閱微札記
      2026-01-24 12:00:30
      胡春華發表署名文章

      胡春華發表署名文章

      社評
      2025-10-31 10:11:37
      突發!菲律賓宣布封鎖黃巖島空域,將連續軍演70天

      突發!菲律賓宣布封鎖黃巖島空域,將連續軍演70天

      頭條爆料007
      2026-01-24 06:17:26
      2-0爆冷!恭喜王欣瑜,連贏2大種子,首進澳網16強,下輪對手確定

      2-0爆冷!恭喜王欣瑜,連贏2大種子,首進澳網16強,下輪對手確定

      侃球熊弟
      2026-01-24 17:15:45
      外資撤不走,中國攔不住,如今的中國廣東,制造早已不是代工

      外資撤不走,中國攔不住,如今的中國廣東,制造早已不是代工

      甜檸聊史
      2026-01-23 14:01:57
      它被評為“中國十大最丑”,卻成了魔都最火打卡點!

      它被評為“中國十大最丑”,卻成了魔都最火打卡點!

      GA環球建筑
      2026-01-23 23:59:12
      鄭州一26歲女子失聯5日仍未找到,監控顯示她最后出現在賈魯河附近,哥哥:她曾留下一封信

      鄭州一26歲女子失聯5日仍未找到,監控顯示她最后出現在賈魯河附近,哥哥:她曾留下一封信

      極目新聞
      2026-01-24 15:54:19
      特朗普:將對所有與伊朗進行貿易往來國家加征25%關稅;特朗普警告稱美國有一支“龐大的艦隊”正朝伊朗駛來

      特朗普:將對所有與伊朗進行貿易往來國家加征25%關稅;特朗普警告稱美國有一支“龐大的艦隊”正朝伊朗駛來

      每日經濟新聞
      2026-01-23 13:15:15
      李嘉誠再開金口:未來十年,中國近一半家庭,將面臨6大難題?

      李嘉誠再開金口:未來十年,中國近一半家庭,將面臨6大難題?

      巢客HOME
      2026-01-24 08:15:03
      A股:周六下午傳來4個核彈級利好!下周很可能會迎史詩級別大行情?

      A股:周六下午傳來4個核彈級利好!下周很可能會迎史詩級別大行情?

      股市皆大事
      2026-01-24 13:31:46
      廣州交警公布一起典型事故:電動自行車駕駛人違規被撞致死,其承擔事故全部責任,小車司機無責

      廣州交警公布一起典型事故:電動自行車駕駛人違規被撞致死,其承擔事故全部責任,小車司機無責

      大風新聞
      2026-01-24 17:42:04
      李湘王詩齡被曝已經跑路,妄圖用外籍身份扯保護旗,逃脫法律制裁

      李湘王詩齡被曝已經跑路,妄圖用外籍身份扯保護旗,逃脫法律制裁

      花哥扒娛樂
      2026-01-24 16:06:55
      成都、青島、廈門、福州、廣州等城市相繼宣布:中小學取消非畢業年級“期末統考”

      成都、青島、廈門、福州、廣州等城市相繼宣布:中小學取消非畢業年級“期末統考”

      魯中晨報
      2026-01-23 15:39:03
      突發,美國首都告急! 14州進入緊急狀態 超2900架次航班被取消

      突發,美國首都告急! 14州進入緊急狀態 超2900架次航班被取消

      每日經濟新聞
      2026-01-24 11:32:24
      原來這些星二代都是留子,國內乖乖女,國外玩“反差”,共性明顯

      原來這些星二代都是留子,國內乖乖女,國外玩“反差”,共性明顯

      洲洲影視娛評
      2026-01-23 21:35:37
      羅永浩,人民日報表揚你了!

      羅永浩,人民日報表揚你了!

      不主流講話
      2026-01-24 13:59:20
      內蒙古赤峰一70歲老人走失近兩天在冰河下被發現,救援隊午夜鑿破近10厘米冰層撈出遺體

      內蒙古赤峰一70歲老人走失近兩天在冰河下被發現,救援隊午夜鑿破近10厘米冰層撈出遺體

      極目新聞
      2026-01-24 16:17:17
      太丟臉了!一男子武漢理工畢業,當保安月薪3800元,稱被學校約談

      太丟臉了!一男子武漢理工畢業,當保安月薪3800元,稱被學校約談

      火山詩話
      2026-01-24 12:25:19
      2026-01-24 18:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      胖東來金飾每克便宜200元被搶爆 有人拖著行李箱去買

      頭條要聞

      胖東來金飾每克便宜200元被搶爆 有人拖著行李箱去買

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      李微漪更新:狼王格林去世,3字淚目

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      時尚
      藝術
      游戲
      親子
      房產

      不一定能掀桌男主,但一定是個好演員!

      藝術要聞

      400億!恒大“東方威尼斯”,10萬人瘋搶到無人問津!徹底涼了?

      《小鎮驚魂:復刻版合集》更新 修復BUG優化界面

      親子要聞

      親愛滴告訴你,我有許多小淘氣

      房產要聞

      正式官宣!三亞又一所名校要來了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 91精彩视频在线观看| 大香蕉一区| 亚洲色大成网站www应用| 人妻少妇乱子伦精品无码专区电影| 摸丰满大乳奶水www免费| 国产激情无码一区二区三区| 国产精品XXXX国产喷水| 台湾色综合| 久久在线看| 电白县| 图木舒克市| 五原县| 亚洲∧v久久久无码精品| 久久久久人妻精品区一三寸| 亚洲草原天堂| 亚洲午夜无码av毛片久久| 女同互慰高潮呻吟免费播放| 国产精品国产成人国产三级| 日韩亚洲一区二区精品成人| 屯留县| 久久天天躁狠狠躁夜夜| 日日插插| 国产乱码字幕精品高清av| 未满十八18勿进黄网站| 无码精品国产va在线观看dvd| 秋霞av鲁丝片一区二区| 99精品久久毛片a片| 亚洲国产精品一区二区www| 日韩亚洲中文图片小说| 亚洲18禁| 久久亚洲国产最新网站| 在线播放深夜精品三级| 久久99精品国产99久久6尤物| 老少配BBw性少配老| 女人被狂躁到高潮视频免费软件| 影音先锋人妻啪啪av资源网站| 人妻色综合| 忻州市| 99热都是精品久久久久久| 亚洲精品不卡无码福利在线观看| 久久精品人人做人人爽97|