<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<em id="0qbjq"><menuitem id="0qbjq"></menuitem></em>

<u id="0qbjq"><rp id="0qbjq"></rp></u>

<blockquote id="0qbjq"></blockquote>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

為什么所有主流LLM都使用SwiGLU？

2026-01-18 20:23:43　來源: deephub

北京舉報

0

分享至

本文的目標是解釋為什么現代LLM架構在前饋部分使用 SwiGLU 作為激活函數并且已經放棄了 ReLU。

神經網絡本質上是一系列矩陣乘法，如果我們堆疊線性層而不使用任何激活函數：

無論你堆疊多少層，它仍然只是一個線性變換，網絡只能學習線性關系。

激活函數引入了非線性，使網絡能夠逼近復雜的非線性函數，這是深度學習表達能力的基礎。

ReLU有什么問題？

ReLU 確實徹底改變了深度學習：

它簡單、快速，并且解決了 sigmoid 或 tanh 等函數存在的梯度消失等問題。

雖然人們通常會列出使用 ReLU 時可能遇到的問題，比如神經元死亡等等，但這些問題要么是理論上的，要么在大多數情況下可以通過現代神經網絡技術（批量歸一化、自適應學習權重等）很好的避免。

不過在進入SwiGLU之前，我們先來看一個激活函數Swish，它是SwiGLU的組成部分。

Swish是一個"自門控"激活函數：輸入 \(x\) 乘以其自身的sigmoidσ(x)，它充當一個門，控制有多少輸入能夠通過。

看看門的行為：

當x非常負時：σ(x) ≈ 0，所以門是關閉的（抑制輸出）

當x非常正時：σ(x) ≈ 1，所以門是完全打開的（幾乎原樣通過輸入）

盡管公式稍微復雜一些，Swish 的行為與 ReLU 非常相似。

Swish比ReLU更好嗎？

Swish 被發現比 ReLU 效果更好，但就像深度學習中的許多事情一樣我們并不確切知道為什么 Swish 效果更好，不過倒是可以總結出以下的區別：

沒有硬梯度截斷

看上面的圖，主要區別就是它們如何處理負輸入：

ReLU：在零處硬截斷

當x<0時：輸出 = 0 且梯度 = 0。這就是神經元死亡問題（盡管如前所述，通常可以通過BatchNorm等現代技術來避免）

Swish：平滑、漸進地趨近于零

對于負x：梯度漸近趨近于零，但對于有限值永遠不會精確等于零/所以理論上神經元總是可以接收更新（盡管對于非常負的輸入，更新可能可以忽略不計）

平滑性

ReLU 在x=0處有不連續性（導數從0跳到1）。Swish 在任何地方都是無限可微的，這意味著梯度景觀是平滑的。這種平滑性是否有助于 Swish 的性能還不是100%清楚但它可能有助于優化

什么是門控線性單元（GLU）？

下面就是 SwiGLU 的另外一個組件。讓我們來談談GLU。

其中：

x是輸入

W 和 V 是權重矩陣

b和c是偏置向量

⊙是逐元素乘法

σ是sigmoid函數

GLU 使用門控機制在這方面與 Swish 有些相似。而它們區別在于GLU不是對所有特征應用相同的變換（恒等變換）然后用固定函數（sigmoid）進行門控，而是使用兩個獨立的線性投影：

xW+ b這只是取輸入并對其進行變換。它通常被稱為內容路徑

σ(xV + c)：這第二部分說明每個特征的內容應該讓多少通過，因此它被稱為門路徑

所以GLU實際上可以被認為是Swish` 的泛化

逐元素乘法⊙允許門選擇內容的哪些元素可以通過。當σ(xV + c)接近0時，門可以完全抑制某些特征，而當σ(xV + c)接近1時則完全讓其他特征通過。

門控的具體示例

假設我們有一個4維向量x = [1.0, -0.5, 2.0, 0.3]

GLU對同一個輸入應用2個變換：

通過內容路徑對內容進行變換：xW + b。假設它產生[2.0, -1.5, 3.0, 0.5]
第2個變換應該扮演門的角色：σ(xV + c)。假設它產生[0.9, 0.1, 0.95, 0.05]

GLU輸出是它們的逐元素乘積：

GLU output = [2.0 × 0.9, -1.5 × 0.1, 3.0 × 0.95, 0.5 × 0.05] = [1.8, -0.15, 2.85, 0.025]

得到的結果如下：

特征1：內容為正（2.0），門值高（0.9）→ 強烈通過（1.8）

特征2：內容為負（-1.5），門值低（0.1）→ 被阻擋（-0.15）

特征3：內容為正（3.0），門值非常高（0.95）→ 完全通過（2.85）

特征4：內容較小（0.5），門值非常低（0.05）→ 被抑制（0.025）

這樣網絡學習了復雜的決策規則："對于像x這樣的輸入，放大特征1和3，但抑制特征2和4。"

那么SwiGLU是什么？

現在我們有了所有的組成部分，SwiGLU（Swish門控線性單元）簡單地結合了Swish和GLU：

它不是像GLU那樣使用sigmoid作為門，而是使用Swish。這就是為什么它被稱為Swish +GLU。

那么公式的每個部分做什么呢？這與GLU的邏輯完全相同，改變的只是門控函數。

Swish(xW)：門——決定每個特征有多少可以通過
xV：內容——正在傳輸的實際信息
：逐元素乘法——將門應用于內容

為什么SwiGLU效果這么好？

從經驗上看，SwiGLU在LLM中優于其他激活函數（盡管目前還不確定VLM的情況）。但為什么呢？

乘法交互創建特征組合

考慮每種架構計算的內容：

標準FFN（ReLU/GELU）：output = activation(xW?) @ W?

每個輸出維度是激活特征的加權和，激活是逐元素應用的——特征在激活內部不會相互交互。

SwiGLU FFN：output = (Swish(xW) ⊙ xV) @ W?

逐元素乘法⊙在兩條路徑之間創建乘積。如果我們用g = Swish(xW)和c = xV表示，那么在最終投影之前的輸出維度i是g? × c?。

這就是為什么這很重要：g?和c?都是輸入特征的線性組合（在Swish之前）。它們的乘積包含像x? × x?這樣的交叉項。網絡可以學習W和V，使得某些輸入特征組合被放大或抑制。

這類似于為什么注意力機制很強大，注意力計算softmax(QK?)V，其中QK?乘積捕獲查詢和鍵特征之間的交互。SwiGLU為FFN帶來了類似的乘法表達能力。

為什么不在門中使用sigmoid而是使用Swish？

GLU使用sigmoid：σ(xW) ⊙ xV。sigmoid的問題在于它會飽和。對于大的正或負輸入，σ(x) ≈ 1或σ(x) ≈ 0，且梯度?σ/?x ≈ 0，門就會被“凍結”了。

Swish對于正輸入不會飽和，它近似線性增長（就像 ReLU）。這意味著：- 梯度通過門路徑流動得更好 - 門可以調節而不僅僅是開/關切換

平滑性

另外就是SwiGLU是無限可微的，這種平滑性可能有助于優化穩定性。

總結

SwiGLU的強大來自于其門控機制和乘法交互。通過將輸入分成兩條路徑并將它們相乘，網絡可以學習哪些特征組合是重要的——類似于注意力機制如何通過 QK?捕獲交互。

結合Swish的非飽和梯度，這使得SwiGLU對于大型模型特別有效。

https://avoid.overfit.cn/post/3fa28c75fb0b4874aa297defa145ec4a

作者：Safouane Chergui

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

FlashAttention-4正式發布：算法流水線大改，矩陣乘法級速度

機器之心Pro 2026-03-06 14:48:35
0 跟貼 0
比比皆是的下一個創新點：Prompt Learning進化到SIPDO閉環自進化

機器之心Pro 2026-02-28 11:17:43
0 跟貼 0

劍指世界模型！商湯發多模態理解生成一體化架構，無需編碼器“玩轉”圖像

智東西 2026-03-06 20:12:11
0 跟貼 0

GPT-5.4「原生操控電腦」實測封神！OpenClaw天選模型來了

新智元 2026-03-06 10:35:47
39 跟貼 39
天下苦CUDA久矣，又一國產方案上桌了

量子位 2026-01-30 21:59:52
8 跟貼 8

微積分到底想告訴我們什么？

huaser不花 2026-03-05 06:06:34
353 跟貼 353

他用一根橡皮筋，講透了AI的底層邏輯

孤獨大腦 2026-03-05 22:52:18
0 跟貼 0
初中數學解高次方程

天天數理學習分享 2026-03-05 15:47:32
4 跟貼 4

六年級易錯題，一做就錯，該長長記性了

郎老師趣味數學課堂 2026-03-06 14:18:48
0 跟貼 0
折疊問題如何求解？小升初考試易錯題，小學奧數老師陳延忠

陳老師講小學奧數 2026-03-06 10:13:10
16 跟貼 16
一只雞加兩只鴨等于37元，問一只雞多少錢？

公考客棧店小二 2026-03-03 10:00:00
0 跟貼 0
初中數學整數小數部分求值

天天數理學習分享 2026-03-04 17:36:26
16 跟貼 16
初中數學解高次方程

天天數理學習分享 2026-03-04 17:34:20
3 跟貼 3
黑馬圖像模型被Nano Banana技術負責人點贊！

量子位 2026-03-06 22:34:17
0 跟貼 0
數字間的聯系，藏著大秘密

快樂盲盒 2026-03-07 09:09:24
1 跟貼 1
數學，幾乎是全世界最被誤解的東西之一，被徹底教錯了

心中的麥田 2026-03-06 19:29:02
4 跟貼 4
伊朗局勢匯總！周教授邏輯清晰，是我聽過最客觀的分析！

搞笑桔子 2026-03-07 00:12:22
0 跟貼 0
詳解中超新賽季手球規則，共創和諧聊球輿論環境#潘談中超 #中超 #點球 #手球 #足球規則

Leslie潘偉力 2026-03-05 07:26:56
7 跟貼 7
二年級下數學知識點大全《北師版》

老趙閑侃 2026-03-03 21:47:17
0 跟貼 0
到底哪個更簡單

大美臨城追夢 2026-03-05 06:50:25
0 跟貼 0
海外華人團隊打造，統一理解與生成的圖像模型，超越Nano banana

機器之心Pro 2026-03-06 14:31:14
0 跟貼 0
MMLU已死？「人類最后考試」登Nature：全球AI模型集體不及格！

新智元 2026-03-07 09:06:10
0 跟貼 0
鄰居張大媽，又在群里面，炫耀他那小孫子了

公考客棧店小二 2026-03-04 16:00:00
0 跟貼 0
份數思想解決太簡單了，小升初數學易錯題，小學奧數老師陳延忠

陳老師講小學奧數 2026-03-07 10:55:55
3 跟貼 3
“喂飯式教學，輕松掌握一元二次方程解法，兩步搞定核心技巧！”

財福文化 2026-03-05 12:02:03
0 跟貼 0
二次函數壓軸題核心大總結思維導圖！

大鵬老師講數學 2026-03-06 05:07:00
0 跟貼 0
數字的邏輯，讓我做事更有條理

快樂盲盒 2026-03-07 09:09:14
1 跟貼 1
"根號內X有意義？掌握這個技巧秒懂零基礎也能輕松學會～"

財福文化 2026-03-03 11:02:50
0 跟貼 0
60歲王大爺上大學，今日返校，其寒假自學高數：我感覺不是特別難

星視頻 2026-03-05 23:58:59
0 跟貼 0
汽車行駛途中突然"斷電" 車輛瞬間失去動力一家人嚇傻

大風新聞 2026-03-06 13:45:07
7076 跟貼 7076
小學數學課外拓展-6年級-第27講圓柱與圓錐（1）

維七的教育分享圈 2026-03-07 08:31:07
3 跟貼 3
1657四年級：花花3歲，媽媽29歲，再過幾年媽媽的年齡是花花的3倍

我服子佩 2026-03-07 12:52:52
1 跟貼 1
1652四年級：孩子10分鐘才做出來的一道題，妹妹畫了一條線就解決

我服子佩 2026-03-07 12:51:02
1 跟貼 1
1655二年級：這道題是必考題，家長只知道答案卻不知如何給孩子講

我服子佩 2026-03-07 12:52:23
1 跟貼 1
倒三角符號在數學和物理公式里的意義

量子位 2026-01-08 13:59:54
0 跟貼 0
希望每個孩子在創造與實驗中收獲快樂

中國教育新聞網 2026-03-07 08:45:07
0 跟貼 0
這個倒三角 ?，為什么總在數學和物理公式里出現？

量子位 2026-01-07 15:33:23
0 跟貼 0
每月給孩子發零花錢，一個200，一個5000

我鳴秋風 2026-03-07 08:21:09
0 跟貼 0
剛下飛機行李就沒了！杭州姑娘花10多萬去南極旅游卻崩潰：衣物全靠借

環球網資訊 2026-03-03 08:53:57
5570 跟貼 5570
星爺這貪污水平沒誰了，1380萬秒變38萬，真是邏輯鬼才

悅悅看劇 2026-03-05 10:33:40
1 跟貼 1

獨家消息：西貝創始成員董俊義擔任CEO，賈國龍退幕后！門店管理層工資延發，店長廚師長全部降薪，“新CEO首要目標是讓公司活下來”

獨家消息：西貝創始成員董俊義擔任CEO，賈國龍退幕后！門店管理層工資延發，店長廚師長全部降薪，“新CEO首要目標是讓公司活下來”

每日經濟新聞

2026-03-06 18:44:10

6年了，郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

6年了，郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

小熊侃史

2025-12-25 11:24:12

全軍僅此一例：師長授中將軍銜，軍長和另外3名師長卻被授予少將

全軍僅此一例：師長授中將軍銜，軍長和另外3名師長卻被授予少將

史韻流轉

2026-03-07 09:20:08

字節跳動啟動最大規模實習生招聘：擬招超7000人，轉正率超50%，重點傾斜研發、產品與AI領域

字節跳動啟動最大規模實習生招聘：擬招超7000人，轉正率超50%，重點傾斜研發、產品與AI領域

深圳晚報

2026-03-06 16:38:48

90年小伙打工被誣陷偷東西，他沒反抗，只讓工廠老板看了眼他的背

90年小伙打工被誣陷偷東西，他沒反抗，只讓工廠老板看了眼他的背

牛魔王與芭蕉扇

2025-11-06 10:09:31

國防預算草案公布，大陸24小時內促統，賴清德面臨兩條路

國防預算草案公布，大陸24小時內促統，賴清德面臨兩條路

二凱訓猛犬

2026-03-07 11:52:24

車頂可升降、車內可站立，小米YU9最新爆料

車頂可升降、車內可站立，小米YU9最新爆料

金融界

2026-03-06 14:23:07

為什么說要得饒人處且饒人？網友：卡里幾千萬，為了5塊錢命沒了

為什么說要得饒人處且饒人？網友：卡里幾千萬，為了5塊錢命沒了

另子維愛讀史

2026-02-25 23:23:26

0-2大冷！3月7日一大早，王欣瑜一輪游，鄭欽文比賽對手+時間出爐

0-2大冷！3月7日一大早，王欣瑜一輪游，鄭欽文比賽對手+時間出爐

大秦壁虎白話體育

2026-03-07 08:18:55

4號秀轟27+4超喬丹，打破塵封41年神紀錄！難解三球露餡6連勝終結

4號秀轟27+4超喬丹，打破塵封41年神紀錄！難解三球露餡6連勝終結

鍋子籃球

2026-03-07 12:40:41

2026轉運年來了！這4個星座從此告別倒霉，一順到底！

2026轉運年來了！這4個星座從此告別倒霉，一順到底！

朗威談星座

2026-03-07 12:29:48

22年河南女孩高考601分，辦升學宴遭嫉妒，被親人"設局"棄尸窯洞

22年河南女孩高考601分，辦升學宴遭嫉妒，被親人"設局"棄尸窯洞

談史論天地

2026-03-07 09:05:15

馬龍：淚目！乒協副主席只是掛名？龍隊現在處于待業狀態？

馬龍：淚目！乒協副主席只是掛名？龍隊現在處于待業狀態？

行舟問茶

2026-03-06 17:03:57

陳飛宇在巴黎吃麻辣燙被偶遇！衣服破了個大洞，網友：我眼花了？

陳飛宇在巴黎吃麻辣燙被偶遇！衣服破了個大洞，網友：我眼花了？

木子愛娛樂大號

2026-03-06 16:45:32

火箭106-99戰勝開拓者球員評價：阿門滿分，6人及格，2人低迷

火箭106-99戰勝開拓者球員評價：阿門滿分，6人及格，2人低迷

籃球資訊達人

2026-03-07 11:49:29

又一個10萬億產業，要來了！

環球時報國際

2026-03-06 17:23:46

中東變局下的外貿人：伊朗客戶失聯，迪拜華人敞開家門接待同胞

中東變局下的外貿人：伊朗客戶失聯，迪拜華人敞開家門接待同胞

齊魯壹點

2026-03-06 21:59:09

浦東機場凌晨兩點“爆哭”：幾百名中年人防線崩塌，真相太扎心

浦東機場凌晨兩點“爆哭”：幾百名中年人防線崩塌，真相太扎心

匹夫來搞笑

2026-03-06 20:17:30

61歲雪梨自曝被TVB高層性侵，滿臉驚恐：不能說名字，會死人的！

61歲雪梨自曝被TVB高層性侵，滿臉驚恐：不能說名字，會死人的！

潮鹿逐夢

2026-03-05 22:34:12

3.7金價預警！黃金大風暴將至，所有人做好心理準備

3.7金價預警！黃金大風暴將至，所有人做好心理準備

花小貓的美食日常

2026-03-07 12:02:07

CV NLP和數據挖掘知識

1940文章數 1456關注度

往期回顧全部

科技要聞

OpenClaw爆火，六位"養蝦人"自述與AI共生

頭條要聞

特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

頭條要聞

特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

體育要聞

塔圖姆歸來：凱爾特人的春之綠

娛樂要聞

周杰倫田馥甄的“JH戀” 被扒得底朝天

財經要聞

針對"不敢休、不讓休"怪圈國家出手了

汽車要聞

逃離ICU，上汽通用“止血”企穩

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

房產

本地

數碼

家居

轉頭就暈的耳石癥，能開車上班嗎？

房產要聞

傳統學區房熄火？2月海口二手房爆火的板塊竟然是…

本地新聞

食味印象｜一口入魂！康樂烤肉串起千年絲路香

津南好·四時總相宜
妝藝大游行2026：愿
春花齊放2026：《駿馬奔騰迎新歲》

數碼要聞

蘋果M5 Pro芯片GeekBench跑分曝光：多核破2.8萬

家居要聞

暖棕撞色輕法奶油風

奶白柔境閑臥享時光
極簡無界靜居自安然
萬物互聯享科技福祉

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<nav id="ovdd7"></nav>