網易首頁 > 網易號 > 正文申請入駐

Google Gemma 4發布：4000萬下載后

2026-04-04 01:51:31　來源: 爬蟲飼養員

北京舉報

分享至

Google在4月2日扔出Gemma 4，距離第一代Gemma上線剛好兩年。這次不是常規迭代——Apache 2.0協議首次出現在這個家族，意味著開發者可以把它塞進商業產品，不用寫郵件求許可。

4000萬次下載、10萬個變體模型，這是Gemma系列交出的成績單。但開源社區有個心照不宣的默契：用得爽和用得安心是兩回事。之前的Gemma 3雖然開放，商用條款里藏著不少"需另行申請"的灰色地帶。這次Google把許可證徹底換成Apache 2.0，等于把鑰匙直接拍在桌上。

四張牌，覆蓋從手機到數據中心的全部戰場

Gemma 4這次發了四個型號，不是簡單的"大中小超小"區分，而是按硬件場景精準切割。

E2B（Effective 20億活躍參數）瞄準極端邊緣設備。智能手機、樹莓派、Jetson Orin Nano，128K上下文窗口，圖像視頻音頻全吃。設計目標很明確：電池和內存效率優先，能跑起來比跑得快更重要。

E4B參數翻倍到40億活躍，硬件目標不變，推理質量明顯提升。代價是速度——比E2B慢約3倍，但能力差距肉眼可見。Google給出的數據是：較前代快4倍，耗電降60%。

26B MoE（混合專家架構）開始玩參數效率的游戲。總共260億參數，推理時只激活38億。256K上下文，Arena AI文本排行榜第6。量化版本能塞進消費級顯卡，這是MoE架構的老本行——用內存換智能。

31B Dense是全村的希望。純密集架構，256K上下文，Arena AI排名第3。未量化版本單張80GB H100能跑，量化后消費級硬件可承載。Google明牌：這是微調的首選基底。

一個容易忽略的細節：E2B和E4B原生支持音頻輸入，26B和31B反而不支持。如果你的應用需要語音識別，只能選邊緣型號。這個切割邏輯有點反直覺——通常認為大模型才配多模態，Google卻把小模型的感官能力做全了。

"比20倍大的模型更強"：營銷話術的第三方驗證

Google宣稱Gemma 4能打敗參數20倍于它的對手。這種話術在AI圈聽多了，但Artificial Analysis的獨立數據讓吹牛變得困難。

GPQA Diamond（科學推理基準）上，31B拿到85.7%，推理模式開啟。在400億參數以下的開源模型里排第二，僅次于Qwen3.5 27B的85.8%。差距0.1%，但計算效率的故事更值得關注：31B生成約120萬輸出token完成評估，Qwen3.5 27B用了150萬。質量相當，算力少20%。

26B MoE的成績單更刺眼。GPQA Diamond 79.2%，超過OpenAI的gpt-oss-120B（76.2%）。參數差距940億，得分卻倒掛了。

真正讓人坐直的是工具使用能力。τ2-bench（零售場景）上，31B拿86.4%，26B拿85.5%。作為參照，Gemma 3 27B只有6.6%。這不是進步，是物種躍遷。多步驟工具調用這塊，Google內部一定發生了某種架構層面的重構，而非簡單的數據堆砌。

數學和編程數據延續這個敘事。AIME 2026：31B 89.2%，26B 88.3%，Gemma 3 27B 20.8%。LiveCodeBench v6：31B 80.0%，26B 77.1%，Gemma 3 27B 29.1%。邊緣型號相對克制，E4B在LiveCodeBench拿52.0%，GPQA Diamond 58.6%——對手機能跑的模型來說，夠用了。

從Gemini 3偷來的技術棧

Gemma 4和Google的閉源旗艦Gemini 3共享研究棧。這是Google的慣用手法：先拿閉源模型探路，再把驗證過的技術下放開源家族。

好處很明顯。Gemma 4的推理能力、工具使用、多模態處理，背后都是Gemini 3已經跑通的工程方案。開源社區相當于白嫖了Google最昂貴的那部分研發。

但這也埋下隱患。Gemini 3的迭代節奏由Google全權控制，Gemma 4能跟上多少？歷史經驗是：技術下放有延遲，且Google對開源模型的定位始終模糊——到底是生態誘餌，還是長期戰略？

Apache 2.0的切換可能是信號。之前的Gemma協議被開發者吐槽過"偽開源"，商用限制條款寫得像法律迷宮。這次Google選擇最寬松的主流許可證，等于把控制權讓渡給社區。如果只是想釣開發者上鉤，沒必要做到這個程度。

誰該選哪個型號？

選擇邏輯比參數表格更重要。

需要離線語音交互、手機端實時響應：E2B或E4B。注意E4B的3倍速度代價，如果電池壽命是硬指標，E2B更穩妥。

消費級顯卡跑通用智能、預算有限：26B MoE。量化版本對顯存友好，Arena第6的排名保證基礎能力在線。

嚴肅微調、追求開源模型第一梯隊：31B Dense。單卡H100能訓，這是小團隊能觸及的上限。

一個反直覺的建議：如果你的應用需要音頻+大模型，目前Gemma 4家族沒有完美選項。26B/31B的音頻缺失是明確的產品切割，可能是技術限制，也可能是Google故意留的差異化空間。

Google DeepMind的Gemma團隊負責人Tommy Collins在發布當天提到：「我們設計Gemma 4時，把'開發者能實際部署'作為第一約束條件，而不是實驗室里的理論最優。」

這句話的潛臺詞是：Gemma 4的每個數字都對應著真實的硬件成本和功耗曲線。當其他實驗室還在用A100集群刷榜時，Google選擇把模型塞進你能買到的設備里——這個選擇本身，算不算另一種意義上的領先？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.