![]()
Google在4月2日扔出Gemma 4,距離第一代Gemma上線剛好兩年。這次不是常規迭代——Apache 2.0協議首次出現在這個家族,意味著開發者可以把它塞進商業產品,不用寫郵件求許可。
4000萬次下載、10萬個變體模型,這是Gemma系列交出的成績單。但開源社區有個心照不宣的默契:用得爽和用得安心是兩回事。之前的Gemma 3雖然開放,商用條款里藏著不少"需另行申請"的灰色地帶。這次Google把許可證徹底換成Apache 2.0,等于把鑰匙直接拍在桌上。
四張牌,覆蓋從手機到數據中心的全部戰場
Gemma 4這次發了四個型號,不是簡單的"大中小超小"區分,而是按硬件場景精準切割。
E2B(Effective 20億活躍參數)瞄準極端邊緣設備。智能手機、樹莓派、Jetson Orin Nano,128K上下文窗口,圖像視頻音頻全吃。設計目標很明確:電池和內存效率優先,能跑起來比跑得快更重要。
E4B參數翻倍到40億活躍,硬件目標不變,推理質量明顯提升。代價是速度——比E2B慢約3倍,但能力差距肉眼可見。Google給出的數據是:較前代快4倍,耗電降60%。
26B MoE(混合專家架構)開始玩參數效率的游戲。總共260億參數,推理時只激活38億。256K上下文,Arena AI文本排行榜第6。量化版本能塞進消費級顯卡,這是MoE架構的老本行——用內存換智能。
31B Dense是全村的希望。純密集架構,256K上下文,Arena AI排名第3。未量化版本單張80GB H100能跑,量化后消費級硬件可承載。Google明牌:這是微調的首選基底。
一個容易忽略的細節:E2B和E4B原生支持音頻輸入,26B和31B反而不支持。如果你的應用需要語音識別,只能選邊緣型號。這個切割邏輯有點反直覺——通常認為大模型才配多模態,Google卻把小模型的感官能力做全了。
"比20倍大的模型更強":營銷話術的第三方驗證
Google宣稱Gemma 4能打敗參數20倍于它的對手。這種話術在AI圈聽多了,但Artificial Analysis的獨立數據讓吹牛變得困難。
GPQA Diamond(科學推理基準)上,31B拿到85.7%,推理模式開啟。在400億參數以下的開源模型里排第二,僅次于Qwen3.5 27B的85.8%。差距0.1%,但計算效率的故事更值得關注:31B生成約120萬輸出token完成評估,Qwen3.5 27B用了150萬。質量相當,算力少20%。
26B MoE的成績單更刺眼。GPQA Diamond 79.2%,超過OpenAI的gpt-oss-120B(76.2%)。參數差距940億,得分卻倒掛了。
真正讓人坐直的是工具使用能力。τ2-bench(零售場景)上,31B拿86.4%,26B拿85.5%。作為參照,Gemma 3 27B只有6.6%。這不是進步,是物種躍遷。多步驟工具調用這塊,Google內部一定發生了某種架構層面的重構,而非簡單的數據堆砌。
數學和編程數據延續這個敘事。AIME 2026:31B 89.2%,26B 88.3%,Gemma 3 27B 20.8%。LiveCodeBench v6:31B 80.0%,26B 77.1%,Gemma 3 27B 29.1%。邊緣型號相對克制,E4B在LiveCodeBench拿52.0%,GPQA Diamond 58.6%——對手機能跑的模型來說,夠用了。
從Gemini 3偷來的技術棧
Gemma 4和Google的閉源旗艦Gemini 3共享研究棧。這是Google的慣用手法:先拿閉源模型探路,再把驗證過的技術下放開源家族。
好處很明顯。Gemma 4的推理能力、工具使用、多模態處理,背后都是Gemini 3已經跑通的工程方案。開源社區相當于白嫖了Google最昂貴的那部分研發。
但這也埋下隱患。Gemini 3的迭代節奏由Google全權控制,Gemma 4能跟上多少?歷史經驗是:技術下放有延遲,且Google對開源模型的定位始終模糊——到底是生態誘餌,還是長期戰略?
Apache 2.0的切換可能是信號。之前的Gemma協議被開發者吐槽過"偽開源",商用限制條款寫得像法律迷宮。這次Google選擇最寬松的主流許可證,等于把控制權讓渡給社區。如果只是想釣開發者上鉤,沒必要做到這個程度。
誰該選哪個型號?
選擇邏輯比參數表格更重要。
需要離線語音交互、手機端實時響應:E2B或E4B。注意E4B的3倍速度代價,如果電池壽命是硬指標,E2B更穩妥。
消費級顯卡跑通用智能、預算有限:26B MoE。量化版本對顯存友好,Arena第6的排名保證基礎能力在線。
嚴肅微調、追求開源模型第一梯隊:31B Dense。單卡H100能訓,這是小團隊能觸及的上限。
一個反直覺的建議:如果你的應用需要音頻+大模型,目前Gemma 4家族沒有完美選項。26B/31B的音頻缺失是明確的產品切割,可能是技術限制,也可能是Google故意留的差異化空間。
Google DeepMind的Gemma團隊負責人Tommy Collins在發布當天提到:「我們設計Gemma 4時,把'開發者能實際部署'作為第一約束條件,而不是實驗室里的理論最優。」
這句話的潛臺詞是:Gemma 4的每個數字都對應著真實的硬件成本和功耗曲線。當其他實驗室還在用A100集群刷榜時,Google選擇把模型塞進你能買到的設備里——這個選擇本身,算不算另一種意義上的領先?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.