網易首頁 > 網易號 > 正文申請入駐

Gemma 4 突襲發布！為谷歌迄今最強大開源模型家族，31B模型擊敗大20倍對手

2026-04-03 01:54:47　來源: 鯨選AI

北京舉報

分享至

4月2日凌晨，谷歌 DeepMind 的 CEO Demis Hassabis 在 X 上發了四顆鉆石 emoji，神秘感拉滿。

幾個小時后，謎底揭曉。谷歌正式發布了Gemma 4系列，包含 E2B、E4B、26B-A4B、31B 4種型號，這是他們迄今為止最強大的開源模型家族。

更讓人意外的是，這次谷歌徹底放下了姿態，直接用上了 Apache 2.0開源協議。要知道，之前 Gemma 3那套自定義協議，開發者們可是抱怨了一整年。

看完發布內容，我覺得這次谷歌是真的在開源模型上動真格了。31B 版本直接沖到 Arena AI 排行榜全球第三，用不到十分之一的參數量就能跟那些4000億參數的巨無霸掰手腕。這種參數效率的提升，對想在本地跑模型的人來說，意義比什么都大。

Gemma 4與國產大模型跑分對比

Gemma 4最大的技術亮點，是它直接繼承了 Gemini 3的研究成果和技術架構。谷歌在官方博客里說得很明白：“Gemma 4基于與 Gemini 3相同的世界級研究和技術打造。”這意味著什么？就是谷歌把自家閉源旗艦模型的核心能力，下放到了開源模型上。

這種“技術下放”在大廠里其實不常見。通常閉源模型和開源模型是兩條完全不同的技術路線，但谷歌這次選擇讓 Gemma 4跟 Gemini 3共享底層技術，這也解釋了為什么 Gemma 4的性能提升這么明顯。

小身材，大能量：31B 擊敗397B 巨無霸

其實在正式發布之前，社區里就已經有人嗅到了風聲。LMSYS Chatbot Arena 上突然出現了一個代號叫“significant-otter”的匿名模型，有用戶好奇地問它是誰，它直接回答：“I am Gemma 4, a large language model developed by Google DeepMind。”

Reddit 上 r/LocalLLaMA 社區的用戶反饋說，這個模型響應速度快得嚇人，而且不是那種專門搞推理的模型，基礎能力測試全都通過了。

Hassabis 那四顆鉆石 emoji，就是在暗示 Gemma 4的四個版本。這位 DeepMind 的掌門人，在發布會上直接放話：“這是全球同等規模下最好的開源模型。”

最讓人震驚的是 Gemma 4 31B 的實際表現。在業界標準的 Arena AI 文本排行榜上，31B Dense 版本直接沖到了全球開源模型第三名，僅次于 GLM-5和 Kimi 2.5，而26B MoE 版本排第六。這意味著什么？它們擊敗了一大堆參數量是自己20倍的巨無霸模型。

要知道，像 Qwen 3.5 397B 這種級別的模型，參數量接近4000億，跟 Gemini 3 Pro、Claude Opus 4.5、GPT-5.2在一個性能檔次。但 Gemma 4 31B 用不到十分之一的參數量，就能在排行榜上跟這些巨無霸掰手腕。谷歌把這叫做“每參數智能”——用更少的參數，達到更高的性能。

從實測數據來看，Gemma 4 31B 在多個關鍵測試中表現驚艷。MMLU Pro 測試拿到了85.2% 的成績，AIME 2026數學競賽題目達到89.2% 的準確率，LiveCodeBench v6代碼測試80.0%，Codeforces 編程競賽 ELO 評分高達2150。

要知道，上一代 Gemma 3 27B 在 AIME 2026上只有20.8%，這次直接翻了四倍多。

更夸張的是視覺和多模態能力。在 MMMU Pro 多模態理解測試中，31B 版本拿到了76.9%，MATH-Vision 數學視覺題目85.6%，醫學圖像評估 MedXpertQA MM 達到61.3%。就連音頻處理能力也沒落下，E4B 和 E2B 這兩個移動端版本在 CoVoST 語音翻譯測試中分別拿到了35.54和33.47的分數。

這種參數效率的提升，對于想在本地跑模型的開發者來說意義重大。你不需要花幾萬塊買一張 H100，一張消費級顯卡就能跑起來接近頂級的性能。

從手機到工作站，四個版本各有所長

Gemma 4這次發布了四個版本，從手機到服務器全覆蓋。

最小的 Effective 2B（E2B）和 Effective 4B（E4B）是專門為移動設備設計的，可以完全離線運行在你的 Android 手機上，甚至樹莓派上都能跑。谷歌跟 Pixel 團隊、高通、聯發科一起合作優化，延遲幾乎為零。

26B 的 MoE（混合專家）版本更有意思，它雖然有260億參數，但推理時只激活38億參數，這意味著速度快得飛起，每秒生成的 token 數量比同等規模的模型高出一大截。在 MMLU Pro 上拿到82.6%，AIME 2026達到88.3%，跟31B 版本咬得很緊，但推理速度快太多了。

31B Dense 版本則是追求極致質量，谷歌說這是為了讓開發者能在上面做精細化微調的。在 GPQA Diamond 科學推理測試中拿到84.3%，Tau2綜合測試平均76.9%，BigBench Extra Hard 超難任務74.4%。這些分數放在開源模型里，已經是頂尖水平了。

所有版本都原生支持視頻和圖像輸入，能做 OCR 和圖表理解。E2B 和 E4B 還支持原生音頻輸入，可以做語音識別和理解。更夸張的是，Gemma 4原生訓練了140多種語言，上下文窗口邊緣模型有12.8萬 token，大模型有25.6萬 token。

Apache 2.0：谷歌終于聽進去了開發者的抱怨

如果說性能提升是意料之中，那協議的改變就是真正的驚喜了。之前 Gemma 3用的是谷歌自己定制的協議，里面有一堆限制條款，谷歌還能單方面隨時修改使用規則，開發者必須在所有基于 Gemma 的項目里執行谷歌的規定。有些條款甚至可以被解讀為，如果你用 Gemma 生成了合成數據，這個協議還能延伸到你用這些數據訓練的其他 AI 模型上。這讓很多開發者對用谷歌的開源模型心存顧慮。

這次 Gemma 4直接換成了 Apache 2.0協議，這是業界最寬松、最成熟的開源協議之一。沒有那些過度限制的使用條款，沒有商業限制，谷歌也不能哪天突然說協議要改就改了。開發者們熟悉這個協議，用起來放心。谷歌在官方博客里說：“你們給了我們反饋，我們聽進去了。構建 AI 的未來需要協作，我們相信應該賦能開發者生態，而不是設置限制性障礙。”

4億次下載，10萬個變體，“Gemmaverse”已經成型

自從第一代 Gemma 在2024年2月發布以來，開發者們已經下載了超過4億次，社區創造了超過10萬個變體。谷歌把這叫做“Gemmaverse”——一個圍繞 Gemma 建立起來的生態宇宙。

這些變體里有些相當有意思。比如 MedGemma 是基于 Gemma 3做的醫療影像和報告生成工具，DolphinGemma 用來分析海豚的聲音，SignGemma 則是做手語翻譯的。這些應用遠遠超出了通用聊天的范疇，證明了開源模型架構的潛力。

Reddit 上有開發者對比了 Gemma 27B 和其他同規模模型，他說：“Mistral 24B 的微調版本和 Gemma 27B 大概有10-20% 的時候能贏過 Qwen 27B，但80-90% 的時候還是 Qwen 更強。不過 Gemma 在長上下文能力上表現真的很出色。”這次 Gemma 4在長上下文測試 MRCR v2上，31B 版本拿到了66.4%，比上一代的13.5% 提升了整整五倍。

本地 AI 的野心：不聯網也能用上頂級智能

Gemma 4最大的意義，其實是把“本地 AI”這件事推向了新高度。你可以在自己的硬件上運行這些模型，不需要連接云端，不需要擔心隱私泄露，也不需要為每次 API 調用付費。

谷歌在開發者博客里說得很明白：“Gemma 4重新定義了你在自己硬件上能做到什么。現在你可以超越聊天機器人，構建能在設備上直接運行的智能體和自主 AI 應用。”Android 開發者可以通過新的 AICore Developer Preview 訪問內置的 Gemma 4模型，或者用 Google AI Edge 在移動端、桌面端和邊緣設備上構建智能體應用。

Arm 公司在他們的新聞稿里也提到，Gemma 4在 Arm 架構的 Android 設備上做了深度優化，開發者只要針對基于 SME2的 Arm 設備，就能自動獲得開箱即用的性能優化。用戶能體驗到更快的響應、更流暢的持續交互、更可靠的設備端 AI，同時還能保持電池續航和散熱穩定。

開源模型的戰場，谷歌不想輸給中國

Gemma 4的發布，其實也反映了一個更大的背景：美國在開源大語言模型領域相對中國已經落后了。DeepSeek、Qwen 這些中國的開源模型在全球范圍內獲得了大量關注和使用。英偉達也在推 Nemotron 系列來發展開源 AI 生態。谷歌顯然不想在這個戰場上缺席。

對企業來說，開源模型的價值在于可以根據具體業務場景進行定制。谷歌說 Gemma 已經有超過10萬個變體，這個數字本身就說明了需求的旺盛。雖然 OpenRouter 的使用數據顯示，谷歌的開源模型在實際部署中歷來落后于 Meta 的 LLaMA 和 DeepSeek，但 Gemma 4這次結合了競爭力的基準測試性能、Apache 2.0協議和強大的移動端優先工程，可能會比之前任何一代 Gemma 都更有說服力。

從現在開始就能用上

Gemma 4已經在 Google AI Studio（31B 和26B MoE）和 Google AI Edge Gallery（E4B 和 E2B）上線了。你也可以從 Hugging Face、Kaggle、Ollama 下載模型權重。首日就支持 vLLM、llama.cpp、MLX、NVIDIA NIM 等平臺。

谷歌還發布了一個新的 Python 包和 CLI 工具 litert-lm，讓開發者可以在控制臺里直接體驗 Gemma，不用寫任何代碼。這個 CLI 支持 Linux、macOS 和樹莓派，現在還支持工具調用功能。

Demis Hassabis 在發布時說的那句話，可能最能概括 Gemma 4的定位：“按字節計算，這是全球最強大的開源模型。”谷歌這次是真的想在開源 AI 這條賽道上認真跑一跑了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.