4月2日凌晨,谷歌 DeepMind 的 CEO Demis Hassabis 在 X 上發了四顆鉆石 emoji,神秘感拉滿。
幾個小時后,謎底揭曉。谷歌正式發布了Gemma 4系列,包含 E2B、E4B、26B-A4B、31B 4種型號,這是他們迄今為止最強大的開源模型家族。
更讓人意外的是,這次谷歌徹底放下了姿態,直接用上了 Apache 2.0開源協議。要知道,之前 Gemma 3那套自定義協議,開發者們可是抱怨了一整年。
看完發布內容,我覺得這次谷歌是真的在開源模型上動真格了。31B 版本直接沖到 Arena AI 排行榜全球第三,用不到十分之一的參數量就能跟那些4000億參數的巨無霸掰手腕。這種參數效率的提升,對想在本地跑模型的人來說,意義比什么都大。
![]()
Gemma 4與國產大模型跑分對比
Gemma 4最大的技術亮點,是它直接繼承了 Gemini 3的研究成果和技術架構。谷歌在官方博客里說得很明白:“Gemma 4基于與 Gemini 3相同的世界級研究和技術打造。”這意味著什么?就是谷歌把自家閉源旗艦模型的核心能力,下放到了開源模型上。
這種“技術下放”在大廠里其實不常見。通常閉源模型和開源模型是兩條完全不同的技術路線,但谷歌這次選擇讓 Gemma 4跟 Gemini 3共享底層技術,這也解釋了為什么 Gemma 4的性能提升這么明顯。
小身材,大能量:31B 擊敗397B 巨無霸
其實在正式發布之前,社區里就已經有人嗅到了風聲。LMSYS Chatbot Arena 上突然出現了一個代號叫“significant-otter”的匿名模型,有用戶好奇地問它是誰,它直接回答:“I am Gemma 4, a large language model developed by Google DeepMind。”
Reddit 上 r/LocalLLaMA 社區的用戶反饋說,這個模型響應速度快得嚇人,而且不是那種專門搞推理的模型,基礎能力測試全都通過了。
Hassabis 那四顆鉆石 emoji,就是在暗示 Gemma 4的四個版本。這位 DeepMind 的掌門人,在發布會上直接放話:“這是全球同等規模下最好的開源模型。”
最讓人震驚的是 Gemma 4 31B 的實際表現。在業界標準的 Arena AI 文本排行榜上,31B Dense 版本直接沖到了全球開源模型第三名,僅次于 GLM-5和 Kimi 2.5,而26B MoE 版本排第六。這意味著什么?它們擊敗了一大堆參數量是自己20倍的巨無霸模型。
![]()
要知道,像 Qwen 3.5 397B 這種級別的模型,參數量接近4000億,跟 Gemini 3 Pro、Claude Opus 4.5、GPT-5.2在一個性能檔次。但 Gemma 4 31B 用不到十分之一的參數量,就能在排行榜上跟這些巨無霸掰手腕。谷歌把這叫做“每參數智能”——用更少的參數,達到更高的性能。
從實測數據來看,Gemma 4 31B 在多個關鍵測試中表現驚艷。MMLU Pro 測試拿到了85.2% 的成績,AIME 2026數學競賽題目達到89.2% 的準確率,LiveCodeBench v6代碼測試80.0%,Codeforces 編程競賽 ELO 評分高達2150。
要知道,上一代 Gemma 3 27B 在 AIME 2026上只有20.8%,這次直接翻了四倍多。
![]()
更夸張的是視覺和多模態能力。在 MMMU Pro 多模態理解測試中,31B 版本拿到了76.9%,MATH-Vision 數學視覺題目85.6%,醫學圖像評估 MedXpertQA MM 達到61.3%。就連音頻處理能力也沒落下,E4B 和 E2B 這兩個移動端版本在 CoVoST 語音翻譯測試中分別拿到了35.54和33.47的分數。
這種參數效率的提升,對于想在本地跑模型的開發者來說意義重大。你不需要花幾萬塊買一張 H100,一張消費級顯卡就能跑起來接近頂級的性能。
從手機到工作站,四個版本各有所長
Gemma 4這次發布了四個版本,從手機到服務器全覆蓋。
最小的 Effective 2B(E2B)和 Effective 4B(E4B)是專門為移動設備設計的,可以完全離線運行在你的 Android 手機上,甚至樹莓派上都能跑。谷歌跟 Pixel 團隊、高通、聯發科一起合作優化,延遲幾乎為零。
26B 的 MoE(混合專家)版本更有意思,它雖然有260億參數,但推理時只激活38億參數,這意味著速度快得飛起,每秒生成的 token 數量比同等規模的模型高出一大截。在 MMLU Pro 上拿到82.6%,AIME 2026達到88.3%,跟31B 版本咬得很緊,但推理速度快太多了。
31B Dense 版本則是追求極致質量,谷歌說這是為了讓開發者能在上面做精細化微調的。在 GPQA Diamond 科學推理測試中拿到84.3%,Tau2綜合測試平均76.9%,BigBench Extra Hard 超難任務74.4%。這些分數放在開源模型里,已經是頂尖水平了。
所有版本都原生支持視頻和圖像輸入,能做 OCR 和圖表理解。E2B 和 E4B 還支持原生音頻輸入,可以做語音識別和理解。更夸張的是,Gemma 4原生訓練了140多種語言,上下文窗口邊緣模型有12.8萬 token,大模型有25.6萬 token。
Apache 2.0:谷歌終于聽進去了開發者的抱怨
如果說性能提升是意料之中,那協議的改變就是真正的驚喜了。之前 Gemma 3用的是谷歌自己定制的協議,里面有一堆限制條款,谷歌還能單方面隨時修改使用規則,開發者必須在所有基于 Gemma 的項目里執行谷歌的規定。有些條款甚至可以被解讀為,如果你用 Gemma 生成了合成數據,這個協議還能延伸到你用這些數據訓練的其他 AI 模型上。這讓很多開發者對用谷歌的開源模型心存顧慮。
這次 Gemma 4直接換成了 Apache 2.0協議,這是業界最寬松、最成熟的開源協議之一。沒有那些過度限制的使用條款,沒有商業限制,谷歌也不能哪天突然說協議要改就改了。開發者們熟悉這個協議,用起來放心。谷歌在官方博客里說:“你們給了我們反饋,我們聽進去了。構建 AI 的未來需要協作,我們相信應該賦能開發者生態,而不是設置限制性障礙。”
4億次下載,10萬個變體,“Gemmaverse”已經成型
自從第一代 Gemma 在2024年2月發布以來,開發者們已經下載了超過4億次,社區創造了超過10萬個變體。谷歌把這叫做“Gemmaverse”——一個圍繞 Gemma 建立起來的生態宇宙。
這些變體里有些相當有意思。比如 MedGemma 是基于 Gemma 3做的醫療影像和報告生成工具,DolphinGemma 用來分析海豚的聲音,SignGemma 則是做手語翻譯的。這些應用遠遠超出了通用聊天的范疇,證明了開源模型架構的潛力。
Reddit 上有開發者對比了 Gemma 27B 和其他同規模模型,他說:“Mistral 24B 的微調版本和 Gemma 27B 大概有10-20% 的時候能贏過 Qwen 27B,但80-90% 的時候還是 Qwen 更強。不過 Gemma 在長上下文能力上表現真的很出色。”這次 Gemma 4在長上下文測試 MRCR v2上,31B 版本拿到了66.4%,比上一代的13.5% 提升了整整五倍。
本地 AI 的野心:不聯網也能用上頂級智能
Gemma 4最大的意義,其實是把“本地 AI”這件事推向了新高度。你可以在自己的硬件上運行這些模型,不需要連接云端,不需要擔心隱私泄露,也不需要為每次 API 調用付費。
谷歌在開發者博客里說得很明白:“Gemma 4重新定義了你在自己硬件上能做到什么。現在你可以超越聊天機器人,構建能在設備上直接運行的智能體和自主 AI 應用。”Android 開發者可以通過新的 AICore Developer Preview 訪問內置的 Gemma 4模型,或者用 Google AI Edge 在移動端、桌面端和邊緣設備上構建智能體應用。
Arm 公司在他們的新聞稿里也提到,Gemma 4在 Arm 架構的 Android 設備上做了深度優化,開發者只要針對基于 SME2的 Arm 設備,就能自動獲得開箱即用的性能優化。用戶能體驗到更快的響應、更流暢的持續交互、更可靠的設備端 AI,同時還能保持電池續航和散熱穩定。
開源模型的戰場,谷歌不想輸給中國
Gemma 4的發布,其實也反映了一個更大的背景:美國在開源大語言模型領域相對中國已經落后了。DeepSeek、Qwen 這些中國的開源模型在全球范圍內獲得了大量關注和使用。英偉達也在推 Nemotron 系列來發展開源 AI 生態。谷歌顯然不想在這個戰場上缺席。
對企業來說,開源模型的價值在于可以根據具體業務場景進行定制。谷歌說 Gemma 已經有超過10萬個變體,這個數字本身就說明了需求的旺盛。雖然 OpenRouter 的使用數據顯示,谷歌的開源模型在實際部署中歷來落后于 Meta 的 LLaMA 和 DeepSeek,但 Gemma 4這次結合了競爭力的基準測試性能、Apache 2.0協議和強大的移動端優先工程,可能會比之前任何一代 Gemma 都更有說服力。
從現在開始就能用上
Gemma 4已經在 Google AI Studio(31B 和26B MoE)和 Google AI Edge Gallery(E4B 和 E2B)上線了。你也可以從 Hugging Face、Kaggle、Ollama 下載模型權重。首日就支持 vLLM、llama.cpp、MLX、NVIDIA NIM 等平臺。
谷歌還發布了一個新的 Python 包和 CLI 工具 litert-lm,讓開發者可以在控制臺里直接體驗 Gemma,不用寫任何代碼。這個 CLI 支持 Linux、macOS 和樹莓派,現在還支持工具調用功能。
Demis Hassabis 在發布時說的那句話,可能最能概括 Gemma 4的定位:“按字節計算,這是全球最強大的開源模型。”谷歌這次是真的想在開源 AI 這條賽道上認真跑一跑了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.