網易首頁 > 網易號 > 正文申請入駐

Byte for Byte，谷歌開源最強模型Gemma 4 殺入手機端

2026-04-03 10:26:15　來源: 鈦媒體APP

北京舉報

分享至

北京時間2026年4月3日凌晨，Google DeepMind正式發布新一代開放模型系列——Gemma 4。官方博客標題寫：“Byte for byte, the most capable open models”——逐字節衡量，這是迄今為止最強悍的開源模型。

據官方發布的博客，在Arena AI文本排行榜上，Gemma 4的31B Dense模型以307億參數規模登上開源模型全球第三，26B A4B MoE模型位居第六，后者推理時僅激活38億參數，卻擊敗了參數量數百億乃至數千億級別的競品。

當整個行業還在為大模型“越大越好”的軍備競賽焦慮時，谷歌選擇用工程效率與推理密度的極致優化，給出了一條截然不同的技術路徑。

四款模型，四個戰場

Gemma 4此次一口氣釋放了四個規格，覆蓋了從端側嵌入式設備到本地開發工作站的完整算力梯度：

從關鍵技術數據看，26B A4B MoE模型推理時僅激活38億參數（總參252億），卻在Arena AI排行榜擊敗了多款參數量達數百億甚至數千億級別的競品，包括通義千問Qwen3-235B（2350億）和Meta Llama-3.1-405B（4050億）等。31B Dense未量化版本可在單張80GB NVIDIA H100上運行，量化后可部署于消費級GPU。

邊緣模型E2B/E4B支持原生音頻輸入，可進行語音識別與理解。全系列模型均原生支持視頻與圖像處理，支持可變分辨率輸入。

這一產品矩陣的邏輯在于：小模型打“無處不在”，大模型打“無處不在的前沿智能”。

E2B和E4B被谷歌定義為核心戰略——“移動優先AI”（mobile-first AI），專為數十億Android設備及物聯網終端設計；26B和31B則瞄準本地開發、IDE輔助和Agent工作流。

與Gemini 3同源的技術底座

一個容易被忽略但至關重要的信息是：Gemma 4基于與閉源旗艦模型Gemini 3相同的研究成果與技術架構構建。這意味著，開源社區獲得了與谷歌內部頂級閉源模型處于同一技術世代的推理能力。

這種“開源共享底層技術”的做法，在Gemma系列中一直延續，但在第四代上更進一步。Gemma 4在以下能力維度上實現提升：

? 高級推理（Advanced Reasoning）：支持多步規劃與深度邏輯鏈，在數學和指令遵循基準測試上表現顯著提升，不再止步于簡單對話，而是能夠處理復雜邏輯與Agent工作流。

? Agentic工作流原生支持：內置函數調用（function-calling）、結構化JSON輸出、原生系統指令，使開發者能夠直接構建自主智能體，與外部工具和API可靠交互并執行完整工作流。

? 高質量離線代碼生成：將本地工作站轉變為本地優先的AI編程助手。

? 多模態原生：全部模型原生處理視頻和圖像，支持可變分辨率輸入，在OCR和圖表理解等視覺任務上表現突出。E2B和E4B還支持原生音頻輸入。

? 超長上下文：邊緣模型支持128K上下文窗口，大模型最高支持256K，可在單次提示中處理代碼倉庫或長篇文檔。

? 140+語言原生訓練：原生支持超過140種語言，覆蓋全球用戶群體。

Gemma 4的另一層重大信號，在于其許可證選擇——Apache 2.0。

此前Gemma系列采用的條件性許可協議曾引發社區持續爭論。此次轉向Apache 2.0——業界最寬松、對商業用途最友好的開源許可證之一——意味著開發者獲得了完全的數據主權、基礎設施控制權和模型控制權，可在本地或云端自由構建和部署。

“Gemma 4以Apache 2.0許可證發布是一個巨大的里程碑。我們非常激動能在發布首日就在Hugging Face上支持Gemma 4家族。”Clément Delangue，Hugging Face聯合創始人兼CEO表示。

谷歌官方在博文中明確表示，這一變化直接回應了開發者社區的反饋：“構建AI的未來需要協作方式，我們相信在不設限制性障礙的情況下賦能開發者生態系統。”

或許，對谷歌來說，許可證變更意味著一次戰略定位的調整。當Meta的Llama系列已經以寬松許可占據開源生態心智時，谷歌如果繼續在許可條款上設限，只會加速開發者向競品生態遷移。Apache 2.0是參與開源競爭的“入場券”，而非“加分項”。

從邊緣到云端：端側AI的“填滿”攻勢

Gemma 4最值得產業界關注的戰略動作，可能是其邊緣側布局。

E2B和E4B從底層為計算與內存效率而設計，推理時僅分別激活20億和40億參數，以保護設備的RAM和電池壽命。谷歌Pixel團隊與高通（Qualcomm）、聯發科（MediaTek）深度合作，使這些多模態模型能在手機、樹莓派、NVIDIA Jetson Orin Nano等設備上完全離線運行，且延遲接近于零。

端側生態整合要點：

? Android開發者可通過AICore Developer Preview進行Agent流程原型設計，與未來的Gemini Nano 4保持向前兼容。 ? Android Studio中可驅動Agent Mode進行應用開發。 ? ML Kit GenAI Prompt API支持生產級Android應用構建。 ? Google AI Edge Gallery提供E4B和E2B的即時體驗入口。

這釋放了一個明確的信號：谷歌正在將端側AI從“實驗品”推向“基礎設施”。當4B參數級別模型能夠在手機端實現多模態推理、OCR、語音識別，且完全離線運行，“云端依賴”便不再是AI能力的必要前提。結合256K上下文窗口的處理能力，“長文檔本地分析”“離線代碼審查”等場景將從概念走向日常。

在發布首日，Gemma 4就獲得了主流AI工具鏈的全面支持，這在開源模型發布史上并不多見：

從Hugging Face到NVIDIA NIM，從Apple MLX到AMD ROCm，從Docker到Google Cloud——Gemma 4的部署路徑覆蓋了消費級硬件、企業級基礎設施和三大云平臺。值得注意的是，谷歌還提供了Kaggle上的“Gemma 4 Good Challenge”競賽，鼓勵開發者利用該模型構建有社會影響力的應用，延續Gemma系列的社區運營傳統。

自第一代發布以來，Gemma系列累計下載量已超過4億次，衍生變體超過10萬個。Apache 2.0許可之下，這一生態有望在第四代上實現更大幅度的擴張。

開源模型進入“效率競賽”階段

Gemma 4的發布，使開源大模型競爭進入了一個新階段——“效率競賽”取代“規模競賽”成為核心敘事。

當26B A4B MoE模型能以38億激活參數擊敗參數量數百倍的競品，“參數效率”（intelligence-per-parameter）成為衡量開源模型價值的新標尺。這不僅是工程能力的體現，更是商業策略的選擇：在消費級硬件上實現前沿推理能力，意味著更低的部署成本、更快的推理速度、更廣泛的適用場景。

與閉源模型不同，開源模型的競爭邏輯天然是多維的——許可證寬松度、硬件適配廣度、社區生態活躍度、微調友好度，每一項都可能成為決定勝負的關鍵變量。Gemma 4在Apache 2.0許可、四規格矩陣、140+語言覆蓋、首日工具鏈全支持上的組合拳，顯然是經過精密計算的戰略布局。

對于中國開發者而言，Gemma 4的256K上下文窗口和原生中文支持（140+語言包含中文），配合Apache 2.0的完全自由部署權，意味著在國內合規框架下也有本地化落地的技術空間。

Gemma 4的發布不是一次簡單的模型更新，而是開源AI領域的一次結構性位移。當端側4B參數模型能夠處理多模態、語音、長上下文任務，當307億參數模型可以在單張H100上運行且躋身開源排行榜前三，“本地AI”與“云端AI”的能力邊界正在被重新定義。

谷歌選擇了同時開放所有模型權重、擁抱Apache 2.0、覆蓋從手機到云端的全硬件棧——這種“全棧開源”策略，既是對Meta Llama系列和Mistral等開源競品的正面回應，也是對“閉源才能維持技術壁壘”這一傳統認知的直接挑戰。

開源模型的下一個臨界點，或許不再是“誰參數更大”，而是“誰在更小的體積內裝進了更多的智能”。Gemma 4給出的答案，至少在今天是：byte for byte，它是目前最強的。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.