![]()
凌晨兩點刷到這條推送時,我正躺在床上給手機充電——而谷歌說,以后這種場景下,我的手機可能根本不需要聯(lián)網(wǎng)就能跑一個40億參數(shù)的大模型。
Gemma 4 來了。谷歌給它定了調:"迄今為止最智能的開放模型系列"。四個規(guī)格,從 Effective 2B 到 31B 稠密模型,全部 Apache 2.0 開源,商用隨便改。
最耐人尋味的是命名里的那個"E"。E2B、E4B,E 代表 Effective(有效參數(shù))。打個比方:這就像一家餐廳宣傳"人均消費50元",但進店才發(fā)現(xiàn),后廚其實囤了夠500人吃的食材,只是每桌只給你上50元的量。PLE 技術讓每層解碼器給每個 token 配獨立小嵌入,內(nèi)存占用比表面數(shù)字高,但推理時只激活標稱參數(shù)。
![]()
26B MoE 更像個精打細算的會計:260億參數(shù)全住進顯存,干活時只叫醒38億。速度保住了,知識儲備也沒丟。谷歌 DeepMind 的人管這叫"單位參數(shù)智能"的壓榨——31B 版本目前在開源榜單排第三,對手是參數(shù)大它20倍的模型。
多模態(tài)這次沒掉隊。E2B、E4B 原生支持視頻音頻輸入,所有型號都能看圖說話,上下文窗口拉到128K-256K。系統(tǒng)提示詞內(nèi)置了,函數(shù)調用原生支持,140多種語言。前幾代 Gemma 做 Agent 還得開發(fā)者自己搭橋,現(xiàn)在出廠就是 Agent Ready。
有網(wǎng)友測完說 Qwen3.5-27B 略勝一籌,但另一條評論戳中了痛點:"四種尺寸全為 Agent 準備,全都能本地跑。我們喊了多久'別每次思考都傳云端',他們終于聽見了,而且給得比預期多。"
![]()
谷歌列了張內(nèi)存需求表,但藏著腳注:官方數(shù)字只算靜態(tài)權重,框架開銷、KV Cache、微調時的批量大小,都是額外賬單。26B MoE 看著像4B的用量,實際顯存胃口接近稠密26B——畢竟260億參數(shù)得先全部請進內(nèi)存,才能決定叫醒哪38億。
部署渠道鋪得很滿:Hugging Face、Ollama、llama.cpp、手機上的 AICore Preview……從 Jetson Nano 到 Blackwell GPU,從 AMD ROCm 到谷歌 TPU。Constellation Research 的分析師說,這適合"對數(shù)字主權有較高要求"的場景——翻譯過來就是:數(shù)據(jù)不想出境的人,終于有體面的選擇了。
我在 Hugging Face 的模型卡頁面停了一會兒。底下有條剛發(fā)的討論:"測試了 E2B 在 Pixel 上的延遲,基本無感。"發(fā)帖時間是凌晨三點十四分,和我這邊差不多。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.