網易首頁 > 網易號 > 正文申請入駐

剛剛，谷歌祭出迄今最前沿模型 Gemini 3 Flash！編程能力上反超 Gemini 3 Pro，且更快更便宜

2025-12-18 02:17:05　來源: AI前線

北京舉報

分享至

　　作者 | 冬梅

　　在大模型競賽進入“效率與規模并重”的新階段之際，谷歌正再次亮出王牌。

　　剛剛，谷歌發布最新模型 Gemini 3 Flash，據介紹，它擁有前沿智能，專為速度而生，可以幫助每個人更快地學習、構建和規劃任何事物。

　　早在模型發布前，Google AI Studio 開發者平臺和 Gemini API 產品負責人 Logan Kilpatrick 就在 X 上發布了一條只有三個閃電符號的推文，當時就有大批網友猜測這意味著谷歌即將發布主打速度至上的 Flash 版本模型。

　　果然，今晚谷歌 Gemini 3 Flash 模型如約而至。

　　谷歌發布其迄今最快 AI 模型

　　過去一年，從 Gemini 1.5到3.0，谷歌持續強化其在多模態、長上下文和推理能力上的技術縱深，同時也在不斷壓低模型調用成本，試圖在企業級應用和開發者生態中建立更具性價比的護城河。在這一背景下，主打高性能與低延遲的 Flash 系列被視為 Gemini 體系中最貼近真實業務場景的一條產品線。

　　隨著外界對“更快、更便宜、更易部署”的模型呼聲不斷升高，谷歌今晚發布的 Gemini Flash 3，也被普遍認為是其在推理效率和規模化落地層面的一次關鍵落子。

　　谷歌稱，從今天起，Gemini 3 Flash 將面向全球數百萬用戶推出：

　　適用于 Google AI Studio、Gemini CLI 和谷歌新的智能體開發平臺 Google Antigravity 中的 Gemini API 開發者

　　所有用戶均可通過 Gemini 應用和 AI 模式在搜索中使用。

　　適用于 Vertex AI 和 Gemini Enterprise 的企業

　　那么，這款模型性能到底怎樣呢？

　　谷歌在其官網介紹稱，Gemini 3 Flash 速度和規模無需以犧牲智能為代價。

　　它在博士級別的推理和知識基準測試（例如 GPQA Diamond 90.4%) 和 Humanity's Last Exam (33.7%，不使用工具）中均展現出前沿性能，足以媲美規模更大的前沿模型，并且在多項基準測試中顯著超越了目前最佳的2.5版本模型 Gemini 2.5 Pro。

　　具體而言，Gemini 3 Pro 在不使用任何工具的情況下獲得了33.7% 的分數，Gemini 3 Pro 的得分為37.5%，Gemini 2.5 Flash 的得分為11%，而最新發布的 GPT-5.2的得分為34.5%。

Humanity's Last Exam 各模型得分排行情況

　　此外，它在 MMMU Pro 測試中也取得了令人矚目的81.2% 的成績，與 Gemini 3 Pro 的性能相當。

　　
除了前沿的推理能力和多模態處理能力外，Gemini 3 Flash 的設計目標是極高的效率，突破質量、成本和速度之間的帕累托極限。在最高思維水平下進行處理時，Gemini 3 Flash 能夠靈活調整其思考時間。

　　性能優于 Gemini Pro 2.5，價格更低

　　對于更復雜的應用場景，它可能需要更長的思考時間，但根據典型流量的測試結果，它平均使用的 token 數量比2.5 Pro 少30%，從而以更高的性能更準確地完成日常任務。

Gemini 3 Flash 在性能、成本和速度方面突破了帕累托極限。

　　Gemini 3 Flash 的優勢在于其極快的速度，它基于 Flash 系列產品打造而成。其性能超越2.5 Pro，速度提升3倍（基于 Artificial Analysis 基準測試），而價格卻低得多。

　　在定價方面，Gemini 3 Flash 相比前幾代模型更具性價比。Gemini 3 Flash 的定價為每百萬個輸入 token 0.50美元，每百萬個輸出 token 3美元（音頻輸入價格仍為每百萬個輸入 token 1美元）。

　　這比 Gemini Flash 2.5的每百萬個輸入 token 0.30美元和每百萬個輸出 token 2.50美元略貴。但谷歌聲稱，新模型的性能優于 Gemini 2.5 Pro，速度更是其三倍。而且，在處理思維任務時，它平均比2.5 Pro 少用30% 的 token。這意味著，總體而言，在某些任務中，用戶可能會節省 token 數量。

　　在編程性能上，Gemini 3 Flash 擁有 Gemini 3專業級的編碼性能，同時延遲極低——能夠在高頻工作流程中快速推理和解決任務。

　　在用于評估編碼代理能力的基準測試 SWE-bench Verified 中，Gemini 3 Flash 的得分高達78%，不僅超越了2.5系列，甚至超越了 Gemini 3 Pro。它在代理編碼、生產就緒系統和響應式交互式應用程序之間實現了理想的平衡。

　　Gemini 3 Flash 在推理、工具使用和多模態功能方面的強大性能，非常適合希望進行更復雜的視頻分析、數據提取和視覺問答的開發人員，這意味著它可以實現更智能的應用——例如游戲助手或 A/B 測試實驗——這些應用既需要快速的答案，也需要深入的推理。

Gemini 3 Flash 能夠在手部追蹤的“發射球益智游戲”中實現多模態推理，提供近乎實時的AI輔助。

Gemini 3 Flash 可以近乎實時地構建和 A/B 測試新的加載旋轉器設計，從而簡化從設計到編碼的過程。

Gemini 3 Flash 使用多模態推理來分析圖像并添加上下文 UI 疊加層，幾乎可以實時地將靜態圖像轉換為交互式體驗。

Gemini3 Flash 接受一條指令提示，并編碼三種獨特的設計變體。

　　此外，值得一提的是，Gemini 3 Flash 也開始作為搜索中 AI 模式的默認模型推出，全球用戶均可使用。

　　基于 Gemini 3 Pro 的推理能力，Gemini 3 Flash 的 AI 模式能夠更有效地解析用戶問題的細微差別。它會考慮用戶查詢的每一個方面，提供周全且易于理解的答案——從網絡各處提取實時本地信息和實用鏈接。最終，它能有效地將研究與即時行動相結合：用戶將獲得一份條理清晰、條理分明的分析報告以及具體的建議——速度堪比搜索。

　　谷歌方面表示，其將 Gemini Flash 的定位更偏向于“主力機型”，而非高端展示型模型。

　　Gemini Models 高級總監兼產品負責人 Tulsee Doshi 在接受 TechCrunch 簡報時指出，如果對比價格表中輸入和輸出的定價，可以明顯看到 Flash 在成本上要低得多，這使其更適合承擔大規模、批量化的任務處理需求，能夠切實幫助企業降低使用門檻和整體成本。

　　自 Gemini 3發布以來，谷歌在其 API 上的處理規模迅速放大，目前每日處理的 token 數量已超過1萬億個。

　　同時，谷歌也正與 OpenAI 展開一場圍繞新品發布節奏和模型性能的正面競爭。

　　有報道稱，本月初，隨著谷歌在消費者市場的份額上升，ChatGPT 的整體訪問量出現下滑，OpenAI CEO Sam Altman 因此向內部團隊發出了一份被稱為“紅色警報”的備忘錄。

　　隨后，OpenAI 接連發布了 GPT-5.2以及一款新的圖像生成模型，并強調其企業級應用需求持續增長。OpenAI 還披露，自2024年11月以來，ChatGPT 的消息量已增長約8倍。

　　盡管谷歌并未直接回應與 OpenAI 之間的競爭關系，但其認為，新模型的密集發布正在推動整個行業加速前進。

　　“目前整個行業的狀態是，各類模型都在快速演進，相互競爭、不斷突破性能邊界，”Doshi 表示，“同樣令人印象深刻的是，各家公司都在非常積極地推出新模型。”

　　她同時提到，谷歌也在持續引入新的基準測試體系和模型評估方法，這一趨勢本身也讓團隊對行業的發展感到振奮。

　　網友評價如何？

　　谷歌新模型發布后在全球引發了熱烈討論。在 X 和 Reddit 等平臺上，大量開發者與技術愛好者對 Gemini 系列模型，特別是 Flash 版本，表達了多元觀點。

　　在X上，有些用戶使用過Gemini 3 Flash后認為Stagehand Agent 上它的準確度幾乎與 Gemini 3 Pro 不相上下，但價格更低，速度更快。

　　Browserbase 創始人 Paul Klein IV 在 X 上發文稱，他們提前獲得了 Gemini Flash 的訪問權限，當真正用起它的那一刻，我們就驚呆了。他感慨道：

　　“Stagehand Agent 的準確度幾乎與 Gemini 3 Pro 不相上下，但價格更低，速度更快。“

　　在 Reddit 上，不禁有用戶感嘆，真是太瘋狂了！

　　還有用戶表示從沒見過能力這么強的輕量級模型。

　　但也有用戶指出，基準測試的成績，并不能說明在真實場景中表現同樣出色。

“因為基準測試的成績，并不能很好地對應真實使用場景。尤其是在實際應用中，使用場景往往非常多樣，也遠比那些單輪對話的基準測試樣本復雜得多。坦率地說，看到 Flash 這種定位更輕量的模型在評分上“擊敗” Pro 版本，反而讓我對這種為了刷基準分數的做法產生了懷疑。尤其是最近幾周，我一直在同時使用 Gemini 3 Pro 和 Opus 4.5，這兩款模型本身都非常出色。但如果只看基準測試，Gemini 理應整體表現更強，可在實際使用中它卻一次次讓我失望；相反，Opus 4.5卻不斷帶來驚喜。”

　　還有用戶認為，谷歌最近幾次發布已經充分彰顯了行業領頭羊地位，OpenAI 似乎已經被拍在沙灘上了。

　　https://techcrunch.com/2025/12/17/google-launches-gemini-3-flash-makes-it-the-default-model-in-the-gemini-app/

　　https://blog.google/products/search/google-ai-mode-update-gemini-3-flash/

　　https://blog.google/products/gemini/gemini-3-flash/

　　聲明：本文為 AI前線整理，不代表平臺觀點，未經許可禁止轉載。

　　AI 重塑組織的浪潮已至，Agentic 企業時代正式開啟！當 AI 不再是單純的輔助工具，而是深度融入業務核心、驅動組織形態與運作邏輯全面革新的核心力量。

　　把握行業變革關鍵節點，12月19日 - 20日，AICon 全球人工智能開發與應用大會（北京站）即將重磅啟幕！本屆大會精準錨定行業前沿，聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新，邀您共同深入探討：如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統，讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。

　　今日薦文

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.