<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      編碼新王登基!Gemini 3.1 Pro 血洗 Claude 與 GPT,12 項基準測試第一!

      0
      分享至


      作者|冬梅

      核心能力全面下放,

      多端同步上線

      在上周發布Gemini 3 Deep Think重大更新、面向科學研究與工程領域復雜問題之后,谷歌今日正式推出支撐這些突破的“核心智能”升級版本——Gemini 3.1 Pro

      Gemini 3.1 Pro 是一款采用混合專家架構的 Transformer 模型,這意味著它在生成提示響應時僅激活部分參數。用戶可輸入包含高達 100 萬 token 數據量的提示詞,內容不僅涵蓋文本,還包括視頻等多模態文件。Gemini 3.1 Pro 的響應輸出最多包含 6.4 萬 token。

      這意味著,Gemini 3 系列的最新能力不再只停留在研究層面,而是開始全面進入開發者工具、企業服務以及普通用戶的日常應用場景。


      根據官方披露,Gemini 3.1 Pro 已于今日開始分批上線,覆蓋對象包括開發者、企業客戶以及普通消費者:


      • 開發者:可通過 Gemini API(Google AI Studio)、Gemini CLI、智能體開發平臺Google Antigravity以及 Android Studio 預覽使用;

      • 企業用戶:通過Vertex AI和 Gemini Enterprise 接入;

      • 消費者:可在 Gemini App 及NotebookLM中直接體驗。


      谷歌方面表示,此次“全線鋪開”的策略,旨在將最新一代推理能力快速融入實際工作流與個人使用場景,而不僅僅停留在實驗室或演示階段。

      推理表現翻倍、

      12 項基測排名第一

      從技術定位來看,Gemini 3.1 Pro 并非簡單的性能微調,而是一次核心推理能力(core reasoning)的系統性升級。官方將其描述為“更聰明、更具能力的基礎模型”,尤其適用于復雜問題求解、跨領域分析以及需要抽象邏輯的任務。

      這一進步也體現在權威評測成績上。在 ARC-AGI-2 基準測試中,Gemini 3.1 Pro 獲得了 77.1% 的經驗證成績。該測試專門用于評估模型在從未見過的新邏輯模式下的泛化與推理能力。它包含多個視覺謎題,每個謎題均由一系列圖形組成。構成謎題的圖形在設計上各不相同,但都遵循特定規律。大語言模型必須推斷出該規律,并利用其生成新的圖形。


      這一分數是 Gemini 3 Pro 推理表現的兩倍以上。在當前大模型競爭格局中,ARC-AGI 系列被視為衡量“類通用智能推理能力”的重要指標之一,這一成績也意味著 Gemini 3.1 Pro 在抽象推理與新問題適應能力上邁出了關鍵一步。

      值得注意的是,人類參與者在該測試中的平均正確率約為 60%。前陣子發布的 Gemini Deep Think 以 84.6% 的準確率遙遙領先其他模型。


      雖然 Gemini 3.1 Pro 在得分上低于 Gemini Deep Think,但這是一款基礎模型,并且它向所有用戶免費開放。而具備“深度思考”能力的 Deep Think 模式屬于更高維度的技術突破,目前僅限 Google AI Ultra 訂閱用戶使用,且每日限用 10 次。

      能讓開發者免費體驗能力如此強的 Gemini 3.1 Pro,谷歌已經很大方了。

      再來橫向比較下 Gemini 3.1 Pro 與其他模型:Claude Opus 4.6 達到 68.8%,Claude Sonnet 4.6 為 58.3%,GPT-5.2 獲得 52.9%,而上一代產品 Gemini 3 Pro 僅得到 31.1%。短短三個月時間,同一系列模型的閉卷推理能力就從 31.1% 躍升至 77.1%,實現了翻倍以上的跨越式提升。

      谷歌官方公布了 16 項基準測試數據,Gemini 3 Pro 在其中12 項基測中均位列第一。

      在評估 AI 模型使用第三方服務執行任務能力的 MCP Atlas 測試中,Gemini 3 Pro 以 69.2% 的成績領先于最近剛發布的 Claude Sonnet 4.6,在編程測試 Terminal-Bench 2.0 中,Gemini 3 Pro 編碼能力高于 Opus 4.6、GPT-5.2。在另一項包含科學編程任務的代碼基準測試 SciCode 上,該模型的表現比 Claude Opus 4.6 高出 7%。


      從發布節奏來看,谷歌正在嘗試將前沿研究成果更快轉化為“默認可用”的基礎能力。先通過 Deep Think 展示在科學與工程問題上的上限,再通過 3.1 Pro 將這些能力沉淀為更穩定、更通用的底座模型,并迅速推向 API、企業平臺和消費級應用。

      智能的實際應用

      Gemini 3.1 Pro 面向那些“給出一個簡單答案遠遠不夠”的任務而設計,它將高級推理能力轉化為可用于解決最棘手問題的實用智能。升級后的智能水平能夠在多種現實場景中發揮作用——無論是將復雜主題以清晰、直觀的方式呈現出來,還是把分散的數據綜合成一個統一視圖,亦或是推動一個富有創造力的項目從構想走向落地。

      為了說明其潛在用途,Gemini 團隊指出,該模型可以創建可用于網站的 SVG 動畫,還可以將小說的文學風格轉化為個人作品集網站的設計。

      基于代碼的動畫生成:Gemini 3.1 Pro 可以直接根據文本提示生成可直接用于網站的動態 SVG 動畫。由于這些動畫完全由代碼構建,而非像素渲染,因此在任何縮放比例下都能保持清晰銳利,同時相比傳統視頻格式,文件體積小得多,極大降低了加載和分發成本。

      復雜系統綜合: 利用先進的推理能力,彌合了復雜 API 與用戶友好型設計之間的鴻溝。在這一示例中,模型構建了一個實時航天儀表盤,成功配置并接入了一條公共遙測數據流,用于可視化International Space Station的軌道運行情況。

      交互式設計:Gemini 3.1 Pro 能夠編寫復雜的3D 椋鳥群舞(murmuration)模擬代碼。它不僅生成視覺層面的代碼,還構建了一個沉浸式體驗:用戶可以通過手部追蹤來操控鳥群,同時聆聽一段會隨著鳥群運動而動態變化的生成式配樂。對于研究人員和設計師而言,這為原型化多感官、強交互的界面提供了一種極具潛力的方式。

      創意編程:3.1 Pro 能夠將文學主題轉化為功能性代碼。當被要求為艾米莉·勃朗特的《呼嘯山莊》構建一個現代個人作品集網站時,該模型不僅概括了文本內容,更通過推理小說中的陰郁基調,設計出時尚的當代界面,最終創建出能捕捉主角神韻的網站。

      自去年 11 月推出 Gemini 3 Pro 以來,用戶反饋和技術進步共同推動了這一系列快速迭代。今天發布的 3.1 Pro 預覽版旨在驗證這些更新成果,并將在全面上線前繼續在智能體工作流等前沿領域進行深度優化。

      即日起,Gemini 應用中的 3.1 Pro 版本將向 Google AI Pro 和 Ultra 套餐用戶逐步開放,提供更優使用權限。3.1 Pro 現已獨家登陸 NotebookLM 平臺,面向 Pro 及 Ultra 用戶開放。開發者和企業用戶可通過 AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI 及 Android Studio 等渠道,在 Gemini API 中搶先體驗 3.1 Pro 預覽版。

      去年 9 月加盟谷歌 DeepMind 的清華物理系知名研究者姚順宇(Shunyu Yao)在 x 上發帖稱,更強的模型也將很快亮相。


      在公司 2025 年第四季度收益報告中,首席執行官 Sundar Pichai 表示:“我們的第一方模型,如 Gemini,現在通過客戶直接使用 API,每分鐘處理超過 100 億個 token,Gemini App 的月活躍用戶已增長到超過 7.5 億。”

      網友:谷歌重回巔峰

      隨著 Gemini 3.1 Pro 正式上線,圍繞這次更新的討論迅速在技術社區中展開。與以往大模型發布時對“參數規模”“模型體量”的高度關注不同,不少網友認為,這一版本釋放出的關鍵信號,并不在于“更大”,而在于整體推理能力和復雜問題求解能力的持續上推。

      有開發者指出,Gemini 3.1 Pro 的定位非常明確:不再單純追求模型規模的擴張,而是更強調在真實任務中的完成度和穩定性。這也被視為當前頭部大模型競爭的一個重要轉折點——競爭焦點正在從“誰的參數更多”,轉向“誰能把問題真正做完、做好”。

      在 x 上,該開發者表示:

      “Gemini 3.1 Pro 上線了,重點不是更大,而是把整體推理和復雜問題求解能力繼續往上推。這波信號很明確:頭部模型競爭正在從參數規模,轉向真實任務完成率。”


      與此同時,還有網友系統梳理了谷歌近年來模型更新的時間線,直言人工智能的發展節奏已經進入“以月甚至以周計”的階段。在這樣的背景下,谷歌已難以承受過長的更新間隔。

      Gemini 3.1 專業版在較短時間內推出,被解讀為谷歌對這一現實壓力的直接回應:必須持續、快速地將核心能力推向市場。


      成本與落地能力同樣成為討論的焦點。有網友特別提到,Gemini 3.1 Pro 在降低使用成本的同時提升智能水平,這種優化路徑對于推動 AI 在生產環境中的應用尤為關鍵。在他們看來,人工智能的前沿價值并不僅體現在基準測試成績上,更體現在這些能力能否被開發者社區輕松獲取、快速部署,并穩定運行于真實業務中。

      綜合這些反饋可以看出,Gemini 3.1 Pro 的發布,已經不只是一次常規的模型升級,而更像是一次方向性的表態:在大模型逐漸走向成熟的階段,真正決定勝負的,將是推理能力、工程可用性以及規模化落地的綜合表現。


      https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

      https://www.ai.jp.net/article/google-s-gemini-3-1-pro-a-new-reasoning-champion-c710f5

      https://x.com/ShunyuYao14

      https://deepmind.google/models/gemini/pro/

      聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

      會議推薦

      InfoQ 2026 全年會議規劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業落地,從技術前沿到行業應用,全面覆蓋 AI 與軟件開發核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業落地痛點,探索前沿領域、聚焦產業賦能,獲取實戰落地方案與前瞻產業洞察,高效實現技術價值轉化。把握行業變革關鍵節點,搶占 2026 智能升級發展先機!

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      危險,危險,超級、超級、超級大利空來襲!

      危險,危險,超級、超級、超級大利空來襲!

      價值事務所所長
      2026-03-28 21:00:19
      觀戰一個月,胡塞武裝出手了

      觀戰一個月,胡塞武裝出手了

      樞密院十號
      2026-03-29 14:29:08
      原來精神小妹的生活方式這么離譜!看完網友分享,大開眼界了

      原來精神小妹的生活方式這么離譜!看完網友分享,大開眼界了

      另子維愛讀史
      2026-03-02 19:55:07
      中國斬釘截鐵,就是要日本賠罪,軍官侵館第4天,防衛大臣行動了

      中國斬釘截鐵,就是要日本賠罪,軍官侵館第4天,防衛大臣行動了

      老謝談史
      2026-03-29 01:20:29
      何鴻燊是個謎!2009年,88歲何鴻燊各臟器就已衰竭

      何鴻燊是個謎!2009年,88歲何鴻燊各臟器就已衰竭

      果媽聊娛樂
      2026-03-26 10:00:16
      魯尼:以目前的表現來看,英格蘭10號更應該屬于摩根-羅杰斯

      魯尼:以目前的表現來看,英格蘭10號更應該屬于摩根-羅杰斯

      懂球帝
      2026-03-29 10:30:46
      細思極恐!張雪峰8個月前悄悄和母校告別,幼兒園到中學都走一遍

      細思極恐!張雪峰8個月前悄悄和母校告別,幼兒園到中學都走一遍

      火山詩話
      2026-03-28 06:05:06
      美國最擔心的事發生了,伊朗亮出中國“底牌”,中國或成最大贏家

      美國最擔心的事發生了,伊朗亮出中國“底牌”,中國或成最大贏家

      徐云流浪中國
      2026-03-04 15:30:07
      離婚是68歲鄧婕一生的痛,繼子不爭氣,養女卻越來越像丈夫!

      離婚是68歲鄧婕一生的痛,繼子不爭氣,養女卻越來越像丈夫!

      青橘罐頭
      2026-03-26 17:45:28
      香港馬拉松:阿Sa臉饅化,黃曉明白又嫩 林志玲被嘲做作

      香港馬拉松:阿Sa臉饅化,黃曉明白又嫩 林志玲被嘲做作

      白面書誏
      2026-03-26 18:12:50
      中國丈母娘把豪華別墅花園改成菜地,洋女婿回來后懵了…

      中國丈母娘把豪華別墅花園改成菜地,洋女婿回來后懵了…

      愛下廚的阿釃
      2026-03-29 12:11:09
      藍莓再次被關注?研究發現:藍莓或可在30小時內清除體內45%因子

      藍莓再次被關注?研究發現:藍莓或可在30小時內清除體內45%因子

      垚垚分享健康
      2026-03-29 11:55:24
      日軍躲在炮樓內,八路軍久攻不下,一老農路過卻稱:簡單,讓我來

      日軍躲在炮樓內,八路軍久攻不下,一老農路過卻稱:簡單,讓我來

      云霄紀史觀
      2026-03-28 18:23:14
      西路軍失敗是“借刀殺人”?長文深入分析西路軍失敗的真正原因

      西路軍失敗是“借刀殺人”?長文深入分析西路軍失敗的真正原因

      阿胡
      2025-02-13 12:47:19
      湖人87-109大勝助西部三隊受益,火箭重獲主動權

      湖人87-109大勝助西部三隊受益,火箭重獲主動權

      余蹮搞笑段子
      2026-03-29 08:58:56
      42集諜戰大劇來襲,僅播出3集,收視熱度全線領跑,全劇實力派

      42集諜戰大劇來襲,僅播出3集,收視熱度全線領跑,全劇實力派

      樂楓電影
      2026-03-29 14:50:41
      “擦邊”的世界冠軍吳柳芳,終于還清了債

      “擦邊”的世界冠軍吳柳芳,終于還清了債

      冰川思想庫
      2026-03-27 11:33:25
      終身追殺令生效,什葉派出終極殺招,特朗普與內塔尼亞胡無處可逃

      終身追殺令生效,什葉派出終極殺招,特朗普與內塔尼亞胡無處可逃

      小舟談歷史
      2026-03-08 08:00:04
      特朗普突然夸中國工廠,美國政客集體閉嘴,這波到底在演哪出?

      特朗普突然夸中國工廠,美國政客集體閉嘴,這波到底在演哪出?

      靜水流深003
      2026-03-29 14:43:04
      接連兩天 兩個大三甲醫院黨委書記猝死

      接連兩天 兩個大三甲醫院黨委書記猝死

      醫脈圈
      2026-03-27 20:36:17
      2026-03-29 16:15:00
      AI前線 incentive-icons
      AI前線
      面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
      1395文章數 143關注度
      往期回顧 全部

      數碼要聞

      用戶稱M5 Max MacBook Pro在運行AI工作負載時固態硬盤溫度失控

      頭條要聞

      美軍地面戰"數周速決"方案披露 欲復刻"42天滅伊"神話

      頭條要聞

      美軍地面戰"數周速決"方案披露 欲復刻"42天滅伊"神話

      體育要聞

      絕殺衛冕冠軍后,他單手指天把勝利獻給父親

      娛樂要聞

      張凌赫事件持續升級!官方點名怒批

      財經要聞

      Kimi、Minimax 們的算力荒

      科技要聞

      馬斯克承認xAI"建錯了",11位創始人均離職

      汽車要聞

      嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

      態度原創

      藝術
      健康
      旅游
      數碼
      公開課

      藝術要聞

      2025江南如畫——中國油畫作品展 | 入選作品選刊(二)

      干細胞抗衰4大誤區,90%的人都中招

      旅游要聞

      億縷陽光|豫見河南

      數碼要聞

      OPPO Pad mini打造小屏旗艦巔峰!搭載 8.8 英寸 2.8K 高刷屏+驍龍 8 Gen5

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版