<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      編碼新王登基!Gemini 3.1 Pro 血洗 Claude 與 GPT,12 項基準測試第一!

      0
      分享至


      作者|冬梅

      1 核心能力全面下放,多端同步上線

      在上周發布Gemini 3 Deep Think重大更新、面向科學研究與工程領域復雜問題之后,谷歌今日正式推出支撐這些突破的“核心智能”升級版本——Gemini 3.1 Pro

      Gemini 3.1 Pro 是一款采用混合專家架構的 Transformer 模型,這意味著它在生成提示響應時僅激活部分參數。用戶可輸入包含高達 100 萬 token 數據量的提示詞,內容不僅涵蓋文本,還包括視頻等多模態文件。Gemini 3.1 Pro 的響應輸出最多包含 6.4 萬 token。

      這意味著,Gemini 3 系列的最新能力不再只停留在研究層面,而是開始全面進入開發者工具、企業服務以及普通用戶的日常應用場景。


      根據官方披露,Gemini 3.1 Pro 已于今日開始分批上線,覆蓋對象包括開發者、企業客戶以及普通消費者:

      • 開發者:可通過 Gemini API(Google AI Studio)、Gemini CLI、智能體開發平臺Google Antigravity以及 Android Studio 預覽使用;
      • 企業用戶:通過Vertex AI和 Gemini Enterprise 接入;
      • 消費者:可在 Gemini App 及NotebookLM中直接體驗。

      谷歌方面表示,此次“全線鋪開”的策略,旨在將最新一代推理能力快速融入實際工作流與個人使用場景,而不僅僅停留在實驗室或演示階段。

      2 推理表現翻倍、12 項基測排名第一

      從技術定位來看,Gemini 3.1 Pro 并非簡單的性能微調,而是一次核心推理能力(core reasoning)的系統性升級。官方將其描述為“更聰明、更具能力的基礎模型”,尤其適用于復雜問題求解、跨領域分析以及需要抽象邏輯的任務。

      這一進步也體現在權威評測成績上。在 ARC-AGI-2 基準測試中,Gemini 3.1 Pro 獲得了 77.1% 的經驗證成績。該測試專門用于評估模型在從未見過的新邏輯模式下的泛化與推理能力。它包含多個視覺謎題,每個謎題均由一系列圖形組成。構成謎題的圖形在設計上各不相同,但都遵循特定規律。大語言模型必須推斷出該規律,并利用其生成新的圖形。


      這一分數是 Gemini 3 Pro 推理表現的兩倍以上。在當前大模型競爭格局中,ARC-AGI 系列被視為衡量“類通用智能推理能力”的重要指標之一,這一成績也意味著 Gemini 3.1 Pro 在抽象推理與新問題適應能力上邁出了關鍵一步。

      值得注意的是,人類參與者在該測試中的平均正確率約為 60%。前陣子發布的 Gemini Deep Think 以 84.6% 的準確率遙遙領先其他模型。


      雖然 Gemini 3.1 Pro 在得分上低于 Gemini Deep Think,但這是一款基礎模型,并且它向所有用戶免費開放。而具備“深度思考”能力的 Deep Think 模式屬于更高維度的技術突破,目前僅限 Google AI Ultra 訂閱用戶使用,且每日限用 10 次。

      能讓開發者免費體驗能力如此強的 Gemini 3.1 Pro,谷歌已經很大方了。

      再來橫向比較下 Gemini 3.1 Pro 與其他模型:Claude Opus 4.6 達到 68.8%,Claude Sonnet 4.6 為 58.3%,GPT-5.2 獲得 52.9%,而上一代產品 Gemini 3 Pro 僅得到 31.1%。短短三個月時間,同一系列模型的閉卷推理能力就從 31.1% 躍升至 77.1%,實現了翻倍以上的跨越式提升。

      谷歌官方公布了 16 項基準測試數據,Gemini 3 Pro 在其中12 項基測中均位列第一。

      在評估 AI 模型使用第三方服務執行任務能力的 MCP Atlas 測試中,Gemini 3 Pro 以 69.2% 的成績領先于最近剛發布的 Claude Sonnet 4.6,在編程測試 Terminal-Bench 2.0 中,Gemini 3 Pro 編碼能力高于 Opus 4.6、GPT-5.2。在另一項包含科學編程任務的代碼基準測試 SciCode 上,該模型的表現比 Claude Opus 4.6 高出 7%。


      從發布節奏來看,谷歌正在嘗試將前沿研究成果更快轉化為“默認可用”的基礎能力。先通過 Deep Think 展示在科學與工程問題上的上限,再通過 3.1 Pro 將這些能力沉淀為更穩定、更通用的底座模型,并迅速推向 API、企業平臺和消費級應用。

      3 智能的實際應用

      Gemini 3.1 Pro 面向那些“給出一個簡單答案遠遠不夠”的任務而設計,它將高級推理能力轉化為可用于解決最棘手問題的實用智能。升級后的智能水平能夠在多種現實場景中發揮作用——無論是將復雜主題以清晰、直觀的方式呈現出來,還是把分散的數據綜合成一個統一視圖,亦或是推動一個富有創造力的項目從構想走向落地。

      為了說明其潛在用途,Gemini 團隊指出,該模型可以創建可用于網站的 SVG 動畫,還可以將小說的文學風格轉化為個人作品集網站的設計。

      基于代碼的動畫生成:Gemini 3.1 Pro 可以直接根據文本提示生成可直接用于網站的動態 SVG 動畫。由于這些動畫完全由代碼構建,而非像素渲染,因此在任何縮放比例下都能保持清晰銳利,同時相比傳統視頻格式,文件體積小得多,極大降低了加載和分發成本。

      復雜系統綜合: 利用先進的推理能力,彌合了復雜 API 與用戶友好型設計之間的鴻溝。在這一示例中,模型構建了一個實時航天儀表盤,成功配置并接入了一條公共遙測數據流,用于可視化International Space Station的軌道運行情況。

      交互式設計:Gemini 3.1 Pro 能夠編寫復雜的3D 椋鳥群舞(murmuration)模擬代碼。它不僅生成視覺層面的代碼,還構建了一個沉浸式體驗:用戶可以通過手部追蹤來操控鳥群,同時聆聽一段會隨著鳥群運動而動態變化的生成式配樂。對于研究人員和設計師而言,這為原型化多感官、強交互的界面提供了一種極具潛力的方式。

      創意編程:3.1 Pro 能夠將文學主題轉化為功能性代碼。當被要求為艾米莉·勃朗特的《呼嘯山莊》構建一個現代個人作品集網站時,該模型不僅概括了文本內容,更通過推理小說中的陰郁基調,設計出時尚的當代界面,最終創建出能捕捉主角神韻的網站。

      自去年 11 月推出 Gemini 3 Pro 以來,用戶反饋和技術進步共同推動了這一系列快速迭代。今天發布的 3.1 Pro 預覽版旨在驗證這些更新成果,并將在全面上線前繼續在智能體工作流等前沿領域進行深度優化。

      即日起,Gemini 應用中的 3.1 Pro 版本將向 Google AI Pro 和 Ultra 套餐用戶逐步開放,提供更優使用權限。3.1 Pro 現已獨家登陸 NotebookLM 平臺,面向 Pro 及 Ultra 用戶開放。開發者和企業用戶可通過 AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI 及 Android Studio 等渠道,在 Gemini API 中搶先體驗 3.1 Pro 預覽版。

      去年 9 月加盟谷歌 DeepMind 的清華物理系知名研究者姚順宇(Shunyu Yao)在 x 上發帖稱,更強的模型也將很快亮相。


      在公司 2025 年第四季度收益報告中,首席執行官 Sundar Pichai 表示:“我們的第一方模型,如 Gemini,現在通過客戶直接使用 API,每分鐘處理超過 100 億個 token,Gemini App 的月活躍用戶已增長到超過 7.5 億。”

      4 網友:谷歌重回巔峰

      隨著 Gemini 3.1 Pro 正式上線,圍繞這次更新的討論迅速在技術社區中展開。與以往大模型發布時對“參數規模”“模型體量”的高度關注不同,不少網友認為,這一版本釋放出的關鍵信號,并不在于“更大”,而在于整體推理能力和復雜問題求解能力的持續上推。

      有開發者指出,Gemini 3.1 Pro 的定位非常明確:不再單純追求模型規模的擴張,而是更強調在真實任務中的完成度和穩定性。這也被視為當前頭部大模型競爭的一個重要轉折點——競爭焦點正在從“誰的參數更多”,轉向“誰能把問題真正做完、做好”。

      在 x 上,該開發者表示:

      “Gemini 3.1 Pro 上線了,重點不是更大,而是把整體推理和復雜問題求解能力繼續往上推。這波信號很明確:頭部模型競爭正在從參數規模,轉向真實任務完成率。”


      與此同時,還有網友系統梳理了谷歌近年來模型更新的時間線,直言人工智能的發展節奏已經進入“以月甚至以周計”的階段。在這樣的背景下,谷歌已難以承受過長的更新間隔。

      Gemini 3.1 專業版在較短時間內推出,被解讀為谷歌對這一現實壓力的直接回應:必須持續、快速地將核心能力推向市場。


      成本與落地能力同樣成為討論的焦點。有網友特別提到,Gemini 3.1 Pro 在降低使用成本的同時提升智能水平,這種優化路徑對于推動 AI 在生產環境中的應用尤為關鍵。在他們看來,人工智能的前沿價值并不僅體現在基準測試成績上,更體現在這些能力能否被開發者社區輕松獲取、快速部署,并穩定運行于真實業務中。

      綜合這些反饋可以看出,Gemini 3.1 Pro 的發布,已經不只是一次常規的模型升級,而更像是一次方向性的表態:在大模型逐漸走向成熟的階段,真正決定勝負的,將是推理能力、工程可用性以及規模化落地的綜合表現。


      https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

      https://www.ai.jp.net/article/google-s-gemini-3-1-pro-a-new-reasoning-champion-c710f5

      https://x.com/ShunyuYao14

      https://deepmind.google/models/gemini/pro/

      聲明:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。

      InfoQ 新年禮物上線啦!

      AI 快訊輪播推送正式上線,給你更優的閱讀體驗、更強的 AI 賦能、更懂 AI 行業的資訊檢索~我們會持續優化體驗,追求更深度的 AI 能力內化改造,歡迎大家體驗并反饋!立即前往 InfoQ 官網,體驗 AI 快訊帶來的全新閱讀感受吧!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      硬漢寧忠巖哭了!解說爆心酸事:他訓練之余,還得自己買菜和做飯

      硬漢寧忠巖哭了!解說爆心酸事:他訓練之余,還得自己買菜和做飯

      民哥臺球解說
      2026-02-20 03:10:10
      不查不知道一查嚇一跳,掌管少林寺38年的釋永信,私下到底多享受

      不查不知道一查嚇一跳,掌管少林寺38年的釋永信,私下到底多享受

      凡知
      2025-08-16 09:25:44
      幸福!樊振東大年初二飛抵浦東機場,德甲告假趕回國和家人歡度春節

      幸福!樊振東大年初二飛抵浦東機場,德甲告假趕回國和家人歡度春節

      818體育
      2026-02-19 22:28:29
      曼妙的身材:一副會呼吸的建筑

      曼妙的身材:一副會呼吸的建筑

      疾跑的小蝸牛
      2026-01-20 22:35:32
      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

      喜歡歷史的阿繁
      2026-02-07 14:21:17
      市委組織部公示后,林森已任福建一地正處級新職(附簡歷)

      市委組織部公示后,林森已任福建一地正處級新職(附簡歷)

      金臺資訊
      2026-02-20 11:30:10
      尹錫悅為何被判無期?他能否得到特赦?

      尹錫悅為何被判無期?他能否得到特赦?

      國際在線
      2026-02-19 23:42:02
      特朗普又改口了,警告英國不要“交出”查戈斯群島

      特朗普又改口了,警告英國不要“交出”查戈斯群島

      參考消息
      2026-02-19 12:12:34
      日內瓦會談跟伊朗局勢一樣沒看頭!特朗普的MAGA基本盤正在分裂

      日內瓦會談跟伊朗局勢一樣沒看頭!特朗普的MAGA基本盤正在分裂

      鷹眼Defence
      2026-02-19 16:56:34
      普京主動歸還北方四島,僅僅提出一個條件,為何日本不接受?

      普京主動歸還北方四島,僅僅提出一個條件,為何日本不接受?

      安珈使者啊
      2026-02-17 11:35:12
      AI上游再爆黑馬!電子布成新主線,4只龍頭誰最值得關注?

      AI上游再爆黑馬!電子布成新主線,4只龍頭誰最值得關注?

      呼呼歷史論
      2026-02-20 02:00:36
      湖南新化消防車墜崖,6名消防員犧牲,當地回應:當天參與民宅起火救援,事故原因正調查

      湖南新化消防車墜崖,6名消防員犧牲,當地回應:當天參與民宅起火救援,事故原因正調查

      大風新聞
      2026-02-20 10:58:07
      國米完敗之后面臨更大危局,四面楚歌中場只剩三名健康球員

      國米完敗之后面臨更大危局,四面楚歌中場只剩三名健康球員

      狗哥是一名內拉
      2026-02-19 15:04:34
      炸鍋!克洛普密會皇馬達成協議,利物浦核心被挖,卡馬文加成棄子

      炸鍋!克洛普密會皇馬達成協議,利物浦核心被挖,卡馬文加成棄子

      瀾歸序
      2026-02-20 09:24:15
      不可錯過!2月20日中午12:30比賽!中央5套CCTV5、CCTV5+直播表

      不可錯過!2月20日中午12:30比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-02-20 10:27:16
      “以為是六個博士,結果是六個送外賣的!”六個兒子征婚視頻火了

      “以為是六個博士,結果是六個送外賣的!”六個兒子征婚視頻火了

      寶哥精彩賽事
      2026-02-20 10:07:50
      6場比賽,5場硬仗!打東部第1,還要打西部第1,騎士面臨嚴峻考驗

      6場比賽,5場硬仗!打東部第1,還要打西部第1,騎士面臨嚴峻考驗

      一登侃球
      2026-02-19 16:20:59
      打東部前四7勝2負!活塞絕非偽強隊 最佳戰績助力坎寧安沖MVP

      打東部前四7勝2負!活塞絕非偽強隊 最佳戰績助力坎寧安沖MVP

      夢憶之淺
      2026-02-20 12:26:48
      離了!鄭鈞清空劉蕓動態,兒子撫養權引爭議,離婚或與張云龍有關

      離了!鄭鈞清空劉蕓動態,兒子撫養權引爭議,離婚或與張云龍有關

      八卦王者
      2026-02-17 13:10:52
      美國保鏢重慶擺擂,揚言打敗所有華人,一老頭跳上臺:我一掌贏你

      美國保鏢重慶擺擂,揚言打敗所有華人,一老頭跳上臺:我一掌贏你

      李哥三觀很正
      2024-08-18 12:56:18
      2026-02-20 13:03:00
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12066文章數 51757關注度
      往期回顧 全部

      數碼要聞

      4.769 GHz!AMD Radeon RX 9060 XT刷新顯卡超頻紀錄

      頭條要聞

      《驚蟄無聲》展示國安干警工作模式 專家回應泄密擔憂

      頭條要聞

      《驚蟄無聲》展示國安干警工作模式 專家回應泄密擔憂

      體育要聞

      寧忠巖4年從第7到摘金,刷新奧運紀錄

      娛樂要聞

      蘇翊鳴奪金朱易示愛,兩人默契引熱議

      財經要聞

      太瘋狂!“顧客不問價直接出手”

      科技要聞

      莫迪舉手歡呼 兩大AI掌門人卻握拳尷尬對峙

      汽車要聞

      量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態度原創

      親子
      藝術
      本地
      健康
      公開課

      親子要聞

      自從生了妹妹優奈后,海渡陽翔兩個哥哥有什么變化?

      藝術要聞

      李白若在世,諾貝爾文學獎會是他的囊中物嗎?

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      轉頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版