<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      編碼新王登基!Gemini 3.1 Pro 血洗 Claude 與 GPT,12 項基準測試第一!

      0
      分享至

        作者|冬梅

        1 核心能力全面下放,多端同步上線

        在上周發布Gemini 3 Deep Think重大更新、面向科學研究與工程領域復雜問題之后,谷歌今日正式推出支撐這些突破的“核心智能”升級版本——Gemini 3.1 Pro

        Gemini 3.1 Pro 是一款采用混合專家架構的 Transformer 模型,這意味著它在生成提示響應時僅激活部分參數。用戶可輸入包含高達 100 萬 token 數據量的提示詞,內容不僅涵蓋文本,還包括視頻等多模態文件。Gemini 3.1 Pro 的響應輸出最多包含 6.4 萬 token。

        這意味著,Gemini 3 系列的最新能力不再只停留在研究層面,而是開始全面進入開發者工具、企業服務以及普通用戶的日常應用場景。

        

        根據官方披露,Gemini 3.1 Pro 已于今日開始分批上線,覆蓋對象包括開發者、企業客戶以及普通消費者:

        開發者:可通過 Gemini API(Google AI Studio)、Gemini CLI、智能體開發平臺Google Antigravity以及 Android Studio 預覽使用;

        企業用戶:通過Vertex AI和 Gemini Enterprise 接入;

        消費者:可在 Gemini App 及NotebookLM中直接體驗。

        谷歌方面表示,此次“全線鋪開”的策略,旨在將最新一代推理能力快速融入實際工作流與個人使用場景,而不僅僅停留在實驗室或演示階段。

        2 推理表現翻倍、12 項基測排名第一

        從技術定位來看,Gemini 3.1 Pro 并非簡單的性能微調,而是一次核心推理能力(core reasoning)的系統性升級。官方將其描述為“更聰明、更具能力的基礎模型”,尤其適用于復雜問題求解、跨領域分析以及需要抽象邏輯的任務。

        這一進步也體現在權威評測成績上。在 ARC-AGI-2 基準測試中,Gemini 3.1 Pro 獲得了 77.1% 的經驗證成績。該測試專門用于評估模型在從未見過的新邏輯模式下的泛化與推理能力。它包含多個視覺謎題,每個謎題均由一系列圖形組成。構成謎題的圖形在設計上各不相同,但都遵循特定規律。大語言模型必須推斷出該規律,并利用其生成新的圖形。

        

        這一分數是 Gemini 3 Pro 推理表現的兩倍以上。在當前大模型競爭格局中,ARC-AGI 系列被視為衡量“類通用智能推理能力”的重要指標之一,這一成績也意味著 Gemini 3.1 Pro 在抽象推理與新問題適應能力上邁出了關鍵一步。

        值得注意的是,人類參與者在該測試中的平均正確率約為 60%。前陣子發布的 Gemini Deep Think 以 84.6% 的準確率遙遙領先其他模型。

        

        雖然 Gemini 3.1 Pro 在得分上低于 Gemini Deep Think,但這是一款基礎模型,并且它向所有用戶免費開放。而具備“深度思考”能力的 Deep Think 模式屬于更高維度的技術突破,目前僅限 Google AI Ultra 訂閱用戶使用,且每日限用 10 次。

        能讓開發者免費體驗能力如此強的 Gemini 3.1 Pro,谷歌已經很大方了。

        再來橫向比較下 Gemini 3.1 Pro 與其他模型:Claude Opus 4.6 達到 68.8%,Claude Sonnet 4.6 為 58.3%,GPT-5.2 獲得 52.9%,而上一代產品 Gemini 3 Pro 僅得到 31.1%。短短三個月時間,同一系列模型的閉卷推理能力就從 31.1% 躍升至 77.1%,實現了翻倍以上的跨越式提升。

        谷歌官方公布了 16 項基準測試數據,Gemini 3 Pro 在其中12 項基測中均位列第一。

        在評估 AI 模型使用第三方服務執行任務能力的 MCP Atlas 測試中,Gemini 3 Pro 以 69.2% 的成績領先于最近剛發布的 Claude Sonnet 4.6,在編程測試 Terminal-Bench 2.0 中,Gemini 3 Pro 編碼能力高于 Opus 4.6、GPT-5.2。在另一項包含科學編程任務的代碼基準測試 SciCode 上,該模型的表現比 Claude Opus 4.6 高出 7%。

        

        從發布節奏來看,谷歌正在嘗試將前沿研究成果更快轉化為“默認可用”的基礎能力。先通過 Deep Think 展示在科學與工程問題上的上限,再通過 3.1 Pro 將這些能力沉淀為更穩定、更通用的底座模型,并迅速推向 API、企業平臺和消費級應用。

        3 智能的實際應用

        Gemini 3.1 Pro 面向那些“給出一個簡單答案遠遠不夠”的任務而設計,它將高級推理能力轉化為可用于解決最棘手問題的實用智能。升級后的智能水平能夠在多種現實場景中發揮作用——無論是將復雜主題以清晰、直觀的方式呈現出來,還是把分散的數據綜合成一個統一視圖,亦或是推動一個富有創造力的項目從構想走向落地。

        為了說明其潛在用途,Gemini 團隊指出,該模型可以創建可用于網站的 SVG 動畫,還可以將小說的文學風格轉化為個人作品集網站的設計。

        基于代碼的動畫生成:Gemini 3.1 Pro 可以直接根據文本提示生成可直接用于網站的動態 SVG 動畫。由于這些動畫完全由代碼構建,而非像素渲染,因此在任何縮放比例下都能保持清晰銳利,同時相比傳統視頻格式,文件體積小得多,極大降低了加載和分發成本。

        復雜系統綜合: 利用先進的推理能力,彌合了復雜 API 與用戶友好型設計之間的鴻溝。在這一示例中,模型構建了一個實時航天儀表盤,成功配置并接入了一條公共遙測數據流,用于可視化International Space Station的軌道運行情況。

        交互式設計:Gemini 3.1 Pro 能夠編寫復雜的3D 椋鳥群舞(murmuration)模擬代碼。它不僅生成視覺層面的代碼,還構建了一個沉浸式體驗:用戶可以通過手部追蹤來操控鳥群,同時聆聽一段會隨著鳥群運動而動態變化的生成式配樂。對于研究人員和設計師而言,這為原型化多感官、強交互的界面提供了一種極具潛力的方式。

        創意編程:3.1 Pro 能夠將文學主題轉化為功能性代碼。當被要求為艾米莉·勃朗特的《呼嘯山莊》構建一個現代個人作品集網站時,該模型不僅概括了文本內容,更通過推理小說中的陰郁基調,設計出時尚的當代界面,最終創建出能捕捉主角神韻的網站。

        自去年 11 月推出 Gemini 3 Pro 以來,用戶反饋和技術進步共同推動了這一系列快速迭代。今天發布的 3.1 Pro 預覽版旨在驗證這些更新成果,并將在全面上線前繼續在智能體工作流等前沿領域進行深度優化。

        即日起,Gemini 應用中的 3.1 Pro 版本將向 Google AI Pro 和 Ultra 套餐用戶逐步開放,提供更優使用權限。3.1 Pro 現已獨家登陸 NotebookLM 平臺,面向 Pro 及 Ultra 用戶開放。開發者和企業用戶可通過 AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI 及 Android Studio 等渠道,在 Gemini API 中搶先體驗 3.1 Pro 預覽版。

        去年 9 月加盟谷歌 DeepMind 的清華物理系知名研究者姚順宇(Shunyu Yao)在 x 上發帖稱,更強的模型也將很快亮相。

        

        在公司 2025 年第四季度收益報告中,首席執行官 Sundar Pichai 表示:“我們的第一方模型,如 Gemini,現在通過客戶直接使用 API,每分鐘處理超過 100 億個 token,Gemini App 的月活躍用戶已增長到超過 7.5 億。”

        4 網友:谷歌重回巔峰

        隨著 Gemini 3.1 Pro 正式上線,圍繞這次更新的討論迅速在技術社區中展開。與以往大模型發布時對“參數規模”“模型體量”的高度關注不同,不少網友認為,這一版本釋放出的關鍵信號,并不在于“更大”,而在于整體推理能力和復雜問題求解能力的持續上推。

        有開發者指出,Gemini 3.1 Pro 的定位非常明確:不再單純追求模型規模的擴張,而是更強調在真實任務中的完成度和穩定性。這也被視為當前頭部大模型競爭的一個重要轉折點——競爭焦點正在從“誰的參數更多”,轉向“誰能把問題真正做完、做好”。

        在 x 上,該開發者表示:

      “Gemini 3.1 Pro 上線了,重點不是更大,而是把整體推理和復雜問題求解能力繼續往上推。這波信號很明確:頭部模型競爭正在從參數規模,轉向真實任務完成率。”

        

        與此同時,還有網友系統梳理了谷歌近年來模型更新的時間線,直言人工智能的發展節奏已經進入“以月甚至以周計”的階段。在這樣的背景下,谷歌已難以承受過長的更新間隔。

        Gemini 3.1 專業版在較短時間內推出,被解讀為谷歌對這一現實壓力的直接回應:必須持續、快速地將核心能力推向市場。

        

        成本與落地能力同樣成為討論的焦點。有網友特別提到,Gemini 3.1 Pro 在降低使用成本的同時提升智能水平,這種優化路徑對于推動 AI 在生產環境中的應用尤為關鍵。在他們看來,人工智能的前沿價值并不僅體現在基準測試成績上,更體現在這些能力能否被開發者社區輕松獲取、快速部署,并穩定運行于真實業務中。

        綜合這些反饋可以看出,Gemini 3.1 Pro 的發布,已經不只是一次常規的模型升級,而更像是一次方向性的表態:在大模型逐漸走向成熟的階段,真正決定勝負的,將是推理能力、工程可用性以及規模化落地的綜合表現。

        

        https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

        https://www.ai.jp.net/article/google-s-gemini-3-1-pro-a-new-reasoning-champion-c710f5

        https://x.com/ShunyuYao14

        https://deepmind.google/models/gemini/pro/

        聲明:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      上海德云社開業首日,楊議老毛病又犯,郭麒麟選擇明智

      上海德云社開業首日,楊議老毛病又犯,郭麒麟選擇明智

      老屬科普
      2026-03-21 20:36:16
      1-2!英超冷門來襲:10.2億豪門3輪1分 頭號神鋒開場傷退淚灑賽場

      1-2!英超冷門來襲:10.2億豪門3輪1分 頭號神鋒開場傷退淚灑賽場

      狍子歪解體壇
      2026-03-21 22:43:52
      伊朗軍方消息人士:若美國“侵略”哈爾克島將面臨“前所未有的反擊”

      伊朗軍方消息人士:若美國“侵略”哈爾克島將面臨“前所未有的反擊”

      澎湃新聞
      2026-03-22 00:24:02
      伊朗,突然大漲!

      伊朗,突然大漲!

      中國基金報
      2026-03-22 00:10:44
      重溫1999:西方媒體報道的炸館“另一面”,17名軍事顧問遇難?

      重溫1999:西方媒體報道的炸館“另一面”,17名軍事顧問遇難?

      干史人
      2026-02-27 11:00:05
      女足亞洲杯日本1-0澳大利亞奪冠,浜野舞香世界波制勝

      女足亞洲杯日本1-0澳大利亞奪冠,浜野舞香世界波制勝

      懂球帝
      2026-03-21 18:57:16
      最新 | 中國道教協會嚴正聲明!

      最新 | 中國道教協會嚴正聲明!

      天津廣播
      2026-03-21 13:50:28
      殲20總師被除名:長期領導軍工央企,最近照流出,事發全過程披露

      殲20總師被除名:長期領導軍工央企,最近照流出,事發全過程披露

      博士觀察
      2026-03-20 21:41:54
      太難了!我是最早一批回家的人,網友哭訴在浙江十幾天沒找到工作

      太難了!我是最早一批回家的人,網友哭訴在浙江十幾天沒找到工作

      火山詩話
      2026-03-21 11:27:47
      轟炸敘利亞軍事基地,以色列捅了馬蜂窩,阿拉伯國家齊發聲譴責

      轟炸敘利亞軍事基地,以色列捅了馬蜂窩,阿拉伯國家齊發聲譴責

      咣當地球
      2026-03-22 03:38:42
      認清一個人最快的方式:看面相

      認清一個人最快的方式:看面相

      洞讀君
      2026-03-21 21:05:03
      羅塞尼爾:我們一直在輕易丟球,這個責任由我來承擔

      羅塞尼爾:我們一直在輕易丟球,這個責任由我來承擔

      懂球帝
      2026-03-22 04:39:04
      造化弄人!三年光陰流轉,巴薩中場竟上演“高攀不起”的命運反轉

      造化弄人!三年光陰流轉,巴薩中場竟上演“高攀不起”的命運反轉

      田先生籃球
      2026-03-21 19:05:09
      “這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

      “這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

      妍妍教育日記
      2026-03-21 10:05:03
      盧比奧反對撤銷制裁拒訪中國,中美關系迎來新局面

      盧比奧反對撤銷制裁拒訪中國,中美關系迎來新局面

      阿晪美食
      2026-03-20 16:59:12
      一個沒寫過代碼的工程師,用ClaudeCode干掉一個估算團隊的工作量

      一個沒寫過代碼的工程師,用ClaudeCode干掉一個估算團隊的工作量

      DeepTech深科技
      2026-03-19 18:03:20
      剛放狠話就出大事?特朗普炒作臺海問題,美國立刻迎來壞消息

      剛放狠話就出大事?特朗普炒作臺海問題,美國立刻迎來壞消息

      蹲坑看世界
      2026-03-22 03:04:37
      徹底炸鍋!伊朗馬里萬市民點火封路,硬剛革命衛隊與巴斯基民兵

      徹底炸鍋!伊朗馬里萬市民點火封路,硬剛革命衛隊與巴斯基民兵

      老馬拉車莫少裝
      2026-03-21 14:08:22
      日本沒想到,美國也沒想到,現在的中國安徽省,已變成全球焦點

      日本沒想到,美國也沒想到,現在的中國安徽省,已變成全球焦點

      蜉蝣說
      2026-03-21 19:32:36
      澤連斯基坐不住了,急著重啟談判?俄方潑冷水:只要是你就不可能

      澤連斯基坐不住了,急著重啟談判?俄方潑冷水:只要是你就不可能

      補懂事的孩紙
      2026-03-22 03:45:12
      2026-03-22 05:12:49
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12188文章數 51814關注度
      往期回顧 全部

      數碼要聞

      華為Atlas 350加速卡上市,搭載全新昇騰950PR處理器

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩寧終于涼了?出軌風波影響惡劣

      財經要聞

      通脹警報拉響,加息潮要來了?

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      時尚
      健康
      本地
      公開課
      軍事航空

      這個趨勢好適合亞洲人!不用花大錢也能跟

      轉頭就暈的耳石癥,能開車上班嗎?

      本地新聞

      春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:正考慮逐步降級對伊朗的軍事行動

      無障礙瀏覽 進入關懷版