<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Gemini最強(qiáng)版本上線(xiàn):推理斷層領(lǐng)先,姚順宇預(yù)告更強(qiáng)版本還在路上

      0
      分享至

      就在上周谷歌發(fā)布 Gemini Deep Think 重大更新后,谷歌于今日正式推出新一代基礎(chǔ)大模型 Gemini 3.1 Pro。

      谷歌 CEO 桑達(dá)爾·皮查伊(Sundar Pichai)在社交平臺(tái)上確認(rèn)了這一消息。他表示,Gemini 3.1 Pro 相較前代 Gemini 3 Pro 的 31.1% 提升顯著。新模型在處理復(fù)雜概念可視化、多源數(shù)據(jù)整合、創(chuàng)意項(xiàng)目落地等任務(wù)時(shí)表現(xiàn)更為出色,目前已逐步接入消費(fèi)者與開(kāi)發(fā)者產(chǎn)品。

      去年9月加入谷歌 DeepMind 的清華大學(xué)校友、AI 研究員姚順宇也在社交平臺(tái)分享了相關(guān)進(jìn)展,并暗示后續(xù)還有更強(qiáng)模型正在籌備中。


      (來(lái)源:X)

      從“.5”到“.1”的版本策略調(diào)整

      按照谷歌以往的發(fā)布節(jié)奏,重大更新多集中在年中(如 Google I/O 大會(huì)),且常以“.5”后綴標(biāo)識(shí)中期升級(jí)。但此次距離 Gemini 3 Pro 發(fā)布僅三個(gè)月,便推出了帶“.1”后綴的 3.1 Pro,可見(jiàn)谷歌底層技術(shù)迭代加速,以及推動(dòng)最新研究成果落地的節(jié)奏調(diào)整。

      支撐這一節(jié)奏的,是新模型在核心推理能力上的提升。關(guān)鍵在于 ARC-AGI(抽象與推理語(yǔ)料庫(kù))基準(zhǔn)測(cè)試。該測(cè)試不依賴(lài)知識(shí)記憶,而是考察模型面對(duì)陌生視覺(jué)與邏輯謎題時(shí)的多步推演能力,被視作衡量 AI 泛化與流體智力的重要參考。

      在官方驗(yàn)證的 ARC-AGI-2 測(cè)試中,Gemini 3.1 Pro 得分為 77.1%,而數(shù)月前的 3 Pro 為 31.1%。橫向?qū)Ρ龋珹nthropic 的 Claude Opus 4.6 得分為 68.8%,OpenAI 的 GPT-5.2 為 52.9%。這一差距說(shuō)明,大模型在處理非結(jié)構(gòu)化、未見(jiàn)過(guò)的推理任務(wù)時(shí),正逐步從模式匹配向邏輯推演演進(jìn)。


      (來(lái)源:Google)

      多項(xiàng)測(cè)試占優(yōu),細(xì)分場(chǎng)景仍存差距

      除抽象推理外,谷歌公布的技術(shù)文檔顯示,Gemini 3.1 Pro 在 16 項(xiàng)主流基準(zhǔn)測(cè)試中,有 12 項(xiàng)位列第一(含并列),覆蓋學(xué)術(shù)知識(shí)、科學(xué)問(wèn)答、代碼生成、智能體協(xié)作及長(zhǎng)上下文理解等方向。

      在學(xué)術(shù)與科學(xué)能力方面,它在無(wú)外部工具輔助的 Humanity's Last Exam(人類(lèi)終極考試)測(cè)試中準(zhǔn)確率達(dá) 44.4%,在高難度科學(xué)知識(shí)測(cè)試 GPQA Diamond 中得分 94.3%。這兩項(xiàng)成績(jī)均以較高幅度優(yōu)于當(dāng)前主流競(jìng)品,體現(xiàn)出模型在知識(shí)儲(chǔ)備與邏輯推導(dǎo)上的優(yōu)勢(shì)。


      (來(lái)源:Google)

      在開(kāi)發(fā)者關(guān)注的代碼與工程能力上,Terminal-Bench 2.0(終端操作代理測(cè)試)成功率達(dá) 68.5%,SWE-Bench Verified(真實(shí) GitHub 問(wèn)題求解)單次嘗試得分 80.6%,與 Claude Opus 4.6 處于同一梯隊(duì);LiveCodeBench Pro 的 Elo 評(píng)分更是達(dá)到 2,887 分,顯著領(lǐng)先于 GPT-5.2 的 2,393 分。

      在多模態(tài)與長(zhǎng)上下文理解方面,MCP Atlas(多步驟工作流)得分 69.2%,BrowseComp(代理搜索)85.9%,MMMLU(多語(yǔ)種問(wèn)答)92.6%;在 128k 上下文的 MRCR v2 檢索測(cè)試中,與 Claude Sonnet 4.6 并列第一(84.9%)。整體來(lái)看,新模型在多個(gè)維度展現(xiàn)出較為均衡的能力儲(chǔ)備,而非單一維度的"偏科"優(yōu)勢(shì)。

      盡管綜合表現(xiàn)突出,當(dāng)前大模型賽道已進(jìn)入差異化競(jìng)爭(zhēng)階段,各模型在特定場(chǎng)景下仍各有側(cè)重。

      例如在面向?qū)嶋H工程場(chǎng)景的 SWE-Bench Pro 測(cè)試中,OpenAI 專(zhuān)為代碼優(yōu)化的 GPT-5.3-Codex 以 56.8% 領(lǐng)先,Gemini 3.1 Pro 為 54.2%;在評(píng)估商業(yè)流程操作的 GDPval-AA 測(cè)試中,Claude Sonnet 4.6 以 1633 分顯著高于 Gemini 3.1 Pro 的 1317 分。

      此外,在允許調(diào)用搜索與代碼工具的 HLE 測(cè)試中,Claude Opus 4.6 略?xún)?yōu)于 Gemini 3.1 Pro;而在多模態(tài)理解測(cè)試 MMMU Pro 中,3.1 Pro 甚至微幅落后于前代 3 Pro。谷歌也未披露該模型的具體參數(shù)規(guī)模與訓(xùn)練數(shù)據(jù)細(xì)節(jié)。

      從深度推理到日常應(yīng)用

      此次 Gemini 3.1 Pro 的性能飛躍,源于此前推出的 Gemini 3 Deep Think 模型。后者專(zhuān)攻科學(xué)計(jì)算與復(fù)雜工程,其卓越的推理能力已在國(guó)際奧賽等場(chǎng)景中得到實(shí)證。Gemini 3.1 Pro 則進(jìn)一步將這種‘專(zhuān)家級(jí)’的核心能力拓展至通用領(lǐng)域,從而能夠服務(wù)于更廣泛的開(kāi)發(fā)與用戶(hù)需求。

      谷歌官方博客列舉了若干應(yīng)用場(chǎng)景:

      首先在基于代碼的動(dòng)畫(huà)生成方面,3.1 Pro 能夠直接根據(jù)文本提示生成適用于網(wǎng)站的 SVG 動(dòng)畫(huà)。由于此類(lèi)動(dòng)畫(huà)由純代碼而非像素位圖構(gòu)成,因此具備無(wú)損縮放特性,在任何分辨率下均能保持清晰,且文件體積遠(yuǎn)小于先前形式。

      其次是數(shù)據(jù)處理場(chǎng)景。 Gemini 3.1 Pro 展現(xiàn)了卓越的“工具使用(Tool Use)”能力。以國(guó)際空間站(ISS)軌道追蹤為例,模型不僅能自主研讀 NASA 復(fù)雜的 API 文檔、編寫(xiě)數(shù)據(jù)抓取腳本,還能實(shí)時(shí)處理回傳的流式遙測(cè)數(shù)據(jù)。令人吃驚的是,它能同步調(diào)用 D3.js 等可視化庫(kù),快速搭建出包含實(shí)時(shí)經(jīng)緯度、軌道投影及速度指標(biāo)的交互式儀表盤(pán)。

      還有創(chuàng)意編程能力。模型能夠深入理解文學(xué)名著(如海明威作品),提煉文字背后隱含的風(fēng)格特征,轉(zhuǎn)換成具體的交互界面細(xì)節(jié)。例如將簡(jiǎn)潔有力的短句轉(zhuǎn)化為“極簡(jiǎn)主義”排版,將硬朗的情感基調(diào)映射為“高對(duì)比度”配色。最終,這些抽象的美學(xué)特征被精準(zhǔn)轉(zhuǎn)譯為 CSS/HTML 代碼。這種跨模態(tài)轉(zhuǎn)換能力,使得文字創(chuàng)作者能以極低的成本,將抽象的文學(xué)內(nèi)核注入數(shù)字產(chǎn)品的交互界面之中。

      最后是深度交互設(shè)計(jì)。3.1 Pro 能夠構(gòu)建復(fù)雜的三維“椋鳥(niǎo)低語(yǔ)”模擬場(chǎng)景。這不僅僅是視覺(jué)代碼的生成,更是沉浸式體驗(yàn)的營(yíng)造:用戶(hù)可通過(guò)手勢(shì)追蹤操控鳥(niǎo)群,并聆聽(tīng)隨鳥(niǎo)類(lèi)動(dòng)作實(shí)時(shí)變化的生成式樂(lè)譜。對(duì)于研究人員和設(shè)計(jì)師而言,這為原型化多感官豐富的界面提供了強(qiáng)有力的工具。

      此外,為加速能力落地,谷歌此次采取了分層部署策略。

      普通用戶(hù)可通過(guò)更新后的 Gemini 應(yīng)用體驗(yàn)基礎(chǔ)功能;高階訂閱用戶(hù)在 NotebookLM 平臺(tái)可獨(dú)家接入 3.1 Pro 并享受更高調(diào)用額度。開(kāi)發(fā)者可通過(guò) Google AI Studio 申請(qǐng) API 預(yù)覽權(quán)限,Gemini CLI 與 Android Studio 已完成首批適配;企業(yè)客戶(hù)則支持通過(guò) Vertex AI 與 Gemini Enterprise 集成至私有業(yè)務(wù)流。這種"由淺入深"的推進(jìn)方式,有助于不同層級(jí)的用戶(hù)按需接入。

      目前,3.1 Pro 已以預(yù)覽版形式上線(xiàn)谷歌代理式開(kāi)發(fā)平臺(tái) Antigravity。谷歌表示,此舉旨在復(fù)雜多步任務(wù)場(chǎng)景中進(jìn)一步驗(yàn)證與優(yōu)化模型表現(xiàn),為后續(xù)全面推廣積累經(jīng)驗(yàn)。

      總體來(lái)看,Gemini 3.1 Pro 在推理能力與多維度任務(wù)表現(xiàn)上確有提升,尤其在抽象邏輯與代碼工程方向優(yōu)勢(shì)明顯。但大模型競(jìng)爭(zhēng)已進(jìn)入"場(chǎng)景適配"階段,技術(shù)選型需結(jié)合具體需求理性評(píng)估。對(duì)于關(guān)注成本、穩(wěn)定性與落地效率的用戶(hù)而言,持續(xù)觀察其在真實(shí)業(yè)務(wù)中的表現(xiàn),或許比基準(zhǔn)測(cè)試分?jǐn)?shù)更具參考價(jià)值。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      特朗普沒(méi)想到:美伊大戰(zhàn)打醒兩個(gè)國(guó)家,一個(gè)是越南,一個(gè)是菲律賓

      特朗普沒(méi)想到:美伊大戰(zhàn)打醒兩個(gè)國(guó)家,一個(gè)是越南,一個(gè)是菲律賓

      東極妙嚴(yán)
      2026-03-07 12:41:17
      雕和鷹誰(shuí)更厲害?看完才知道,根本不是一個(gè)量級(jí)!

      雕和鷹誰(shuí)更厲害?看完才知道,根本不是一個(gè)量級(jí)!

      心中的麥田
      2026-03-07 19:20:54
      剛?cè)刖尘吐渚W(wǎng)!普拉托五名中國(guó)男子因攜帶武器和爆炸物被捕

      剛?cè)刖尘吐渚W(wǎng)!普拉托五名中國(guó)男子因攜帶武器和爆炸物被捕

      意大利華人網(wǎng)0039
      2026-03-08 00:33:36
      勇士如何防亞歷山大;萊納德的胸與肩

      勇士如何防亞歷山大;萊納德的胸與肩

      張佳瑋寫(xiě)字的地方
      2026-03-08 13:07:23
      伊朗老國(guó)王每天要性生活,三個(gè)老婆不夠用,讓警察綁架女子進(jìn)宮

      伊朗老國(guó)王每天要性生活,三個(gè)老婆不夠用,讓警察綁架女子進(jìn)宮

      老土歷史
      2026-03-08 10:10:07
      集體下挫!美聯(lián)儲(chǔ)降息,突傳大消息!

      集體下挫!美聯(lián)儲(chǔ)降息,突傳大消息!

      證券時(shí)報(bào)e公司
      2026-03-07 22:27:40
      秦牛正威回應(yīng)退還彩禮:不用催,人家催的比你們急

      秦牛正威回應(yīng)退還彩禮:不用催,人家催的比你們急

      韓小娛
      2026-03-07 20:24:21
      外媒:為何世界應(yīng)關(guān)注中國(guó)兩會(huì)?

      外媒:為何世界應(yīng)關(guān)注中國(guó)兩會(huì)?

      參考消息
      2026-03-07 11:45:13
      下午17點(diǎn),中國(guó)女足vs朝鮮!賽前傳來(lái)2個(gè)好消息,感謝亞足聯(lián)助攻

      下午17點(diǎn),中國(guó)女足vs朝鮮!賽前傳來(lái)2個(gè)好消息,感謝亞足聯(lián)助攻

      侃球熊弟
      2026-03-08 01:25:03
      宮魯鳴最大失誤:不是沒(méi)招李夢(mèng)、晚招劉禹彤,而是用錯(cuò)張子宇

      宮魯鳴最大失誤:不是沒(méi)招李夢(mèng)、晚招劉禹彤,而是用錯(cuò)張子宇

      卿子書(shū)
      2026-03-08 10:46:27
      中華人民共和國(guó)居民身份證上竟然還有隱藏彩蛋!滿(mǎn)滿(mǎn)的科技感和中國(guó)元素

      中華人民共和國(guó)居民身份證上竟然還有隱藏彩蛋!滿(mǎn)滿(mǎn)的科技感和中國(guó)元素

      閃電新聞
      2026-03-07 21:16:03
      俄媒:蘇萊曼尼繼任者是內(nèi)鬼,確認(rèn)哈梅內(nèi)伊位置,會(huì)沒(méi)開(kāi)完就溜了

      俄媒:蘇萊曼尼繼任者是內(nèi)鬼,確認(rèn)哈梅內(nèi)伊位置,會(huì)沒(méi)開(kāi)完就溜了

      蕭鑟科普解說(shuō)
      2026-03-07 00:30:38
      國(guó)家衛(wèi)健委主任:已有3300萬(wàn)家庭領(lǐng)到育兒補(bǔ)貼,有人比喻“孩子一出生就自帶口糧、自帶工資”

      國(guó)家衛(wèi)健委主任:已有3300萬(wàn)家庭領(lǐng)到育兒補(bǔ)貼,有人比喻“孩子一出生就自帶口糧、自帶工資”

      紅星新聞
      2026-03-07 12:41:11
      美以伊軍事沖突最大副作用,是斬?cái)嗔硕砹_斯的“救命稻草”

      美以伊軍事沖突最大副作用,是斬?cái)嗔硕砹_斯的“救命稻草”

      廖保平
      2026-03-05 12:08:52
      中國(guó)警告:若安世半導(dǎo)體糾紛再升級(jí) 全球芯片供應(yīng)或再度陷入危機(jī)

      中國(guó)警告:若安世半導(dǎo)體糾紛再升級(jí) 全球芯片供應(yīng)或再度陷入危機(jī)

      cnBeta.COM
      2026-03-08 02:02:05
      遼寧男籃全力出擊!布羅金頓CBA首秀,趙繼偉漸入佳境,央視直播

      遼寧男籃全力出擊!布羅金頓CBA首秀,趙繼偉漸入佳境,央視直播

      體壇瞎白話(huà)
      2026-03-08 08:52:00
      女孩想"白嫖"大奔反被"白嫖"8天,背上一屁股債,還幫騙子賺了3萬(wàn)

      女孩想"白嫖"大奔反被"白嫖"8天,背上一屁股債,還幫騙子賺了3萬(wàn)

      觀世記
      2026-03-06 16:53:47
      朱亞文的“發(fā)言”在全網(wǎng)火了,馮遠(yuǎn)征的兩會(huì)建議,含金量還在升

      朱亞文的“發(fā)言”在全網(wǎng)火了,馮遠(yuǎn)征的兩會(huì)建議,含金量還在升

      好賢觀史記
      2026-03-07 09:51:22
      房東突然說(shuō)要漲租3千,我口頭答應(yīng)連夜跑路,3天后她腸子悔青

      房東突然說(shuō)要漲租3千,我口頭答應(yīng)連夜跑路,3天后她腸子悔青

      奶茶麥子
      2026-03-07 22:26:32
      打人時(shí)有多狂,求和解時(shí)就有多慫!看完太解氣!

      打人時(shí)有多狂,求和解時(shí)就有多慫!看完太解氣!

      風(fēng)起見(jiàn)你
      2026-02-25 18:54:43
      2026-03-08 13:32:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評(píng)論獨(dú)家合作
      16376文章數(shù) 514725關(guān)注度
      往期回顧 全部

      數(shù)碼要聞

      技嘉發(fā)布Z890 Plus主板,為英特爾Arrow Lake Refresh處理器鋪路

      頭條要聞

      英國(guó)考慮向中東地區(qū)派遣航母 特朗普批評(píng):不需要

      頭條要聞

      英國(guó)考慮向中東地區(qū)派遣航母 特朗普批評(píng):不需要

      體育要聞

      大傷后被交易,他說(shuō):22歲的我已經(jīng)死了

      娛樂(lè)要聞

      周迅新戀情曝光,李亞鵬等人已成過(guò)去

      財(cái)經(jīng)要聞

      油價(jià)要失控?

      科技要聞

      OpenClaw最大的推手是閑魚(yú)和小紅書(shū)

      汽車(chē)要聞

      9分鐘充飽 全新騰勢(shì)Z9GT首搭閃充技術(shù)26.98萬(wàn)起

      態(tài)度原創(chuàng)

      房產(chǎn)
      數(shù)碼
      健康
      本地
      公開(kāi)課

      房產(chǎn)要聞

      傳統(tǒng)學(xué)區(qū)房熄火?2月海口二手房爆火的板塊竟然是…

      數(shù)碼要聞

      小米又在這一領(lǐng)域成為全球第三,國(guó)內(nèi)一,友商還不跟嗎?

      轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

      本地新聞

      食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版