<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      姚順宇參與,谷歌最強Gemini推理模型發布!測評碾壓Opus 4.6、GPT-5.2

      0
      分享至


      智東西
      作者 云鵬
      編輯 李水青

      智東西2月13日消息,今天凌晨,谷歌發布了Gemini 3 Deep Think專用推理模式的重磅升級,其在“人類終極測試”、競技編程測試、國際數學奧林匹克競賽,以及國際物理、化學等多領域奧賽中均創下新記錄,全面超越了Claude Opus 4.6和GPT-5.2,也超越了自家Gemini 3 Pro Preview。


      ▲Gemini 3 Deep Think在ARC-AGI-2、人類終極測試(Humanity’s Last Exam)競技編程基準測試Codeforces、2025年國際數學奧林匹克競賽四項測試中的成績,得分均超過Claude Opus 4.6和GPT-5.2

      毫無疑問,谷歌祭出了當前地表最強AI推理大模型。在Deep Think模式下,一張設計草圖可以快速轉化為3D打印文件,圖紙分析、復雜三維建模一氣呵成,用戶將3D打印文件交付給打印機就可以完成實體生產:


      ▲在Deep Think模式下,一張設計草圖可以快速轉化為3D打印文件

      谷歌CEO Sundar Pichai和相關高管都在X平臺發文宣布了這一重磅發布,此前于去年9月加入谷歌DeepMind的清華物理系傳奇人物姚順宇(Shunyu Yao)也發文號召大家體驗他們開發的新模式。


      ▲谷歌CEO(左)、姚順宇(右)X平臺發文

      此姚順宇非彼姚順雨,后者是姚班出身、今年剛剛加入騰訊混元擔任首席AI科學家的另一位“學神”。前一位姚順宇現任谷歌DeepMind高級研究員,曾在Anthropic的Claude團隊擔任研究員,是拿過清華物理系傳奇特獎的另一位“學神”。

      此次的Deep Think模式升級也是姚順宇加入后參與的首個重磅項目。


      ▲姚順宇(左)和姚順雨(右)

      總體來看,Deep Think模式主要用于解決科學、研究和工程領域的挑戰,目前只向Google AI Ultra訂閱用戶開放,不過科研人員、工程師和企業可以提交申請加入早期測試。


      一、高難度基準測試猛刷記錄,碾壓Claude Opus 4.6、GPT-5.2

      去年,谷歌已證實Deep Think模式的定制版本能攻克諸多高難度推理難題,在國際數學和編程錦標賽中達到金牌水準。而這次升級則讓Deep Think模式更進一步支持研發人員開展研究級(research-level)的數學探索工作。

      升級的Deep Think模式在各類高難度學術基準測試中創下了新紀錄,具體包括:

      ·在“人類終極測試(Humanity’s Last Exam)”基準測試中,無工具輔助狀態下取得48.4%的成績,刷新該測試的最佳紀錄(該測試專為檢驗前沿大模型的能力極限設計);

      ·在ARC-AGI-2基準測試中獲84.6%高正確率,成績經ARC獎基金會認證;

      ·在競技編程基準測試平臺Codeforces中,Elo評分3455分;

      ·在2025年國際數學奧林匹克競賽中,達到金牌水準;

      從排名中我們看到,Deep Think模式在上述四項基準測試中,全部領先于Claude Opus 4.6和GPT-5.2。

      除數學和競技編程領域外,升級后的Gemini 3 Deep Think在化學、物理等眾多科學領域同樣表現不錯。


      ▲Gemini 3 Deep Think在各類測試中的成績表現,所有測試項目均優于Claude Opus 4.6和GPT-5.2

      根據谷歌公布測試成績,Deep Think在2025年國際物理奧林匹克競賽和國際化學奧林匹克競賽的筆試環節中,均取得金牌水準的成績;在高等理論物理領域也具備出色的應用能力,在凝聚態理論基準測試CMT-Benchmark中取得50.5%的成績。

      同樣,在這些測試項目中,Deep Think的成績全部高于Claude Opus 4.6和GPT-5.2。

      二、推動實際應用落地,成為深度專業研究領域的最強助手

      谷歌提到,除了強勁性能表現,Deep Think模式的研發核心目的是推動實際應用,也就是助力研究人員解析復雜數據、幫助工程師通過代碼構建物理系統模型。

      簡單來說,這些領域的問題往往缺乏明確的指導原則或唯一的正確答案,數據也通常是雜亂無章或不完整的。Deep Think可以將深厚的科學知識與日常工程實踐相結合,去解決這些復雜難題。

      目前,谷歌正致力于讓Deep Think模式覆蓋科研和從業者的核心工作場景。

      借助升級后的Deep Think模式,用戶可以很快將一張設計草圖轉化為可3D打印的實體模型——Deep Think能自動分析圖紙內容、構建復雜的三維形狀模型,并生成對應的3D打印文件,實現實體物件的制作。


      ▲從文件草圖到3D實體模型

      此外,從谷歌給出的演示中我們看到,Deep Think可以識別出高專業度數學論文中一個此前人工同行評審從未發現的細微邏輯缺陷。


      ▲科學家利用Deep Think識別專業論文中的細節邏輯缺陷

      Deep Think還可以用來優化復雜晶體生長的制備方法,用來探索新的半導體材料,在杜克大學的案例中,其設計的方案培育出了尺寸超過100微米的薄膜,技術指標超過此前所有方法。

      谷歌研發主管、前Liftware CEO也用Deep Think來加速物理組件的設計。

      可以說,Deep Think是真能搞定復雜的科學、研究和工程領域挑戰。

      結語:推理大模型專業化進一步加深,AI沖向科研最前線

      Gemini 3 Deep Think模式的升級,重點提升了其在諸多科研專業學術領域解決復雜專業問題的能力,令其在頂尖專業領域加速技術研發的價值進一步凸顯。

      目前,AI模型與產業融合進一步加深,行業都在思索如何讓模型能更好地在專業領域提升生產力,AI推理大模型的競爭,跑在了技術與學術的最前沿。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普深夜驚聞噩耗,美國內憂外患一起襲來,美債被大規模拋售

      特朗普深夜驚聞噩耗,美國內憂外患一起襲來,美債被大規模拋售

      阿訊說天下
      2026-03-08 00:54:59
      豪門狂歡夜:巴薩1-0,尤文4-0,曼城3-1,切爾西4-2,阿森納2-1

      豪門狂歡夜:巴薩1-0,尤文4-0,曼城3-1,切爾西4-2,阿森納2-1

      側身凌空斬
      2026-03-08 06:12:16
      比亞迪發布閃充,意外拯救了5萬座加油站的中石油中石化

      比亞迪發布閃充,意外拯救了5萬座加油站的中石油中石化

      生活魔術專家
      2026-03-07 22:29:33
      文旅部部長:7名外國游客買了40箱中國貨離境,交了超重費但有退稅政策,還是合算

      文旅部部長:7名外國游客買了40箱中國貨離境,交了超重費但有退稅政策,還是合算

      紅星新聞
      2026-03-07 13:24:24
      董璇是無數人心中的女神,如今被曝欠債千萬

      董璇是無數人心中的女神,如今被曝欠債千萬

      林雁飛
      2026-03-07 20:12:13
      3月8日,券商給予評級并且給出目標價的公司一覽

      3月8日,券商給予評級并且給出目標價的公司一覽

      A股數據表
      2026-03-08 06:00:03
      好家伙《我的山與海》開播就差評一片,觀眾給的理由竟出奇一致!

      好家伙《我的山與海》開播就差評一片,觀眾給的理由竟出奇一致!

      潮鹿逐夢
      2026-03-07 22:02:33
      熬了8年!高速收費終于定了,2026年起,車主上高速徹底變了

      熬了8年!高速收費終于定了,2026年起,車主上高速徹底變了

      奇思妙想草葉君
      2026-03-06 23:23:57
      河村勇輝閃耀G聯賽卻難打NBA!專家詳解困境:最大原因還是身高

      河村勇輝閃耀G聯賽卻難打NBA!專家詳解困境:最大原因還是身高

      羅說NBA
      2026-03-08 06:12:07
      李自成兵敗到底有多悲慘?讓我們看看他手下文臣武將的結局就知道

      李自成兵敗到底有多悲慘?讓我們看看他手下文臣武將的結局就知道

      談史論天地
      2026-03-07 05:58:46
      鄺兆鐳中超處子秀!09年齡段第一人,0突破0射門,3次對抗均失敗

      鄺兆鐳中超處子秀!09年齡段第一人,0突破0射門,3次對抗均失敗

      奧拜爾
      2026-03-07 21:31:37
      回顧:孫子長相神似爺爺,婆婆懷疑兒媳12年,親子鑒定后全家愣住

      回顧:孫子長相神似爺爺,婆婆懷疑兒媳12年,親子鑒定后全家愣住

      談史論天地
      2026-02-28 14:55:57
      伊朗反擊取得重大成果?千萬別信網上的那些專家和爽文

      伊朗反擊取得重大成果?千萬別信網上的那些專家和爽文

      壹家言
      2026-03-04 19:37:20
      長期佩戴骨傳導耳機會致聾?醫生:7天內是黃金治療期

      長期佩戴骨傳導耳機會致聾?醫生:7天內是黃金治療期

      人民日報健康客戶端
      2026-03-06 10:50:07
      拒絕冷門!德約戰滿三盤2-1逆轉過關,迎印第安維爾斯開門紅

      拒絕冷門!德約戰滿三盤2-1逆轉過關,迎印第安維爾斯開門紅

      全景體育V
      2026-03-08 08:11:06
      很多人還不知道,原來只要知道對方手機號碼,就可以查到對方位置了!

      很多人還不知道,原來只要知道對方手機號碼,就可以查到對方位置了!

      CG說科技
      2026-03-05 16:59:05
      B-52重返戰場:當美軍開始用二戰式轟炸,戰爭其實已經結束了一半

      B-52重返戰場:當美軍開始用二戰式轟炸,戰爭其實已經結束了一半

      斌聞天下
      2026-03-07 07:30:03
      離譜!比亞迪閃充的核心,竟是我們小時候吐槽的水池數學題?

      離譜!比亞迪閃充的核心,竟是我們小時候吐槽的水池數學題?

      趣味萌寵的日常
      2026-03-07 22:30:35
      普京與伊朗總統通電話:必須立即停止美國對伊朗的軍事行動

      普京與伊朗總統通電話:必須立即停止美國對伊朗的軍事行動

      俄羅斯衛星通訊社
      2026-03-07 16:11:02
      39分慘案引爆內訌危機!掘金最強陣崩盤,阿德爾曼痛批無競爭精神

      39分慘案引爆內訌危機!掘金最強陣崩盤,阿德爾曼痛批無競爭精神

      田先生籃球
      2026-03-07 20:30:02
      2026-03-08 09:40:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11320文章數 116989關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      汪小菲曝親媽猛料,張蘭公開財產分配

      財經要聞

      油價要失控?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      本地
      數碼
      時尚
      教育
      公開課

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      數碼要聞

      跌破3000元指日可待,蘋果Macbook Neo會賣爆嗎?

      2026春夏一定要擁有的6只包,好看又百搭

      教育要聞

      成長路上的心靈迷霧:青春期女生常見心理

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版