<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<cite id="u9b83"></cite>

<cite id="u9b83"></cite>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

谷歌Deep Think八語奧賽屠榜！自主攻克4大未解難題，科研壁壘崩塌

2026-04-08 12:05:15　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：元宇

【新智元導讀】谷歌Deep Think橫掃亞歐多語種競賽，AI科研工具的語言壁壘正在被拆掉，數學與科學發現進入AI驅動新時代。

「Deep Think」在所有競賽中都擊敗/媲美競爭對手」！

剛剛，Google DeepMind高級研究員Conglong Li在X平臺連發12條帖子，甩出了一張前所未見的成績單。

一個AI，同一個大腦，八張不同語言的試卷，全部高分交卷。

在任何一個模型身上，這樣的成績實屬罕見。

從IMO金牌到區域賽全覆蓋

這次Deep Think拿下多個榜單高分，并非突然的單點爆發，而是一條已經持續了近一年的能力演進曲線。

首先登頂最硬核的推理賽場。

2025年7月，Gemini Deep Think首次在國際數學奧林匹克（IMO）達到金牌標準，42分拿下35分。同期在ICPC世界決賽也取得類似高水平表現。

這兩個成績，DeepMind官方博客已經正式公布。

Google DeepMind隨后把這兩項成績都寫進了官方博客，作為Deep Think邁過數學與編程「世界級競賽門檻」的標志。

接著，Deep Think開始從「世界冠軍級單項突破」，走向「跨語言、跨學科、跨場景的系統驗證」。

2026年2月，Google連發三篇博客。

一篇介紹Gemini 3.1 Pro模型本體，一篇介紹Deep Think專用推理模式的重大升級，一篇來自DeepMind科學發現團隊，直接把Deep Think定位成「人類智力倍增器」。

升級后的Deep Think交出了一串硬指標：

Humanity's Last Exam拿下48.4%（無工具輔助），ARC-AGI-2達到84.6%（ARC Prize基金會官方驗證），Codeforces競賽編程Elo評分3455，2025國際物理奧賽和化學奧賽筆試部分達到金牌水平。

這條路線非常清楚：先用IMO、ICPC這樣的世界級競賽，證明它的強大推理能力，然后再用多語種、區域賽和跨學科奧賽成績，證明它的跨語言、跨領域穩定遷移的通用深度推理能力。

Gemini Deep Think從IMO金牌到PhD級科研加速的能力演進

8語言成績單逐項細看

現在，把這張成績單真正攤開來看。

日語最亮眼。

2025年第35回日本數學奧賽本選（JMO Finals），滿分。

ICPC亞洲日本初賽，滿分。

其中，JMO本選這項成績甚至超過了當屆最高得分對應的80%水平，達到官方所說的「金獎相當」標準。

法語同樣滿分，100%。

中文就有意思了。

第41屆中國數學奧林匹克（CMO），Deep Think拿到86.3%，相當出色。但中國信息學奧賽（NOI）只有63.3%。

86.3%和63.3%之間的落差，畫出了AI推理能力的真實邊界。

在數學競賽里，模型面對的是抽象推導、證明構造和多步演繹，這恰好是Deep Think最擅長的能力帶。

但到了信息學競賽，問題就不只是「想明白」，還包括把邏輯翻譯成可執行代碼、控制邊界條件、兼顧復雜度約束，并且在實現層面避免失誤。

前者更接近純推理，后者則要求「推理+算法設計+工程化實現」同時過關。

其它語種，韓語、印地語、越南語、俄語、葡萄牙語對應的競賽結果里，Deep Think 也都實現了擊敗對手或至少持平。

如果把日語、法語、中文再合起來看，這次最不尋常的一點其實不是某一門單科刷到滿分，而是同一個模型、同一種Deep Think推理系統，在多種語言的競賽試卷上，都交出了第一梯隊的成績。

這份成績單可靠嗎？

但這里有一個關鍵的缺失：

Conglong Li并沒有列出競品的具體對比數據：所有成績，全部來自Google內部評測。沒有第三方獨立復現，沒有競賽官方認證，評測方法完全沒有公開。

每道題是做一次還是做很多次取最優？推理時用了多少算力？有沒有人工提示工程介入？

這些直接影響成績含金量的細節，也都沒提。

還有一點容易被忽略：這些考試全部是各國區域選拔賽，不是國際決賽。

區域賽的題目難度和國際決賽之間，隔著一個量級。

研究員明確說了，這些成績「將被納入模型卡」，截至發稿，模型卡尚未正式更新。

所以，目前這仍然好像是一張由考生自己打分、自己公布、尚未交給教務處蓋章的成績單。

多語言科研公平性

被忽視的真正戰場

為什么Google要專門花精力做8種語言的區域賽評測？

當前AI推理能力的評測，幾乎全部基于英語。

MATH、GSM8K、HumanEval、ARC-AGI……這些都是英語。

全世界的數學家、物理學家、工程師，只要母語不是英語，在使用AI科研工具時都要先過一道語言關。

Google選的這8種語言不是隨機的。

日語、韓語、中文覆蓋東亞科研重鎮，印地語、越南語覆蓋新興市場，法語、俄語、葡萄牙語覆蓋歐洲和南美。

加在一起，這是全球科研產出的大半壁江山。

DeepMind在官方博客里把Deep Think定位為「人類智力倍增器」，說它能「處理知識檢索和嚴格驗證，讓科學家專注于概念深度和創造性方向」。

結合這次的多語言成績，這句話的潛臺詞不難理解：這個倍增器，不僅限英語的科學家用。

更值得注意的是Deep Think在科研落地上已經走了多遠。

DeepMind公布了一個叫Aletheia的數學研究智能體，基于Deep Think驅動，能自主生成、驗證、修訂研究級數學問題的解法。

Aletheia由Deep Think驅動，能夠對研究級數學問題進行迭代式生成、驗證與修正

Aletheia已經參與產出了多篇研究論文，其中一篇完全由AI自主完成，計算了算術幾何中的特定結構常數。

另外，在700個開放數學問題的半自主評估中，它還獨立解決了4個此前未解的問題。

Gemini Deep Think模式在計算機科學、物理學、經濟學等領域也展現出巨大潛力。

在計算機科學領域，Deep Think幫助推翻了一個懸而未決十年的猜想，在物理學領域找到了宇宙弦引力輻射的新型解析解，在經濟學領域擴展了一個拍賣理論定理。

AI推理流程的示意圖，展示了在網絡層進行的大規模解空間探索如何被匯聚為結構化推理，并通過自動化與人工驗證加以確認。

通過與專家合作解決18個研究難題，Gemini Deep Think的高級版本幫助突破了算法、機器學習與組合優化、信息論以及經濟學領域長期存在的瓶頸。

這已經遠遠超出了「做競賽題」的范疇。

當競品還在卷英文benchmark排行榜的時候，Google已經在「AI科研加速器」領域找到了新戰場。

這件事請最重要的東西其實不是分數，它背后真正的信號是：AI科研工具的語言壁壘正在被當作一個工程問題來解決。

如果這條路走通了，全世界用日語、韓語、中文、印地語做研究的科學家，將第一次和英語母語者站在同一條起跑線上。

這一次，Google已經把牌攤在了桌上。

至于競爭對手誰會跟牌，相信我們很快也將看到。

參考資料：

https://blog.google/intl/ja-jp/company-news/technology/gemini-31-pro-gemini-31-pro-deep-think/%20

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/%20

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Edge AI Daily 早報（4月12日）

鈦媒體APP 2026-04-12 08:38:14
0 跟貼 0
ColaVLA：自動駕駛大模型，不一定非要把「思考過程」寫成文字

機器之心Pro 2026-04-03 12:48:20
1 跟貼 1

護航MiniMax、馴服小龍蝦，騰訊云的AI Agent“數字總部”亮了

智東西 2026-04-12 21:43:54
0 跟貼 0

奧特曼預言與現實相差幾何？12個頂級模型“創業”一年，僅3個存活

鈦媒體APP 2026-04-03 17:11:08
1 跟貼 1
AI讀不懂文檔結構？計算所重構Agentic RAG文檔推理能力

新智元 2026-03-16 11:50:10
0 跟貼 0

小模型讀書大模型思考：上海AI Lab提出新知識推理解耦方法DRIFT

機器之心Pro 2026-03-16 11:33:51
0 跟貼 0

CVPR 2026 WorldArena挑戰賽啟動，高德開源高性能世界模型基線

機器之心Pro 2026-04-12 21:26:10
0 跟貼 0
刷榜風波驚動OpenAI后，這家中國團隊拿回Agent硬核榜單第一

機器之心Pro 2026-04-12 21:29:00
0 跟貼 0

HTML-in-Canvas引爆前端！AI時代互聯網視覺效果完全不一樣了

量子位 2026-04-12 21:56:24
0 跟貼 0
10萬小時數據不搞對齊只靠規模,靈初智能Psi-R2登頂MolmoSpaces！

機器之心Pro 2026-04-12 21:24:12
0 跟貼 0
手慢無！深圳小學生零基礎選拔活動報名開始

深圳生活圈 2026-04-09 14:11:50
0 跟貼 0
馬上預約｜專家來訪：抓住啟蒙黃金期，激活孩子的數學腦

湛廬閱讀 2026-04-09 22:25:59
0 跟貼 0
長生不老，谷歌讓人活到150 歲？

蔣院長講航天 2026-04-11 11:14:21
14 跟貼 14
133趣味數學智力題，去掉頭和尾，求這個數

我服子佩 2026-04-12 17:48:31
3 跟貼 3
家長為了孩子有初中上，強制在家說英語，兒子用中式語法給媽媽整崩潰了

重慶視點 2026-04-10 18:16:59
9 跟貼 9
120初中數學中考常見題型，雙重根式的化簡

我服子佩 2026-04-11 21:26:34
1 跟貼 1
新疆老板靠“哞”“咩”翻譯菜單成功把外國顧客講明白了

每日趣事兒 2026-04-10 11:07:03
0 跟貼 0
124初中數學根式題目，比較二次根5和三次根11的大小，有幾種方法

我服子佩 2026-04-11 21:31:15
1 跟貼 1
105小學數學趣味數學，小升初數學，求一個數比4大但是比7小

我服子佩 2026-04-10 21:44:14
1 跟貼 1
13683年中考題：明明是3分的送分題，這也能錯一大片

我服子佩 2026-04-12 17:49:32
1 跟貼 1
小學數學求陰影部分面積對角線有妙用

天天數理學習分享 2026-04-11 10:41:59
5 跟貼 5
奇怪的數學答案

云川剪影 2026-04-11 08:33:32
2 跟貼 2
080小學數學問題，拆分一個分數成為兩個倒數之差

我服子佩 2026-04-08 17:30:06
1 跟貼 1
數學還可以這樣玩？這些幾何變換技巧太實用了！

秒懂奧數李菁老師 2026-04-11 17:05:38
6 跟貼 6
118中考數學必考題，分母有理化，根式化簡題目

我服子佩 2026-04-11 21:25:59
4 跟貼 4
六年級奧數題，三階幻方，尖子生被難哭

大力小學數學 2026-04-08 05:36:00
0 跟貼 0
初中數學數學代數式求值從問題出發

天天數理學習分享 2026-04-12 11:57:33
2 跟貼 2
中考填空壓軸題，求x與y，方法絕了

大力小學數學 2026-04-11 06:15:00
0 跟貼 0
找到突破口，巧求陰影部分面積！

奧數輕松學 2026-04-10 15:56:52
6 跟貼 6
所謂祝你幸福，翻譯過來就是老死不相往來

兔八哥影視 2026-04-09 10:09:10
1 跟貼 1
《大數讀法大揭秘！趣味數學小學必知，別讀錯啦！讀數》

答嘉瑞 2026-04-10 07:55:42
1 跟貼 1
一年級壓軸題，全班都不會

大力小學數學 2026-04-11 05:14:00
1 跟貼 1
084初中數學競賽題，填入符號使等式成立，大把人做不出

我服子佩 2026-04-08 17:31:08
1 跟貼 1
小學奧數培優專題等差數列的應用，注意對于基本性質的了解要透徹

唐老師小課堂 2026-04-08 13:23:16
4 跟貼 4
146求陰影部分的面積：還記得那年小學的暑假被數學支配的恐懼嗎

我服子佩 2026-04-12 17:52:00
1 跟貼 1
未來的“蘋果”“谷歌”等萬億級企業將誕生在何處？

秦朔朋友圈 2026-02-28 00:12:13
0 跟貼 0
14708年中考題：3分的送分題，依然有近一半學生做錯，老師也很無

我服子佩 2026-04-12 17:52:19
1 跟貼 1
小學數學課外拓展-6年級-第32講計算問題（1）

維七的教育分享圈 2026-04-11 07:55:53
5 跟貼 5
隨岳父談生意翻譯臨時缺席，我開口驚艷全場，千億外商當場愣住

徐州真小體育匯 2026-04-12 06:19:49
0 跟貼 0
醫生，還是科學家？上海29歲住院醫生鄔靜瑩破格聘為博士生導師

張強醫生的靜脈百科 2026-04-12 19:30:02
1 跟貼 1

我住院大兒子出3萬，小兒子一分沒出，出院后我跟大兒子斷絕關系

我住院大兒子出3萬，小兒子一分沒出，出院后我跟大兒子斷絕關系

奶茶麥子

2026-04-11 15:45:18

蜜雪冰城南美首店在巴西開業，大批民眾排隊2小時購買，設置200%糖度，檸檬水8元一杯，海外華人：在當地很便宜

蜜雪冰城南美首店在巴西開業，大批民眾排隊2小時購買，設置200%糖度，檸檬水8元一杯，海外華人：在當地很便宜

極目新聞

2026-04-12 13:37:16

10年內入獄2次，爆火后“包一晚”40萬，如今的她過得怎么樣？

10年內入獄2次，爆火后“包一晚”40萬，如今的她過得怎么樣？

寶哥精彩賽事

2026-04-07 15:43:13

中國造不出光刻機？中科大副院長：美國造不出，中國永遠都不可能

中國造不出光刻機？中科大副院長：美國造不出，中國永遠都不可能

小蘭聊歷史

2026-03-21 18:17:07

東契奇最新動態：在斯洛文尼亞陪女兒下階段治療結束與湖人會合

東契奇最新動態：在斯洛文尼亞陪女兒下階段治療結束與湖人會合

羅說NBA

2026-04-12 06:24:57

14年湖北媽媽腎衰竭，移植7歲兒子的腎，得救后：孩子，你安心走

14年湖北媽媽腎衰竭，移植7歲兒子的腎，得救后：孩子，你安心走

北緯的咖啡豆

2026-02-22 19:13:41

活久見！網傳廣東一租客將價值30元沙金項鏈留屋，房東爽快退押金

活久見！網傳廣東一租客將價值30元沙金項鏈留屋，房東爽快退押金

火山詩話

2026-04-12 08:04:26

字節員工：工作9年，北京全款房子一套，40多萬的車，存款237萬

字節員工：工作9年，北京全款房子一套，40多萬的車，存款237萬

螞蟻大喇叭

2026-04-12 16:57:57

比亞迪發布新品牌，首款新車4月15日上市！

比亞迪發布新品牌，首款新車4月15日上市！

新浪財經

2026-04-12 18:09:20

徐少華：不愛美女愛“悍妻”，與楊琨結婚42年，越來越有夫妻相

徐少華：不愛美女愛“悍妻”，與楊琨結婚42年，越來越有夫妻相

悅君兮君不知

2026-04-12 14:37:35

6月1日起，包工頭徹底告別舞臺！建筑圈大洗牌，5000萬工人迎巨變

6月1日起，包工頭徹底告別舞臺！建筑圈大洗牌，5000萬工人迎巨變

普陀動物世界

2026-04-10 21:35:49

美國伊朗“會議室內發生激烈沖突”？伊朗媒體回應……

美國伊朗“會議室內發生激烈沖突”？伊朗媒體回應……

新民周刊

2026-04-12 13:38:59

全程眼突鼓腮，看了觀眾對孫儷的評價，才知張藝謀這句話的含金量

全程眼突鼓腮，看了觀眾對孫儷的評價，才知張藝謀這句話的含金量

陳述影視

2026-04-04 17:53:34

山西呂梁中院一法官被曝在其辦公室內猥褻案件當事人，警方已立案

山西呂梁中院一法官被曝在其辦公室內猥褻案件當事人，警方已立案

極目新聞

2026-04-12 15:32:42

俄專家預測：一旦爆發全球海戰，全世界僅有1國能擊敗美軍

俄專家預測：一旦爆發全球海戰，全世界僅有1國能擊敗美軍

讓心靈得以棲息

2026-04-12 10:31:48

換奧巴馬，這兩名美軍F-15飛行員幾乎必死

換奧巴馬，這兩名美軍F-15飛行員幾乎必死

民間胡扯老哥

2026-04-11 10:30:51

終于官宣電動車禁令取消深層原因全面曝光 4億車主終于不用再躲了

終于官宣電動車禁令取消深層原因全面曝光 4億車主終于不用再躲了

娛樂的硬糖吖

2026-04-12 07:15:21

日媒：樊振東事實上已經退出中國國乒，這不是飯圈文化逼走的最后一人

日媒：樊振東事實上已經退出中國國乒，這不是飯圈文化逼走的最后一人

畫夕

2026-04-12 13:08:52

湖人最后一場藏了3個主力，爵士首發名單只剩5個活人

湖人最后一場藏了3個主力，爵士首發名單只剩5個活人

賽場速報局

2026-04-12 22:35:12

有一種從不坑窮人的奢侈品，叫巴黎世家

有一種從不坑窮人的奢侈品，叫巴黎世家

不惑豬的頻道

2026-04-03 17:31:54

AI產業主平臺領航智能+時代

14954文章數 66768關注度

往期回顧全部

科技要聞

理想稱遭惡意拉踩，東風日產：尊重同行

頭條要聞

特朗普：將封鎖任何試圖進出霍爾木茲海峽的船只

頭條要聞

特朗普：將封鎖任何試圖進出霍爾木茲海峽的船只

體育要聞

創造歷史！五大聯賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝，常年和乳癌斗爭

財經要聞

美伊談判破裂的三大癥結

汽車要聞

煥新極氪007/007GT上市限時19.39萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

健康

數碼

公開課

家居要聞

復古風格自然簡約

清新自然復古風尚
自在恣意侘寂風別墅
雅致愜意感知生活之美

教育要聞

高中地理必會知識點115條全梳理

干細胞抗衰4大誤區,90%的人都中招

數碼要聞

2026年最新AMD/Intel桌面CPU排名：多線程、單線程、游戲性能誰才是第一

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<sub id="llyyi"></sub>

<center id="llyyi"><i id="llyyi"></i></center>