<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      超越IMO金牌?谷歌創超難FirstProof數學挑戰新紀錄

      0
      分享至

      編輯|冷貓


      去年 7 月的 IMO 數學奧林匹克競賽中,兩大人工智能公司搶奪競賽「金牌」成績的鬧劇搞得沸沸揚揚。

      當時 OpenAI 和 谷歌 同時聲稱取得競賽金牌,而 OpenAI 因繞過官方競賽規則提前官宣,遭到廣泛吐槽;谷歌 DeepMind 的 Gemini 進階模型成為首個獲得奧賽組委會官方認定為金牌的 AI 系統。

      競賽與真正的數學研究之間,仍然存在一道明顯的分界線。

      在此之后,AI 智能體飛速發展,解決數學問題的能力不再僅依靠模型的推理能力。AI 智能體已經可以開始自己做數學,不只是解題,更能夠進行數學研究,而且研究的還是頂尖數學家都要撓頭的問題,這意味著什么?

      近日,來自谷歌 DeepMind ,由 Gemini 3 Deep Think 驅動的最新數學研究智能體 Aletheia 在首屆 FirstProof 挑戰中,自主解決了 10 道高難度研究問題中的 6 道,成為創下了該數學挑戰賽的最佳紀錄。



      曾帶隊實現 AI IMO 金牌成績的 DeepMind 超人類推理方向負責人 Thang Luong 表示,這一成果的分量超過去年 AI 在 IMO 測試中獲得金牌的表現。

      相關論文《Aletheia tackles FirstProof autonomously》已發布在 arXiv,并且團隊在 Github 上公開了解決 FirstProof 問題的提示詞與輸出結果。



      • 論文標題:Aletheia tackles FirstProof autonomously
      • 論文鏈接:https://arxiv.org/pdf/2602.21201
      • 提示詞與輸出結果:https://github.com/google-deepmind/superhuman/tree/main/aletheia

      FirstProof:把 AI 放進真實的數學研究現場

      FirstProof 是一項專門為評估 AI 數學研究能力而設計的實驗性挑戰。項目由多位活躍在不同數學分支的一線研究者發起,題目全部來自真實科研過程中的命題,被提出作為評估當前人工智能能力的測試。

      這些問題在挑戰啟動前從未公開證明,組織方提前將標準證明加密保存,以盡量排除訓練數據泄露的可能。最終提交的答案,需要由領域專家人工審閱,判斷其邏輯嚴密性與學術可接受度。評價標準接近論文審稿,而非自動判分。

      這種設計刻意提高了門檻。它測試的,是 AI 在陌生問題上進行長期推理與結構構造的能力。換句話說,FirstProof 關心的,是系統是否具備參與數學研究的潛力。

      這些問題于 2026 年 2 月 5 日發布,并設定了截止時間為太平洋時間 2026 年 2 月 13 日晚上 11:59 ,解決方法在截止后在互聯網上發布。

      這項評估本身極其困難,能夠真正理解這些問題的專家屈指可數。關鍵的一點是:Aletheia 的所有解答均在沒有任何人工干預的情況下生成,并且在 FirstProof 挑戰規定的時間范圍內提交。



      研究團隊執行整體流程

      FirstProof 的第一作者確認了這一事實:



      研究團隊運行了兩個版本的 Aletheia(兩者僅在底層基礎模型上有所不同),它們都由 Gemini DeepThink 提供支持。綜合多數專家評審意見,這兩個系統共同解決了 10 道題中的 6 道(第 2、5、7、8、9、10 題)。我們注意到,專家們對第 8 題的評估并不完全一致。



      Aletheia 在 FirstProof 上的性能總結。專家評估列顯示了在咨詢的總專家人數中,有多少專家將解決方案評為正確。僅在 P8 上的評估不是一致的。

      Aletheia 的「解題分析」

      兩個智能體在同樣的 FirstProof 十個問題的執行結果如下所示:



      在 FirstProof 的 10 道問題中,Aletheia 為其中 6 道題(P2、P5、P7、P8、P9、P10)生成了候選解答。在「best-of-2」的評估設置下,根據多數專家的評審意見,這 6 道題都被認定為在該解釋框架下已正確解決。

      Aletheia A 與 Aletheia B 針對相同的六道題目都生成了候選解答。單獨來看,每個智能體都至少出現過一次「假陽性」(false positive),但在 best-of-2 的評估機制下,它們共同為六道題目都提供了可信的解答。這一結果相比 2025 年 12 月用于解決 Erd?s 問題的 Aletheia 版本,在準確率上有明顯提升。

      不過,P8 的評估并非一致通過 ——7 位專家中有 5 位給出了「Correct」的評價。對于另外 4 道題(P1、P3、P4、P6),兩個智能體都沒有給出解答:要么明確輸出「No solution found」(未找到解答),要么在時間限制內沒有返回任何結果。

      研究團隊認為,Aletheia 具備一種「自我篩選」機制,這也是 Aletheia 的關鍵設計原則之一。

      在將 AI 擴展為數學研究助手的過程中,可靠性才是首要瓶頸。如果智能體給出錯誤的「幻覺」答案,會極度浪費人類專家用于驗證結果的時間與精力,與提高研究效率和自動化的目標背道而馳。

      此外,解決問題的推理成本也是非常重要的指標。



      在圖中展示了每個候選解的推理成本,并將其表示為相對于 Erd?s-1051 解答推理成本的倍數。不難發現,Aletheia 在所有問題上,推理成本都高于 Erd?s-1051。

      尤其是 P7,其推理成本比此前觀察到的規模高出一個數量級。研究者稱,這一方面是因為 Generator 子智能體在生成候選解時消耗了大量計算資源,另一方面是因為需要更多輪交互才能通過 Verifier 子智能體的驗證。

      總結


      數學研究包含多個環節:提出問題、建立框架、尋找關鍵結構、完成證明。當前系統顯然還無法全面承擔所有角色,但它已經開始在證明與驗證環節發揮作用。

      未來的研究場景或許會發生變化。人類研究者提出方向與核心思想,AI 負責高強度的路徑搜索與形式化驗證,再由人類進行理論整合與升華。這種協作模式,正在逐漸成形。

      數學長期以來被視為人類理性能力的高地。如今,AI 正在這里取得實質性突破。當機器開始穩定地完成研究級證明,我們或許需要重新思考一個問題:

      在未來的數學論文作者名單中,AI 會以什么身份出現?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      俄烏戰爭四周年,為什么開始強調援助烏克蘭?

      俄烏戰爭四周年,為什么開始強調援助烏克蘭?

      作家加野
      2026-02-26 10:21:34
      歐冠16強出爐,阿森納喜提大禮包!巴黎下下簽,頭號奪冠熱門誕生

      歐冠16強出爐,阿森納喜提大禮包!巴黎下下簽,頭號奪冠熱門誕生

      球場沒跑道
      2026-02-26 12:07:39
      50歲陳坤與董潔牽手一月后現狀曝光,網友不意外

      50歲陳坤與董潔牽手一月后現狀曝光,網友不意外

      阿坹武器裝備科普
      2026-02-26 12:00:47
      向華強回應遺產問題:和向太達成一致 都交給郭碧婷來管 一分錢不留給兒子

      向華強回應遺產問題:和向太達成一致 都交給郭碧婷來管 一分錢不留給兒子

      閃電新聞
      2026-02-26 11:56:07
      掘金103-84凱爾特人,約基奇30+12,布朗23+11,穆雷病退

      掘金103-84凱爾特人,約基奇30+12,布朗23+11,穆雷病退

      懂球帝
      2026-02-26 13:49:51
      中領館提醒: 18-65歲在俄長期居留男性 須同意在俄軍事單位等至少服役1年

      中領館提醒: 18-65歲在俄長期居留男性 須同意在俄軍事單位等至少服役1年

      閃電新聞
      2026-02-26 12:46:48
      3-2險爆冷!1號種子驚險過關,陳熠蒯曼輸得不冤,沒莎頭還真不行

      3-2險爆冷!1號種子驚險過關,陳熠蒯曼輸得不冤,沒莎頭還真不行

      體育就你秀
      2026-02-26 15:21:28
      河南一蜜雪冰城店被曝用垃圾車運冰塊送后廚,店長疑刪監控后稱:你是同行嗎?這么有正義感

      河南一蜜雪冰城店被曝用垃圾車運冰塊送后廚,店長疑刪監控后稱:你是同行嗎?這么有正義感

      爆角追蹤
      2026-02-26 08:12:43
      哈登!骨折?騎士接下來怎么辦?

      哈登!骨折?騎士接下來怎么辦?

      籃球盛世
      2026-02-26 10:40:39
      韋雪廣西被偶遇,像楊冪但差遠了,饅化嚴重,吃螺螄粉不敢張大嘴

      韋雪廣西被偶遇,像楊冪但差遠了,饅化嚴重,吃螺螄粉不敢張大嘴

      非常先生看娛樂
      2026-02-25 16:59:15
      日版《水滸傳》開播,看得我臉都紅了

      日版《水滸傳》開播,看得我臉都紅了

      i書與房
      2026-02-26 14:51:41
      “山姆女王”為何密集拜訪江蘇三個最強地級市委書記?

      “山姆女王”為何密集拜訪江蘇三個最強地級市委書記?

      財經無忌
      2026-02-25 21:55:36
      “我老公家要絕后了,我娘家也要絕后了”,一廣西網友發帖引共鳴

      “我老公家要絕后了,我娘家也要絕后了”,一廣西網友發帖引共鳴

      火山詩話
      2026-02-26 09:41:57
      平頂山打人事件仍在發酵!網傳劉某飛,名下竟有多達4家企業關聯

      平頂山打人事件仍在發酵!網傳劉某飛,名下竟有多達4家企業關聯

      火山詩話
      2026-02-26 07:38:12
      極氪公布春節十大獵裝旅行路線,揭秘深度自駕游版圖

      極氪公布春節十大獵裝旅行路線,揭秘深度自駕游版圖

      魯中晨報
      2026-02-26 12:29:41
      湖南一縣委書記抖音賬號成民情留言板,當地:書記自己使用該賬號,是她本人回復網友

      湖南一縣委書記抖音賬號成民情留言板,當地:書記自己使用該賬號,是她本人回復網友

      極目新聞
      2026-02-26 12:03:32
      連環套啊!巴拿馬剛強行接管港口,津巴布韋突然宣布暫停鋰出口!

      連環套啊!巴拿馬剛強行接管港口,津巴布韋突然宣布暫停鋰出口!

      青青子衿
      2026-02-26 11:44:30
      報告114傷1死,中國企業的血糖儀遭FDA警告

      報告114傷1死,中國企業的血糖儀遭FDA警告

      健識局
      2026-02-25 20:07:55
      央視發聲!重慶烤全羊瘋狂宰客,官方曝光作案手段,老板麻煩大了

      央視發聲!重慶烤全羊瘋狂宰客,官方曝光作案手段,老板麻煩大了

      天天熱點見聞
      2026-02-25 05:42:55
      上海樓市“新七條”落地當天:兩類群體咨詢升溫,有房東重新掛牌

      上海樓市“新七條”落地當天:兩類群體咨詢升溫,有房東重新掛牌

      澎湃新聞
      2026-02-25 22:22:28
      2026-02-26 17:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12368文章數 142569關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      女子家水費兩個月1847元 整整一個月每天用水都是13噸

      頭條要聞

      女子家水費兩個月1847元 整整一個月每天用水都是13噸

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經要聞

      人民幣升破6.85,創3年新高

      汽車要聞

      別克君越/昂科威Plus直降5000元 限時優惠價15.49萬起

      態度原創

      藝術
      家居
      本地
      健康
      公開課

      藝術要聞

      2025年百家金陵畫展 | 油畫作品選刊

      家居要聞

      歸隱于都市 慢享自由

      本地新聞

      津南好·四時總相宜

      轉頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版