<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌給「AI解數學題」神話降溫:能摘低垂果實,但過程依然痛苦

      0
      分享至



      編輯|張倩

      剛剛,谷歌發布了一項新的研究進展:他們用 Gemini 做了一次系統性的數學攻關實驗,把目標對準了著名的 Erd?s Problems 數據庫里 700 個仍被標注為 open(未解決)的猜想。



      結果相當亮眼:Gemini 在這批問題中一共推進了 13 個 —— 其中 5 個是模型自主給出的全新解法,另外 8 個則是模型在文獻中挖出了早已存在、但此前被遺漏的解答。



      • 論文標題:Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erd?s Problems
      • 論文鏈接:https://arxiv.org/pdf/2601.22401

      Erd?s Problems 數據庫以數學家 Paul Erd?s 的名字命名。他是 20 世紀最多產的數學家之一,留下了大量論文和未解決的猜想,涵蓋數論、組合數學、圖論等。2023 年,數學家 Thomas Bloom 推出了 ErdosProblems.com 網站,這是一個集中式數據庫,旨在整理這些猜想并跟蹤其研究進展。目前,該數據庫共收錄 1179 個問題,其中 483 個(41%)被歸類為已解決。

      然而,該數據庫中標注「open」的問題并不一定代表問題真的未被解決,而是意味著至少有一位專業數學家嘗試通過網絡搜索尋找已發表的解決方案,但以失敗告終。

      事實證明,很多問題并非「未解決」,而是答案被淹沒了。去年 10 月份,OpenAI 宣布 GPT-5 在該網站上發現了 10 個標記「open」的問題,但其實它們的答案已經存在于相關文獻,只是之前未被搜到。

      這一發現使得 Bloom 的數據庫受到了廣泛關注,同時促使陶哲軒近期創建了一個社區維基,專門跟蹤人工智能輔助解決 Erd?s 問題的相關動態。

      如今,谷歌的研究把 Erd?s 問題的解決又往前推了一步。但他們也坦言,這并不意味著 AI 已經能「自動做數學研究」了,背后的臟活累活遠超普通人想象。

      研究方法

      作者團隊在 2025 年 12 月 2–9 日部署了一個基于 Gemini Deep Think 的定制數學研究智能體 Aletheia,對 Bloom 數據庫中當時仍標注為「Open」的約 700 個 Erd?s 問題進行半自動探索。Aletheia 內置自然語言驗證器(verifier),用于在大規模生成后先做第一輪篩選,將候選問題從 700 個快速收斂到 212 個「看起來可能正確」的回答。

      接下來進入人工評估階段。研究團隊先由非該領域專家的數學家進行快速過濾,盡可能在可控時間內剔除明顯錯誤解,從而把候選規模壓縮到 27 個,再交由內部領域專家逐一嚴審;當解法的正確性明確但新穎性存疑時,還會咨詢外部專家核對文獻。

      最終統計顯示,在可明確判定的約 200 個候選解中,137 個(68.5%)存在根本性錯誤;63 個(31.5%)在形式上成立,但其中只有 13 個(6.5%)真正回答了 Erd?s 原本想問的問題。其余 50 個雖然「技術上正確」,卻因為誤讀題意而導致數學意義有限,作者計劃對這些問題提出更嚴謹的修訂表述;此外還有 12 個回答因問題本身開放或表述不清而被標記為「歧義」。





      根據陶哲軒的建議,作者著重列出了上述數據以保證透明度。這也是為了更完整地呈現 AI 輔助數學研究的真實成本:除了少數正例之外,大量時間會消耗在核驗、糾錯、排查細微錯誤,以及檢索文獻以排除「無意重復」上。

      這表明,業內廣為流傳的「AI 正在加速科學」的論斷有一定片面性:人們通常只展示少數成功案例,強調 AI 在某個任務上比人類更快,從而聲稱 AI「加速」了這一結果;但這類敘事很少把負例納入計算。

      更具挑戰性的是最后一步 —— 確認解答是否已在文獻中出現、以及是否真正契合 Erd?s 的原始意圖。許多問題的困難不在數學推導,而在題面細節的抄錄誤差、遺漏、以及符號與定義約定的歧義;模型若不了解 Bloom 網站的定義慣例,往往會在多個「各自合理」的解釋之間混淆。

      作者指出,在深入做文獻核查與語義對齊后,「真正有意義的正確解」數量會顯著下降,這也提醒未來的 AI 數學發現工作必須對題意一致性與文獻溯源保持高度謹慎。

      關鍵結果

      作者將 13 個有意義的正確結果分為四類:

      1、AI 自主解決。對于這些問題,Aletheia 找到了首個正確的解決方案,且解決方案具有實質性的數學意義。其中包括 Erd?s-652 和 Erd?s-1051,但需要說明的是,Erd?s-652 的解決是通過直接引用現有文獻中的結果實現的。

      2、部分由 AI 解決。對于這些包含多個子問題的復雜問題,Aletheia 找到了其中一個子問題的首個正確解決方案。其中包括 Erd?s-654、Erd?s-935 和 Erd?s-1040。

      3、獨立重發現。對于這些問題,Aletheia 找到了正確的解決方案,但人類審核者隨后發現文獻中已存在獨立的解決方案。其中包括 Erd?s-397、Erd?s-659 和 Erd?s-1089。這些解決方案似乎是模型獨立重發現的:作者仔細檢查了 Aletheia 的推理過程日志,確保該解決方案并非直接從文獻中提取。當然,該解決方案也有可能是通過中間來源或預訓練過程間接從文獻中獲取的。這凸顯了 AI 生成數學內容所伴隨的一個新風險:模型可能會再現預訓練過程中習得的文獻知識,卻不注明來源,即存在「潛意識抄襲」的風險。

      4、文獻識別。對于這些問題,盡管在模型部署時 Bloom 網站將其標記為「open」,但 Aletheia 識別出文獻中已明確存在相關解決方案。其中包括 Erd?s-333、Erd?s-591、Erd?s-705、Erd?s-992 和 Erd?s-1105。



      需要明確的是,研究團隊并未聲稱后兩類結果具有創新性。上述提到的 5 個自主生成的解決方案分別對應 Erd?s-652、Erd?s-654、Erd?s-935、Erd?s-1040 和 Erd?s-1051。根據專家的評估,這 5 個解決方案均未達到學術論文的水平。事實上,其中一些解決方案僅相當于研究生習題的難度(基于現有文獻)。

      他們初步認為,Aletheia 對 Erd?s-1051 的解決方案是 AI 系統自主解決具有一定普遍性(溫和)數學意義的重要開放 Erd?s 問題的早期案例 —— 雖然存在關于密切相關問題的過往文獻,但這些文獻均未完全解決 Erd?s-1051。

      此外,與許多之前討論的案例不同,作者認為 Aletheia 的解決方案并非直接受任何先前人類論證的啟發,但該方案確實采用了經典思路:轉向級數尾部并應用馬勒準則(Mahler’s criterion)。在 Aletheia 與人類數學家以及 Gemini Deep Think 的協作下,Erd?s-1051 的解決方案得到了進一步推廣,并形成了研究論文。

      研究意義

      研究結果表明,Erd?s 問題中存在「低垂的果實」,而 AI 已發展到能夠摘取這些果實的水平。盡管這為 AI 研究人員提供了一種新的、有趣的數學基準,但作者提醒人們不應過度夸大其數學意義本文解決的所有開放問題,任何相關領域的專家都能輕松完成。另一方面,人類專家的時間有限。如果能夠提高 AI 的可靠性,它已展現出加速數學發現中注意力瓶頸環節的潛力。

      在本文的案例研究中,作者遇到了一些最初未預料到的困難。絕大多數技術正確的自主生成解決方案都源于對問題陳述的誤解或解讀缺陷,而診斷這些問題有時需要花費大量精力。

      此外,人類專家面臨的最具挑戰性的步驟并非驗證解決方案的正確性,而是確定這些解決方案是否已存在于文獻中。隨著人工智能生成數學內容的增多,學術界必須警惕「潛意識抄襲」,即 AI 再現訓練過程中習得的文獻知識,卻未給予適當引用。需要注意的是,形式化驗證無法解決這些問題。

      盡管 AI 自主解決 Erd?s 問題的嘗試取得了一定成功,但也引發了誤導性的炒作和徹頭徹尾的虛假信息,并在社交媒體平臺上被放大,這對數學界造成了損害。除了 Erd?s 問題,未來可能還會有許多其他數學猜想列表成為(半)自主研究的目標。作者懇請相關研究人員關注本文提出的這些問題。

      更多信息請參考原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      47歲楊樂樂近況曝光!獨自在小鎮生活,離開老公孩子感覺很輕松

      47歲楊樂樂近況曝光!獨自在小鎮生活,離開老公孩子感覺很輕松

      代軍哥哥談娛樂
      2026-02-03 14:39:25
      “不好惹的富婆” ,大腿必須夠粗

      “不好惹的富婆” ,大腿必須夠粗

      飛娛日記
      2026-01-27 12:27:10
      伊朗遭襲核設施出現新的活動,衛星圖像顯示已搭建新建筑結構

      伊朗遭襲核設施出現新的活動,衛星圖像顯示已搭建新建筑結構

      澎湃新聞
      2026-02-03 14:49:08
      事業單位僅招“省運會第二、第三名”?官方回應

      事業單位僅招“省運會第二、第三名”?官方回應

      中國新聞周刊
      2026-02-04 16:28:30
      一次,易中天問董宇輝:“你知道霍去病為什么死的那么早嗎?

      一次,易中天問董宇輝:“你知道霍去病為什么死的那么早嗎?

      忠于法紀
      2026-01-29 09:18:52
      這就是赤裸裸的差距!煙草公司正式員工的公積金,離譜到你不敢信

      這就是赤裸裸的差距!煙草公司正式員工的公積金,離譜到你不敢信

      復轉這些年
      2026-01-27 23:46:25
      新加坡媒體:中國體制內食堂賓館對外開放受追捧

      新加坡媒體:中國體制內食堂賓館對外開放受追捧

      環球網資訊
      2026-02-04 07:03:37
      2026浙江大學排名揭曉!浙工大榮登第二,杭電第四,溫州醫大第六

      2026浙江大學排名揭曉!浙工大榮登第二,杭電第四,溫州醫大第六

      Delete丨CC
      2026-02-03 19:49:58
      ESPN:哈登和倫納德私下并無深交,兩人甚至從未去過對方家里

      ESPN:哈登和倫納德私下并無深交,兩人甚至從未去過對方家里

      懂球帝
      2026-02-04 13:37:26
      美軍一架隱形戰斗機在阿拉伯海擊落一架伊朗無人機

      美軍一架隱形戰斗機在阿拉伯海擊落一架伊朗無人機

      財聯社
      2026-02-04 01:44:36
      扎哈羅娃:愛潑斯坦案相關文件內容,“讓我感到惡心”

      扎哈羅娃:愛潑斯坦案相關文件內容,“讓我感到惡心”

      環球網資訊
      2026-02-04 16:00:18
      田永明故意殺人案再審改判死刑,被害人家屬落淚:重新開始生活

      田永明故意殺人案再審改判死刑,被害人家屬落淚:重新開始生活

      新京報
      2026-02-03 14:50:07
      700億光伏龍頭確認與馬斯克團隊有接觸

      700億光伏龍頭確認與馬斯克團隊有接觸

      21世紀經濟報道
      2026-02-04 12:56:43
      老人用筷子蘸酒喂5月齡寶寶,導致其肝損傷,接近肝衰竭

      老人用筷子蘸酒喂5月齡寶寶,導致其肝損傷,接近肝衰竭

      觀威海
      2026-02-04 09:06:09
      李誕被“騙”20萬的南極行,刷爆全網,所有人竟然都感謝他!

      李誕被“騙”20萬的南極行,刷爆全網,所有人竟然都感謝他!

      背包旅行
      2026-01-30 10:33:26
      富達國際明星基金經理放話:金價再跌5%-7%將大舉抄底

      富達國際明星基金經理放話:金價再跌5%-7%將大舉抄底

      財聯社
      2026-02-04 16:16:29
      蘋果突然發布iOS26.3.3,續航信號優化再次突破,絲滑省電

      蘋果突然發布iOS26.3.3,續航信號優化再次突破,絲滑省電

      庫克啥都聊
      2026-02-04 15:53:45
      “牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

      “牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

      洲洲影視娛評
      2025-12-08 19:52:00
      不裝了,哈登突爆爭議行為!倫納德很意外,球迷:兄弟情不如爭冠

      不裝了,哈登突爆爭議行為!倫納德很意外,球迷:兄弟情不如爭冠

      阿泰希特
      2026-02-04 12:37:55
      葉劍英離世后,七名健在遺孀均未出席追悼會,其子坦言:是中共中央的決定

      葉劍英離世后,七名健在遺孀均未出席追悼會,其子坦言:是中共中央的決定

      文史明鑒
      2026-02-03 18:01:09
      2026-02-04 16:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12249文章數 142562關注度
      往期回顧 全部

      科技要聞

      太煩人遭投訴!元寶紅包鏈接被微信屏蔽

      頭條要聞

      愛潑斯坦死前48小時簽信托文件豪擲遺產 還和女友通話

      頭條要聞

      愛潑斯坦死前48小時簽信托文件豪擲遺產 還和女友通話

      體育要聞

      哈登回應交易:不想讓自己拖累快船的未來

      娛樂要聞

      姜元來在大S墓碑前哭泣,與具俊曄擁抱

      財經要聞

      多家中小銀行宣布上調存款利率

      汽車要聞

      全偽裝雪地現身 一汽-大眾純電車型線索曝光

      態度原創

      家居
      藝術
      游戲
      教育
      公開課

      家居要聞

      灰白意境 光影奏鳴曲

      藝術要聞

      一篇文章看懂“傳統吉祥圖案”的寓意

      AMD確認!Steam新主機推進順利 仍計劃年初發布

      教育要聞

      香港兩男一女中學生到內地交流外出飲酒租房過夜,學校作出處理

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版