<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<blockquote id="0xjik"></blockquote>

<menu id="0xjik"><ol id="0xjik"></ol></menu>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

11位頂尖數學家發了篇沒結果的論文，陶哲軒推薦都關注一下

2026-02-08 12:52:46　來源: 量子位

北京舉報

0

分享至

獲陶哲軒轉發，arXiv上的一篇新論文正在引起巨大關注！

擠進前排后發現，原來這是一項由11位全球頂尖數學家發起的AI實驗——

讓AI在規定期限內，解決他們各自在真實研究過程中產生的10道“研究級”難題，以此探索“AI+數學”的能力邊界。

而且走的還是高斯時代的路子——人類先證明出來，但先不公布答案和過程，等到了合適時間再公開，避免AI偷偷看答案。

以前這是一項為保護數學家證明自己優先解決某道問題的做法，而在AI時代卻有了新玩法。

在陶哲軒看來，這項實驗非常有意思：

當前“一次性”AI提示似乎難以解決這些問題，但它們已被人類領域專家攻克。可以預見，配備AI工具的其他領域專家也能解決其中相當一部分。這些問題的技術門檻相當高，非領域專家難以驗證AI生成的任何輸出結果
因此在我看來，要讓非專家解決其中任何一個問題都極具挑戰性——當然，意外驚喜也并非不可能。在截止期限前，這項實驗能否產生任何顯著成果，將十分值得關注。

好好好，既然老陶如此安利了，咱這就開扒完整實驗過程（doge）。

解完10道數學題，然后…藏起證明過程

概括而言，通過提出一套名為First Proof的實驗方案，這群數學家想做一件事——

檢驗當前AI系統，是否具備獨立解決研究級數學問題的能力。

在這之前，雖然很多商用AI成了數學家手中的實用工具（如用于文獻檢索、代碼編寫、手稿校驗等），但對于AI是否具備他們想驗證的能力，學界始終缺乏相關清晰結論。

這背后一個很重要的原因，就是評測手段的缺失。

放眼市面上的數學AI基準，目前絕大多數都聚焦于競賽題，此類題目雖然便于規模化測試，卻與真實的數學研究存在本質差異（甚至可能存在數據污染問題）。

而數學家面對的真實情況往往是——

問題并非精確定義完成，解法也不存在明確模板，需要在大量試探、修正和結構性判斷中逐步推進。

基于這樣的背景，這群來自斯坦福、哥倫比亞、哈佛等高校及科研機構的數學家們齊聚一堂，設計了10道研究級數學問題，覆蓋代數組合學、譜圖論、代數拓撲、隨機分析、辛幾何等多個數學分支。

這里補充一下，一開始其實是20道題，不過按4個標準篩選后最終只留下了10道——AI能理解問題表述、無隱藏公開答案、作者同意按要求發布證明、每位團隊成員僅貢獻1道題。

完整10道題目指路論文以下位置：

論文表示，First Proof區別于現有基準的地方在于：

問題來自數學家當前研究中發現的真實疑問，答案為證明過程，需人類專家評分；
問題全公開但答案無任何公開記錄，供社區驗證但不可重復使用，同時徹底消除數據污染；
允許AI無限制使用網絡搜索等外部資源，貼近真實研究場景。

劃重點，這10道題均來自作者自身的研究過程，是未來發表成果中的小型核心引理，未在互聯網、會議等任何公共渠道發布，從根源避免數據污染。

每道題的人類證明不超過5頁（適配當前AI的技術限制），且加密發表于下面的這個網站。

最終答案將于2026年2月13日公開，在此之前全球用戶均可以用這10道題來測試他們想要考驗的AI。

GPT和Gemini先來挑戰一波

而在廣發全球英雄帖之后，這群數學家也先自己測試了一波：

邀請GPT 5.2 Pro和Gemini 3 Deepthink，對10道題進行一次性作答測試。

他們明確表示，First Proof僅聚焦數學研究最后、也是最明確的階段——

在問題表述和研究背景已經清晰給定的前提下，檢驗AI是否能夠完成嚴謹的數學證明，而不評估AI提出研究問題、構建新理論框架或發明新定義的能力。

換言之，這是一場單純的能力邊界測試。在假設所有前期研究工作已經完成的情況下，看看AI能否獨立走完“從命題到正確證明”的最后一公里。

而實驗結果顯示：

在當前公開可用的最佳AI系統，僅有一次作答機會的情況下，它們難以解答我們提出的多數問題

不過作者也預計，如果允許人類與AI反復對話、追問、引導，就很有可能讓AI給出更好的答案。

再劃重點，為了最大程度減少這一實驗可能造成的數據污染問題，他們還有這樣的舉措：

我們關閉了用于訓練和改進模型的數據共享選項，但我們知曉谷歌仍會保留數據3天，而OpenAI會保留30天。
（即便如此）在整個過程中，我們始終盡力確保所提問題的答案保持私密。

未來，這群數學家也計劃在數月內設計第二套問題集，并在實驗設計上進一步收緊變量——

在與相關模型方達成明確協議的前提下，先讓前沿AI系統完成測試，再統一公開問題與答案，從而將First Proof逐步發展為一個可復用、可比較的研究級數學能力基準。

在此基礎上，實驗設置也將逐步“去人工化”。例如，放寬當前對證明長度、表達形式等人為限制，引入來自不同數學分支的問題，使測試不再局限于某一類技術路徑，而是覆蓋更廣泛的研究場景。

更進一步，作者也明確表示，長期目標并不只是評估AI在“解題”階段的表現，而是逐步探索更高階能力的評測方式，比如這次先忽略的提出新問題、構建新理論框架的能力。

不得不說，以上種種也符合陶哲軒一直以來對AI的判斷——

未來的趨勢不是AI代替數學家，而是講求人機協作。

而First Proof的價值，也不在于給AI下一個“及格或不及格”的結論，而在于第一次用真實、未公開、研究級的問題，來試圖界定AI當前所能觸及的邊界。

換言之，即使只完整解出一道題，也足以成為AI數學研究史上一個值得記錄的節點。

就是這時間會不會有點太短了？（截止到2月13日）

論文：
https://arxiv.org/abs/2602.05192
答案加密地址：
https://1stproof.org/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

物化生在線學習工具的差異化功能解析

大彬教育說 2026-02-07 23:12:29
0 跟貼 0
17歲高中生用AI解決數學界難題，陶哲軒、Jeff Dean點贊

機器之心Pro 2026-01-26 14:24:45
0 跟貼 0

分數計算求和大PK，體現了三種思維模式分別是代數解析思維

手工編織教程 2026-02-04 01:03:19
578 跟貼 578

中國第一批沒有論文的工科博士畢業了

量子位 2026-02-08 13:03:59
2 跟貼 2
反復考的數論題目，掌握出題規律直接秒殺！小升初數學易錯題

陳老師講小學奧數 2026-02-07 10:17:24
3 跟貼 3

初中數學解根式方程，移項去根號很麻煩

天天數理學習分享 2026-02-06 10:36:43
16 跟貼 16

小學數學必備知識點，你都知道哪些？

江江愛剪輯 2026-02-07 00:16:12
0 跟貼 0
巧用等腰直角三角形，構造一線三等角，初中中考幾何壓軸題

潘小童講數學 2026-02-06 18:25:22
3 跟貼 3

初中數學解根式方程，還套有雙重二次根式

天天數理學習分享 2026-02-07 13:14:27
1 跟貼 1
費馬點的應用，初中中考幾何壓軸題必考題型

潘小童講數學 2026-02-08 11:48:50
3 跟貼 3
1354四年級：看著復雜的題目孩子竟然不出30秒做出來，媽媽還在發

我服子佩 2026-02-06 11:08:02
1 跟貼 1
初中數學代數式求值，找已知和所求的關系

天天數理學習分享 2026-02-07 13:15:00
4 跟貼 4
1372一年級：全班孩子都出錯的題目，不怪孩子是因為題目迷惑人

我服子佩 2026-02-07 12:21:29
1 跟貼 1
這三種計算方式你們覺得哪個最厲害？龔凱杰

龔凱杰杰 2026-02-04 15:14:43
0 跟貼 0
本來是送分題，咋就全軍覆沒了呢？

郎老師趣味數學課堂 2026-02-06 12:06:21
0 跟貼 0
1374二年級:孩子失分最多的題目，其實很簡單

我服子佩 2026-02-07 12:21:56
1 跟貼 1
二次函數，等面積三角形，初中中考幾何壓軸題必考題型

潘小童講數學 2026-02-08 11:40:37
1 跟貼 1
如何巧算？是否滿足基本形式？小升初數學考試真題易錯題

陳老師講小學奧數 2026-02-08 16:35:06
1 跟貼 1
兩個三角形的面積是12和4，求陰影部分的面積

公考客棧店小二 2026-02-04 10:00:00
17 跟貼 17
二倍角，構造等腰三角形，初中中考幾何壓軸題必考題型

潘小童講數學 2026-02-08 11:56:38
1 跟貼 1
AE與BD相交于點O，求陰影部分的面積

公考客棧店小二 2026-02-05 18:00:00
0 跟貼 0
圓周上畫圓，猜猜畫出什么來

帆雨動畫 2026-02-07 13:00:20
3 跟貼 3
漢奸式中國專家，國人當自強！

夜叔 2026-02-07 01:30:42
669 跟貼 669
拿下“國自然”，他說學物理是一輩子的事

上觀新聞 2026-02-08 11:27:10
1 跟貼 1
這道題老師已經講過，孩子記住了答案

公考客棧店小二 2026-02-06 14:00:00
0 跟貼 0
這個倒三角 ?，為什么總在數學和物理公式里出現？

量子位 2026-01-07 15:33:23
0 跟貼 0
這題目在國內應該是多大的孩子做呢

美食小說趣 2026-02-07 15:22:57
0 跟貼 0
納什：天才還是瘋子？

xinyan 2026-02-08 08:20:08
1 跟貼 1
1382四年級：這道題目不但難住了班里的學霸還把老師難住了

我服子佩 2026-02-08 11:30:52
1 跟貼 1
作業狂潮，誰主沉浮？

我是心安勿夢 2026-02-08 10:56:21
0 跟貼 0
從競賽傳奇到學術巔峰：韋東奕的數學人生如何煉成？

淚之魂y 2026-02-08 09:22:53
0 跟貼 0
倒三角符號在數學和物理公式里的意義

量子位 2026-01-08 13:59:54
0 跟貼 0
高二物化生學習遇瓶頸？這些數字化學習工具或許能幫你突破難點

大彬教育說 2026-02-07 23:00:23
0 跟貼 0
港府當面斥責：巴拿馬自毀國家信用后果自負

北京日報 2026-02-08 07:50:06
14609 跟貼 14609
教師評中高最長痛點，其實不在論文

職稱小小能手 2026-02-07 21:00:00
0 跟貼 0
柳葉刀出手！一篇爭議16年的“母乳嗎啡毒嬰”論文，背后是謊言還是失誤？

雙鏈生信 2026-02-08 13:08:48
1 跟貼 1
一千多個模型都指向一個通用子空間

機器之心Pro 2025-12-16 18:23:47
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
αβγδ社會動力學模型：基于經典命題的整合性重構與揚棄

經濟觀察報 2026-02-06 09:55:06
1 跟貼 1
噩耗傳來：被西方膜拜的中國這位大人物走了！

簡簡單單的說 2026-02-08 07:44:19
18 跟貼 18

廣東單親媽媽愛上澳洲老頭，對方大她27歲，6年后慘死澳大利亞

廣東單親媽媽愛上澳洲老頭，對方大她27歲，6年后慘死澳大利亞

談史論天地

2026-02-07 16:40:03

毛主席提名一人當副主席遭反對，總理透露：當年聽他的就不用長征

毛主席提名一人當副主席遭反對，總理透露：當年聽他的就不用長征

春秋硯

2026-02-08 17:05:05

春晚臨近僅剩9天，趙本山再出王炸，于蕾會讓人失望嗎

春晚臨近僅剩9天，趙本山再出王炸，于蕾會讓人失望嗎

讓生活充滿溫暖

2026-02-07 12:25:10

一日夫妻百日恩，李湘被傳詐騙才幾天，讓她懷二胎的人坐不住了

一日夫妻百日恩，李湘被傳詐騙才幾天，讓她懷二胎的人坐不住了

小熊侃史

2026-02-02 12:45:40

中方考慮拒絕特朗普訪華，英媒曝料：已警告美國，越過紅線別想來

中方考慮拒絕特朗普訪華，英媒曝料：已警告美國，越過紅線別想來

夢在深巷aqa

2026-02-07 22:58:03

白鹿張凌赫分手實錘？女方翻白眼不理睬，男方眼神卑微疑負了對方

白鹿張凌赫分手實錘？女方翻白眼不理睬，男方眼神卑微疑負了對方

情感大頭說說

2026-02-08 01:30:10

工信部新車申報泄密：比亞迪這項黑科技，竟然把效率拉到最高95%

工信部新車申報泄密：比亞迪這項黑科技，竟然把效率拉到最高95%

達文西看世界

2026-02-08 12:01:01

被“籃球地獄”毀掉的天才！曾力壓東契奇卻備受打壓，如今迎良機

被“籃球地獄”毀掉的天才！曾力壓東契奇卻備受打壓，如今迎良機

阿浪的籃球故事

2026-02-08 16:10:08

消費降級？沈陽清河半島洗浴取消自助改賣泡面

消費降級？沈陽清河半島洗浴取消自助改賣泡面

遼沈音信

2026-02-08 15:09:27

小仙女圣母，是如何被洗腦成“三通一達”的工具人？

小仙女圣母，是如何被洗腦成“三通一達”的工具人？

北山浮生

2026-02-07 16:02:08

韓先楚夫人有多美？這是1970年留影，她50歲，皮膚白皙，氣質非凡

韓先楚夫人有多美？這是1970年留影，她50歲，皮膚白皙，氣質非凡

雍親王府

2026-01-07 10:05:02

中方反擊第2天，巴拿馬改口，或同意歸還港口，但有一個前提條件

中方反擊第2天，巴拿馬改口，或同意歸還港口，但有一個前提條件

咖啡店的老板娘

2026-02-08 13:51:31

支持率排名第二，美國下屆總統殺出一匹黑馬，萬斯和魯比奧沒料到

支持率排名第二，美國下屆總統殺出一匹黑馬，萬斯和魯比奧沒料到

影孖看世界

2026-02-07 20:59:28

從“大撒幣”到“大收賬”，近5年中國從非洲凈收回221億美元融資

從“大撒幣”到“大收賬”，近5年中國從非洲凈收回221億美元融資

李丹Fintalk

2026-02-07 22:51:43

3歲上央視，5歲登春晚，7歲年薪百萬，如今卻越來越普通！

3歲上央視，5歲登春晚，7歲年薪百萬，如今卻越來越普通！

神祗與歌

2026-02-08 14:23:44

亂！亂！西部排名大亂！馬刺沖第1，5隊哄搶第3，快船翻身難了

亂！亂！西部排名大亂！馬刺沖第1，5隊哄搶第3，快船翻身難了

兵哥籃球故事

2026-02-07 17:28:31

86歲李雙江現狀曝光，引起網友熱議

86歲李雙江現狀曝光，引起網友熱議

墻頭草

2025-12-27 09:25:07

暴漲！歷史上第一次

風風順

2026-02-08 13:10:41

“家境差回去也只能玩手機”，大學生戳中父母痛處：窮就別提要求

“家境差回去也只能玩手機”，大學生戳中父母痛處：窮就別提要求

妍妍教育日記

2026-02-05 20:03:05

3:1！帕爾默半場帽子戲法，加冕隊史第一，切爾西拒翻車緊追曼聯

3:1！帕爾默半場帽子戲法，加冕隊史第一，切爾西拒翻車緊追曼聯

阿超他的體育圈

2026-02-08 01:07:11

追蹤人工智能動態

12137文章數 176375關注度

往期回顧全部

教育要聞

教育部研究生司：將實行學科專業“紅黃牌”制度

頭條要聞

外媒:由于"作戰"需要美軍兩架F-22退出"超級碗"表演

頭條要聞

外媒:由于"作戰"需要美軍兩架F-22退出"超級碗"表演

體育要聞

銅牌與蘇翊鳴的這四年，他說：我對得起自己

娛樂要聞

曝帶女星回老家小區，羅云熙緊急回應

財經要聞

寬基ETF開年大贖回，什么信號？

科技要聞

歐盟認定存在"上癮"設計 TikTok：結論錯誤

汽車要聞

VLA司機大模型優化理想汽車OTA8.3版本更新

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

時尚

親子

旅游

藝術

轉頭就暈的耳石癥，能開車上班嗎？

40+女性冬季這樣穿：“長外套+裙子”，保暖與洋氣雙向在線

親子要聞

寶藍和爸爸叔叔一起制作水晶泥玩具，快來看看誰做的更漂亮~

旅游要聞

寶藏家鄉味?黃山巖寺老街長桌宴（百鍋宴）暨徽州滿池嬌燈會活動啟幕

藝術要聞

這是崇禎皇帝的字，恢弘雄健、有帝王之氣，網友：可惜生錯了年代！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<bdo id="azmko"><strong id="azmko"></strong></bdo>

<tt id="azmko"><b id="azmko"></b></tt>

<blockquote id="azmko"></blockquote>

<acronym id="azmko"><td id="azmko"></td></acronym>