<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      11位頂尖數(shù)學(xué)家發(fā)了篇沒結(jié)果的論文,陶哲軒推薦都關(guān)注一下

      0
      分享至

      獲陶哲軒轉(zhuǎn)發(fā),arXiv上的一篇新論文正在引起巨大關(guān)注!

      擠進(jìn)前排后發(fā)現(xiàn),原來這是一項(xiàng)由11位全球頂尖數(shù)學(xué)家發(fā)起的AI實(shí)驗(yàn)——

      讓AI在規(guī)定期限內(nèi),解決他們各自在真實(shí)研究過程中產(chǎn)生的10道“研究級”難題,以此探索“AI+數(shù)學(xué)”的能力邊界。

      而且走的還是高斯時代的路子——人類先證明出來,但先不公布答案和過程,等到了合適時間再公開,避免AI偷偷看答案。

      以前這是一項(xiàng)為保護(hù)數(shù)學(xué)家證明自己優(yōu)先解決某道問題的做法,而在AI時代卻有了新玩法。



      在陶哲軒看來,這項(xiàng)實(shí)驗(yàn)非常有意思:

      • 當(dāng)前“一次性”AI提示似乎難以解決這些問題,但它們已被人類領(lǐng)域?qū)<夜タ恕?梢灶A(yù)見,配備AI工具的其他領(lǐng)域?qū)<乙材芙鉀Q其中相當(dāng)一部分。這些問題的技術(shù)門檻相當(dāng)高,非領(lǐng)域?qū)<译y以驗(yàn)證AI生成的任何輸出結(jié)果
      • 因此在我看來,要讓非專家解決其中任何一個問題都極具挑戰(zhàn)性——當(dāng)然,意外驚喜也并非不可能。在截止期限前,這項(xiàng)實(shí)驗(yàn)?zāi)芊癞a(chǎn)生任何顯著成果,將十分值得關(guān)注。



      好好好,既然老陶如此安利了,咱這就開扒完整實(shí)驗(yàn)過程(doge)。

      解完10道數(shù)學(xué)題,然后…藏起證明過程

      概括而言,通過提出一套名為First Proof的實(shí)驗(yàn)方案,這群數(shù)學(xué)家想做一件事——

      檢驗(yàn)當(dāng)前AI系統(tǒng),是否具備獨(dú)立解決研究級數(shù)學(xué)問題的能力



      在這之前,雖然很多商用AI成了數(shù)學(xué)家手中的實(shí)用工具(如用于文獻(xiàn)檢索、代碼編寫、手稿校驗(yàn)等),但對于AI是否具備他們想驗(yàn)證的能力,學(xué)界始終缺乏相關(guān)清晰結(jié)論。

      這背后一個很重要的原因,就是評測手段的缺失。

      放眼市面上的數(shù)學(xué)AI基準(zhǔn),目前絕大多數(shù)都聚焦于競賽題,此類題目雖然便于規(guī)模化測試,卻與真實(shí)的數(shù)學(xué)研究存在本質(zhì)差異(甚至可能存在數(shù)據(jù)污染問題)。

      而數(shù)學(xué)家面對的真實(shí)情況往往是——

      問題并非精確定義完成,解法也不存在明確模板,需要在大量試探、修正和結(jié)構(gòu)性判斷中逐步推進(jìn)。

      基于這樣的背景,這群來自斯坦福、哥倫比亞、哈佛等高校及科研機(jī)構(gòu)的數(shù)學(xué)家們齊聚一堂,設(shè)計了10道研究級數(shù)學(xué)問題,覆蓋代數(shù)組合學(xué)、譜圖論、代數(shù)拓?fù)洹㈦S機(jī)分析、辛幾何等多個數(shù)學(xué)分支

      這里補(bǔ)充一下,一開始其實(shí)是20道題,不過按4個標(biāo)準(zhǔn)篩選后最終只留下了10道——AI能理解問題表述、無隱藏公開答案、作者同意按要求發(fā)布證明、每位團(tuán)隊(duì)成員僅貢獻(xiàn)1道題。

      完整10道題目指路論文以下位置:



      論文表示,F(xiàn)irst Proof區(qū)別于現(xiàn)有基準(zhǔn)的地方在于:

      • 問題來自數(shù)學(xué)家當(dāng)前研究中發(fā)現(xiàn)的真實(shí)疑問,答案為證明過程,需人類專家評分;
      • 問題全公開但答案無任何公開記錄,供社區(qū)驗(yàn)證但不可重復(fù)使用,同時徹底消除數(shù)據(jù)污染;
      • 允許AI無限制使用網(wǎng)絡(luò)搜索等外部資源,貼近真實(shí)研究場景。



      劃重點(diǎn),這10道題均來自作者自身的研究過程,是未來發(fā)表成果中的小型核心引理,未在互聯(lián)網(wǎng)、會議等任何公共渠道發(fā)布,從根源避免數(shù)據(jù)污染。

      每道題的人類證明不超過5頁(適配當(dāng)前AI的技術(shù)限制),且加密發(fā)表于下面的這個網(wǎng)站。



      最終答案將于2026年2月13日公開,在此之前全球用戶均可以用這10道題來測試他們想要考驗(yàn)的AI。

      GPT和Gemini先來挑戰(zhàn)一波

      而在廣發(fā)全球英雄帖之后,這群數(shù)學(xué)家也先自己測試了一波:

      邀請GPT 5.2 Pro和Gemini 3 Deepthink,對10道題進(jìn)行一次性作答測試

      他們明確表示,F(xiàn)irst Proof僅聚焦數(shù)學(xué)研究最后、也是最明確的階段——

      在問題表述和研究背景已經(jīng)清晰給定的前提下,檢驗(yàn)AI是否能夠完成嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明,而不評估AI提出研究問題、構(gòu)建新理論框架或發(fā)明新定義的能力。

      換言之,這是一場單純的能力邊界測試。在假設(shè)所有前期研究工作已經(jīng)完成的情況下,看看AI能否獨(dú)立走完“從命題到正確證明”的最后一公里。

      而實(shí)驗(yàn)結(jié)果顯示:

      • 在當(dāng)前公開可用的最佳AI系統(tǒng),僅有一次作答機(jī)會的情況下,它們難以解答我們提出的多數(shù)問題

      不過作者也預(yù)計,如果允許人類與AI反復(fù)對話、追問、引導(dǎo),就很有可能讓AI給出更好的答案。



      再劃重點(diǎn),為了最大程度減少這一實(shí)驗(yàn)可能造成的數(shù)據(jù)污染問題,他們還有這樣的舉措:

      • 我們關(guān)閉了用于訓(xùn)練和改進(jìn)模型的數(shù)據(jù)共享選項(xiàng),但我們知曉谷歌仍會保留數(shù)據(jù)3天,而OpenAI會保留30天。
      • (即便如此)在整個過程中,我們始終盡力確保所提問題的答案保持私密。

      未來,這群數(shù)學(xué)家也計劃在數(shù)月內(nèi)設(shè)計第二套問題集,并在實(shí)驗(yàn)設(shè)計上進(jìn)一步收緊變量——

      在與相關(guān)模型方達(dá)成明確協(xié)議的前提下,先讓前沿AI系統(tǒng)完成測試,再統(tǒng)一公開問題與答案,從而將First Proof逐步發(fā)展為一個可復(fù)用、可比較的研究級數(shù)學(xué)能力基準(zhǔn)。

      在此基礎(chǔ)上,實(shí)驗(yàn)設(shè)置也將逐步“去人工化”。例如,放寬當(dāng)前對證明長度、表達(dá)形式等人為限制,引入來自不同數(shù)學(xué)分支的問題,使測試不再局限于某一類技術(shù)路徑,而是覆蓋更廣泛的研究場景。

      更進(jìn)一步,作者也明確表示,長期目標(biāo)并不只是評估AI在“解題”階段的表現(xiàn),而是逐步探索更高階能力的評測方式,比如這次先忽略的提出新問題、構(gòu)建新理論框架的能力。



      不得不說,以上種種也符合陶哲軒一直以來對AI的判斷——

      未來的趨勢不是AI代替數(shù)學(xué)家,而是講求人機(jī)協(xié)作。

      而First Proof的價值,也不在于給AI下一個“及格或不及格”的結(jié)論,而在于第一次用真實(shí)、未公開、研究級的問題,來試圖界定AI當(dāng)前所能觸及的邊界。

      換言之,即使只完整解出一道題,也足以成為AI數(shù)學(xué)研究史上一個值得記錄的節(jié)點(diǎn)。

      就是這時間會不會有點(diǎn)太短了?(截止到2月13日)



      論文:
      https://arxiv.org/abs/2602.05192
      答案加密地址:
      https://1stproof.org/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      2-3到4-3!趙心童德比戰(zhàn)連得275分逆轉(zhuǎn),張安達(dá)2局0分顆粒無收!

      2-3到4-3!趙心童德比戰(zhàn)連得275分逆轉(zhuǎn),張安達(dá)2局0分顆粒無收!

      劉姚堯的文字城堡
      2026-02-08 15:38:22
      重慶美女籃球手鄧圣潔去世!年僅20歲185公分,長期喝酒一天兩場

      重慶美女籃球手鄧圣潔去世!年僅20歲185公分,長期喝酒一天兩場

      裕豐娛間說
      2026-02-07 12:09:45
      蔣超良,再被點(diǎn)名

      蔣超良,再被點(diǎn)名

      新京報政事兒
      2026-02-08 11:08:58
      男子網(wǎng)購椅子,多出一塊15公斤銀板,價值40余萬元!民警:分揀疏忽,不慎滑落到包裹中

      男子網(wǎng)購椅子,多出一塊15公斤銀板,價值40余萬元!民警:分揀疏忽,不慎滑落到包裹中

      揚(yáng)子晚報
      2026-02-08 07:30:03
      最強(qiáng)不交作業(yè)借口!加拿大花滑運(yùn)動員:教授,我在參加冬奧會

      最強(qiáng)不交作業(yè)借口!加拿大花滑運(yùn)動員:教授,我在參加冬奧會

      全景體育V
      2026-02-08 07:31:17
      亞洲杯女單決賽席位出爐!孫穎莎4:2率先晉級,奪冠僅僅一步之遙

      亞洲杯女單決賽席位出爐!孫穎莎4:2率先晉級,奪冠僅僅一步之遙

      國乒二三事
      2026-02-08 12:14:58
      日本揚(yáng)起高市早苗旋風(fēng),大勝已無懸念?

      日本揚(yáng)起高市早苗旋風(fēng),大勝已無懸念?

      跟著老李看世界
      2026-02-08 09:53:41
      12306顯示沒票,微信卻能買到!上車全是空位,官方回應(yīng)來了

      12306顯示沒票,微信卻能買到!上車全是空位,官方回應(yīng)來了

      金哥說新能源車
      2026-02-08 05:44:48
      中國隊(duì)0-3不敵韓國,收獲亞洲羽毛球團(tuán)體錦標(biāo)賽女團(tuán)亞軍

      中國隊(duì)0-3不敵韓國,收獲亞洲羽毛球團(tuán)體錦標(biāo)賽女團(tuán)亞軍

      懂球帝
      2026-02-08 13:08:21
      一看王楚然的腿就是練過的 健康美啊

      一看王楚然的腿就是練過的 健康美啊

      動物奇奇怪怪
      2026-02-08 09:28:16
      英國每日郵報:“女孩們放學(xué)后”來訪:安德魯王子在愛潑斯坦紐約豪宅九天的丑陋真相

      英國每日郵報:“女孩們放學(xué)后”來訪:安德魯王子在愛潑斯坦紐約豪宅九天的丑陋真相

      椰青美食分享
      2026-02-08 00:09:26
      天涯社區(qū)宣布重啟:2026年6月1日恢復(fù)訪問!1999元招募創(chuàng)世成員

      天涯社區(qū)宣布重啟:2026年6月1日恢復(fù)訪問!1999元招募創(chuàng)世成員

      快科技
      2026-02-07 09:54:13
      李亞鵬直播透露董宇輝捐款金額:不是小錢,比200萬高很多

      李亞鵬直播透露董宇輝捐款金額:不是小錢,比200萬高很多

      第一財經(jīng)資訊
      2026-02-08 13:46:39
      蔣超良,被解放軍報點(diǎn)名

      蔣超良,被解放軍報點(diǎn)名

      大風(fēng)新聞
      2026-02-08 13:08:07
      “小婉君”金銘45歲現(xiàn)狀:個子太矮事業(yè)受挫,住北京豪宅不婚不育

      “小婉君”金銘45歲現(xiàn)狀:個子太矮事業(yè)受挫,住北京豪宅不婚不育

      削桐作琴
      2026-01-29 00:03:53
      今天凌晨,談國新在武漢逝世,官網(wǎng)已變黑白

      今天凌晨,談國新在武漢逝世,官網(wǎng)已變黑白

      極目新聞
      2026-02-08 14:43:27
      特朗普終于肯繳納會費(fèi),但有個前提條件,把聯(lián)合國安排得明明白白

      特朗普終于肯繳納會費(fèi),但有個前提條件,把聯(lián)合國安排得明明白白

      東極妙嚴(yán)
      2026-02-08 09:49:36
      襲擊俄軍中將的一名嫌疑人在迪拜被拘捕

      襲擊俄軍中將的一名嫌疑人在迪拜被拘捕

      新華社
      2026-02-08 16:10:51
      江蘇永不倒閉的5大央國企,鐵飯碗中的金飯碗

      江蘇永不倒閉的5大央國企,鐵飯碗中的金飯碗

      前沿天地
      2026-02-07 20:31:52
      一天成交15萬斤!杭州老板:一上午就賣空!今年粉菠蘿火了

      一天成交15萬斤!杭州老板:一上午就賣空!今年粉菠蘿火了

      環(huán)球網(wǎng)資訊
      2026-02-08 13:50:10
      2026-02-08 16:36:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12137文章數(shù) 176374關(guān)注度
      往期回顧 全部

      教育要聞

      教育部研究生司:將實(shí)行學(xué)科專業(yè)“紅黃牌”制度

      頭條要聞

      湖北省委原書記蔣超良再被點(diǎn)名:為官莫喝“迷魂湯”

      頭條要聞

      湖北省委原書記蔣超良再被點(diǎn)名:為官莫喝“迷魂湯”

      體育要聞

      銅牌與蘇翊鳴的這四年,他說:我對得起自己

      娛樂要聞

      曝帶女星回老家小區(qū),羅云熙緊急回應(yīng)

      財經(jīng)要聞

      金銀震蕩144小時 大爺大媽排隊(duì)「抄底」

      科技要聞

      歐盟認(rèn)定存在"上癮"設(shè)計 TikTok:結(jié)論錯誤

      汽車要聞

      VLA司機(jī)大模型優(yōu)化 理想汽車OTA8.3版本更新

      態(tài)度原創(chuàng)

      教育
      時尚
      本地
      游戲
      手機(jī)

      教育要聞

      二次函數(shù),等面積三角形,初中中考幾何壓軸題必考題型

      40+女性冬季這樣穿:“長外套+裙子”,保暖與洋氣雙向在線

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      2月13日XGP玩家享福了!爽玩高能人生2、天國拯救

      手機(jī)要聞

      澎湃OS NEXT再次被確認(rèn):底層重構(gòu),讓千元機(jī)起飛!

      無障礙瀏覽 進(jìn)入關(guān)懷版