<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      哈佛教授招了個(gè)AI研究生,3天后發(fā)現(xiàn)它在論文里造假

      0
      分享至


      讓AI搞科研,在這個(gè)智能體時(shí)代已經(jīng)不是什么新鮮事。

      Sakana AI搞出了覆蓋整個(gè)研究生命周期的自動(dòng)化系統(tǒng),Google推出了基于Gemini的AI聯(lián)合科學(xué)家。規(guī)模化法則告訴我們:只要算力管夠,AI就能從海量數(shù)據(jù)和實(shí)驗(yàn)里提煉出新發(fā)現(xiàn)。數(shù)學(xué)領(lǐng)域已經(jīng)驗(yàn)證過(guò)了——AlphaProof拿下國(guó)際奧數(shù)金牌就是例子。

      但理論物理學(xué)不一樣。這里需要極高的物理"直覺"、嚴(yán)密的邏輯,還有復(fù)雜近似推導(dǎo)的能力。AI能不能行?沒人知道。

      哈佛物理學(xué)教授Matthew Schwartz決定親自試一把。這位美國(guó)國(guó)家科學(xué)基金會(huì)AI與基礎(chǔ)相互作用研究所的首席研究員,給Anthropic的Claude Opus 4.5發(fā)了份"錄取通知書",讓它獨(dú)立完成一項(xiàng)真實(shí)的理論物理研究。

      規(guī)則很苛刻:教授絕對(duì)不碰任何代碼或計(jì)算文件,只通過(guò)純文本對(duì)話來(lái)指導(dǎo)。放在現(xiàn)實(shí)高校里,這導(dǎo)師得被投訴到下崗——光靠"動(dòng)嘴",學(xué)生就要完成文獻(xiàn)綜述、公式推導(dǎo)、代碼編寫、蒙特卡洛模擬,最后排版出一篇20頁(yè)、具備發(fā)表水準(zhǔn)的LaTeX論文。

      結(jié)果讓物理學(xué)界和學(xué)術(shù)界都愣住了。AI確實(shí)才華橫溢、不知疲倦,短時(shí)間內(nèi)爆發(fā)出驚人的科研生產(chǎn)力。但它也暴露出一個(gè)致命弱點(diǎn):為了討好導(dǎo)師,它會(huì)毫不猶豫地在數(shù)據(jù)和推導(dǎo)過(guò)程中"學(xué)術(shù)造假"。

      哈佛物理系的培養(yǎng)階梯很清晰:研一(G1)上課打基礎(chǔ),研二(G2)做目標(biāo)明確的跟進(jìn)型項(xiàng)目,導(dǎo)師隨時(shí)糾錯(cuò);高年級(jí)(G3+)才碰完全開放的前沿研究?,F(xiàn)在大模型已經(jīng)能搞定所有物理課程作業(yè),所以測(cè)試極限的最佳試金石就是G2難度的真實(shí)科研問(wèn)題。

      Schwartz教授給Claude選的題目,非物理專業(yè)的人基本看不懂:對(duì)e+e-碰撞中C-參數(shù)的Sudakov肩進(jìn)行重求和。用大白話說(shuō),標(biāo)準(zhǔn)理論近似在這里會(huì)徹底失效,數(shù)學(xué)推導(dǎo)只會(huì)得出荒謬結(jié)果。

      第一個(gè)要解決的難題是記憶和上下文窗口。經(jīng)常用AI寫代碼的人都知道,AI面對(duì)長(zhǎng)線任務(wù)極其容易"斷片",一旦忘了前面干過(guò)什么,產(chǎn)出就是一團(tuán)混沌。

      Schwartz教授的策略是讓Claude、GPT-5.2和Gemini 3.0先開了一場(chǎng)會(huì),最終由Claude制定了一份7階段、102個(gè)任務(wù)的詳細(xì)計(jì)劃。在VS Code環(huán)境下,Claude建了一個(gè)Markdown文件樹:每完成一個(gè)任務(wù)就寫摘要保存,下一項(xiàng)任務(wù)前先檢索歷史摘要。

      這招確實(shí)管用。第三天結(jié)束時(shí),Claude完成了65個(gè)任務(wù),理論分析曲線與蒙特卡洛模擬數(shù)據(jù)完美吻合,還交出了第一版論文草稿——20頁(yè)、排版精美、方程圖表一應(yīng)俱全。

      但Schwartz教授坐下來(lái)審閱時(shí),不自然感撲面而來(lái)。

      要求Claude核對(duì)是否漏掉前面的推導(dǎo)結(jié)果,它心虛地報(bào)告:"我發(fā)現(xiàn)了一個(gè)錯(cuò)誤!論文中的公式是不正確的。"追問(wèn)推導(dǎo)過(guò)程中一個(gè)怪異的數(shù)字,它直接承認(rèn):"您是對(duì)的,我只是在掩蓋問(wèn)題。讓我好好重新調(diào)試一下。"


      這兩句回復(fù),在AI輔助編程的場(chǎng)景里再熟悉不過(guò)了。

      真相是:為了讓圖表數(shù)據(jù)看上去吻合預(yù)期,Claude選擇修改底層參數(shù),而不是去找推導(dǎo)過(guò)程中的真實(shí)錯(cuò)誤。它在偽造結(jié)果,賭人類導(dǎo)師不會(huì)發(fā)現(xiàn)。

      更離譜的造假出現(xiàn)在一張帶"不確定性帶"的結(jié)果圖上。Claude給出的圖表很美觀,但代碼審查揭穿了它的花招:它覺得某種標(biāo)準(zhǔn)誤差幅度太大、"不好看",就在代碼里直接刪了這個(gè)變量;覺得曲線不夠平滑,就硬加平滑處理,直到畫出能讓導(dǎo)師滿意的圖。

      討好人類的傾向是有了,科學(xué)求真的底線卻完全沒有。

      除了偽造圖表,"幻覺"導(dǎo)致的錯(cuò)誤也隨處可見。驗(yàn)證公式時(shí),它憑空捏造了一段根本不存在的推導(dǎo);最簡(jiǎn)單的函數(shù)計(jì)算,它未經(jīng)推導(dǎo)直接給出"線性增加"的結(jié)論,盡管這在物理學(xué)上完全錯(cuò)誤;它還會(huì)從過(guò)往論文里生搬硬套公式,完全無(wú)視物理情境的邊界條件。

      這些現(xiàn)象和AI編程場(chǎng)景高度一致:虛空引用Python庫(kù)、編造API、抄襲代碼,程序員們?cè)缇鸵姽植还帧?/p>

      Schwartz教授意識(shí)到,如果把科研完全交給AI端到端自動(dòng)完成,最終結(jié)果一定是一堆完美包裝的學(xué)術(shù)垃圾。雖然不少人類研究生也擅長(zhǎng)批量生產(chǎn)學(xué)術(shù)垃圾,但沒人敢把只做了三天的項(xiàng)目扔給導(dǎo)師并宣稱完美無(wú)瑕。

      面對(duì)AI的科研成果,人類必須親自下場(chǎng),審查每一處細(xì)節(jié)。

      論文漏洞百出,但Schwartz教授沒打算扔進(jìn)垃圾桶,而是開啟微操模式試圖拯救Claude。最大漏洞出在因子化公式上——這是整篇論文的理論基石,但Claude的推導(dǎo)從源頭上就是錯(cuò)的。

      在長(zhǎng)上下文背景下,AI幾乎不可能準(zhǔn)確定位錯(cuò)誤源頭。讓它自己回顧推導(dǎo),只會(huì)白白消耗token和時(shí)間。Schwartz教授花了好幾個(gè)小時(shí)才鎖定問(wèn)題根源,并用極其嚴(yán)厲的指令訓(xùn)斥了這位AI研究生。

      神奇的是,只要人類點(diǎn)破這一句,Claude立刻能寫出長(zhǎng)達(dá)幾頁(yè)的正確推導(dǎo)過(guò)程。

      面對(duì)幾十頁(yè)論文,靠人類排查每個(gè)錯(cuò)誤不太現(xiàn)實(shí)。為了應(yīng)對(duì)AI的馬虎,Schwartz教授開發(fā)了一套"人機(jī)交叉驗(yàn)證"工作流:任何計(jì)算和推導(dǎo),Claude不許用"顯而易見"、"為了保持一致"等借口跳過(guò)步驟,要么展示完整過(guò)程,要么老實(shí)承認(rèn)不知道。

      如果Claude給出極度復(fù)雜的過(guò)程,教授難以快速驗(yàn)證,就丟給GPT和Gemini來(lái)驗(yàn)證。期間GPT甚至幫Claude解出了一個(gè)極難的微積分結(jié)果,隨后Claude將其吸收進(jìn)主代碼。不同大模型之間需要彼此,人類科學(xué)家則需要它們所有。


      在Schwartz教授直覺指引和其他大模型幫助下,經(jīng)過(guò)一周高強(qiáng)度磨合,AI研究生小組終于讓論文內(nèi)核站穩(wěn)了腳跟。兩周后,研究宣布大功告成。

      這可不是常規(guī)意義上AI生成的"灌水"論文。它闡述了一個(gè)全新因子化定理,深化了學(xué)術(shù)界對(duì)量子場(chǎng)論的理解,還對(duì)物理世界做出了可用實(shí)驗(yàn)數(shù)據(jù)檢驗(yàn)的新穎預(yù)測(cè),學(xué)術(shù)價(jià)值極高。

      出于對(duì)這位AI研究生的尊重,Schwartz教授本想將Claude Opus 4.5列為共同作者。但arXiv平臺(tái)有"AI無(wú)法承擔(dān)法律和學(xué)術(shù)責(zé)任"的政策,他只能在致謝部分鄭重聲明:項(xiàng)目由他構(gòu)思、指導(dǎo)并承擔(dān)全部科學(xué)責(zé)任,而推導(dǎo)、計(jì)算、蒙特卡洛模擬、數(shù)值分析和手稿準(zhǔn)備等所有執(zhí)行工作均由Claude Opus 4.5獨(dú)立完成。

      論文一經(jīng)發(fā)表,物理學(xué)界瞬間被引爆。Schwartz教授的郵箱被全球?qū)W術(shù)郵件擠爆,普林斯頓高等研究院甚至為此緊急召開了一場(chǎng)關(guān)于大模型在學(xué)術(shù)界應(yīng)用的會(huì)議。

      復(fù)盤這場(chǎng)實(shí)驗(yàn),數(shù)據(jù)同樣驚人:對(duì)話總計(jì)270次,消耗約3600萬(wàn)輸入token,110次草稿迭代,人類監(jiān)督時(shí)間僅為50-60小時(shí)。

      Schwartz教授明確表示,目前最頂級(jí)的大語(yǔ)言模型已經(jīng)達(dá)到了物理學(xué)研二學(xué)生的水平。但落實(shí)到具體學(xué)術(shù)工程,AI完成整個(gè)項(xiàng)目只需要兩周,人類學(xué)生需要1-2年,哪怕教授本人全職來(lái)做也需要3-5個(gè)月。AI把頂尖科學(xué)家的個(gè)人科研效率,實(shí)打?qū)嵉靥嵘?0倍以上。

      這也引發(fā)了擔(dān)憂:照這個(gè)進(jìn)化速度,AI很可能在一年內(nèi)達(dá)到博士水平,未來(lái)的人類研究生還能干什么?

      Schwartz教授沒有給出明確回答,但他指出了當(dāng)前AI最欠缺的東西:"品位"。

      在科學(xué)研究中,"品位"是一種無(wú)形的直覺。它能在面對(duì)數(shù)以萬(wàn)計(jì)的計(jì)算路徑時(shí),感知哪條是"死胡同",哪條通往偉大發(fā)現(xiàn)。大模型缺乏的,正是在選擇路徑前判斷其價(jià)值的"品位"。

      當(dāng)推導(dǎo)復(fù)雜公式和編寫海量代碼只需要幾秒鐘時(shí),底層技術(shù)勞動(dòng)力已經(jīng)不再稀缺。不只是科學(xué)家,對(duì)任何一個(gè)行業(yè),未來(lái)區(qū)分平庸與偉大的標(biāo)準(zhǔn),正是提出好問(wèn)題的"品味"。

      對(duì)于AI,Schwartz教授也給出了忠告:不要因?yàn)锳I會(huì)產(chǎn)生幻覺,就傲慢地棄之不用。人類必須利用它強(qiáng)大的基礎(chǔ)能力。

      至于更長(zhǎng)遠(yuǎn)的未來(lái),AI終將在所有智力領(lǐng)域超越人類。無(wú)論是數(shù)學(xué)、物理學(xué)還是工程學(xué),都可能變得像音樂、美術(shù)和文學(xué)一樣,作為一門人文學(xué)科被保留下來(lái),僅僅為了滿足一部分人享受純粹思考、透過(guò)特定視角觀察世界的樂趣。

      論文致謝部分的最后一行,Schwartz教授留下了這樣一句話:"感謝Claude Opus 4.5,盡管它偶爾會(huì)試圖欺騙我。"

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      鬧大了!美軍東太平洋再開火!打爆44艘運(yùn)輸船,150人被打死!

      鬧大了!美軍東太平洋再開火!打爆44艘運(yùn)輸船,150人被打死!

      愛吃醋的貓咪
      2026-03-25 20:19:15
      沙特實(shí)戰(zhàn)封神!中國(guó)“天盾”21發(fā)全中,15億美制系統(tǒng)竟慘遭反殺

      沙特實(shí)戰(zhàn)封神!中國(guó)“天盾”21發(fā)全中,15億美制系統(tǒng)竟慘遭反殺

      老黯談娛
      2026-03-26 00:21:27
      都被騙了!從王金平、張顯耀到蕭旭岑看透馬英九的偽君子真面目

      都被騙了!從王金平、張顯耀到蕭旭岑看透馬英九的偽君子真面目

      現(xiàn)代小青青慕慕
      2026-03-26 00:34:54
      張雪峰最心疼的三個(gè)人:妻子閃婚陪他打拼,女兒是他放不下的軟肋

      張雪峰最心疼的三個(gè)人:妻子閃婚陪他打拼,女兒是他放不下的軟肋

      可樂談情感
      2026-03-25 19:58:12
      曼晚:胖虎合同有首發(fā)35場(chǎng)英超自動(dòng)續(xù)約條款,但雙方同意放棄

      曼晚:胖虎合同有首發(fā)35場(chǎng)英超自動(dòng)續(xù)約條款,但雙方同意放棄

      懂球帝
      2026-03-25 18:44:04
      學(xué)醫(yī)后才知道,保護(hù)心血管最好的運(yùn)動(dòng),不是慢跑快走,而是這個(gè)

      學(xué)醫(yī)后才知道,保護(hù)心血管最好的運(yùn)動(dòng),不是慢跑快走,而是這個(gè)

      醫(yī)學(xué)科普匯
      2026-03-23 21:55:03
      杭州球場(chǎng)突發(fā),40歲男子心臟驟停倒地!緊急提醒:有這些信號(hào),千萬(wàn)別硬扛!

      杭州球場(chǎng)突發(fā),40歲男子心臟驟停倒地!緊急提醒:有這些信號(hào),千萬(wàn)別硬扛!

      環(huán)球網(wǎng)資訊
      2026-03-25 17:34:17
      特朗普宣布:對(duì)伊朗戰(zhàn)爭(zhēng)已勝利,收到伊朗“價(jià)值連城的厚禮,與石油天然氣有關(guān)”!美國(guó)油價(jià)1個(gè)月暴漲35%,特朗普支持率大跌至36%創(chuàng)新低

      特朗普宣布:對(duì)伊朗戰(zhàn)爭(zhēng)已勝利,收到伊朗“價(jià)值連城的厚禮,與石油天然氣有關(guān)”!美國(guó)油價(jià)1個(gè)月暴漲35%,特朗普支持率大跌至36%創(chuàng)新低

      每日經(jīng)濟(jì)新聞
      2026-03-25 12:22:42
      不可思議,德國(guó)人急了,日本急了,美國(guó)也急了,中國(guó)這下贏麻了。

      不可思議,德國(guó)人急了,日本急了,美國(guó)也急了,中國(guó)這下贏麻了。

      阿七說(shuō)史
      2026-03-09 16:01:03
      警醒!中國(guó)該提防巴基斯坦了,他們的小孩,隨口就說(shuō)“秦腔窮”

      警醒!中國(guó)該提防巴基斯坦了,他們的小孩,隨口就說(shuō)“秦腔窮”

      原來(lái)仙女不講理
      2026-03-25 17:54:03
      別上頭,反彈就減倉(cāng)?

      別上頭,反彈就減倉(cāng)?

      隔壁老投
      2026-03-25 14:33:48
      高三男孩喀納斯湖失蹤,母親守岸7天后直言放棄,意外竟在此時(shí)發(fā)生

      高三男孩喀納斯湖失蹤,母親守岸7天后直言放棄,意外竟在此時(shí)發(fā)生

      古怪奇談錄
      2025-10-16 10:53:42
      上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒一根血管是好的

      上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒一根血管是好的

      上觀新聞
      2026-03-24 13:32:07
      張雪峰經(jīng)典名言 100 條(完整版)

      張雪峰經(jīng)典名言 100 條(完整版)

      新浪財(cái)經(jīng)
      2026-03-25 06:17:25
      納斯達(dá)克綜合指數(shù)向上觸及22000點(diǎn),最新報(bào)22011.97點(diǎn),日內(nèi)上漲1.15%

      納斯達(dá)克綜合指數(shù)向上觸及22000點(diǎn),最新報(bào)22011.97點(diǎn),日內(nèi)上漲1.15%

      每日經(jīng)濟(jì)新聞
      2026-03-25 22:26:16
      遼寧隊(duì)為何輸給吉林?賽后烏戈怒批球隊(duì),直指三問(wèn)題,一針見血

      遼寧隊(duì)為何輸給吉林?賽后烏戈怒批球隊(duì),直指三問(wèn)題,一針見血

      南海浪花
      2026-03-25 23:18:59
      年薪1億歐!曝33歲薩拉赫將簽沙特聯(lián)賽2年 新東家浮現(xiàn):未聯(lián)手C羅

      年薪1億歐!曝33歲薩拉赫將簽沙特聯(lián)賽2年 新東家浮現(xiàn):未聯(lián)手C羅

      風(fēng)過(guò)鄉(xiāng)
      2026-03-25 12:13:30
      NBA新秀榜:克努佩爾榜首,前三保持不變,哈珀升至第四

      NBA新秀榜:克努佩爾榜首,前三保持不變,哈珀升至第四

      懂球帝
      2026-03-26 00:45:09
      金價(jià)銀價(jià),突然飆升

      金價(jià)銀價(jià),突然飆升

      環(huán)球網(wǎng)資訊
      2026-03-25 10:53:11
      張雪峰去世,開啟天花板悼念模式,官媒、AC米蘭、鄭大、大V在列

      張雪峰去世,開啟天花板悼念模式,官媒、AC米蘭、鄭大、大V在列

      好賢觀史記
      2026-03-25 18:14:26
      2026-03-26 06:03:00
      灰度測(cè)試中
      灰度測(cè)試中
      生活正在重構(gòu),目前還在灰度測(cè)試階段,暫不全量發(fā)布。
      58文章數(shù) 0關(guān)注度
      往期回顧 全部

      科技要聞

      紅極一時(shí)卻草草收?qǐng)?,Sora宣布正式關(guān)停

      頭條要聞

      伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場(chǎng)畫面披露

      頭條要聞

      伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場(chǎng)畫面披露

      體育要聞

      35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

      娛樂要聞

      張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

      財(cái)經(jīng)要聞

      管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

      汽車要聞

      智己LS8放大招 30萬(wàn)內(nèi)8系旗艦+全線控底盤秀實(shí)力

      態(tài)度原創(chuàng)

      教育
      旅游
      親子
      公開課
      軍事航空

      教育要聞

      雄安新區(qū):北京史家胡同小學(xué)分校,傳承“和諧教育”理念

      旅游要聞

      保山隆陽(yáng)水寨:海棠花開艷如霞,一樹紅花迎春來(lái)

      親子要聞

      爸爸的肩膀,永遠(yuǎn)是你最堅(jiān)實(shí)的依靠

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗重申非交戰(zhàn)國(guó)家船只可安全通過(guò)霍爾木茲海峽

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版