<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      距離“數(shù)字科學(xué)家”還有多遠(yuǎn)?從“死記硬背”到“邏輯博弈”

      0
      分享至


      潘 展|編譯

      在實(shí)驗(yàn)室的幽暗燈光下,科學(xué)家常年與實(shí)驗(yàn)數(shù)據(jù)和復(fù)雜的理論公式博弈。而如今,一個(gè)全新的“協(xié)作者”出現(xiàn)在了實(shí)驗(yàn)臺(tái)上。大語(yǔ)言模型(LLMs)已經(jīng)展示了書(shū)寫(xiě)論文、總結(jié)文獻(xiàn)、甚至是構(gòu)思復(fù)雜實(shí)驗(yàn)流程的驚人能力。

      然而,當(dāng)一個(gè)AI系統(tǒng)提出一種新的催化劑分子,或是預(yù)測(cè)了一種全新的蛋白質(zhì)結(jié)構(gòu)時(shí),我們?nèi)绾未_定它是真的通過(guò)“理解”科學(xué)原理得出的結(jié)論,還是僅僅在進(jìn)行一場(chǎng)精密的統(tǒng)計(jì)游戲?


      近日,《科學(xué)》雜志探討了這一核心議題:我們究竟該如何衡量人工智能是否聰明到足以從事科學(xué)研究?

      01


      從“死記硬背”到“邏輯博弈”

      在過(guò)去幾年中,AI 模型在各類(lèi)學(xué)術(shù)基準(zhǔn)測(cè)試中表現(xiàn)出了近乎狂飆的性能。無(wú)論是 MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)還是其他通用學(xué)科測(cè)試,AI的得分屢創(chuàng)新高。然而,這引發(fā)了研究界深層的擔(dān)憂:這些測(cè)試是否正在失效?


      前沿LLMs在流行基準(zhǔn)和HLE上的性能,圖源:HLE

      AI模型在訓(xùn)練階段幾乎“閱讀”了互聯(lián)網(wǎng)上公開(kāi)的所有科學(xué)論文、教科書(shū)和在線習(xí)題集,許多基準(zhǔn)測(cè)試題本質(zhì)上已經(jīng)成為了模型的“考前背誦材料”。由于目前的AI模型在訓(xùn)練階段幾乎“閱讀”了互聯(lián)網(wǎng)上公開(kāi)的所有科學(xué)論文、教科書(shū)和在線習(xí)題集,許多基準(zhǔn)測(cè)試題本質(zhì)上已經(jīng)成為了模型的“考前背誦材料”。

      當(dāng)模型面對(duì)一道復(fù)雜的物理競(jìng)賽題時(shí),它給出的正確答案可能并非基于對(duì)物理定律的深刻推演,而是基于海量訓(xùn)練數(shù)據(jù)中的相似模式匹配。也由此,這種“記憶力驅(qū)動(dòng)的智能”在科學(xué)研究中是危險(xiǎn)的,科學(xué)家將它稱(chēng)之為“數(shù)據(jù)污染”——科學(xué)的本質(zhì)在于探索未知,而記憶只能復(fù)述已知。

      為了甄別真正的科學(xué)智能,研究人員開(kāi)始設(shè)計(jì)那些“無(wú)法通過(guò)互聯(lián)網(wǎng)搜索找到答案”的極端考題。其中,生物、化學(xué)、物理領(lǐng)域的GPQA(研究生級(jí)別谷歌驗(yàn)證問(wèn)答集)成為衡量這一能力的標(biāo)桿。


      各流行模型GPQA分?jǐn)?shù)排行榜,圖片來(lái)源Frontier

      GPQA的獨(dú)特之處在于其極高的門(mén)檻。即使是相關(guān)學(xué)科的專(zhuān)家,在擁有無(wú)限互聯(lián)網(wǎng)訪問(wèn)權(quán)限的情況下,回答這些問(wèn)題的正確率也僅在65%至70%之間。如果一個(gè)非相關(guān)領(lǐng)域的博士去參加測(cè)試,正確率往往會(huì)大幅跌落。

      當(dāng)新一代AI 模型(如 OpenAI o1 系列)在 GPQA-Diamond 測(cè)試中取得超過(guò)80%的正確率時(shí),科研界感受到了震動(dòng)。

      他們認(rèn)為,這不再是簡(jiǎn)單的記憶檢索,而是模型展現(xiàn)出了某種形式的“科學(xué)推演能力”——它能夠處理多步驟的邏輯鏈條,在信息不足的情況下進(jìn)行嚴(yán)謹(jǐn)?shù)耐馔啤?/p>

      02


      從“結(jié)果導(dǎo)向”轉(zhuǎn)向“過(guò)程審計(jì)”

      在科學(xué)發(fā)現(xiàn)中,結(jié)論的正確性固然重要,但推導(dǎo)過(guò)程的嚴(yán)謹(jǐn)性往往決定了研究的價(jià)值。最新的評(píng)估框架開(kāi)始引入“過(guò)程監(jiān)督”。


      FrontierScience奧林匹克與科學(xué)研究上各模型準(zhǔn)確率,圖源:OpenAI

      這不僅僅是檢查AI最后的答案是否正確,而是要求模型展示其思維路徑,如在評(píng)估一個(gè)AI是否具備合成復(fù)雜有機(jī)分子的能力時(shí),評(píng)估者不再只看最終產(chǎn)量,而是逐一審查AI的每一步操作邏輯:它是否考慮了反應(yīng)環(huán)境的溫度與壓力?是否識(shí)別并避開(kāi)了可能發(fā)生的副反應(yīng)?在實(shí)驗(yàn)失敗時(shí),它能否根據(jù)異常數(shù)據(jù)進(jìn)行正確的歸因分析?

      這種方法有力地剔除了“邏輯幻覺(jué)”。許多模型在測(cè)試中能夠?qū)懗鰞?yōu)美的科研術(shù)語(yǔ),但在嚴(yán)密的邏輯審查下,其推導(dǎo)鏈條往往存在致命的科學(xué)漏洞。

      03


      從“實(shí)戰(zhàn)測(cè)試”到回歸科學(xué)的本質(zhì)

      衡量AI性能的最終戰(zhàn)場(chǎng)是真實(shí)的實(shí)驗(yàn)室。目前,最前沿的評(píng)估方式被稱(chēng)為“閉環(huán)自動(dòng)化發(fā)現(xiàn)”。

      在這種模式下,AI 被直接連接到自動(dòng)化的化學(xué)合成實(shí)驗(yàn)室或計(jì)算平臺(tái)。研究人員只給出一個(gè)宏大的目標(biāo),如“尋找一種能更高效固碳的納米材料”。AI 必須在海量假設(shè)中篩選最優(yōu)路線,指導(dǎo)機(jī)器人進(jìn)行實(shí)驗(yàn),并根據(jù)實(shí)驗(yàn)回傳的實(shí)時(shí)數(shù)據(jù),動(dòng)態(tài)調(diào)整自己的假設(shè)。

      當(dāng)實(shí)驗(yàn)數(shù)據(jù)與初始理論沖突時(shí),AI能否迅速識(shí)別出是模型偏差還是實(shí)驗(yàn)誤差的反思能力,成為衡量其是否“聰明”的黃金標(biāo)準(zhǔn)。那些能夠通過(guò)少量實(shí)驗(yàn)修正自身知識(shí)結(jié)構(gòu)、進(jìn)而逼近真理的AI,才被認(rèn)為具備了真正的科學(xué)直覺(jué)。

      然而,即便是最先進(jìn)的AI,在科學(xué)領(lǐng)域的表現(xiàn)依然面臨界限。我們衡量AI,并非為了證明它能取代科學(xué)家,而是為了確立一種全新的協(xié)作范式。

      科學(xué)研究不僅需要邏輯推演,還需要那種打破范式的“直覺(jué)”。目前,AI擅長(zhǎng)在既定的科學(xué)空間內(nèi)進(jìn)行海量的、高維度的搜索與優(yōu)化,但在提出顛覆性的科學(xué)假說(shuō)、或在模糊的交叉學(xué)科邊緣進(jìn)行原創(chuàng)性飛躍方面,人類(lèi)科學(xué)家依然掌握著主導(dǎo)權(quán)。

      04


      結(jié)語(yǔ)

      我們距離創(chuàng)造出一個(gè)能夠獨(dú)立從事科學(xué)研究的“數(shù)字科學(xué)家”還有多遠(yuǎn)?《科學(xué)》這篇文章的結(jié)論或許可以給予我們啟發(fā):這取決于我們的評(píng)估體系演進(jìn)得有多快。

      當(dāng)我們不再僅僅以“考試成績(jī)”來(lái)衡量模型,而是以“邏輯嚴(yán)謹(jǐn)度”、“實(shí)驗(yàn)修正能力”和“跨學(xué)科泛化能力”為坐標(biāo)系時(shí),我們不僅在篩選更好的工具,更是在重新定義科學(xué)本身。

      在這個(gè)人機(jī)共進(jìn)的時(shí)代,衡量AI的過(guò)程,本質(zhì)上也是人類(lèi)在不斷審視自身如何理解自然界的過(guò)程。

      https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science

      Deep Science預(yù)印本



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      楊穎天吶,baby怎么突然這么大了?

      楊穎天吶,baby怎么突然這么大了?

      草莓解說(shuō)體育
      2026-03-21 11:08:30
      潮汕孕婦被小姑子潑尿,監(jiān)控曝光,痛斥婆家欺負(fù)人,丈夫狠心冷漠

      潮汕孕婦被小姑子潑尿,監(jiān)控曝光,痛斥婆家欺負(fù)人,丈夫狠心冷漠

      離離言幾許
      2026-03-20 17:37:37
      斷油斷電斷糧,1100萬(wàn)人墜入黑暗!特朗普揚(yáng)言:能對(duì)這國(guó)為所欲為

      斷油斷電斷糧,1100萬(wàn)人墜入黑暗!特朗普揚(yáng)言:能對(duì)這國(guó)為所欲為

      福建平子
      2026-03-20 11:32:37
      路虎別停奔馳后續(xù)!呂先生全家信息被泄露,遭上門(mén)威脅警方再通報(bào)

      路虎別停奔馳后續(xù)!呂先生全家信息被泄露,遭上門(mén)威脅警方再通報(bào)

      奇思妙想草葉君
      2026-03-20 14:01:10
      在日本,除了呼吸,幾乎全都要交稅

      在日本,除了呼吸,幾乎全都要交稅

      東京新青年
      2026-03-16 11:22:07
      中國(guó)游客到朝鮮游玩,朝鮮人充滿疑問(wèn):為什么中國(guó)人是這樣的?

      中國(guó)游客到朝鮮游玩,朝鮮人充滿疑問(wèn):為什么中國(guó)人是這樣的?

      丁丁鯉史紀(jì)
      2026-03-18 10:18:14
      突發(fā)大利空!歐美股市大跌,科技巨頭暴跌33%,下周A股要涼涼了?

      突發(fā)大利空!歐美股市大跌,科技巨頭暴跌33%,下周A股要涼涼了?

      虎哥閑聊
      2026-03-21 11:00:57
      俄羅斯價(jià)值20億的A-50預(yù)警機(jī)被擊中,俄“空中大腦”被撕開(kāi)缺口

      俄羅斯價(jià)值20億的A-50預(yù)警機(jī)被擊中,俄“空中大腦”被撕開(kāi)缺口

      桂系007
      2026-03-20 23:57:07
      女子7年前買(mǎi)的泡泡瑪特盲盒才發(fā)貨:59元購(gòu)入現(xiàn)在二手平臺(tái)只要20多,收貨時(shí)“以為發(fā)錯(cuò)了”,工作人員稱(chēng)平臺(tái)之前不完善

      女子7年前買(mǎi)的泡泡瑪特盲盒才發(fā)貨:59元購(gòu)入現(xiàn)在二手平臺(tái)只要20多,收貨時(shí)“以為發(fā)錯(cuò)了”,工作人員稱(chēng)平臺(tái)之前不完善

      瀟湘晨報(bào)
      2026-03-20 21:21:12
      湖人前往奧蘭多渴望復(fù)仇,里夫斯出戰(zhàn)成疑,主隊(duì)三將因傷缺席

      湖人前往奧蘭多渴望復(fù)仇,里夫斯出戰(zhàn)成疑,主隊(duì)三將因傷缺席

      謝說(shuō)籃球
      2026-03-21 16:45:19
      全島同時(shí)收到消息,大陸給賴清德改了稱(chēng)呼,鄭麗文準(zhǔn)備乘飛機(jī)離臺(tái)

      全島同時(shí)收到消息,大陸給賴清德改了稱(chēng)呼,鄭麗文準(zhǔn)備乘飛機(jī)離臺(tái)

      阿雹娛樂(lè)
      2026-03-21 14:22:34
      明晚開(kāi)始,又有4部大劇將播!白宇、熱巴、楊洋領(lǐng)銜,值得期待

      明晚開(kāi)始,又有4部大劇將播!白宇、熱巴、楊洋領(lǐng)銜,值得期待

      翰飛觀事
      2026-03-21 12:00:55
      美財(cái)長(zhǎng)直言:伊朗政權(quán)要崩潰!內(nèi)部叛逃、資金外逃,已從根上爛透

      美財(cái)長(zhǎng)直言:伊朗政權(quán)要崩潰!內(nèi)部叛逃、資金外逃,已從根上爛透

      老馬拉車(chē)莫少裝
      2026-03-20 11:01:21
      正式退役!整整28年啊,終于可以退役了,神射手終于圓夢(mèng)了

      正式退役!整整28年啊,終于可以退役了,神射手終于圓夢(mèng)了

      球童無(wú)忌
      2026-03-21 00:47:48
      人販子梅姨落網(wǎng):本人正面照首次曝出,抓捕全過(guò)程披露,警方回應(yīng)

      人販子梅姨落網(wǎng):本人正面照首次曝出,抓捕全過(guò)程披露,警方回應(yīng)

      博士觀察
      2026-03-21 13:39:21
      蘋(píng)果官網(wǎng)標(biāo)錯(cuò)價(jià)格!大量用戶搶空 2TB 產(chǎn)品

      蘋(píng)果官網(wǎng)標(biāo)錯(cuò)價(jià)格!大量用戶搶空 2TB 產(chǎn)品

      XCiOS俱樂(lè)部
      2026-03-20 09:38:29
      22:00啟動(dòng)暴跌,世界在交易最壞情況

      22:00啟動(dòng)暴跌,世界在交易最壞情況

      新浪財(cái)經(jīng)
      2026-03-21 06:31:47
      苦等丈夫63年無(wú)果,她穿紅嫁衣下葬,死后15年,孫子找到失蹤真相

      苦等丈夫63年無(wú)果,她穿紅嫁衣下葬,死后15年,孫子找到失蹤真相

      墨說(shuō)古今
      2025-12-14 21:11:10
      金融圈突發(fā)!陳兵,主動(dòng)投案!

      金融圈突發(fā)!陳兵,主動(dòng)投案!

      中國(guó)基金報(bào)
      2026-03-20 21:50:38
      首個(gè)特朗普金卡中國(guó)買(mǎi)家曝光,系全球WiFi之王,正被美商務(wù)部調(diào)查

      首個(gè)特朗普金卡中國(guó)買(mǎi)家曝光,系全球WiFi之王,正被美商務(wù)部調(diào)查

      肖茲探秘說(shuō)
      2026-03-20 17:15:27
      2026-03-21 17:48:49
      深究科學(xué) incentive-icons
      深究科學(xué)
      科學(xué)、技術(shù)、創(chuàng)新。
      207文章數(shù) 10關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹(shù)招股書(shū)拆解,人形機(jī)器人出貨量第一!

      頭條要聞

      伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

      頭條要聞

      伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

      體育要聞

      誰(shuí)在決定字母哥未來(lái)?

      娛樂(lè)要聞

      CMG盛典獲獎(jiǎng)名單:章子怡高葉同獲影后

      財(cái)經(jīng)要聞

      通脹警報(bào)拉響,加息潮要來(lái)了?

      汽車(chē)要聞

      小鵬汽車(chē)2025年Q4盈利凈賺3.8億 全年?duì)I收767億

      態(tài)度原創(chuàng)

      親子
      健康
      旅游
      教育
      軍事航空

      親子要聞

      孩子青春期突然變成“夜貓子”?專(zhuān)家解讀與生物鐘變化有關(guān)

      轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

      旅游要聞

      聽(tīng)勸!這個(gè)春天,來(lái)池州當(dāng)一回“春游主理人”

      教育要聞

      市委書(shū)記,任大學(xué)黨委副書(shū)記

      軍事要聞

      特朗普:正考慮逐步降級(jí)對(duì)伊朗的軍事行動(dòng)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版