<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      一夜200萬閱讀,OpenAI神同步!這項測評框架讓全球頂尖LLM全翻車

      0
      分享至


      新智元報道

      編輯:Aeneas

      【新智元導讀】這篇中國團隊領銜發布的論文,已經在外網刷屏了,僅一夜閱讀就達到了200萬!這位MIT博士回國創業后組建的團隊,拉來全球24所頂級機構,給AI如何助力科學發現來了一劑猛藥。

      最近,一篇由中國團隊領銜全球24所TOP高校機構發布,用于評測LLMs for Science能力高低的論文,在外網炸了!

      當晚,Keras (最高效易用的深度學習框架之一)締造者Fran?ois Chollet轉發論文鏈接,并喊出:「我們迫切需要新思路來推動人工智能走向科學創新?!?/p>


      AI領域KOL Alex Prompter分享論文核心摘要后,NBA獨行俠隊老板Mark Cuban跟帖轉發,硅谷投資人、歐洲家族辦公室、體育媒體同時涌進評論區。


      僅一夜,累計閱讀量逼近200萬。

      值得一提的是,同一時間窗里,OpenAI也發布了對于AI在科學發現領域能力評測的論文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出現有評測標準在AI for Science領域失靈。


      神同步OpenAI、海外討論出圈,究竟是什么樣的一份工作成果,攪動了全球AI輿論場?

      AI距離可以助力科學發現,還有多遠?

      前段時間,美國推出「創世紀計劃」,號稱要調動「自阿波羅計劃以來最大規模的聯邦科研資源」,目標是在十年內將美國科研的生產力和影響力翻倍。

      但在人工智能估值泡沫隱現、能耗與產出比飽受質疑的當下,一面是資本的狂歡,另一面卻是AI能力困于「文生圖」等表層應用的尷尬;一面是各類大語言模型頻繁霸榜GPQA、MMMU等題庫式Benchmark的層出不窮,另一面卻是現有LLMs還無法準確解析簡單核磁圖譜的尷尬現狀。

      人們不禁要問:能在題庫拿高分,就能助力科學發現嗎?現在的模型距離科學發現還有多遠?究竟什么樣的AI模型可以勝任,拓寬人類的生存邊界?這些討論,在中美AI競爭白熱化的當下變得愈發濃烈。

      在此背景下,由中國AI for Science領域的初創企業「深度原理Deep Principle」領銜麻省理工學院、哈佛、普林斯頓、斯坦福、劍橋、牛津等全球24所科研院校共同發布的《Evaluating LLMs in Scientific Discovery》論文,正式回答該時代之問。

      論文推出了LLMs for Science首套評測體系SDE(Scientific Discovery Evaluation),從科學問題到研究項目,對GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等全球主流大語言模型在生物、化學、材料、物理領域的科學研究與發現能力完成摸底。


      同以往評測體系不同的是,SDE對模型能力的考量,從簡單的問答式,引向了具體的「假設->實驗->分析」實驗場景。

      研究發現,GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均準確率 50–70%,遠低于它們在GPQA、MMMU等題庫上的80–90%;在86道「SDE-Hard」難題中,最高分不足12%,共同暴露出多步推理、不確定性量化和實驗-理論閉環的短板。

      更值得警惕的是,模型規模與推理能力的提升已呈現明顯的 「邊際效益遞減」。

      GPT-5相較于前一代模型,參數規模和推理算力顯著增加,但在SDE基準的四大科學領域中,平均準確率僅提升3%-5%,部分場景(如NMR結構解析)甚至出現性能下滑。

      換句話說,當前大語言模型在推動科學發現方面的表現,還不如一個普通的本科生。

      能領銜24所頂尖科研院校發布

      背后團隊是誰?

      《Evaluating LLMs in Scientific Discovery》論文通訊作者段辰儒,是「深度原理Deep Principle」創始人兼CTO。

      早在2021年,在MIT攻讀化學博士期間,他就已在圖靈獎得主Yoshua Bengio的支持下,發起了AI for Science社區的建立,并在NeurIPS上舉辦AI for Science workshop。

      2024年初,他與MIT物理化學博士賈皓鈞回國,共同創立「深度原理Deep Principle」。賈皓鈞任CEO,段辰儒任CTO,兩人雖為95后,但已在全球AI for Science創業領域小有名氣。

      創業一年半以來,其已獲得線性資本、高瓴創投、螞蟻集團等多家知名機構的投資,且與晶泰科技、深勢科技等AI for Science領域的知名企業建立戰略合作關系。

      「深度原理Deep Principle」從創立之初,就帶著全球AIfor Science頭部研究者們的期待。目前「深度原理Deep Principle」已深入全球材料研發中的第一線,將生成式人工智能同量子化學結合起來,致力于推動材料發現等領域進入新紀元。

      在過去的一年中,他們在Nature大子刊和JACS等頂級期刊上不斷扔出重磅成果,宣告著他們的技術領先和開放交流的「95后創業公司」心態。

      從開拓擴散生成模型(Diffusion Models)在化學反應的生成,證明「不止要生成材料,更需要生成材料的合成路徑」,到機器學習勢(Machine Learning Potentials, MLPs)和擴散生成模型的直接對比,證明傳統的機器學習勢不是「萬能」的,再到現在組織各大頂級學者和高校推出SDE,證明傳統一問一答的Benchmark不能帶領我們走向科學超級智能,精準切入AI for Science領域的核心沖突。

      但同時,對于所有的AI4S公司而言,在商業真金白銀的檢驗中,AI能否真正解決新產品研發問題、滿足客戶期待,是日復一日必須面對的拷問。

      隨著與行業頭部客戶的商業化合作落地,「深度原理Deep Principle」的數據庫中已經匯聚了來源于客戶與自己實驗室、大量來自第一線的真實工業研發場景數據和模型應用經驗。

      學術圈的深耕與在AI for Science商業化第一線的積累,讓「深度原理Deep Principle」在提出要構建一把新尺子評測LLMs for Science能力時,一呼百應,搖來了23家全球TOP科學發現機構的50余位科學家,成立了制定SDE的「夢之隊」。

      這其中,不乏活躍在LLM領域的大牛學者們,比如:

      • 孫歡(Huan Sun),MMMU發起人,俄亥俄州立教授

      • 杜沅豈(Yuanqi Du),康奈爾博士,AI4Science 社區「運營大管家」

      • 王夢迪,普林斯頓最年輕教授,AI+Bio Safety先驅者

      • Philippe Schwaller,IBM RXN之父,EPFL教授

      而「深度原理Deep Principle」前期積累的科學發現場景,成為了后來SDE評測體系的前身。

      在經歷近9個月的跨高??鐚W科跨時區的協作后,《Evaluating LLMs in Scientific Discovery》論文正式發布,通訊單位赫然寫著:深度原理,杭州,中國。


      自此,匯聚著全球頂級科學發現機構的集體智慧,來自中國的創業團隊「深度原理Deep Principle」,和大洋彼岸的OpenAI,同時站在了向AI for Science——這一人類通往終極AGI頂峰攀登的起跑線。

      或許千百年后,當人類回望AGI時代,在21世紀的四分之一結束的當口,這場由中美團隊共同呼應的,對于AI for Science的嚴肅討論,把LLMs在各類問答式榜單上的內卷,向真正科學發現的星辰大海推近了一步。

      「深度原理Deep Principle」與20多所機構的50多位合作者的研究證明了,目前LLM的發展路徑并不能「順便攻克」科學發現。

      這條通往科學超級智能之路,需要更多有識之士共同并肩而行。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      面對200%關稅,馬克龍反擊,特朗普稱“馬上下臺”,紐森諷刺歐洲

      面對200%關稅,馬克龍反擊,特朗普稱“馬上下臺”,紐森諷刺歐洲

      策略述
      2026-01-22 12:42:21
      美記:綠軍快船彼此滿意對方的籌碼,但現在問題卡在了首輪數量上

      美記:綠軍快船彼此滿意對方的籌碼,但現在問題卡在了首輪數量上

      移動擋拆
      2026-01-23 00:56:31
      廢掉一個孩子最快的7種方式,希望你一個也沒有(深度好文)

      廢掉一個孩子最快的7種方式,希望你一個也沒有(深度好文)

      新東方家庭教育
      2026-01-15 14:56:50
      俄羅斯發動大規模空襲,導彈中途居然還會轉向,基輔一半地區停電

      俄羅斯發動大規??找u,導彈中途居然還會轉向,基輔一半地區停電

      碳基生物關懷組織
      2026-01-20 19:48:05
      燃油稅試點1月18日啟動,你的車加92還是95更劃算?

      燃油稅試點1月18日啟動,你的車加92還是95更劃算?

      周哥一影視
      2026-01-22 08:30:55
      浙江有人領走88888888馬年紀念鈔,銀行工作人員:號碼隨機分配,全憑運氣

      浙江有人領走88888888馬年紀念鈔,銀行工作人員:號碼隨機分配,全憑運氣

      環球網資訊
      2026-01-22 14:44:45
      從千年名茶到化學試劑:我們的茶葉怎么了?

      從千年名茶到化學試劑:我們的茶葉怎么了?

      富貴說
      2026-01-21 11:19:58
      消費者投訴稱限量發售的6.68萬元“一口價”飛度要加價3000元購買,廣汽本田回應:已啟動專項調查

      消費者投訴稱限量發售的6.68萬元“一口價”飛度要加價3000元購買,廣汽本田回應:已啟動專項調查

      魯中晨報
      2026-01-22 17:23:31
      兩條新聞,每個字都寫滿了“諷刺”

      兩條新聞,每個字都寫滿了“諷刺”

      清書先生
      2026-01-22 17:33:28
      杜憲70歲還這么漂亮,這張照片你認識幾個

      杜憲70歲還這么漂亮,這張照片你認識幾個

      喜歡歷史的阿繁
      2026-01-23 01:58:11
      歐冠最新:趙心童雙3-0轟147晉級,決賽戰吳宜澤爭冠

      歐冠最新:趙心童雙3-0轟147晉級,決賽戰吳宜澤爭冠

      王稱吃吃喝喝
      2026-01-23 03:17:56
      “母親的無知,砸了兒子飯碗”,女子在業主群內立規矩,反被舉報

      “母親的無知,砸了兒子飯碗”,女子在業主群內立規矩,反被舉報

      妍妍教育日記
      2026-01-22 19:49:28
      臺灣一群青年成立“臺灣革命共產黨”,主張推翻島內統治階級

      臺灣一群青年成立“臺灣革命共產黨”,主張推翻島內統治階級

      時光在作祟
      2026-01-22 19:32:56
      華為新機突然上架:1月23日,正式開售!

      華為新機突然上架:1月23日,正式開售!

      科技堡壘
      2026-01-21 11:14:59
      今年多名廳官主動投案!首個投案的是任職8年的州長

      今年多名廳官主動投案!首個投案的是任職8年的州長

      上觀新聞
      2026-01-22 14:27:07
      十年前:“中國真是搞笑,搞什么中歐班列,現在成為笑柄了吧!”

      十年前:“中國真是搞笑,搞什么中歐班列,現在成為笑柄了吧!”

      扶蘇聊歷史
      2026-01-22 12:13:57
      央行:為保持銀行體系流動性充裕,2026年1月23日,中國人民銀行將以固定數量、利率招標、多重價位中標方式開展9000億元MLF操作,期限為1年期

      央行:為保持銀行體系流動性充裕,2026年1月23日,中國人民銀行將以固定數量、利率招標、多重價位中標方式開展9000億元MLF操作,期限為1年期

      每日經濟新聞
      2026-01-22 17:26:07
      侯耀華80大壽冷清收場!郭德綱全程沉默,親兒子以及至親基本缺席

      侯耀華80大壽冷清收場!郭德綱全程沉默,親兒子以及至親基本缺席

      胡一舸南游y
      2026-01-22 16:43:53
      丹麥首相:北約秘書長無權代表丹麥談判

      丹麥首相:北約秘書長無權代表丹麥談判

      財聯社
      2026-01-22 20:18:07
      他就是個下棋的,卻被你們當了一輩子雞血

      他就是個下棋的,卻被你們當了一輩子雞血

      下崗女神
      2026-01-22 17:29:32
      2026-01-23 04:43:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14385文章數 66522關注度
      往期回顧 全部

      科技要聞

      幾千億只是開胃菜,AI基建還得再砸幾萬億

      頭條要聞

      “和平委員會”簽約國家名單公布 西歐國家無一參加

      頭條要聞

      “和平委員會”簽約國家名單公布 西歐國家無一參加

      體育要聞

      跑個步而已,他們在燃什么?

      娛樂要聞

      車銀優賺800億 涉嫌逃稅200億!

      財經要聞

      西貝拿到“救命錢”,然后呢

      汽車要聞

      配備多塊娛樂屏 極氪8X內飾曝光

      態度原創

      親子
      家居
      本地
      公開課
      軍事航空

      親子要聞

      真相很可怕!終于揭秘:為什么你記不住3歲前的事?

      家居要聞

      法式風情 南洋中古居

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      普京:愿意向"和平委員會"提供10億美元

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 肉色丝袜足j视频国产| 亚洲成人经典| 日韩精品无码一区二区三区| 狠狠干欧美| 四虎永久在线精品国产馆v视影院| 3751色视频| 亚洲精品日产精品乱码不卡| 亚洲成人综合无码| 国产看真人毛片爱做a片| 亚洲精品天堂成人片AV在线播放| 99中文在线精品| 午夜国产理论| 2022精品久久久久久中文字幕| 她也色tayese在线视频| 日本毛茸茸的丰满熟妇| 达拉特旗| 亚洲男人在线无码视频| 中文字幕va一区二区三区| 伊人激情av一区二区三区| 邻居少妇张开腿让我爽了一夜| 久久亚洲精品11p| 午夜精品久久久久久99热| 中文字幕无码人妻aaa片| 亚洲国产精品羞羞| 亚洲AV永久无码精品牛牛影视| 久久青草免费91观看| 亚洲精品成人区在线观看 | 狠狠色丁香婷婷综合尤物| 成人AV影视| 精品A片| 平阴县| 粗长挺进新婚人妻小怡| 国产亚洲欧美日韩亚洲中文色| 日本不卡一区| 国产精品成人av电影不卡| 日日夜夜影院| 国产ssss在线观看极品| 中文字幕精品亚洲一区| 成在线人免费视频| 日本公妇乱偷中文字幕| 99久久久无码国产精品免费|