<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      神同步OpenAI!中國團隊Deep Principle領(lǐng)銜發(fā)布LLMs for Science評測,引爆外網(wǎng)

      0
      分享至


      來源:ScienceAI

      作者:論文團隊

      編輯ScienceAI

      最近,一篇由中國團隊領(lǐng)銜全球 24 所 TOP 高校機構(gòu)發(fā)布,用于評測 LLMs for Science 能力高低的論文,在外網(wǎng)炸了!

      當晚,Keras (最高效易用的深度學習框架之一)締造者 Fran?ois Chollet 轉(zhuǎn)發(fā)論文鏈接,并喊出:「我們迫切需要新思路來推動人工智能走向科學創(chuàng)新。」


      AI 領(lǐng)域 KOL Alex Prompter 分享論文核心摘要后,NBA 獨行俠隊老板 Mark Cuban 跟帖轉(zhuǎn)發(fā),硅谷投資人、歐洲家族辦公室、體育媒體同時涌進評論區(qū)。


      僅一夜,累計閱讀量逼近 200 萬。

      值得一提的是,同一時間窗里,OpenAI 也發(fā)布了對于 AI 在科學發(fā)現(xiàn)領(lǐng)域能力評測的論文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出現(xiàn)有評測標準在 AI for Science 領(lǐng)域失靈。


      神同步 OpenAI、海外討論出圈,究竟是什么樣的一份工作成果,攪動了全球 AI 輿論場?

      AI 距離可以助力科學發(fā)現(xiàn)還有多遠?

      前段時間,美國推出「創(chuàng)世紀計劃」,號稱要調(diào)動「自阿波羅計劃以來最大規(guī)模的聯(lián)邦科研資源」,目標是在十年內(nèi)將美國科研的生產(chǎn)力和影響力翻倍。

      但在人工智能估值泡沫隱現(xiàn)、能耗與產(chǎn)出比飽受質(zhì)疑的當下,一面是資本的狂歡,另一面卻是 AI 能力困于「文生圖」等表層應(yīng)用的尷尬;一面是各類大語言模型頻繁霸榜 GPQA、MMMU 等題庫式 Benchmark 的層出不窮,另一面卻是現(xiàn)有 LLMs 還無法準確解析簡單核磁圖譜的尷尬現(xiàn)狀。

      人們不禁要問:能在題庫拿高分,就能助力科學發(fā)現(xiàn)嗎?現(xiàn)在的模型距離科學發(fā)現(xiàn)還有多遠?究竟什么樣的 AI 模型可以勝任,拓寬人類的生存邊界?這些討論,在中美 AI 競爭白熱化的當下變得愈發(fā)濃烈。

      在此背景下,由中國 AI for Science 領(lǐng)域的初創(chuàng)企業(yè)「深度原理 Deep Principle」領(lǐng)銜麻省理工學院、哈佛、普林斯頓、斯坦福、劍橋、牛津等全球 24 所科研院校共同發(fā)布的《Evaluating LLMs in Scientific Discovery》論文,正式回答該時代之問。

      論文推出了 LLM for Science 首套評測體系 SDE(Scientific Discovery Evaluation),從科學問題到研究項目,對 GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 等全球主流大語言模型在生物、化學、材料、物理領(lǐng)域的科學研究與發(fā)現(xiàn)能力完成摸底。


      同以往評測體系不同的是,SDE 對模型能力的考量,從簡單的問答式,引向了具體的「假設(shè) -> 實驗 -> 分析」實驗場景。

      研究發(fā)現(xiàn),GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均準確率 50–70%,遠低于它們在 GPQA、MMMU 等題庫上的 80–90%;在 86 道「SDE-Hard」難題中,最高分不足 12%,共同暴露出多步推理、不確定性量化和實驗與理論閉環(huán)的短板。

      更值得警惕的是,模型規(guī)模與推理能力的提升已呈現(xiàn)明顯的「邊際效益遞減」。

      GPT-5 相較于前一代模型,參數(shù)規(guī)模和推理算力顯著增加,但在 SDE 基準的四大科學領(lǐng)域中,平均準確率僅提升 3%-5%,部分場景(如 NMR 結(jié)構(gòu)解析)甚至出現(xiàn)性能下滑。

      換句話說,當前大語言模型在推動科學發(fā)現(xiàn)方面的表現(xiàn),還不如一個普通的本科生。

      能領(lǐng)銜 24 所頂尖科研院校發(fā)布的背后團隊是誰?

      《Evaluating LLMs in Scientific Discovery》論文通訊作者段辰儒,是「深度原理 Deep Principle」創(chuàng)始人兼 CTO。早在 2021 年,在 MIT 攻讀化學博士期間,他就已在圖靈獎得主 Yoshua Bengio 的支持下,發(fā)起了 AI for Science 社區(qū)的建立,并在 NeurIPS 上舉辦 AI for Science workshop。

      2024 年初,他與 MIT 物理化學博士賈皓鈞回國,共同創(chuàng)立「深度原理 Deep Principle」。賈皓鈞任 CEO,段辰儒任 CTO,兩人雖為 95 后,但已在全球 AI for Science 創(chuàng)業(yè)領(lǐng)域小有名氣。

      創(chuàng)業(yè)一年半以來,其已獲得線性資本、高瓴創(chuàng)投、螞蟻集團等多家知名機構(gòu)的投資,且與晶泰科技、深勢科技等 AI for Science 領(lǐng)域的知名企業(yè)建立戰(zhàn)略合作關(guān)系。

      「深度原理 Deep Principle」從創(chuàng)立之初,就帶著全球 AI for Science 頭部研究者們的期待。目前「深度原理 Deep Principle」已深入全球材料研發(fā)中的第一線,將生成式人工智能同量子化學結(jié)合起來,致力于推動材料發(fā)現(xiàn)等領(lǐng)域進入新紀元。

      在過去的一年中,他們在 Nature 大子刊和 JACS 等頂級期刊上不斷扔出重磅成果,宣告著他們的技術(shù)領(lǐng)先和開放交流的「95 后創(chuàng)業(yè)公司」心態(tài)。從開拓擴散生成模型(Diffusion Models)在化學反應(yīng)的生成,證明「不止要生成材料,更需要生成材料的合成路徑」,到機器學習勢(Machine Learning Potentials, MLPs)和擴散生成模型的直接對比,證明傳統(tǒng)的機器學習勢不是「萬能」的,再到現(xiàn)在組織各大頂級學者和高校推出 SDE,證明傳統(tǒng)一問一答的 Benchmark 不能帶領(lǐng)我們走向科學超級智能,精準切入 AI for Science 領(lǐng)域的核心沖突。

      但同時,對于所有的 AI4S 公司而言,在商業(yè)真金白銀的檢驗中,AI 能否真正解決新產(chǎn)品研發(fā)問題、滿足客戶期待,是日復(fù)一日必須面對的拷問。

      隨著與行業(yè)頭部客戶的商業(yè)化合作落地,「深度原理 Deep Principle」的數(shù)據(jù)庫中已經(jīng)匯聚了來源于客戶與自己實驗室、大量來自第一線的真實工業(yè)研發(fā)場景數(shù)據(jù)和模型應(yīng)用經(jīng)驗。

      學術(shù)圈的深耕與在 AI for Science 商業(yè)化第一線的積累,讓「深度原理 Deep Principle」在提出要構(gòu)建一把新尺子評測 LLMs for Science 能力時,一呼百應(yīng),搖來了 23 家全球 TOP 科學發(fā)現(xiàn)機構(gòu)的 50 余位科學家,成立了制定 SDE 的「夢之隊」。

      這其中,不乏活躍在 LLM 領(lǐng)域的大牛學者們,比如:

      • 孫歡(Huan Sun),MMMU 發(fā)起人,俄亥俄州立教授

      • 杜沅豈(Yuanqi Du),康奈爾博士,AI4Science 社區(qū)「運營大管家」

      • 王夢迪,普林斯頓最年輕教授,AI+Bio Safety 先驅(qū)者

      • Philippe Schwaller,IBM RXN 之父,EPFL 教授

      而「深度原理 Deep Principle」前期積累的科學發(fā)現(xiàn)場景,成為了后來 SDE 評測體系的前身。

      在經(jīng)歷近 9 個月的跨高校跨學科跨時區(qū)的協(xié)作后,《Evaluating LLMs in Scientific Discovery》論文正式發(fā)布,通訊單位赫然寫著:深度原理,杭州,中國。


      自此,匯聚著全球頂級科學發(fā)現(xiàn)機構(gòu)的集體智慧,來自中國的創(chuàng)業(yè)團隊「深度原理 Deep Principle」,和大洋彼岸的 OpenAI,同時站在了向 AI for Science—— 這一人類通往終極 AGI 頂峰攀登的起跑線。

      或許千百年后,當人類回望 AGI 時代,在 21 世紀的四分之一結(jié)束的當口,這場由中美團隊共同呼應(yīng)的,對于 AI for Science 的嚴肅討論,把 LLMs 在各類問答式榜單上的內(nèi)卷,向真正科學發(fā)現(xiàn)的星辰大海推近了一步。

      至于怎么通往彼岸,段辰儒表示:「當大語言模型在各種科學問答榜單表現(xiàn)飽和,但還不能有效支持科學發(fā)現(xiàn)時,就像『考試成績好』不等于『頂級研究者』,說明我們需要新的評測體系與訓(xùn)練路徑。」

      「深度原理 Deep Principle」與 20 多所機構(gòu)的 50 多位合作者的研究證明了,目前 LLM 的發(fā)展路徑并不能「順便攻克」科學發(fā)現(xiàn)。

      這條通往科學超級智能之路,需要更多有識之士共同并肩而行。

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      前Google工程師因向中國公司竊取AI商業(yè)機密被判罪名成立 面臨數(shù)十年刑期

      前Google工程師因向中國公司竊取AI商業(yè)機密被判罪名成立 面臨數(shù)十年刑期

      cnBeta.COM
      2026-01-30 14:10:11
      公布:2025年,臺灣GDP增長8.63%,創(chuàng)15年新高!人均多少?

      公布:2025年,臺灣GDP增長8.63%,創(chuàng)15年新高!人均多少?

      王爺說圖表
      2026-01-30 17:09:04
      東契奇僅用時18分鐘便取得三雙,創(chuàng)造湖人隊史最快紀錄

      東契奇僅用時18分鐘便取得三雙,創(chuàng)造湖人隊史最快紀錄

      懂球帝
      2026-01-31 09:25:05
      烏克蘭捐款平臺收到大量來自中國民間機構(gòu)和個人的捐款

      烏克蘭捐款平臺收到大量來自中國民間機構(gòu)和個人的捐款

      深度報
      2026-01-30 19:27:35
      逼急了?網(wǎng)約車司機將車子開到幾百公里外深山,公司找到車時已被鋼筋插土、膠水粘牢!

      逼急了?網(wǎng)約車司機將車子開到幾百公里外深山,公司找到車時已被鋼筋插土、膠水粘牢!

      網(wǎng)約車觀察室
      2026-01-29 10:13:36
      國際金價銀價繼續(xù)大幅下跌

      國際金價銀價繼續(xù)大幅下跌

      澎湃新聞
      2026-01-31 03:58:08
      盒馬“錯配”致顧客誤食水仙中毒,高速擴張下品控隱憂凸顯

      盒馬“錯配”致顧客誤食水仙中毒,高速擴張下品控隱憂凸顯

      新民周刊
      2026-01-30 15:18:50
      500公里送發(fā)動機車主社死!正臉照被扒,警方介入4s店卻囂張發(fā)言

      500公里送發(fā)動機車主社死!正臉照被扒,警方介入4s店卻囂張發(fā)言

      青橘罐頭
      2026-01-29 08:57:13
      俄羅斯重新將14名日本人列為戰(zhàn)犯

      俄羅斯重新將14名日本人列為戰(zhàn)犯

      界面新聞
      2026-01-31 07:18:15
      火車新規(guī)2026正式執(zhí)行!禁帶品、實名制升級,這些坑千萬別踩

      火車新規(guī)2026正式執(zhí)行!禁帶品、實名制升級,這些坑千萬別踩

      復(fù)轉(zhuǎn)這些年
      2026-01-30 23:33:48
      家委會負責人要求成員幫收每生263.3元費用,還稱交自己再換成現(xiàn)金給班主任,使用明細不能公示,有家長報警

      家委會負責人要求成員幫收每生263.3元費用,還稱交自己再換成現(xiàn)金給班主任,使用明細不能公示,有家長報警

      大風新聞
      2026-01-30 23:33:14
      古特雷斯:聯(lián)合國面臨財政崩潰 資金可能在7月前耗盡

      古特雷斯:聯(lián)合國面臨財政崩潰 資金可能在7月前耗盡

      每日經(jīng)濟新聞
      2026-01-31 07:38:32
      2026年度首次!俄烏時隔40日再次交換士兵遺體,比例高達1000:38

      2026年度首次!俄烏時隔40日再次交換士兵遺體,比例高達1000:38

      碳基生物關(guān)懷組織
      2026-01-30 23:33:37
      蓋茨被曝感染性病,并向妻子隱瞞

      蓋茨被曝感染性病,并向妻子隱瞞

      大風新聞
      2026-01-31 10:34:05
      拒崩盤!快船落后13分反撲追分:哈登單節(jié)11分,約基奇復(fù)出14+8

      拒崩盤!快船落后13分反撲追分:哈登單節(jié)11分,約基奇復(fù)出14+8

      體壇小李
      2026-01-31 11:11:11
      大打出手!4次奪權(quán)恐遭CBA重罰,球迷吵作一團:落后方憑啥不能投

      大打出手!4次奪權(quán)恐遭CBA重罰,球迷吵作一團:落后方憑啥不能投

      后仰大風車
      2026-01-31 07:05:08
      東契奇37分11板13助攻湖人戰(zhàn)勝奇才,勒布朗20分6助攻

      東契奇37分11板13助攻湖人戰(zhàn)勝奇才,勒布朗20分6助攻

      湖人崛起
      2026-01-31 10:17:30
      楊瀚森無得分開拓者不敵尼克斯4連敗,布倫森26分唐斯14分20板

      楊瀚森無得分開拓者不敵尼克斯4連敗,布倫森26分唐斯14分20板

      湖人崛起
      2026-01-31 10:54:20
      潢川縣委常委、副縣長李慶松主動投案接受紀律審查和監(jiān)察調(diào)查

      潢川縣委常委、副縣長李慶松主動投案接受紀律審查和監(jiān)察調(diào)查

      大象新聞
      2026-01-31 09:17:14
      官媒怒批!吳京新片《鏢人》未映先爆雷,30人8個頭銜太荒唐!

      官媒怒批!吳京新片《鏢人》未映先爆雷,30人8個頭銜太荒唐!

      史行途
      2026-01-30 09:43:04
      2026-01-31 12:36:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領(lǐng)域權(quán)威媒體
      4511文章數(shù) 37400關(guān)注度
      往期回顧 全部

      科技要聞

      中國車企和特斯拉的下一戰(zhàn),戰(zhàn)場已定

      頭條要聞

      愛潑斯坦案最新猛料:蓋茨與俄女子發(fā)生關(guān)系感染性病

      頭條要聞

      愛潑斯坦案最新猛料:蓋茨與俄女子發(fā)生關(guān)系感染性病

      體育要聞

      “假賭黑”的子彈,還要再飛一會兒嗎?

      娛樂要聞

      成龍入駐小紅書,懟臉近照沒有老年斑

      財經(jīng)要聞

      白銀,暴跌!黃金,40年最大跌幅!

      汽車要聞

      新款賓利歐陸GT S/GTC S官圖發(fā)布 V8混動加持

      態(tài)度原創(chuàng)

      房產(chǎn)
      藝術(shù)
      數(shù)碼
      游戲
      軍事航空

      房產(chǎn)要聞

      藏不住的小城大事,海澄新城執(zhí)掌自貿(mào)港風口,進階兌現(xiàn)美好生活新篇

      藝術(shù)要聞

      15位當代國外畫家的16幅具象人物繪畫

      數(shù)碼要聞

      請更新驅(qū)動:英偉達拉響安全警報,封堵篡改敏感數(shù)據(jù)等漏洞

      《上古卷軸6》如何處理前作結(jié)局?設(shè)計師大膽猜測

      軍事要聞

      轟-6k在黃巖島戰(zhàn)備警巡示意圖公布

      無障礙瀏覽 進入關(guān)懷版