<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      頂尖AI挑戰北大化院174名頂尖學子,有機化學考場誰更勝一籌?

      0
      分享至

      歡迎報名摜蛋友誼賽暨產學研對接交流會

      導讀

      近日,北京大學化學與分子工程學院進行了一場特殊的有機化學期中考試,174位北大化院的大二學生與GPT、Gemini、DeepSeek這些頂尖AI同場競技,那究竟誰更勝一籌呢?


      考試現場

      近日,北京大學化學與分子工程學院聯合計算中心、計算機學院、元培學院團隊,發布了最新成果化學大模型基準SUPERChem。該基準針對當前化學知識水平評測中題目難度有限、多模態與推理過程評估缺失等不足,系統構建了專注評估大語言模型(LLM)化學推理分析能力的新體系,旨在推動化學智能評測的深入發展。而這場特殊的期中考試,是北大科研團隊為大語言模型投下的一塊“試金石”,來丈量AI在科學推理上的真實邊界。

      打開SUPERChem的題庫,一種“壓迫感”撲面而來。晶體結構的精細解析、反應機理的深度推演、物化性質的定量計算……這500道題目并非來自網絡上隨手可得的公開題庫,而是源于對高難度試題和前沿專業文獻的深度改編。

      互聯網可及的測試題大多已被博聞強識的AI在訓練階段熟讀,考出的高分往往掩蓋了其推理能力的蒼白。而化學,恰恰是一門不能只靠死記硬背的學科。它既有嚴密的邏輯推演,又充滿了對微觀世界的空間想象。要設計一套讓AI“沒見過”、必須靠硬實力推理的題目,難度極高。然而,這正是北大化院的獨特優勢所在。近百名師生——其中不乏奧林匹克金牌得主——集結起來,決定給AI出一套高門檻、重推理、防作弊的試卷。

      他們要考的,是AI是否真的“懂”化學。


      SUPERChem總覽與例題

      為了構建這套高質量評估集,團隊搭建了一個專屬協作平臺。在這里,出題、審題、修題從單調的任務,變成了一套循序漸進的“通關”流程。成員們在平臺上協作,互相審閱、彼此“找茬”,讓嚴謹的科學探討與活躍的思維碰撞交織共融。團隊還引入了積分激勵系統,讓出題過程就像在游戲中打怪升級。一道題目需歷經編寫初稿、撰寫解析,再通過初審與終審的嚴格審核,每個環節均由不同的同學把關,并發放相應的積分。終審通過的題目,甚至最多迭代過15個版本。


      SUPERChem題庫的三階段審核流程

      考試成績揭曉。在這場精心設計的考試中,人類展現出了復雜的科學直覺。作為基線,參與測試的北大化院本科生取得了40.3%的平均準確率。這個數字本身,就足以說明這套題目的硬核程度。

      而AI的表現如何?即便是接受測試的頂尖模型,其成績也僅與低年級本科生的平均水平相當


      前沿模型在SUPERChem上的表現


      前沿模型的正確率與RPF關系

      讓團隊感到意外的是視覺信息帶來的困惑。化學的語言是圖形,分子結構、反應機理圖蘊含著關鍵信息。然而對于部分模型而言,當引入圖像信息時,其準確率不升反降。這說明,當前的AI在將視覺信息轉化為化學語義時,仍存在明顯的感知瓶頸


      輸入模態對不同模型的影響

      團隊發現,AI的推理鏈條往往斷裂于產物結構預測、反應機理識別以及構效關系分析等高階任務。當前的頂尖模型雖然擁有海量的知識儲備,但在處理需要嚴密邏輯和深刻理解的硬核化學問題時,仍顯得力不從心。


      推理斷點所屬化學能力分布

      SUPERChem的誕生,填補了化學領域多模態深度推理評測的空白。

      團隊發布這項成果,并非為了證明AI的短板,而是為了推動它走得更遠。SUPERChem就像一個路標。它提醒我們:從通用的聊天機器人,到能夠理解構效關系、推演反應機理的專業科學助手,中間還有很長的一段路要走。那是從“記住知識”到“理解物理世界”的跨越。

      目前,SUPERChem項目已全面開源。團隊希望這套源自北大的“試卷”,能成為全球科學與人工智能領域的公共財富,去催化下一次技術的爆發。或許在不久的將來,當我們再次打開這張試卷時,AI能交出一份滿分的答卷。那將是化學與人工智能共同的驚喜。


      SUPERChem平臺界面

      更多介紹:

      ——背景——

      2025年,隨著開源推理模型DeepSeek-R1推出,LLM在“深度思考”范式下快速發展,其在自然科學領域的應用已從簡單問答轉向復雜推理。然而,現有通用科學基準趨于飽和,化學專用基準多關注基礎能力與化學信息學任務,缺乏對深度推理的系統考察。

      從基礎教育、化學奧林匹克競賽到高等教育,化學學習強調知識綜合運用與多步推理,是評估推理能力的理想場景。設計高質量評估題目需融合抽象概念與具體情境,構建層層遞進的推理鏈,對出題者專業素養要求極高。

      研究團隊依托北京大學化學學院水平頂尖的本科生和研究生群體,充分發揮其扎實學科功底與豐富解題命題經驗,對已有題目素材進行準確評估與合理優化,共同構建了SUPERChem基準,填補了化學深度推理評估的空白。


      圖1.SUPERChem總覽與例題。

      ——數據構建——


      圖2.SUPERChem題庫的三階段審核流程。

      SUPERChem題庫由北大化學專業近百名師生共建,涵蓋題目編寫、解析撰寫及嚴格的三階段審核。題目源自非公開試題與專業文獻改編,并采用防泄漏設計,避免LLM依賴記憶或從選項逆推。針對化學信息的多模態特點,同步提供圖文交錯與純文本版本的對齊數據集,支持探究視覺信息對推理的影響。

      目前,SUPERChem先期發布500道專家級精選題目,覆蓋結構與性質、化學反應與合成、化學原理與計算、實驗設計與分析四大化學核心領域。為細粒度評估LLM思考過程,SUPERChem引入推理路徑一致性(Reasoning Path Fidelity,RPF)指標:團隊為每道題目撰寫了含關鍵檢查點的詳細解析,通過自動化評估模型思維鏈與解析的一致性,判別模型是否真正“理解”化學。

      ——評測結果——

      1.前沿模型接近低年級本科生水平,不同模型推理一致性存在差異

      表1:前沿模型在SUPERChem上的表現。


      評測顯示,SUPERChem具有較高難度與區分度。在北京大學化學專業低年級本科生閉卷測試中,人類準確率為40.3%。參與評測的前沿模型中,表現最佳的GPT-5 (High)準確率為38.5%,表明其化學推理能力僅與化學專業低年級本科生水平相當,尚未超越人類基礎專業認知。


      圖3. 前沿模型的正確率與RPF關系。

      分析RPF指標可見,不同模型推理過程質量差異明顯:Gemini-2.5-Pro和GPT-5 (High)在取得較高準確率的同時,其推理邏輯也更符合專家路徑;而DeepSeek-V3.1-Thinking雖然準確率相近,但RPF得分相對較低,反映其更傾向通過啟發式路徑得出結論。

      2.多模態信息雙刃劍效應


      圖4:輸入模態對不同模型的影響。

      在依賴多模態輸入的題目中,視覺信息對不同模型影響各異:對Gemini-2.5-Pro等強推理模型,圖像輸入可提升準確率;對GPT-4o等推理能力較弱的模型,圖像信息反而造成干擾。這提示在科學任務中需根據模型能力匹配合適的輸入模態。

      3.推理斷點分析:模型倒在了哪一步?

      為進一步探究LLM推理失敗的深層原因,研究團隊進行了推理斷點分析。結果表明,前沿模型的推理斷點集中于產物結構預測、反應機理識別、構效關系分析等高階化學推理環節。這反映出當前LLM在涉及反應性與分子結構理解的核心任務上仍存在短板。


      圖5. 推理斷點所屬化學能力分布。

      ——總結——

      綜上所述,SUPERChem為系統評估大語言模型的化學推理能力提供了細致、可靠的基準。評測結果指出,當前前沿模型的化學能力仍處于基礎水平,在涉及高階化學推理能力的任務上存在明顯局限,為后續模型的針對性優化提供了明確方向。

      ——團隊介紹——

      SUPERChem項目由北京大學化學與分子工程學院與元培學院的趙澤華、黃志賢、李雋仁、林思宇同學領銜完成。近百位化學學院博士生與高年級本科生參與題庫構建與審核,其中包括多位國際與中國化學奧林匹克決賽獲獎選手。174位北京大學化學專業低年級本科生參與了人類基線測試。

      SUPERChem項目在北京大學化學與分子工程學院裴堅、高珍老師,計算中心馬皓老師, 計算機學院楊仝老師的指導下開展。項目 獲 得 北京大學計算中心與高性能計算平臺 資源 支持 ,來自 Chemy 、好未來、質心教育等機構 和 化學與分子工程學院鄒鵬、鄭捷等 多位教授 的 題目素材支持,以及高楊、龍汀汀老師的專業協助 。

      項目資源

      論文: https://arxiv.org/abs/2512.01274

      數據集: https://huggingface.co/datasets/ZehuaZhao/SUPERChem

      平臺網站: https://superchem.pku.edu.cn

      來源:北京大學、北京大學化學與分子工程學院

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      火箭勝步行者后!帶來3個利好,阿杜30分+5人上雙,無申京取2連勝

      火箭勝步行者后!帶來3個利好,阿杜30分+5人上雙,無申京取2連勝

      籃球看比賽
      2025-12-30 12:08:12
      新款豐田塞納亮相!外觀時尚,新增2.4T混動,奧德賽還扛得住?

      新款豐田塞納亮相!外觀時尚,新增2.4T混動,奧德賽還扛得住?

      劉哥談體育
      2025-12-29 16:14:56
      大S具俊曄沒領證?s家又保住了自己的財產安全

      大S具俊曄沒領證?s家又保住了自己的財產安全

      梅梅瞎八卦
      2025-12-30 10:56:15
      天然氣對華毀約,加入歐美稀土戰略,哈薩克斯坦這路誰教他走的?

      天然氣對華毀約,加入歐美稀土戰略,哈薩克斯坦這路誰教他走的?

      策略述
      2025-12-27 17:20:34
      敢抗議中方圍臺軍演?外交部回應一句話,日本需準備好“挨實彈”

      敢抗議中方圍臺軍演?外交部回應一句話,日本需準備好“挨實彈”

      南宮一二
      2025-12-30 09:38:44
      確認了:浙江雨夾雪、雪、中到大雪來了!上班時間有變

      確認了:浙江雨夾雪、雪、中到大雪來了!上班時間有變

      臺州交通廣播
      2025-12-30 06:07:50
      人民幣對美元即期匯率升破“7”,今年已累計升值4%

      人民幣對美元即期匯率升破“7”,今年已累計升值4%

      澎湃新聞
      2025-12-30 13:02:26
      中國最敗家的兒子:為追求女明星與文強約架,在天上人間激起動蕩

      中國最敗家的兒子:為追求女明星與文強約架,在天上人間激起動蕩

      凱裕說故事
      2024-12-19 10:12:44
      有錢人低調起來有多驚人?網友:簡直顛覆認知。

      有錢人低調起來有多驚人?網友:簡直顛覆認知。

      另子維愛讀史
      2025-12-28 17:43:40
      網約車權威報告出爐 :八成網約車用戶為了安全放棄聚合平臺

      網約車權威報告出爐 :八成網約車用戶為了安全放棄聚合平臺

      新摘
      2025-12-29 11:27:06
      西安市紀委監委通報:紅會醫院原院長郝定均多次違規收受多名下屬所送消費卡

      西安市紀委監委通報:紅會醫院原院長郝定均多次違規收受多名下屬所送消費卡

      澎湃新聞
      2025-12-29 17:22:06
      開拓者媒體人怒噴!楊瀚森每場5分鐘就夠,老DNP毫無道理

      開拓者媒體人怒噴!楊瀚森每場5分鐘就夠,老DNP毫無道理

      呆冰和章魚
      2025-12-29 18:21:41
      特斯拉官微公開新款Model Y高性能版設計手稿

      特斯拉官微公開新款Model Y高性能版設計手稿

      界面新聞
      2025-12-30 11:36:57
      91年江青自殺不久后,李訥吃飯見一人:感謝你替我為我媽媽盡了孝

      91年江青自殺不久后,李訥吃飯見一人:感謝你替我為我媽媽盡了孝

      蔣南強讀歷史
      2025-12-30 08:55:04
      蒼天呀大地呀,做人怎么可以這么扯!網友:笑的腦漿子都渾了

      蒼天呀大地呀,做人怎么可以這么扯!網友:笑的腦漿子都渾了

      另子維愛讀史
      2025-12-13 22:11:27
      你們聞過最臭的東西是什么?網友:婦科病的味道吧

      你們聞過最臭的東西是什么?網友:婦科病的味道吧

      帶你感受人間冷暖
      2025-09-28 00:15:07
      3 生肖 1 月開始天降大喜 財神偏愛 紅票子漲不停
?

      3 生肖 1 月開始天降大喜 財神偏愛 紅票子漲不停 ?

      人閒情事
      2025-12-30 11:49:59
      科學都這么先進了,為什么人類至今還搞不定石油是怎么來的?

      科學都這么先進了,為什么人類至今還搞不定石油是怎么來的?

      向航說
      2025-12-29 00:45:03
      2026將是雜糧車的生死劫,你希望它生還是死?

      2026將是雜糧車的生死劫,你希望它生還是死?

      細雨中的呼喊
      2025-12-27 13:08:57
      詹姆斯掉出首發!?僅排第9...東契奇登頂票王!

      詹姆斯掉出首發!?僅排第9...東契奇登頂票王!

      柚子說球
      2025-12-30 12:35:45
      2025-12-30 13:59:00
      化學加網 incentive-icons
      化學加網
      萃聚英才,共享化學
      12221文章數 8303關注度
      往期回顧 全部

      教育要聞

      學生論文匿名評閱不合格,導師按教學事故處理

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      體育要聞

      這個59歲的胖子,還在表演“蝎子擺尾”

      娛樂要聞

      林俊杰官宣文案爭議!女方名字都不提

      財經要聞

      朱光耀:美關稅政策正使WTO名存實亡

      科技要聞

      估值150億的智元,開始批量"制造"小獨角獸

      汽車要聞

      標配華為乾崑ADS 4 Pro 華境S明年上半年上市

      態度原創

      時尚
      本地
      數碼
      親子
      藝術

      “短大衣”今年冬天又火了,這4件怎么搭都好看!

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      數碼要聞

      英特爾PantherLake新品CES 2026搶先看,AI PC生態邁入智能體時代

      親子要聞

      后續!3歲“熊孩子”頭卡石像懷中,家長回應!評論區笑不活了!

      藝術要聞

      謝稚柳雪景山水20圖

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕变态另类| 人妻无码中文字幕| 国产欧美久久一区二区三区| 新余市| 99麻豆| 日日噜噜夜夜狠狠视频| 97人人模人人爽人人少妇| 亚洲中文字幕A| 国产乱xxxxx97国语对白| 少妇下蹲露大唇无遮挡| 果冻传媒18禁免费视频| 亚洲中文无码av永久不收费| 男人的天堂色偷偷| 色优久久| 人妻少妇精品系列| 婷婷开心中文字幕| 亚洲欧美人成人让影院| 97人人模人人爽人人喊电影 | 亚洲av无码专区在线亚| 婷婷五月综合激情| 人妻少妇久久中文字幕一区二区| 杨浦区| 怡春院综合| 精品自拍视频| 日韩av裸体在线播放| 久久久无码一区二区三区| 无卡无码| 九九热色| 麻豆乱码国产一区二区三区| 国产精品免费中文字幕| 日韩全网av在线| 无码中文av有码中文av| 中文成人在线| 大又大又粗又硬又爽少妇毛片| 日屄影视| 任你艹| 国内不卡的一区二区三区| 亚洲乱码一区av春药高潮| 精品人妻一区二区三区四区在线| 欧美影院成年免费版| 精品一卡二卡|