![]()
人工智能技術飛速發展并持續向科研領域滲透,如何判斷AI是否真正具備開展科學研究的能力已成為學界關注的核心議題。當前,各類新型基準測試接連問世,試圖從不同維度衡量模型在科學任務中的表現。近日,研究者塞莉娜·趙(Celina Zhao)在《科學》雜志刊發《如何判定人工智能的科研能力?》(How will we know if AI is smart enough to do science?)一文,分析了目前不同評估體系對AI科研能力的考察維度,并提出應構建多元化、互補型評估體系,推動AI向更高階的科研能力邁進。
原文 :《如何判定人工智能的科研能力》
編譯 |張譯丹 楊勇
圖片 |網絡
長期以來,人工智能領域的研究者一直希望研發出能助力科學研究實現突破的智能工具,這類工具可自主提出創新性研究問題、設計實驗方案,甚至獨立完成實驗操作。最近,大語言模型接連取得多項研究發現,不少人工智能開發者認為,這讓行業離上述愿景又近了一步。但問題在于,該如何檢驗一款AI模型是否真正具備開展科學研究的核心能力?為解答這一問題,研究人員將目光投向基準測試,通過標準化問題與任務評估AI能力、實現模型橫向對比,而這也成為當前衡量AI科研能力的核心手段。
多元測試工具各有側重
過去一年,數十款面向科學研究的新型基準測試應運而生,試圖回答這一問題,不過科學界至今尚未就最優評估方法達成共識。
其中最受關注的,是今年1月發表于《自然》期刊的“人類最后考試”(HLE)。該測試選取2500道源自“人類知識前沿”的問題,以此檢驗大語言模型的能力。該測試由非營利組織人工智能安全中心研發,其研究工程師朗·范(Long Phan)表示:“我們希望打造一套多元數據集,其中的問題只有長期深耕某一領域的專家才能解答。”“人類最后考試”自首次發布后,便成為檢驗大語言模型的重要試金石,該測試的得分也成為AI企業彰顯自身產品能力的重要依據。測試推出之初,行業頭部企業OpenAI的人工智能模型雖拔得頭籌,但其正確率僅有8.3%;近日,谷歌宣布其最新科學推理模型Gemini 3 Deep Think在該測試中取得48.4%正確率的高分,創下該測試的歷史紀錄。
![]()
不過,有部分科學家質疑,認為其中的諸多問題考察的只是晦澀難懂甚至細枝末節的知識,而非開展有價值科學研究的能力。與“人類最后考試”同期發表的《自然》期刊社論,也認同這一擔憂:“我們認為,更多科學家應當思考,想要研發出能真正衡量專家級思維能力的AI基準測試,究竟需要具備哪些條件?”
OpenAI研究團隊表示,其新推出的基準測試正朝著這一方向穩步推進。2025年12月發布的前沿科學基準測試(Frontier Science)包含約700道化學、生物、物理領域的問題,旨在檢驗模型的“專家級科學推理能力”。其中部分題目與數學、科學奧林匹克競賽題型異曲同工,這類題目以簡短場景為背景,答案明確。正如OpenAI研究科學家邁爾斯·王(Miles Wang)所言,這類題目是“衡量純推理能力的優質參考指標”,比如判斷一系列化學反應能生成的產物。另一類題目則圍繞復雜的開放性研究問題展開,這類問題正是科研工作者在博士階段及后續工作中需要攻克的難題,例如推導改變某一分子結構會從哪些方面影響其性質。
邁爾斯·王表示,該基準測試的核心優勢在于可驗證性,這也是公平合理的測試最關鍵的特征之一。奧林匹克競賽類題目評分標準清晰,而針對開放性研究問題,大語言模型若能梳理出完整的中間推理步驟,便可按步計分。截至目前,OpenAI自研的GPT-5.2模型在前沿科學基準測試中表現最佳,不僅答對77%的奧賽類題目,還在研究挑戰類題目中取得25%的正確率。
有研究人員認為,兩類題目間懸殊的得分差距本身就很能說明問題。他們主張,基準測試的研發應聚焦于直接評估AI開展真實世界研究的能力,這正是段辰儒及其研究團隊與前沿科學基準測試同期發布的科學發現評估(SDE)基準測試的核心理念。科學發現評估并未設置難度頗高卻互不關聯的問題,而是為AI布置了1125項任務,對應43個研究場景,這些場景均來自8個正在開展且相關數據尚未發表的真實科研項目。例如,該測試要求大語言模型設計具體方案,將目標分子拆解為結構更簡單且可商業化采購的原料。該評估的評分依據不僅包括答案的準確性,還包括模型整合整個項目的能力,即能否在多步驟研究中提出假設、驗證假設并優化假設。段辰儒表示:“我們可以保證,每一道測試題都圍繞解決真實科學研究中的問題展開,即便是微小的問題也不例外。”
AI科研能力尚存明顯瓶頸
科學發現評估(SDE)的測試結果顯示,大語言模型正確回答單個問題的能力,并非總能轉化為其在完整科研項目中的優異表現,反之亦然。“把握研究的整體方向,往往比掌握某類分子的精準屬性更為重要。”段辰儒說。該測試還發現,來自OpenAI、Anthropic、xAI、深度求索等企業的頂尖模型,往往會在同一類高難度問題上陷入瓶頸。這一現象表明,這些模型或許面臨著相同的能力天花板,究其原因,大概率是它們的訓練數據均來自相似的科學數據池。
但即便如此,科學發現評估的方法也僅能覆蓋科學研究流程的部分環節。另一款新型基準測試LABBench2則聚焦生物領域,由科學智能初創企業Future House研發,其核心目標是檢驗面向科研的人工智能,是否具備將一個研究項目從最初構想推進至論文成稿的全流程能力。該測試于近日推出,通過近1900項任務評估“代理式AI模型”在文獻檢索、數據獲取、基因序列構建等工作中的表現,這類模型是能自主執行操作、完成多步驟任務的智能系統。
![]()
迄今為止,該測試的結果好壞參半。諸多領先的大語言模型在檢索專利全文、實驗室試驗相關論文方面表現良好,但在應對LABBench2中更復雜的任務時卻常常力不從心,例如交叉引用多個數據庫,或是在內容繁雜的論文中定位并解讀特定的圖表與數據。Future House 旗下商業公司Edison Scientific的喬恩·洛朗(Jon Laurent)表示,這一現象說明,想要打造真正的AI科學家,其發展進程在一定程度上取決于模型信息檢索與信息導航能力的優化。
以基準測試引領未來發展
研究人員表示,值得關注的是,基準測試的價值并非僅在于記錄當下各模型的優劣排名。更為嚴苛的基準測試還能為大語言模型及其他AI工具設定全新發展目標,進而推動行業創新。Future House旗下喬恩·洛朗表示,基準測試的核心目的之一是做好前瞻性布局,衡量模型潛在能力并推動其持續發展,而OpenAI邁爾斯·王也對此深表認同,他以ImageNet大規模視覺識別挑戰賽為例,指出該賽事的冠軍模型AlexNet極大地推動了卷積神經網絡發展,成為現代AI的技術基石,印證了優質基準測試對科技突破的重要引領作用。
事實上,在科研領域,或許并不存在衡量AI是否“擅長開展科學研究”的單一標準。佐治亞理工學院研究認知神經科學與人工智能交叉領域的安娜·伊萬諾娃(Anna Ivanova)表示:“這正是當前各類基準測試呈現多樣化的根本原因。一個智能系統的繪圖可視化能力,與其掌握的分析化學領域事實性知識截然不同,盡管科研工作者需要同時具備這兩種能力。”
鑒于科學研究所需的技能范圍廣泛,AI領域專家認為,科研界最理想的方式是構建一套多元化的測試體系,每項測試都旨在針對性地推動科學研究流程中不同環節的能力提升。正如業內所言:“我們正邁向一個需要多元化評估體系的新時代。”
無論采用何種評估方法,被納入衡量范疇的指標,往往會成為技術改進的方向。正如行業共識:“唯有可衡量,方能求進步。”
文章為社會科學報“思想工坊”融媒體原創出品,原載于社會科學報第1997期第7版,未經允許禁止轉載,文中內容僅代表作者觀點,不代表本報立場。
本期責編:程鑫云
![]()
《社會科學報》2026年征訂
點擊下方圖片網上訂報↓↓↓
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.