網易首頁 > 網易號 > 正文申請入駐

加州大學圣地亞哥分校FIRE-BENCH：AI科學家自主研究能力評測基準

2026-02-05 16:22:17　來源: 科技行者

北京舉報

分享至

這項由加州大學圣地亞哥分校聯合約翰霍普金斯大學、康奈爾大學、MBZUAI和卡內基梅隆大學等多所頂尖學府共同開展的研究，于2026年2月發表在預印本平臺上（論文編號arXiv:2602.02905v1），研究團隊開發了一個名為FIRE-BENCH（全周期洞察重發現評估）的新型測試平臺，專門用于評估AI研究助手是否真的能像人類科學家一樣，獨立完成從提出問題到得出結論的完整科學研究過程。

科學發現就像解決一個巨大的拼圖游戲。人類科學家需要觀察現象，提出假設，設計實驗，分析數據，最后得出結論。每一步都需要創造性思維和嚴密的邏輯推理。隨著大語言模型的快速發展，我們開始看到AI系統在各個科學研究環節都表現出令人印象深刻的能力——它們能夠閱讀文獻，提出假設，編寫代碼，甚至分析實驗結果。這讓人們開始好奇：AI是否已經具備了獨立進行科學研究的能力？

然而，評估AI的科學研究能力面臨著一個根本性的挑戰。如果讓AI去探索全新的科學問題，我們很難判斷它得出的結論是否正確，因為這些結論可能需要花費大量時間和資源進行實驗驗證。另一方面，如果只是讓AI在某個具體任務上優化性能指標，雖然結果容易衡量，但這種評估方式過于狹隘，無法反映真正的科學研究能力。

為了解決這個兩難問題，研究團隊提出了一個巧妙的解決方案：讓AI重新發現那些已經被人類科學家證實的重要科學發現。這就像讓一個偵探重新調查一個已經破解的案件，但只給他最初的線索，不告訴他案件的細節和最終結論。如果AI能夠通過自己的推理和實驗重新得出與人類科學家相同的結論，那就說明它確實具備了獨立的科學研究能力。

研究團隊從2024年和2025年的頂級機器學習會議（ICLR、ICML和NeurIPS）中精心挑選了30篇高質量的經驗分析論文。這些論文都專門研究大語言模型的行為和特性，具有清晰可驗證的實驗結論。研究人員將每篇論文抽象成一個研究任務：只向AI提供最初的研究問題，而隱藏具體的實驗設計、實施細節和最終結論。

整個評估過程就像一場精心設計的"盲測"實驗。AI系統需要從一個高層次的研究問題出發，自主設計實驗方案，編寫和執行代碼，分析實驗結果，最后形成有證據支撐的科學結論。研究團隊然后將AI得出的結論與原始論文的發現進行詳細比較，采用基于聲明的評分方式，計算精確度、召回率和綜合得分。

研究團隊測試了四個目前最先進的AI研究助手系統，包括開源的OpenHands系統（分別使用GPT-4-mini和GPT-5作為底層模型），以及兩個商業系統：OpenAI的Codex（使用GPT-5-medium）和Anthropic的Claude Code（使用Claude-4-Sonnet）。每個AI系統都在相同的環境中運行，擁有相同的計算資源和數據集訪問權限，確保測試的公平性。

**一、AI科學家的表現如何？結果令人深思**

測試結果揭示了當前AI系統在獨立科學研究方面的真實水平。即使是表現最好的Claude Code系統，平均綜合得分也只有46.7分（滿分100分），其他系統的得分分別為：Codex 41.9分，使用GPT-5的OpenHands 37.9分，使用GPT-4-mini的OpenHands 31.9分。這個結果表明，盡管AI系統在許多單項任務上表現出色，但要完成完整的科學研究流程仍然面臨巨大挑戰。

更令人擔憂的是結果的不穩定性。研究團隊對每個AI系統進行了三次獨立測試，發現即使是相同的系統在相同的任務上，表現也會有很大差異。例如，在"信息位置對模型性能的影響"這個任務上，OpenHands系統的得分波動范圍高達40.5分。這種不穩定性在科學研究中是非常危險的，因為科學結論必須具有可重復性和可靠性。

為了更深入地理解AI系統失敗的原因，研究團隊開發了一套詳細的錯誤分析框架。他們將科學研究過程分為四個關鍵階段：研究規劃、代碼實現、實驗執行和結論形成。通過分析AI系統在每個階段的表現，研究人員發現了一個有趣的現象：AI系統的失敗主要不是因為編程能力不足，而是因為缺乏科學思維能力。

在研究規劃階段，AI系統經常采用與原始研究不同的實驗方法，或者偏離了最初的研究目標。這就像一個廚師拿到食譜后，卻決定用完全不同的烹飪方法來制作菜品。在結論形成階段，AI系統雖然能夠正確執行實驗步驟，但經常無法從實驗數據中得出正確的結論，就像能夠完美演奏音符卻無法理解音樂情感的機器人一樣。

**二、不同任務難度下的表現差異**

研究團隊按照任務的復雜程度將30個測試任務分為簡單、中等和困難三個級別。分類標準主要考慮三個維度：概念分解的復雜度、實驗控制的嚴格程度，以及數據分析的復雜程度。這就像將烹飪任務分為煮方便面、制作家常菜和制作法式大餐三個難度等級。

在簡單任務上，AI系統表現相對較好。這些任務通常有明確的實驗流程和直觀的評估標準，就像按照詳細說明書組裝家具一樣。例如，在"信息位置對模型性能的影響"任務中，最好的AI系統達到了91.7分的高分。這類任務的特點是實驗步驟相對固定，主要考驗AI系統的執行能力而非創造性思維。

然而，當面臨需要復雜實驗設計的困難任務時，AI系統的表現急劇下降。特別是那些需要構建對照組或控制混雜因素的任務，AI系統經常無法設計出合適的實驗方案。以"醫療成本預測中的種族偏見"任務為例，原始研究通過巧妙的對比實驗設計來隔離種族因素的影響，但所有測試的AI系統都未能重現這種實驗設計思路，因此得分都接近于零。

這種表現差異揭示了AI系統的一個根本性局限：它們擅長執行明確的指令和標準化的操作，但在需要創造性問題解決和復雜推理的情況下表現不佳。這就像一個嚴格按照食譜烹飪的廚師，在食譜清晰詳細時能做出美味的菜肴，但當需要根據現有食材創新菜品時就顯得力不從心。

**三、AI系統犯了哪些典型錯誤？**

通過對AI系統生成的錯誤結論進行詳細分析，研究團隊發現了四種主要的錯誤類型。最常見的是矛盾性結論，占所有錯誤的65%以上。這類錯誤表現為AI系統得出的結論與已證實的科學發現直接沖突，就像聲稱"水在100度時會結冰"這樣明顯違背常識的錯誤。

第二類錯誤是不相關結論，約占錯誤的25%。AI系統雖然進行了實驗，但得出的結論與研究問題毫不相關，就像被問及蘋果的營養價值卻回答香蕉的種植方法。這反映了AI系統在理解和聚焦研究目標方面的缺陷。

有趣的是，真正的"替代性結論"——即AI系統提出了與原始研究不同但可能合理的科學觀點——僅占所有錯誤的不到11%。這表明AI系統目前還缺乏真正的科學創新能力，它們的錯誤更多是因為理解偏差或執行失誤，而非創造性的科學思考。

研究團隊還發現，AI系統在處理需要嚴格控制變量的實驗時特別容易出錯。例如，在研究語言模型的某種特性時，AI系統經常忽略了控制其他可能影響結果的因素，就像在測試新藥效果時忘記使用安慰劑對照組一樣。這種疏忽會導致實驗結果不可靠，結論缺乏說服力。

**四、成本效益分析揭示的問題**

除了性能評估，研究團隊還詳細分析了不同AI系統的使用成本。測試結果顯示，性能更好的AI系統通常也更昂貴。表現最佳的Claude Code系統平均每個任務花費0.84美元，而性能相對較低的系統成本約為每任務0.15-0.72美元不等。

這種成本與性能的關系反映了當前AI技術發展的一個現實：更強大的AI模型需要更多的計算資源，因此使用成本也更高。對于希望使用AI進行科學研究的機構來說，這意味著需要在研究質量和預算之間做出權衡。

有趣的是，研究團隊發現某些任務的成本差異很大。需要復雜推理和多輪迭代的任務成本明顯更高，因為AI系統需要進行更多的計算和API調用。這就像解決復雜數學題需要更多的草稿紙和思考時間一樣。

**五、數據污染問題的深入調查**

考慮到測試中使用的都是近期發表的研究論文，研究團隊特別關注了一個重要問題：AI系統的優異表現是否是因為它們在訓練時已經"見過"這些研究內容？這種現象被稱為數據污染，就像學生考試前偷看了答案一樣。

為了檢驗這種可能性，研究團隊將測試任務按照AI模型的知識截止時間進行分類，比較AI系統在知識截止前后發表的論文上的表現差異。如果存在嚴重的數據污染，AI系統在較早發表的論文上應該表現更好。

然而，分析結果顯示并沒有明顯的數據污染跡象。AI系統在知識截止時間前后發表的論文上表現相似，有些甚至在較新的論文上表現更好。這表明FIRE-BENCH的測試結果確實反映了AI系統的真實科學研究能力，而非簡單的記憶和重復。

研究團隊認為，這種現象的原因在于FIRE-BENCH的獨特設計。即使AI系統可能"記住"了某篇論文的內容，但由于測試時只提供高層次的研究問題而隱藏了具體的實驗細節和結論，AI系統仍然需要獨立進行推理和實驗設計。這就像記住了一個故事的結局，但仍然需要自己重新編織整個故事情節一樣。

**六、對AI科學研究能力的深度思考**

FIRE-BENCH的測試結果為我們理解AI在科學研究中的角色提供了重要啟示。首先，當前的AI系統確實具備了執行科學研究各個環節的基礎能力——它們能夠理解研究問題，設計實驗方案，編寫和執行代碼，分析數據并形成結論。這些能力的存在意味著AI已經可以作為有力的科學研究助手。

然而，測試同時揭示了AI系統在獨立科學研究方面的根本性限制。它們在需要創造性思維、復雜推理和精確控制的任務上表現不佳，特別是在需要設計巧妙對照實驗或處理多變量交互的情況下。這表明當前的AI系統更適合承擔科學研究中的執行性工作，而非承擔需要深度科學洞察的創造性任務。

研究結果還顯示，AI系統的表現具有顯著的不穩定性，這在科學研究中是一個嚴重問題。科學發現需要具有可重復性和可靠性，而AI系統目前的不穩定表現使其難以獨立承擔重要的科學研究任務。這就像一個時而精確時而出錯的測量儀器，雖然有時能給出正確結果，但整體可靠性不足。

**七、對未來AI科學研究的展望**

FIRE-BENCH不僅是一個評估工具，更為AI科學研究能力的發展指明了方向。研究團隊發現，AI系統的主要弱點集中在研究規劃和結論形成兩個階段，這恰恰是最需要科學思維和創造性洞察的環節。未來的AI系統發展應該重點加強這些方面的能力。

在研究規劃方面，AI系統需要更好地理解科學問題的本質，能夠設計出既嚴格又巧妙的實驗方案。這需要AI系統不僅具備邏輯推理能力，還要具備科學直覺和創造性思維。在結論形成方面，AI系統需要能夠從復雜的實驗數據中提取出有意義的模式和規律，并將這些發現與更廣泛的科學知識體系聯系起來。

研究團隊建議，改進AI科學研究能力的一個重要方向是增強其對科學方法論的理解。當前的AI系統主要通過模仿人類科學家的具體操作來進行研究，但缺乏對科學方法本身的深度理解。如果能讓AI系統更好地掌握科學推理的基本原則，比如如何控制變量、如何設計對照實驗、如何處理混雜因素等，其科學研究能力將得到顯著提升。

另一個重要的改進方向是提高AI系統的穩定性和可靠性。這可能需要在AI系統的訓練過程中加入更多的科學推理任務，讓它們在面對不確定性和復雜性時能夠保持一致的高質量輸出。

說到底，FIRE-BENCH揭示了一個既令人鼓舞又值得深思的現實：AI系統已經初步具備了科學研究的各項基礎能力，但要真正成為獨立的科學研究者還有很長的路要走。當前的AI系統更像是勤勤懇懇的研究助手，它們能夠幫助人類科學家處理大量的數據分析和實驗執行工作，但在需要創造性洞察和深度科學思維的任務上仍然需要人類的指導。

這項研究提醒我們，AI在科學研究中的角色應該是增強而非替代人類科學家。通過讓AI承擔更多的執行性任務，人類科學家可以將更多精力投入到創造性思考和科學洞察上，從而實現人機協作的科學研究新模式。同時，FIRE-BENCH為評估和改進AI科學研究能力提供了一個標準化的平臺，相信隨著技術的不斷發展，AI系統的科學研究能力將會得到顯著提升。

有興趣深入了解這項研究的讀者，可以通過論文編號arXiv:2602.02905v1在預印本平臺上查閱完整的研究內容。這項工作不僅為AI科學研究能力評估提供了新的方法論，也為未來AI在科學發現中發揮更大作用奠定了重要基礎。

Q&A

Q1：什么是FIRE-BENCH測試平臺？

A：FIRE-BENCH是一個專門評估AI系統科學研究能力的測試平臺，由加州大學圣地亞哥分校等多所高校聯合開發。它通過讓AI重新發現已被證實的科學結論來測試AI是否具備獨立進行科學研究的能力，就像讓偵探重新調查已破解的案件但不告訴最終答案一樣。

Q2：當前最先進的AI科學助手表現如何？

A：測試結果顯示表現最好的Claude Code系統綜合得分只有46.7分（滿分100分），其他系統得分在32-42分之間。更令人擔憂的是結果不穩定，同一系統在相同任務上的表現差異可達40多分，這在需要可重復性的科學研究中是嚴重問題。

Q3：AI系統在科學研究中主要存在哪些問題？

A：AI系統的主要問題集中在兩個方面：研究規劃能力不足和結論形成能力欠缺。它們經常采用錯誤的實驗方法或無法從正確的實驗數據中得出準確結論。簡單執行性任務表現較好，但面對需要創造性思維和復雜控制的任務時表現急劇下降。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.