![]()
原文發表于 《科技導報》2025年第17期科技新聞-深度報道
人工智能生成假說在檢驗中仍遜于人類
![]()
人工智能和人類比拼假說的可靠性(圖片來源:
Science
2025 年 5 月,美國舊金山非營利初創機構 FutureHouse 的科研團隊宣布,他們發現了一種具有治療視力喪失潛力的候選藥物。但他們卻不能獨攬此功,因為從文獻檢索、假說構建到數據分析的諸多科研環節,均由團隊自主研發的人工智能(AI)完成。
從計算機科學到化學領域,AI正在全球范圍內加速推動科研事業發展,部分原因在于它把一種曾被視為人類獨有的創造自動化了:生成假說。如今,機器能在瞬息間完成對指數級增長的文獻庫的智能掃描,精準識別研究空白,揭示那些可能被科學家忽略的具有突破潛力的研究方向。
但這些AI生成的假說質量如何?一項大規模的新研究發現,當研究人員將AI生成的假說置于實際檢驗并交由人類評估者比對結果時,其表現仍不及人類提出的假說。但兩者差距并不顯著,且可能不會持續太久。
一篇 2025 年 6 月發表于 arX-iv 預印本服務器的實驗論文指出,AI系統有時會過度修飾假說,夸大其潛在重要性。該研究的第一作者、斯坦福大學計算機科學博士生 Chenglei Si 表示,研究同時表明AI在評估其自主生成假說的測試可行性方面仍不及人類。
該研究既贏得了廣泛贊譽,也引發了學界的審慎考量,部分原因在于原創性評判本就極具挑戰。華盛頓大學數據科學家 Jevin West 指出:“創新性始終是科研評估的難點,也是同行評審中最艱巨的任務之一。”
本研究以AI自身為研究對象,聚焦支撐大語言模型(LLM)的自然語言處理(NLP)技術。研究人員利用 Anthropic 公司開發的大語言模型 Claude 3.5 Sonnet,基于對 Semantic Scholar 數據庫中自然語言處理研究文獻的分析,生成了數千個科研假說,并篩選出最具原創性的方案。
隨后,他們聘請人類自然語言處理專家提出競爭性方案,同時組建計算機科學家團隊對 2 組假說進行盲態評估,考察其創新性、可行性等指標。在 2024 年公布的預印本中,評估結果顯示AI生成的假說獲得了更高的平均分,這一令人意外的發現引發了廣泛的媒體關注。
但在研究第 2 階段出現了戲劇性反轉。通過社交媒體推廣、學術會議現場招募(在學術會議上穿著廣告T恤)等多渠道招募后,團隊組建了新的自然語言處理專家團隊,對 24 個AI生成假說和 19 個人類構建假說進行實驗驗證。
這些實驗通常聚焦算法優化大語言模型的某些性能(如語言翻譯),并賦予實驗人員優化研究設計(如選擇更適配的數據集)的自主權。團隊再次邀請獨立評估人員對假說進行評判,結果顯示:在十分制評分體系中,AI假說的平均得分從 5.382 暴跌至 3.406 ,而人類假說僅從 4.596 微降至 3.968。
![]()
人工智能正在提出那些人類希望回答的問題(圖片來源:信息化觀察網)
Si 表示,該結果驗證了實踐檢驗的重要性:“如果只關注理論構想,評審者可能被某些華美辭藻迷惑。但實際檢視代碼執行或解讀時,會發現那只是對已知技術的華麗包裝或新穎表述。”(2025 年 2 月,一項針對 50 個AI假說的研究也印證了這種擔憂:人類評估者認為其中 1/3 涉嫌抄襲,另有 1/3 部分借鑒前人成果;僅有 2 條假說具高創新性,沒有假說實現完全創新。)
非營利機構艾倫人工智能研究所首席科學家 Dan Weld 認為該研究“非常振奮人心”,但存在局限性。他指出:其一,研究僅使用單一大語言模型,基于廣泛文獻生成假說,而非采用多種AI工具深度挖掘權威專家的高被引研究;其二,人類并非判定創新性的理想主體,既往研究表明研究人員對同一篇計算機科學論文的評分存在顯著分歧。 West 補充道,實驗創新性的最佳評估方式是事后回溯,即通過多年積累的引文數據來進行判斷。
Si 認為,將AI生成假說的驗證流程常態化需要耗費大量時間成本。但他指出,若能讓大語言模型學習歷史上成功實驗案例的細節,其識別創新假說的能力或將得到系統性提升。
盡管存在爭議,AI與人類評分的接近程度已足以令人驚嘆,這在數年前甚至難以想象。Weld 表示,即便未來AI承擔大部分假說構建工作、科學家轉而執行無法自動化的實驗環節也不足為奇。但 West 警示道:“若果真如此,科學探索中最富趣味的環節將被剝離,科學家將淪為從事‘令人麻木’的實驗室工作的工具。科學本質上是人類參與的社會活動,抽離了這個特質,科學還剩下什么?”
文 /Jeffrey Brainard
譯自
Science,2025,389(6763)
《科技導報》創刊于1980年,中國科協學術會刊,主要刊登科學前沿和技術熱點領域突破性的研究成果、權威性的科學評論、引領性的高端綜述,發表促進經濟社會發展、完善科技管理、優化科研環境、培育科學文化、促進科技創新和科技成果轉化的決策咨詢建議。常設欄目有院士卷首語、科技新聞、科技評論、專稿專題、綜述、論文、政策建議、科技人文等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.