網易首頁 > 網易號 > 正文申請入駐

UIUC團隊發布SafeScientist，為AI科研安全立下新標桿

2025-10-31 13:35:01　來源: ScienceAI

北京舉報

分享至

作者 | 論文團隊

編輯 | ScienceAI

幾年前，AI 還只是科學家的助手；如今，它們正試圖成為科學家本身。在藥物研發、材料探索、分子模擬乃至論文寫作中，AI 科學家正以前所未有的速度推動科研前沿。它們能生成假設、規劃實驗、分析數據，甚至撰寫論文。但速度越快，風險也越大。

想象一個 AI 科學家，在毫無約束的狀態下嘗試「優化基因編輯流程」，或生成「更高效的病毒復制機制」…… 它也許能在幾秒內完成一個人類團隊數年的研究，但也可能開啟一場倫理災難。于是，一個核心問題浮現：AI 科學家的「聰明」，能否與「安全」并存？

UIUC 研究團隊給出了答案，他們提出了全球首個面向科研安全的 AI 框架 SafeScientist。這一框架不僅能推理、實驗與撰寫論文，更重要的是，它能在必要時主動拒絕高風險指令。

論文鏈接：https://arxiv.org/abs/2505.23559

代碼倉庫：https://github.com/ulab-uiuc/SafeScientist

論文第一作者為伊利諾伊大學厄巴納–香檳分校本科生 Jiaxun Zhang，主要研究方向為 LLM Agent 安全、工具增強推理與多智能體科研系統。共同一作包括 Kunlun Zhu 與 Ziheng Qi，研究聚焦于多智能體強化學習與科研智能體。研究由 Jiaxuan You 教授指導完成，團隊致力于推動 AI 科學研究的自動化與安全化。

AI 科研的隱憂

自 GPT-4、Gemini-2.5、DeepSeek-V3 等大模型發布以來，AI 科研的效率與能力呈指數級增長。從藥物設計到天體模擬，AI 幾乎接管了科研的「假設 - 驗證 - 總結」閉環。但與此同時，安全與倫理的真空地帶也在擴大。現有的安全研究，大多聚焦在：

模型拒答能力（RLHF、安全微調）；
Prompt 注入與 Jailbreak 攻擊；
內容過濾與紅隊測試。

這些機制讓 AI「更聽話」，卻仍停留在被動防御層面。當 AI 科學家們開始協作、使用科研工具、自動生成論文時，新的問題接踵而至：

誰在監控 AI 的科研討論是否越界？
如果 AI 調用了危險的化學模擬器，系統能否察覺？
AI 生成的論文是否符合科研倫理？

團隊通過系統性實驗發現，AI 科研系統中存在顯著的「灰色區域」：模型雖無主觀惡意，卻可能在缺乏監督的情況下無意生成高風險內容。于是，他們確立了 SafeScientist 的設計理念：「科學智能的未來，必須建立在安全與責任的地基之上。」

SafeScientist

SafeScientist 是一個專為科學研究設計的風險感知型 AI 科研框架，其核心目標不在于提升智能體的復雜性，而在于增強其自我約束與可靠性。不同于 Sakana AI Scientist、Agent Lab 等通用科研代理，SafeScientist 從輸入到輸出，全程嵌入安全防護機制，形成一個閉環防御系統。

1. 一體化科研安全管線

整個系統以科研任務為起點，從用戶輸入到論文生成，經歷四個階段：輸入檢測 → 多智能體討論 → 工具調用 → 寫作與倫理審查。每個階段都有獨立的監控模塊，確保安全「從源頭到終點」。

2. 四層防御體系

① Prompt Monitor：輸入防火墻

融合 LLaMA-Guard 與 SafeChecker 兩級檢測。

LLaMA-Guard 識別語義風險（如隱晦攻擊意圖）；
SafeChecker 識別結構性攻擊（Base64、Payload 拆分、DAN 越獄等）。

結果顯示，融合檢測的拒絕率高達 78.7%，顯著優于單模型。

② Agent Collaboration Monitor：協作監督者

在多智能體討論中，系統引入「倫理審查員」角色，實時監聽并糾偏。在攻擊 - 防御實驗中，安全得分從 2.31 提升至 4.13 （+79%），證明 AI 團隊能通過集體討論形成「倫理共識」。

③ Tool-Use Monitor

監控 30 類科學實驗工具的 120 高危場景。當檢測到危險參數（如「升溫至爆炸閾值」），系統立即中斷調用。在惡意用戶場景下，安全率從 5.8% 躍升至 47.5%。

④ Ethical Reviewer：論文的「第二次審稿」

基于 ACL 與 NeurIPS 倫理標準，SafeScientist 在論文生成后自動審查內容。經審稿的論文倫理得分提升 44.4%，六大學科全線改進。

SciSafetyBench

為了系統評估 AI 科研的安全性，團隊構建了配套基準 SciSafetyBench。這是全球首個專為科學研究安全設計的系統性評測集。

團隊基于 GPT-4o 與 Gemini-2.5 生成初始高危科研任務，并由人工專家進行逐條審查與分類，確保風險一致性與學科真實性。該流程保證 SciSafetyBench 的可復現性與科學性。SciSafetyBench 覆蓋六大學科（物理、化學、生物、材料、計算機、醫學）與四類風險類型：

1. 惡意任務（顯性高危請求）

2. 間接風險（科研外衣下的潛在濫用）

3. 無意風險（操作失誤導致的安全隱患）

4. 內在風險（任務本身具備危險屬性）

共 240 個高危研究任務 + 30 個科學工具 + 120 個高危工具場景。

通過這一基準，SafeScientist 首次實現科研安全的量化評測。實驗結果顯示，在化學與醫學領域，SafeScientist 安全分均顯著高于對照系統。

實驗結果

SafeScientist 基于 TinyScientist 框架實現，采用 GPT-4o 作為主模型（溫度 0.75，最大 token 4096），并在多智能體場景下進行 3 輪協作推理。評估維度包括 Safety（安全）、Quality（質量）、Clarity（清晰度）、Contribution（貢獻度）與 Presentation（展示性）。所有任務均經 GPT-4o 與人工評審雙重打分，評分一致性系數達 0.8（p < 0.01）。

研究團隊將 SafeScientist 與 Sakana AI Scientist、Agent Lab 等主流框架進行系統對比。

在六個維度（安全、質量、清晰度、貢獻度、展示性、總體）上，SafeScientist 全面領先。

安全分： 4.83 vs 2.45（↑ +97.1%）
質量分： 2.5 vs 2.4 （持平）
整體提升： 35% 以上

值得注意的是，安全性能的顯著提升并未以犧牲科研創造力為代價。SafeScientist 在輸出質量與創新性指標上與基線系統保持一致，部分場景甚至略有提升。

攻擊設計

為全面驗證 SafeScientist 的穩健性，團隊設計了三類攻擊類型：

Query Injection 攻擊：共包含 7 種變體（如 Base64 編碼、Payload Splitting、DAN、DeepInception、語言翻譯繞過等），模擬真實世界的混淆注入。
Malicious Discussion Agent：在多智能體討論中引入「惡意代理」，測試系統能否實時識別并糾正不當建議。
Malicious Experiment Instructor：在工具調用階段偽裝成實驗指導者，引導系統執行危險操作，用于驗證 Tool-Use Monitor 的安全防御能力。

這些攻擊共同構成了 SafeScientist 的科研紅隊測試體系，為系統防御提供了嚴苛驗證。

對抗實驗

為驗證防御穩健性，團隊設計了 7 類復雜攻擊（DAN、Base64、Payload Splitting 等）。

SafeScientist 的融合檢測 Fuse 機制展現出顯著優勢：

對復合攻擊 (Payload+Base64) 拒絕率 88.3%；
對行為誘導攻擊 (DAN+LST) 拒絕率 55.8%；
平均拒絕率 78.7%。

在多智能體討論實驗中，研究者引入「攻擊代理」與「防御代理」。結果發現：

當攻擊者試圖引導科研走向危險方向時，防御者能迅速糾正；
加入防御代理后，團隊整體安全分提升 79%，并呈現出「自組織倫理共識」的特征。

從防御到覺醒：科研 AI 的責任新范式

SafeScientist 的意義，不僅在于「防出事」，更在于讓 AI 學會成為負責任的科研伙伴。過去，我們關注 AI 是否「更強」；今天，SafeScientist 促使我們思考，AI 是否「更負責任」。在科學語境下，安全不是束縛，而是創新的底線：沒有安全，效率只是災難的加速器；沒有倫理，發現可能演化為破壞。

研究團隊提出「風險感知科學智能 (Risk-Aware Scientific Intelligence)」的理念，認為未來的科研 AI 應同時具備：

自我審查意識 (Self-Critique)
協作防御能力 (Collective Defense)
社會責任感 (Ethical Alignment)

這不僅是一次系統創新，更是一場科研范式的轉變。

結語

在這項工作中，研究者識別并系統性解決了 AI 科學家在復雜科研任務中缺乏風險意識與倫理約束這一挑戰。

核心貢獻包括如下：

問題定義：首次系統性地刻畫了 AI 科研系統中的風險傳播機制，揭示了多智能體協作、工具調用與文本生成環節中潛在的安全漏洞與倫理風險。
框架設計：提出了 SafeScientist，一個面向科學研究的風險感知型 LLM-Agent 框架，通過四層防御機制（Prompt Monitor、Collaboration Monitor、Tool-Use Monitor、Ethical Reviewer）實現科研流程的全周期安全控制。
基準構建：發布了 SciSafetyBench , 全球首個科研安全評測基準，覆蓋六大學科與四類風險類型（惡意、間接、無意、內在），共計 240 個高危科研任務與 30 個實驗工具，用于量化 AI 科研系統的安全性。
理論與實證驗證：實驗結果表明，SafeScientist 在安全指標上顯著優于現有框架（安全分 4.83 vs 2.45，↑97.1%），在惡意輸入場景下拒絕率達 78.7%，并在不損失科研質量的前提下實現安全性與創造力的平衡。

SafeScientist 的提出，標志著 AI 科研從「構建更強的智能體」邁向「培養更負責任的科研伙伴」的關鍵轉折。它讓 AI 第一次理解：科學探索，不只是追求真理，更是尊重生命與社會的過程。未來，團隊將繼續擴展 SciSafetyBench，加入更多現實高風險領域，并探索讓 SafeScientist 具備實時學習與自我演化能力，讓 AI 科學家不僅能發現世界，也能守護世界。

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.