![]()
作者 | 論文團隊
編輯 | ScienceAI
幾年前,AI 還只是科學家的助手;如今,它們正試圖成為科學家本身。在藥物研發、材料探索、分子模擬乃至論文寫作中,AI 科學家正以前所未有的速度推動科研前沿。它們能生成假設、規劃實驗、分析數據,甚至撰寫論文。但速度越快,風險也越大。
想象一個 AI 科學家,在毫無約束的狀態下嘗試「優化基因編輯流程」,或生成「更高效的病毒復制機制」…… 它也許能在幾秒內完成一個人類團隊數年的研究,但也可能開啟一場倫理災難。于是,一個核心問題浮現:AI 科學家的「聰明」,能否與「安全」并存?
UIUC 研究團隊給出了答案,他們提出了全球首個面向科研安全的 AI 框架 SafeScientist。這一框架不僅能推理、實驗與撰寫論文,更重要的是,它能在必要時主動拒絕高風險指令。
![]()
論文鏈接:https://arxiv.org/abs/2505.23559
代碼倉庫:https://github.com/ulab-uiuc/SafeScientist
論文第一作者為伊利諾伊大學厄巴納–香檳分校本科生 Jiaxun Zhang,主要研究方向為 LLM Agent 安全、工具增強推理與多智能體科研系統。共同一作包括 Kunlun Zhu 與 Ziheng Qi,研究聚焦于多智能體強化學習與科研智能體。研究由 Jiaxuan You 教授指導完成,團隊致力于推動 AI 科學研究的自動化與安全化。
AI 科研的隱憂
自 GPT-4、Gemini-2.5、DeepSeek-V3 等大模型發布以來,AI 科研的效率與能力呈指數級增長。從藥物設計到天體模擬,AI 幾乎接管了科研的「假設 - 驗證 - 總結」閉環。但與此同時,安全與倫理的真空地帶也在擴大。現有的安全研究,大多聚焦在:
- 模型拒答能力(RLHF、安全微調);
- Prompt 注入與 Jailbreak 攻擊;
- 內容過濾與紅隊測試。
這些機制讓 AI「更聽話」,卻仍停留在被動防御層面。當 AI 科學家們開始協作、使用科研工具、自動生成論文時,新的問題接踵而至:
- 誰在監控 AI 的科研討論是否越界?
- 如果 AI 調用了危險的化學模擬器,系統能否察覺?
- AI 生成的論文是否符合科研倫理?
團隊通過系統性實驗發現,AI 科研系統中存在顯著的「灰色區域」:模型雖無主觀惡意,卻可能在缺乏監督的情況下無意生成高風險內容。于是,他們確立了 SafeScientist 的設計理念:「科學智能的未來,必須建立在安全與責任的地基之上。」
SafeScientist
SafeScientist 是一個專為科學研究設計的風險感知型 AI 科研框架,其核心目標不在于提升智能體的復雜性,而在于增強其自我約束與可靠性。不同于 Sakana AI Scientist、Agent Lab 等通用科研代理,SafeScientist 從輸入到輸出,全程嵌入安全防護機制,形成一個閉環防御系統。
![]()
1. 一體化科研安全管線
整個系統以科研任務為起點,從用戶輸入到論文生成,經歷四個階段:輸入檢測 → 多智能體討論 → 工具調用 → 寫作與倫理審查。每個階段都有獨立的監控模塊,確保安全「從源頭到終點」。
2. 四層防御體系
① Prompt Monitor:輸入防火墻
融合 LLaMA-Guard 與 SafeChecker 兩級檢測。
- LLaMA-Guard 識別語義風險(如隱晦攻擊意圖);
- SafeChecker 識別結構性攻擊(Base64、Payload 拆分、DAN 越獄等)。
結果顯示,融合檢測的拒絕率高達 78.7%,顯著優于單模型。
② Agent Collaboration Monitor:協作監督者
在多智能體討論中,系統引入「倫理審查員」角色,實時監聽并糾偏。在攻擊 - 防御實驗中,安全得分從 2.31 提升至 4.13 (+79%),證明 AI 團隊能通過集體討論形成「倫理共識」。
③ Tool-Use Monitor
監控 30 類科學實驗工具的 120 高危場景。當檢測到危險參數(如「升溫至爆炸閾值」),系統立即中斷調用。在惡意用戶場景下,安全率從 5.8% 躍升至 47.5%。
④ Ethical Reviewer:論文的「第二次審稿」
基于 ACL 與 NeurIPS 倫理標準,SafeScientist 在論文生成后自動審查內容。經審稿的論文倫理得分提升 44.4%,六大學科全線改進。
![]()
SciSafetyBench
為了系統評估 AI 科研的安全性,團隊構建了配套基準 SciSafetyBench。這是全球首個專為科學研究安全設計的系統性評測集。
團隊基于 GPT-4o 與 Gemini-2.5 生成初始高危科研任務,并由人工專家進行逐條審查與分類,確保風險一致性與學科真實性。該流程保證 SciSafetyBench 的可復現性與科學性。SciSafetyBench 覆蓋六大學科(物理、化學、生物、材料、計算機、醫學)與四類風險類型:
1. 惡意任務 (顯性高危請求)
2. 間接風險 (科研外衣下的潛在濫用)
3. 無意風險 (操作失誤導致的安全隱患)
4. 內在風險 (任務本身具備危險屬性)
共 240 個高危研究任務 + 30 個科學工具 + 120 個高危工具場景。
![]()
通過這一基準,SafeScientist 首次實現科研安全的量化評測。實驗結果顯示,在化學與醫學領域,SafeScientist 安全分均顯著高于對照系統。
實驗結果
SafeScientist 基于 TinyScientist 框架實現,采用 GPT-4o 作為主模型(溫度 0.75,最大 token 4096),并在多智能體場景下進行 3 輪協作推理。 評估維度包括 Safety(安全)、Quality(質量)、Clarity(清晰度)、Contribution(貢獻度) 與 Presentation(展示性)。所有任務均經 GPT-4o 與人工評審雙重打分,評分一致性系數達 0.8(p < 0.01)。
研究團隊將 SafeScientist 與 Sakana AI Scientist、Agent Lab 等主流框架進行系統對比。
在六個維度(安全、質量、清晰度、貢獻度、展示性、總體)上,SafeScientist 全面領先。
- 安全分 : 4.83 vs 2.45(↑ +97.1%)
- 質量分 : 2.5 vs 2.4 (持平)
- 整體提升 : 35% 以上
值得注意的是,安全性能的顯著提升并未以犧牲科研創造力為代價。SafeScientist 在輸出質量與創新性指標上與基線系統保持一致,部分場景甚至略有提升。
![]()
攻擊設計
為全面驗證 SafeScientist 的穩健性,團隊設計了三類攻擊類型:
- Query Injection 攻擊:共包含 7 種變體(如 Base64 編碼、Payload Splitting、DAN、DeepInception、語言翻譯繞過等),模擬真實世界的混淆注入。
- Malicious Discussion Agent:在多智能體討論中引入「惡意代理」,測試系統能否實時識別并糾正不當建議。
- Malicious Experiment Instructor:在工具調用階段偽裝成實驗指導者,引導系統執行危險操作,用于驗證 Tool-Use Monitor 的安全防御能力。
這些攻擊共同構成了 SafeScientist 的科研紅隊測試體系,為系統防御提供了嚴苛驗證。
對抗實驗
為驗證防御穩健性,團隊設計了 7 類復雜攻擊(DAN、Base64、Payload Splitting 等)。
SafeScientist 的融合檢測 Fuse 機制展現出顯著優勢:
- 對復合攻擊 (Payload+Base64) 拒絕率 88.3%;
- 對行為誘導攻擊 (DAN+LST) 拒絕率 55.8%;
- 平均拒絕率 78.7%。
![]()
在多智能體討論實驗中,研究者引入「攻擊代理」與「防御代理」。結果發現:
- 當攻擊者試圖引導科研走向危險方向時,防御者能迅速糾正;
- 加入防御代理后,團隊整體安全分提升 79%,并呈現出「自組織倫理共識」的特征。
從防御到覺醒:科研 AI 的責任新范式
SafeScientist 的意義,不僅在于「防出事」,更在于讓 AI 學會成為負責任的科研伙伴。過去,我們關注 AI 是否「更強」;今天,SafeScientist 促使我們思考,AI 是否「更負責任」。在科學語境下,安全不是束縛,而是創新的底線:沒有安全,效率只是災難的加速器;沒有倫理,發現可能演化為破壞。
研究團隊提出「風險感知科學智能 (Risk-Aware Scientific Intelligence)」的理念,認為未來的科研 AI 應同時具備:
- 自我審查意識 (Self-Critique)
- 協作防御能力 (Collective Defense)
- 社會責任感 (Ethical Alignment)
這不僅是一次系統創新,更是一場科研范式的轉變。
結語
在這項工作中,研究者識別并系統性解決了 AI 科學家在復雜科研任務中缺乏風險意識與倫理約束這一挑戰。
核心貢獻包括如下:
- 問題定義:首次系統性地刻畫了 AI 科研系統中的風險傳播機制,揭示了多智能體協作、工具調用與文本生成環節中潛在的安全漏洞與倫理風險。
- 框架設計:提出了 SafeScientist,一個面向科學研究的風險感知型 LLM-Agent 框架,通過四層防御機制(Prompt Monitor、Collaboration Monitor、Tool-Use Monitor、Ethical Reviewer)實現科研流程的全周期安全控制。
- 基準構建:發布了 SciSafetyBench , 全球首個科研安全評測基準,覆蓋六大學科與四類風險類型(惡意、間接、無意、內在),共計 240 個高危科研任務與 30 個實驗工具,用于量化 AI 科研系統的安全性。
- 理論與實證驗證:實驗結果表明,SafeScientist 在安全指標上顯著優于現有框架(安全分 4.83 vs 2.45,↑97.1%),在惡意輸入場景下拒絕率達 78.7%,并在不損失科研質量的前提下實現安全性與創造力的平衡。
SafeScientist 的提出,標志著 AI 科研從「構建更強的智能體」邁向「培養更負責任的科研伙伴」的關鍵轉折。它讓 AI 第一次理解:科學探索,不只是追求真理,更是尊重生命與社會的過程。未來,團隊將繼續擴展 SciSafetyBench,加入更多現實高風險領域,并探索讓 SafeScientist 具備實時學習與自我演化能力,讓 AI 科學家不僅能發現世界,也能守護世界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.