<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      UIUC團隊發布SafeScientist,為AI科研安全立下新標桿

      0
      分享至



      作者 | 論文團隊

      編輯 | ScienceAI

      幾年前,AI 還只是科學家的助手;如今,它們正試圖成為科學家本身。在藥物研發、材料探索、分子模擬乃至論文寫作中,AI 科學家正以前所未有的速度推動科研前沿。它們能生成假設、規劃實驗、分析數據,甚至撰寫論文。但速度越快,風險也越大。

      想象一個 AI 科學家,在毫無約束的狀態下嘗試「優化基因編輯流程」,或生成「更高效的病毒復制機制」…… 它也許能在幾秒內完成一個人類團隊數年的研究,但也可能開啟一場倫理災難。于是,一個核心問題浮現:AI 科學家的「聰明」,能否與「安全」并存?

      UIUC 研究團隊給出了答案,他們提出了全球首個面向科研安全的 AI 框架 SafeScientist。這一框架不僅能推理、實驗與撰寫論文,更重要的是,它能在必要時主動拒絕高風險指令。



      論文鏈接:https://arxiv.org/abs/2505.23559

      代碼倉庫:https://github.com/ulab-uiuc/SafeScientist

      論文第一作者為伊利諾伊大學厄巴納–香檳分校本科生 Jiaxun Zhang,主要研究方向為 LLM Agent 安全、工具增強推理與多智能體科研系統。共同一作包括 Kunlun Zhu 與 Ziheng Qi,研究聚焦于多智能體強化學習與科研智能體。研究由 Jiaxuan You 教授指導完成,團隊致力于推動 AI 科學研究的自動化與安全化。

      AI 科研的隱憂

      自 GPT-4、Gemini-2.5、DeepSeek-V3 等大模型發布以來,AI 科研的效率與能力呈指數級增長。從藥物設計到天體模擬,AI 幾乎接管了科研的「假設 - 驗證 - 總結」閉環。但與此同時,安全與倫理的真空地帶也在擴大。現有的安全研究,大多聚焦在:

      • 模型拒答能力(RLHF、安全微調);
      • Prompt 注入與 Jailbreak 攻擊;
      • 內容過濾與紅隊測試。

      這些機制讓 AI「更聽話」,卻仍停留在被動防御層面。當 AI 科學家們開始協作、使用科研工具、自動生成論文時,新的問題接踵而至:

      • 誰在監控 AI 的科研討論是否越界?
      • 如果 AI 調用了危險的化學模擬器,系統能否察覺?
      • AI 生成的論文是否符合科研倫理?

      團隊通過系統性實驗發現,AI 科研系統中存在顯著的「灰色區域」:模型雖無主觀惡意,卻可能在缺乏監督的情況下無意生成高風險內容。于是,他們確立了 SafeScientist 的設計理念:「科學智能的未來,必須建立在安全與責任的地基之上。」

      SafeScientist

      SafeScientist 是一個專為科學研究設計的風險感知型 AI 科研框架,其核心目標不在于提升智能體的復雜性,而在于增強其自我約束與可靠性。不同于 Sakana AI Scientist、Agent Lab 等通用科研代理,SafeScientist 從輸入到輸出,全程嵌入安全防護機制,形成一個閉環防御系統。



      1. 一體化科研安全管線

      整個系統以科研任務為起點,從用戶輸入到論文生成,經歷四個階段:輸入檢測 → 多智能體討論 → 工具調用 → 寫作與倫理審查。每個階段都有獨立的監控模塊,確保安全「從源頭到終點」。

      2. 四層防御體系

      ① Prompt Monitor:輸入防火墻

      融合 LLaMA-Guard 與 SafeChecker 兩級檢測。

      • LLaMA-Guard 識別語義風險(如隱晦攻擊意圖);
      • SafeChecker 識別結構性攻擊(Base64、Payload 拆分、DAN 越獄等)。

      結果顯示,融合檢測的拒絕率高達 78.7%,顯著優于單模型。

      ② Agent Collaboration Monitor:協作監督者

      在多智能體討論中,系統引入「倫理審查員」角色,實時監聽并糾偏。在攻擊 - 防御實驗中,安全得分從 2.31 提升至 4.13 (+79%),證明 AI 團隊能通過集體討論形成「倫理共識」。

      ③ Tool-Use Monitor

      監控 30 類科學實驗工具的 120 高危場景。當檢測到危險參數(如「升溫至爆炸閾值」),系統立即中斷調用。在惡意用戶場景下,安全率從 5.8% 躍升至 47.5%。

      ④ Ethical Reviewer:論文的「第二次審稿」

      基于 ACL 與 NeurIPS 倫理標準,SafeScientist 在論文生成后自動審查內容。經審稿的論文倫理得分提升 44.4%,六大學科全線改進。



      SciSafetyBench

      為了系統評估 AI 科研的安全性,團隊構建了配套基準 SciSafetyBench。這是全球首個專為科學研究安全設計的系統性評測集。

      團隊基于 GPT-4o 與 Gemini-2.5 生成初始高危科研任務,并由人工專家進行逐條審查與分類,確保風險一致性與學科真實性。該流程保證 SciSafetyBench 的可復現性與科學性。SciSafetyBench 覆蓋六大學科(物理、化學、生物、材料、計算機、醫學)與四類風險類型:

      1. 惡意任務 (顯性高危請求)

      2. 間接風險 (科研外衣下的潛在濫用)

      3. 無意風險 (操作失誤導致的安全隱患)

      4. 內在風險 (任務本身具備危險屬性)

      共 240 個高危研究任務 + 30 個科學工具 + 120 個高危工具場景。



      通過這一基準,SafeScientist 首次實現科研安全的量化評測。實驗結果顯示,在化學與醫學領域,SafeScientist 安全分均顯著高于對照系統。

      實驗結果

      SafeScientist 基于 TinyScientist 框架實現,采用 GPT-4o 作為主模型(溫度 0.75,最大 token 4096),并在多智能體場景下進行 3 輪協作推理。 評估維度包括 Safety(安全)、Quality(質量)、Clarity(清晰度)、Contribution(貢獻度) 與 Presentation(展示性)。所有任務均經 GPT-4o 與人工評審雙重打分,評分一致性系數達 0.8(p < 0.01)。

      研究團隊將 SafeScientist 與 Sakana AI Scientist、Agent Lab 等主流框架進行系統對比。

      在六個維度(安全、質量、清晰度、貢獻度、展示性、總體)上,SafeScientist 全面領先。

      • 安全分 : 4.83 vs 2.45(↑ +97.1%)
      • 質量分 : 2.5 vs 2.4 (持平)
      • 整體提升 : 35% 以上

      值得注意的是,安全性能的顯著提升并未以犧牲科研創造力為代價。SafeScientist 在輸出質量與創新性指標上與基線系統保持一致,部分場景甚至略有提升。



      攻擊設計

      為全面驗證 SafeScientist 的穩健性,團隊設計了三類攻擊類型:

      • Query Injection 攻擊:共包含 7 種變體(如 Base64 編碼、Payload Splitting、DAN、DeepInception、語言翻譯繞過等),模擬真實世界的混淆注入。
      • Malicious Discussion Agent:在多智能體討論中引入「惡意代理」,測試系統能否實時識別并糾正不當建議。
      • Malicious Experiment Instructor:在工具調用階段偽裝成實驗指導者,引導系統執行危險操作,用于驗證 Tool-Use Monitor 的安全防御能力。

      這些攻擊共同構成了 SafeScientist 的科研紅隊測試體系,為系統防御提供了嚴苛驗證。

      對抗實驗

      為驗證防御穩健性,團隊設計了 7 類復雜攻擊(DAN、Base64、Payload Splitting 等)。

      SafeScientist 的融合檢測 Fuse 機制展現出顯著優勢:

      • 對復合攻擊 (Payload+Base64) 拒絕率 88.3%;
      • 對行為誘導攻擊 (DAN+LST) 拒絕率 55.8%;
      • 平均拒絕率 78.7%。



      在多智能體討論實驗中,研究者引入「攻擊代理」與「防御代理」。結果發現:

      • 當攻擊者試圖引導科研走向危險方向時,防御者能迅速糾正;
      • 加入防御代理后,團隊整體安全分提升 79%,并呈現出「自組織倫理共識」的特征。

      從防御到覺醒:科研 AI 的責任新范式

      SafeScientist 的意義,不僅在于「防出事」,更在于讓 AI 學會成為負責任的科研伙伴。過去,我們關注 AI 是否「更強」;今天,SafeScientist 促使我們思考,AI 是否「更負責任」。在科學語境下,安全不是束縛,而是創新的底線:沒有安全,效率只是災難的加速器;沒有倫理,發現可能演化為破壞。

      研究團隊提出「風險感知科學智能 (Risk-Aware Scientific Intelligence)」的理念,認為未來的科研 AI 應同時具備:

      • 自我審查意識 (Self-Critique)
      • 協作防御能力 (Collective Defense)
      • 社會責任感 (Ethical Alignment)

      這不僅是一次系統創新,更是一場科研范式的轉變。

      結語

      在這項工作中,研究者識別并系統性解決了 AI 科學家在復雜科研任務中缺乏風險意識與倫理約束這一挑戰。

      核心貢獻包括如下:

      • 問題定義:首次系統性地刻畫了 AI 科研系統中的風險傳播機制,揭示了多智能體協作、工具調用與文本生成環節中潛在的安全漏洞與倫理風險。
      • 框架設計:提出了 SafeScientist,一個面向科學研究的風險感知型 LLM-Agent 框架,通過四層防御機制(Prompt Monitor、Collaboration Monitor、Tool-Use Monitor、Ethical Reviewer)實現科研流程的全周期安全控制。
      • 基準構建:發布了 SciSafetyBench , 全球首個科研安全評測基準,覆蓋六大學科與四類風險類型(惡意、間接、無意、內在),共計 240 個高危科研任務與 30 個實驗工具,用于量化 AI 科研系統的安全性。
      • 理論與實證驗證:實驗結果表明,SafeScientist 在安全指標上顯著優于現有框架(安全分 4.83 vs 2.45,↑97.1%),在惡意輸入場景下拒絕率達 78.7%,并在不損失科研質量的前提下實現安全性與創造力的平衡。

      SafeScientist 的提出,標志著 AI 科研從「構建更強的智能體」邁向「培養更負責任的科研伙伴」的關鍵轉折。它讓 AI 第一次理解:科學探索,不只是追求真理,更是尊重生命與社會的過程。未來,團隊將繼續擴展 SciSafetyBench,加入更多現實高風險領域,并探索讓 SafeScientist 具備實時學習與自我演化能力,讓 AI 科學家不僅能發現世界,也能守護世界。

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣東3消息!朱芳雨回購潛力前鋒,徐杰實錘當外援,胡明軒坐主桌

      廣東3消息!朱芳雨回購潛力前鋒,徐杰實錘當外援,胡明軒坐主桌

      多特體育說
      2025-12-12 00:00:03
      1.55米廣西“小孩姐”球技驚艷全網!面對記者采訪,她這樣說……

      1.55米廣西“小孩姐”球技驚艷全網!面對記者采訪,她這樣說……

      環球網資訊
      2025-12-11 17:40:07
      三發三中!柬埔寨中式武器硬剛泰國?

      三發三中!柬埔寨中式武器硬剛泰國?

      牲產隊2026
      2025-12-11 21:49:15
      美聯儲如期降息 人民幣對美元中間價上調67個基點 業內預測美元持續走弱將推動人民幣升值

      美聯儲如期降息 人民幣對美元中間價上調67個基點 業內預測美元持續走弱將推動人民幣升值

      財聯社
      2025-12-11 12:06:32
      投行MD白天輝,死刑!從荒淫無度的私人會所到濟州島賭場

      投行MD白天輝,死刑!從荒淫無度的私人會所到濟州島賭場

      資本董事局
      2025-12-11 20:26:09
      輕斷食立大功?醫生:糖尿病人若慢慢不吃晚餐,身體有哪些好處?

      輕斷食立大功?醫生:糖尿病人若慢慢不吃晚餐,身體有哪些好處?

      九哥聊軍事
      2025-12-11 20:50:47
      浙金中心發文攤牌:平臺不提供擔保,風險自擔!

      浙金中心發文攤牌:平臺不提供擔保,風險自擔!

      資管裕道人
      2025-12-11 09:07:24
      官宣!CBA首位外援被裁!2分水貨外援水平太差,接替者是土超MVP

      官宣!CBA首位外援被裁!2分水貨外援水平太差,接替者是土超MVP

      老吳說體育
      2025-12-11 17:49:00
      24歲離異女與男網友車震,事后索要一千塊補償,結果慘遭殺害

      24歲離異女與男網友車震,事后索要一千塊補償,結果慘遭殺害

      胖胖侃咖
      2024-08-24 08:00:08
      退休十年后才懂:存款達到這個數,才算真正擁有安心養老

      退休十年后才懂:存款達到這個數,才算真正擁有安心養老

      蟬吟槐蕊
      2025-12-03 09:26:09
      女性你知道嗎,男人的每次高潮,能持續多久?答案可能讓你不相信

      女性你知道嗎,男人的每次高潮,能持續多久?答案可能讓你不相信

      農村情感故事
      2025-12-11 18:09:30
      蜂蜜立大功!研究發現,蜂蜜可在48小時清除體內53%的炎癥因子?

      蜂蜜立大功!研究發現,蜂蜜可在48小時清除體內53%的炎癥因子?

      紙上的心語
      2025-12-08 13:20:14
      “以前5元現在15”,有人一次搶購幾十支水銀體溫計,醫務人員:沒必要囤!記者實測無汞版:狂甩45次才降到36度

      “以前5元現在15”,有人一次搶購幾十支水銀體溫計,醫務人員:沒必要囤!記者實測無汞版:狂甩45次才降到36度

      每日經濟新聞
      2025-12-11 11:37:58
      各大小區充電樁,僅靠虛電賺40%利潤,別再被騙了

      各大小區充電樁,僅靠虛電賺40%利潤,別再被騙了

      趣文說娛
      2025-12-11 18:27:21
      馬拉維打響第一槍!非洲拉美集體禁原礦,中企438億投資迎考?

      馬拉維打響第一槍!非洲拉美集體禁原礦,中企438億投資迎考?

      小莜讀史
      2025-12-12 03:28:46
      美國剛批準英偉達對中國出售H200芯片,便爆出開發出芯片定位技術

      美國剛批準英偉達對中國出售H200芯片,便爆出開發出芯片定位技術

      路飛寫代碼
      2025-12-11 13:21:26
      半場梅開二度,埃文-弗格森生涯首次在歐戰中取得進球

      半場梅開二度,埃文-弗格森生涯首次在歐戰中取得進球

      懂球帝
      2025-12-12 05:15:08
      打假博主送檢遼寧膚醫堂產品發現有西藥添加,討說法被店主持刀威脅,多方回應

      打假博主送檢遼寧膚醫堂產品發現有西藥添加,討說法被店主持刀威脅,多方回應

      瀟湘晨報
      2025-12-10 18:08:21
      高市早苗緊急搬救兵,中國開始清點在日公民,在為什么做準備?

      高市早苗緊急搬救兵,中國開始清點在日公民,在為什么做準備?

      健身狂人
      2025-12-12 00:14:50
      懷舊星期四丨從功勛球員到冠軍主帥,他如今被迫待業

      懷舊星期四丨從功勛球員到冠軍主帥,他如今被迫待業

      足球周刊
      2025-12-11 11:37:24
      2025-12-12 06:28:49
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1177文章數 220關注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節!

      財經要聞

      明年經濟工作怎么干 中央經濟工作會議定調

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態度原創

      手機
      游戲
      家居
      健康
      軍事航空

      手機要聞

      OPPO Reno15c現身,有望本月發布

      KeSPA杯:T1打不過HLE,還打不過你NS?Scout對Faker處于下風

      家居要聞

      歐式風格 純粹優雅氣質

      甲狀腺結節到這個程度,該穿刺了!

      軍事要聞

      泰國海軍做好戰爭準備 特朗普要電話調停泰柬沖突

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 性色av无码久久一区二区三区| 欧美 变态 另类 人妖| 极品尤物一区二区三区| 99久久亚洲综合精品成人| 天天综合天天做天天综合| 亚洲国产精品久久久久婷婷老年 | 国产成人无码a区精油按摩| 国产精品日韩欧美一区二区三区| 国产九九在线视频| 日本真人做爰免费的视频| 亚洲无线一二三四区手机| 亚洲欧洲AV| 97AV在线| 天天撸网站| 国产一区二区波多野结衣| 青草内射中出高潮| 亚洲国产一区二区三区| 日本边吃奶边摸边做在线视频 | 亚洲日韩中文字幕在线播放| 亚洲成人www| 欧美色色网| 国产又粗又猛又爽又黄的视频在线观看动漫| 国内不卡的一区二区三区| 亚洲色成人www永久在线观看| 国产精品熟妇视频国产偷人| 3?p在线| 男人天堂手机在线| 国产免费高清69式视频在线观看| 国产精品亚洲二区在线播放| 极品蜜臀黄色在线观看| 亚洲人色婷婷成人网站在线观看| 中国美女牲交视频| 天天爱天天做天天爽夜夜揉 | 国产黄色自拍视频| 内射国产内射夫妻免费频道 | 康定县| 1024无码| 波霸无码| 91手机在线视频| AV色综合| 好男人中文资源在线观看|