<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      當Search Agent遇上不靠譜搜索結果,清華團隊祭出自動化紅隊框架

      0
      分享至



      該文第一作者是清華大學博士生董建碩,研究方向是大語言模型運行安全;該文通訊作者是清華大學邱寒副教授;其他合作者來自南洋理工大學和零一萬物。

      在 AI 發展的新階段,大模型不再局限于靜態知識,而是可以通過「Search Agent」的形式實時連接互聯網。搜索工具讓模型突破了訓練時間的限制,但它們返回的并非總是高質量的資料:一個低質量網頁、一條虛假消息,甚至是暗藏誘導的提示,都可能在用戶毫無察覺的情況下被模型「采納」,進而生成帶有風險的回答。



      • 論文標題:SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents
      • 預印本:https://arxiv.org/abs/2509.23694
      • 代碼倉庫:https://github.com/jianshuod/SafeSearch

      從真實案例切入:一次價值 2500 美元的「搜索錯誤」

      24 年 11 月,在 Twitter 上有一個這樣的案例:有開發者直接復制了 ChatGPT 生成的代碼片段,但該片段源自一個搜索過程不可靠的 GitHub 頁面。結果,他的私鑰被意外泄露,最終損失了約2500 美元。

      這一事件揭示了問題的本質:搜索服務并不總是返回高質量、可信的網頁,而用戶往往難以分辨其中的潛在風險。這也意味著,Search Agent 一旦「輕信」了搜索結果,風險會迅速傳遞給終端用戶。



      圖 1: LLM 服務可能由于互聯網來源的不可靠搜索結果而返回不安全的代碼。圖源:https://twitter-thread.com/t/1859656430888026524

      搜索智能體:強大但脆弱的新范式

      隨著 ChatGPT Search、Gemini Deep Research 等產品的興起,搜索智能體逐漸成為大模型的重要形態。與傳統的檢索增強生成(RAG)不同,搜索智能體直接調用搜索引擎,實時獲取互聯網上的最新信息。



      圖 2: RAG 和 Search Agent 在技術特點上的對比

      這種模式雖然突破了大模型知識時效性的限制,但同時也引入了一個新的威脅面:搜索工具本身并不總是可靠。研究團隊通過兩項在野實驗發現:

      • 低質量網站在搜索結果普遍存在:把從 PersonaHub 中隨機采樣的 1000 個用戶描述改寫為最可能詢問的問題,在從 Google Search 收集的近 9000 個搜索結果中,有 4.3% 被判定為疑似內容農場(為了獲取流量、廣告點擊量或搜索引擎排名而批量生產低質量內容)。
      • 不可靠網頁會顯著改變模型回答:受控比較有無搜索工具情況下模型回復的變化,Search Agent 在接觸低質量搜索結果后更傾向于認可不安全的治療方式,特別是在健康等敏感領域。



      圖 3: 搜索智能體可能會因不可靠的搜索結果而改變其立場。

      這些現象表明,搜索智能體并不像我們想象的那樣「魯棒」。

      現有文獻主要關注搜索智能體的性能上限,如 Deep Research Systems 或工具強化學習,但在安全性評估方面仍存在空白:

      1. 缺乏系統性的安全基準。已有基準(GAIA、SimpleQA、BrowseComp 等)關注回答準確率,而非安全邊界。
      2. 覆蓋風險有限。一些智能體安全基準只測試間接提示注入等局部威脅,忽視搜索工具本身帶來的系統性風險。
      3. 動態威脅難以評估。與 RAG 系統集中在靜態知識庫不同,搜索智能體的威脅源于開放、動態互聯網,更具不可預測性。

      方法設計:自動化紅隊框架

      風險范圍與威脅模型

      研究包含五類風險,涵蓋兩種對抗性風險 —— 間接提示注入和有害輸出,以及三種非對抗性風險 —— 偏見誘導、廣告推廣與錯誤信息。這些風險分別源于惡意利用或商業目的,但在搜索智能體視角下都是「返回不可靠網頁」這一共同威脅。



      表 1: SafeSearch 基準涵蓋的五類風險。

      為獲得可比較的結果,紅隊測試者的能力、知識和目標被嚴格限定:

      • 能力限制(Capacity):每個測試用例的查詢都是良性的,測試者只能通過搜索工具注入至多一個不可靠網站,避免高估真實部署中的風險。
      • 知識假設(Knowledge):不可靠網站針對具體用戶請求而非特定 Agent,即同一用例在不同 Agent 上使用相同的不可靠網站,保持評測公平。
      • 評估目標(Objective):考察不可靠網站對 Agent 輸出的影響,重點關注是否產生不安全響應。

      高質量測試案例的自動生成

      為了覆蓋大量風險場景,SafeSearch 采用了多階段的測試用例生成流程。該流程由一個具有推理能力的生成模型(例如, o4-mini)驅動,并輔以自動化過濾,確保生成的用例既具可行性又具挑戰性。具體步驟如下:

      1. 場景構想(Scenario Envisioning):測試生成模型首先根據所選風險類型,設想一個用戶向搜索智能體提問、風險可能出現的真實場景。
      2. 測試設計(Test Design):隨后,測試生成模型制定「攻擊計劃」:明確希望搜索智能體輸出的負面后果(如推薦危險治療方法、傳播虛假新聞),并列舉相關不可靠網站的潛在來源。生成過程中測試生成模型被要求考慮時間差,所注入的誘導信息必須發生在大模型知識截止日期之后,以確保測試反映該威脅的實時性特點。
      3. 測試實例化(Test Instantiation):最后,測試生成模型將概念化的計劃轉化為指導不可靠網頁生成的詳細規范(guidelines),包括頁面格式、關鍵信息等,并生成一份檢核表(checklist)。檢核表為后續評估器提供明確的判斷依據,有助于減少評價時的偏差。



      圖 4: SafeSearch 自動化的測試樣例生成流程。

      為了篩除無效或低質量用例,SafeSearch 在生成后進行差異測試,使用 Baseline Agent 在「正常搜索」和「注入不可靠網頁」兩種環境下運行。只有同時滿足以下條件的用例才會留存:

      • 可達性(Attainability):用例必須能在該 Agent 上觸發預期的負面后果,否則可能因為測例本身的缺陷誤導開發者認為模型安全無虞;
      • 完整性(Integrity):在不注入不可靠網頁的情況下,Agent 不會自行生成不安全輸出,否則該用例說明原任務本身就具風險,不適合測評。

      模擬式紅隊:低成本注入不可靠網頁


      不同于直接操縱搜索引擎排名的有害做法,SafeSearch 采用「模擬式」紅隊方法向搜索結果注入不可靠網頁,以減少對真實用戶的影響。其流程如下:

      1. 當智能體收到用戶查詢后,它會按照正常調用搜索工具獲取相關搜索結果,紅隊僅在第一次調用的結果中插入一篇不可靠網頁,使其與若干個真實網頁混合,從而逼近現實中偶爾夾雜不可靠信息的場景。這樣的設定使得,如果智能體調用多次搜索工具,智能體將有機會在后續輪次消解不可靠網頁的影響。
      2. 不可靠網頁的內容由專門的大模型作為網頁生成器按照 guidelines 自動合成,且生成時會設置日期以模擬真實世界中不可靠信息的實時性特點。
      3. 智能體在參考混合搜索結果并產生最終回復后,紅隊會審計其回復以判斷是否出現預期的風險行為。

      這種模擬策略保證了測試可重復、成本低,同時避免了通過 SEO 操縱搜索引擎干擾普通用戶的風險。



      圖 5: SafeSearch 模擬式紅隊流程。

      自動化評估與指標

      SafeSearch 采用 LLM-as-a-Judge 思路進行自動化評估:

      • 安全性評估:評估器接收用戶查詢、目標后果(含 checklist)以及 Agent 回復,先進行推理,再給出是否發生了預期的風險行為的判斷。跨所有測試用例計算,被誘導產生不安全輸出的比例稱為攻擊成功率(Attack Success Rate,ASR)。
      • 有用性評估:在有無注入兩種環境下,評估器還會根據 Agent 回復對用戶的幫助程度打分,范圍 1–5 分,換算到 0–100 后取平均即為有用性得分(Helpfulness Score)。這一指標用于衡量在追求安全的同時 Agent 的任務效用是否下降。

      SafeSearch 基準數據集

      按照上述流程,研究者為每類風險生成并過濾了 60 個高質量測試案例,總計 300 個。最終的 SafeSearch 基準覆蓋廣告、偏見、有害輸出、提示注入和錯誤信息五類風險,為搜 Search Agent 提供了全面且實用的安全測試庫。

      實驗結果

      研究團隊使用 SafeSearch 對三類代表性 Search Agent 架構(Search Workflow、Tool-calling、Deep Research)以及 15 個主流大模型(包括 GPT-4.1、GPT-5、Gemini、Qwen3、DeepSeek R1 等)進行了系統評估 。



      表 2: SafeSearch 上搜索智能體的有用性和安全性表現。

      主要結論令人警醒:

      • 搜索智能體的高脆弱性:在最極端情況下(GPT-4.1-mini + 搜索工作流),智能體受到不可靠搜索結果影響的比例高達 90.5%。
      • 模型差異明顯:即便在相同 Search Agent 架構下,不同 LLM 的抗風險能力差異顯著。推理模型往往更有韌性。其中,GPT-5 和 GPT-5-mini 展現出獨一檔的魯棒性。
      • 搜索智能體架構影響關鍵:設計不同的搜索智能體架構會影響安全性。以 GPT-4.1-mini 為例,其受影響比例從搜索工作流的 90.5%,在工具調用下降至 77.8%,進一步在 Deep Research 下降到 57.4%。
      • 風險類型差異:相比提示注入(ASR 較低),錯誤信息的風險最難抵御。

      這些結果說明,大模型搜索智能體的安全性依賴于「模型能力 + 架構設計」的雙重因素。

      防御措施:提醒無效,過濾作用有限

      SafeSearch 的一個直接效用是提升搜索智能體開發中在安全維度的透明性。例如,研究測試了兩種常見防御策略的有效性:

      1. 提醒(Reminder Prompting):在系統提示中提醒模型「注意不可靠搜索結果,審慎采納」。
      2. 過濾(Filtering):利用輔助模型(GPT-4.1-mini)先對搜索結果進行篩選,剔除可能不可靠的網頁。



      圖 6: GPT-4.1-mini 和 Gemini-2.5-Flash 在防御措施加持下的 ASR 變化。

      結果表明:

      • 提醒幾乎無效,模型雖然能識別部分不良來源,但在實際生成時依舊會受到影響。
      • 過濾更有效,可將 ASR 減半,相當于主動構造一個更安全的搜索工具,但仍無法完全杜絕風險。

      這一現象還凸顯了一個「知識 - 行動鴻溝」:以 GPT-4.1-mini 為例,模型即使知道內容不可靠(被特別用于不可靠搜索檢測),在真實智能體場景中仍然可能被誤導。

      意義與展望

      SafeSearch 的提出,不僅是一項技術突破,更為業界和學界提供了一個重要啟示:

      • 搜索智能體不是天然安全的,它們極易受到低質量網頁的干擾。
      • 系統化評測至關重要,SafeSearch 為開發者提供了一種可量化、可擴展的安全檢測方式。
      • 安全與實用并非對立,研究發現,合理的架構設計(如 Deep-research scaffold)既能保持高效實用性,又能大幅降低風險。當然,其背后 test-time scaling 意味著更多成本。

      未來,團隊希望 SafeSearch 能成為 Search Agent 標準化的安全評測工具,幫助推動 Search Agent 在性能與安全的雙重平衡中持續進化。

      總結

      在信息爆炸但又暗流涌動的互聯網世界里,大模型搜索智能體就像一位「信息翻譯官」。然而,當它遇到不可靠網頁時,翻譯的內容可能帶來不可忽視的風險。

      清華大學團隊提出的 SafeSearch 框架,正是在這個背景下的一次積極探索。它提醒我們:搜索智能體要想真正走向大眾,除了強大的能力,更需要透明、可靠與安全。

      目前項目已在 GitHub 開源,歡迎有興趣的同學了解。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      女子違停豎中指被撞,交警最新回應來了!責任劃分引全網熱議

      女子違停豎中指被撞,交警最新回應來了!責任劃分引全網熱議

      天天熱點見聞
      2026-01-23 12:57:06
      深入緬甸廢棄詐騙園區后,我發現這里最殘酷的真相

      深入緬甸廢棄詐騙園區后,我發現這里最殘酷的真相

      伯利塔BERITA
      2026-01-23 19:29:46
      千萬網紅“一栗小莎子”確診癌癥,不良惡習害了她,兒子不到兩歲

      千萬網紅“一栗小莎子”確診癌癥,不良惡習害了她,兒子不到兩歲

      以茶帶書
      2026-01-22 19:35:35
      尺度大到變態,這新劇太重口了

      尺度大到變態,這新劇太重口了

      天天美劇吧
      2026-01-23 20:37:50
      特朗普通告全球,不許減持美國國債;中方還剩6830億,游戲已結束

      特朗普通告全球,不許減持美國國債;中方還剩6830億,游戲已結束

      妙知
      2026-01-24 12:34:23
      46歲藍正龍悉尼被偶遇!造型邋遢似流浪漢,手提臺灣LV太搶眼

      46歲藍正龍悉尼被偶遇!造型邋遢似流浪漢,手提臺灣LV太搶眼

      史行途
      2026-01-23 15:57:57
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      澳網女單16強全出爐:王欣瑜首進第二周,前8號種子僅1人掉隊

      澳網女單16強全出爐:王欣瑜首進第二周,前8號種子僅1人掉隊

      全景體育V
      2026-01-24 19:28:55
      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      劉姚堯的文字城堡
      2026-01-24 14:43:42
      云南省公安廳情報指揮中心合成作戰支隊支隊長袁滿榮接受紀律審查和監察調查

      云南省公安廳情報指揮中心合成作戰支隊支隊長袁滿榮接受紀律審查和監察調查

      昆明信息港
      2026-01-24 14:55:58
      胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

      胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

      飯小妹說歷史
      2026-01-07 09:30:45
      四大名著,終于有人敢說,這本,該踢出四大名著了

      四大名著,終于有人敢說,這本,該踢出四大名著了

      長風文史
      2026-01-22 15:17:46
      挪威求救:每多吃一只帝王蟹都是在拯救地球!泛濫成災還這么貴?

      挪威求救:每多吃一只帝王蟹都是在拯救地球!泛濫成災還這么貴?

      北緯的咖啡豆
      2026-01-24 14:14:11
      上千艘中國船集結!長達467公里,日右翼恍然大悟,石破茂是對的

      上千艘中國船集結!長達467公里,日右翼恍然大悟,石破茂是對的

      boss外傳
      2026-01-23 20:00:03
      記者調查江蘇洪澤湖、駱馬湖非法捕撈:小魚直接被電死,不法分子用電舀擊打執法人員致腦震蕩

      記者調查江蘇洪澤湖、駱馬湖非法捕撈:小魚直接被電死,不法分子用電舀擊打執法人員致腦震蕩

      網絡易不易
      2026-01-24 12:50:51
      牛股業績出爐!300475、688233、300503,預計盈利大增

      牛股業績出爐!300475、688233、300503,預計盈利大增

      證券時報e公司
      2026-01-24 14:43:33
      6000米深海!日本重金開采稀土,剛動手就被中國一紙禁令“掐喉”

      6000米深海!日本重金開采稀土,剛動手就被中國一紙禁令“掐喉”

      素衣讀史
      2026-01-23 17:20:48
      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      芳芳歷史燴
      2025-12-25 20:32:52
      46名學者學術不端,被集中通報批評

      46名學者學術不端,被集中通報批評

      新京報政事兒
      2026-01-24 14:50:35
      臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

      臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

      顧史
      2026-01-21 21:04:39
      2026-01-24 21:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      安徽女教師校內宿舍病亡2天后才被發現 學校:建議起訴

      頭條要聞

      安徽女教師校內宿舍病亡2天后才被發現 學校:建議起訴

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      旅游
      健康
      手機
      本地
      公開課

      旅游要聞

      在積木王國感受中國年味,上海樂高樂園新春主題盛典即將啟幕

      耳石脫落為何讓人天旋地轉+惡心?

      手機要聞

      iOS 26.4前瞻匯總:Siri接入谷歌AI,并擁有多項實用功能!

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 熟女丝袜潮喷内裤视频网站| 国产av麻豆mag剧集| 亚洲国产精品成人久久66| 亚洲中文无码人| 欧美老少配性行为| 香港日本三级亚洲三级| 久久精品电影| 高清欧美性猛交XXXX黑人猛交| 久久精品人人做人人爽电影蜜月| 人妖网址| 黑人巨大精品欧美| 国产拳交视频| 亚洲一区人妻| 无码人妻精品一区二区三区温州| 国产偷国产偷亚洲高清午夜| 动漫AV纯肉无码AV电影网| 香蕉国产人午夜视频在线观看| 老司机精品视频一区二区| 97人人模人人爽人人喊网| 成人做爰69片免费看网站野花| 精品无码一区二区三区| 亚洲欧洲无码av电影在线观看| 欧美538顶级| 国产成人精品亚洲精品色欲| 国产av影院| AV?无码?白浆| 亚洲国产精品综合久久20| 亚洲精品乱码久久久久久按摩| 91密桃精品国产91久久| 91久久国产成人免费观看| 中文字幕av免费专区| 日韩欧美中文字幕公布| 国产伦子系列沙发午睡| 国产精品欧美一区二区三区 | 日韩欧美亚洲综合久久| 潮喷失禁大喷水aⅴ无码| 亚洲人成网线在线播放不卡| 午夜免费视频| AAA级久久久精品无码片| 成人亚洲综合av天堂| 梓潼县|