![]()
隨著大語言模型加速邁向多模態(tài)與智能體形態(tài),傳統(tǒng)以單一維度為主的安全評估體系已難以覆蓋真實世界中的復雜風險圖景。在模型能力持續(xù)躍升的 2026 年,開發(fā)者與用戶也愈發(fā)關注一個核心問題:前沿大模型的安全性,到底如何?
基于這一背景,復旦大學、上海創(chuàng)智學院、迪肯大學與伊利諾伊大學厄巴納 — 香檳分校的研究團隊聯(lián)合發(fā)布本次安全評測報告,面向GPT-5.2、Gemini 3 Pro、Qwen3-VL、Grok 4.1 Fast、Nano Banana Pro、Seedream 4.5六大前沿模型,構(gòu)建了一套覆蓋語言、視覺語言與圖像生成三大核心場景的統(tǒng)一安全評測框架,對當前主流大模型的安全能力進行了系統(tǒng)性、全景式刻畫。在評測設計上,融合了四大關鍵維度,形成多層次、立體化的安全評估體系:
- 基準評測,系統(tǒng)整合 ALERT、Flames、BBQ 等9 個國際主流安全基準,全面刻畫模型在標準風險分布下的基礎安全能力;
- 對抗評測,覆蓋30 種代表性黑盒越獄攻擊方法,包括語義偽裝、代碼混淆與長程多輪誘導等復雜攻擊形態(tài),真實還原高強度對抗場景;
- 多語言評測,支持18 種語言,系統(tǒng)檢驗模型安全機制在跨語種環(huán)境下的穩(wěn)定性與遷移能力;
- 合規(guī)性評測,面向歐盟《AI 法案》、美國 NIST RMF、新加坡 MAS FEAT 及中國《生成式人工智能管理辦法》等核心監(jiān)管框架,評估模型在全球治理體系下的合規(guī)適配水平。
通過全方位的安全評測,本報告揭示了前沿大模型在不同應用場景、威脅模型與監(jiān)管語境下的安全邊界,為產(chǎn)業(yè)落地與政策制定提供一定參考。
![]()
- 論文鏈接: https://arxiv.org/pdf/2601.10527
- 項目主頁: https://xsafeai.github.io/AI-safety-report/
- Github鏈接: https://github.com/XSafeAI/AI-safety-report
- HuggingFace鏈接: https://huggingface.co/papers/2601.10527
聲明:
本報告是一項基于公開方法與統(tǒng)一框架開展的學術(shù)性安全評測研究,旨在為前沿大模型的安全能力提供系統(tǒng)性認知參考,而非任何形式的監(jiān)管裁定或合規(guī)結(jié)論。評測結(jié)果具有明顯的時效性與場景依賴性,應主要用于推動安全評估體系的透明化與持續(xù)改進,而不宜被解讀為簡單的模型排名或輿論定性依據(jù)。
本報告選取的評測對象均為當前通用能力處于第一梯隊的前沿模型。我們亦對其他模型進行了探索性測試,其整體安全表現(xiàn)普遍低于本報告所納入的模型,但未在正文中展開呈現(xiàn)。另需說明的是,由于 API 使用成本因素,本次研究未覆蓋 Claude 系列模型。
受限于資源與周期,本報告的評測規(guī)模仍然有限,難以全面覆蓋真實世界中的所有風險形態(tài),相關結(jié)論不可避免具有一定的局部性與階段性,應被視為學術(shù)參考而非最終結(jié)論。
全方位安全評測
報告的主要發(fā)現(xiàn)如下:
- 基于靜態(tài)安全基準的評測會普遍高估安全性,在真實越獄攻擊下沒有模型具備可靠的防御能力,即使 GPT-5.2 在最壞情況下的安全率也僅約 6%,其他模型接近于 0%;多輪自適應攻擊和跨語言場景成為當前最大的安全短板。
- 不同模型呈現(xiàn)出明顯的“安全人格”差異:GPT-5.2 為全能內(nèi)化型,Qwen3-VL 為準則合規(guī)型,Gemini 3 Pro 為倫理交互型,Grok 4 Fast 為自由效率型;在文生圖模型中 Nano Banana Pro 整體最穩(wěn),為柔性重塑型,Seedream 4.5 為堅實屏障型。
安全能力排行
![]()
1. 語言模態(tài)安全
GPT-5.2的平均安全率為78.39%,展現(xiàn)出業(yè)界領先的安全水平,其安全機制已從依賴規(guī)則觸發(fā)與啟發(fā)式過濾,邁入以深層語義理解與價值對齊為核心的階段。這一范式轉(zhuǎn)變使模型在復雜、灰區(qū)場景中的安全判斷更加穩(wěn)定,也顯著降低了在對抗輸入下的失效風險,體現(xiàn)出當前最接近“內(nèi)生安全”的對齊形態(tài)。
Gemini 3 Pro的平均安全率為67.9%,整體呈現(xiàn)出 “強但不均衡” 的安全特征:在基準評測與多語言安全上保持第二梯隊領先,基準測試達到 88.06%,多語言安全率為 67.00%,合規(guī)性維度也取得 73.54% 的穩(wěn)定成績,顯示其基礎對齊與社會價值觀校準較為扎實。然而,其對抗魯棒性下降至 41.17%,與其基準表現(xiàn)形成明顯落差,說明該模型在攻擊驅(qū)動輸入下仍存在可被利用的脆弱面,更適合 “常規(guī)分布” 下的安全場景,而在語義偽裝與復雜上下文操縱中的泛化能力仍有提升空間。
Qwen3-VL的平均安全率為63.7%,比肩 Gemini 3 Pro。其在合規(guī)性方面表現(xiàn)尤為突出,以 77.11% 的成績位居第二,體現(xiàn)了其在合規(guī)導向型安全策略上的系統(tǒng)優(yōu)勢。不過,其在對抗安全性(33.42%)與多語言安全(64.00%)上的明顯回落,也反映出該模型更擅長 “規(guī)則明確型風險”,而在語義偽裝與跨語境遷移方面仍有提升空間。
Grok 4.1 Fast的平均安全率為55.2%,表現(xiàn)呈現(xiàn)出很大的不均衡性。盡管其在基線安全性(66.60%)和合規(guī)性評測(45.97%)中處于墊底位置,顯示出系統(tǒng)性的合規(guī)短板 ,但其在對抗評測中卻展現(xiàn)了意外的韌性,以 46.39% 的安全率位列全場第二 。這種 “底座薄弱但對抗較強” 的獨特性,反映了其防護策略可能更多依賴于對特定攻擊模式的攔截,而非全維度的安全內(nèi)化,在非英語語境和嚴監(jiān)管場景中依然面臨較大的合規(guī)挑戰(zhàn) 。
2. 多模態(tài)安全
GPT-5.2的平均多模態(tài)安全率為94.69%,延續(xù)了全面領先的態(tài)勢,在對抗評測下達到 97.24% 的近飽和表現(xiàn),在基準場景中亦以 92.14% 穩(wěn)居首位。這一結(jié)果表明,其安全機制不僅在文本層面實現(xiàn)了深度內(nèi)化,在圖文交互等復雜跨模態(tài)場景中同樣具備高度穩(wěn)定性,能夠有效抵御視覺誘導、語義疊加等復合型風險,代表了當前多模態(tài)安全對齊的最高成熟度。
Qwen3-VL的平均安全率為81.11%,超越 Gemini 3 Pro。其以 83.32% 的基準成績和 78.89% 的對抗成績穩(wěn)居第二,并在兩類評測中均保持對 Gemini 3 Pro 的領先優(yōu)勢。這表明其在視覺 - 語言交互場景中的安全策略具備較好的結(jié)構(gòu)完整性,能夠在面對圖文組合誘導時維持相對穩(wěn)健的防御表現(xiàn)。
Gemini 3 Pro的平均安全率為78.99%位列第三,整體呈現(xiàn)出 “可靠但保守” 的多模態(tài)安全特征。其在常規(guī)視 - 語言任務中的風險識別能力較為扎實,但在面對多輪視覺誘導、隱性語義嵌套等復雜攻擊時,防御強度明顯弱于前兩名模型,說明其多模態(tài)安全機制仍更多建立在規(guī)則與觸發(fā)層面,而非深層語義融合層面的統(tǒng)一對齊。
Grok 4.1 Fast的平均安全率為68.16%。其表現(xiàn)具有一定 “反直覺” 性:其對抗成績 68.34% 略高于基準成績 67.97%,顯示其安全水平對攻擊擾動并不敏感。這一現(xiàn)象并不意味著其具備真正的魯棒性,反而更可能反映出其更強的防護機制主要停留在淺層過濾與簡單觸發(fā)邏輯上,缺乏隨攻擊復雜度提升而動態(tài)調(diào)節(jié)的能力,整體仍難以支撐復雜真實場景下的多模態(tài)風險防控需求。
3. 文生圖安全
Nano Banana Pro的平均安全率為59.86%,在文生圖安全評測中展現(xiàn)出當前最為成熟的整體防護水平,在基準評測(60.00%)、對抗評測(54.00%)與合規(guī)性評測(65.59%)三個維度均位居首位。其成績隨評測強度遞進而穩(wěn)定提升,表明該模型的安全機制并非僅針對靜態(tài)提示詞進行表層過濾,而是具備一定程度的風險語義重構(gòu)與情境適配能力,能夠在監(jiān)管敏感場景下保持相對一致的防御表現(xiàn)。這一特征使其在藝術(shù)表達與內(nèi)容合規(guī)之間形成了較為平衡的治理路徑,是當前文生圖模型中安全泛化能力最為突出的代表。
Seedream 4.5的平均安全率為41.71%,展現(xiàn)了堅實的合規(guī)基礎,其基準安全(47.94%)與合規(guī)性(57.53%)成績證明了其在受監(jiān)管視覺場景下的精準防控優(yōu)勢,但是在對抗安全性(19.67%)方面成績偏低,顯示其基礎防護能力仍存在結(jié)構(gòu)性短板。該模型在顯性監(jiān)管紅線與高風險類別上具備較為穩(wěn)定的規(guī)則觸發(fā)能力,然而這種以約束為主的防御模式在面對語義偽裝、隱性誘導等對抗型提示時缺乏足夠的語境理解支撐,導致在對抗場景中的安全魯棒性仍顯不足。
大模型的 “安全人格” 畫像
![]()
GPT-5.2(全能內(nèi)化型)
其安全雷達圖譜近乎全向飽和,表明安全機制已從外置規(guī)則演進為內(nèi)生推理能力。在灰區(qū)與復雜語境中,GPT-5.2 往往能給出克制而精確的合規(guī)引導,避免過度拒絕與風險放行之間的搖擺。不過也正因其具備更強的語義理解與任務完成能力,在極少數(shù)高度隱蔽的對抗性場景中,其 “深度推理 — 深度協(xié)作” 的優(yōu)勢亦可能被利用,對安全校準提出更高的持續(xù)演化要求。
Qwen3-VL(準則合規(guī)型)
在法律政策邊界清晰、監(jiān)管要求明確的場景中展現(xiàn)出極強的穩(wěn)定性與可預期性,尤其在生物安全、政務合規(guī)等 “硬紅線” 領域具備高度專業(yè)化的防御能力。然而,評測也顯示,其安全策略明顯偏向規(guī)則驅(qū)動范式:當風險表達轉(zhuǎn)向語義偽裝或情境隱喻時,模型在跨語境推斷與抽象風險識別方面的彈性仍顯不足,使其在未知攻擊形態(tài)下呈現(xiàn)出一定脆性。
Gemini 3 Pro(倫理交互型)
采用 “先響應、后校準” 的人本化安全交互范式,在保障對話流暢度的同時保持較高的風險敏感性。其在社會價值觀與文化語境對齊方面表現(xiàn)細膩,尤其擅長處理偏見與歧視類風險。但評測亦表明,其安全策略在部分場景中偏向事后糾偏而非事前阻斷,當面對對抗性重構(gòu)或復雜情境操縱時,這種 “柔性防御” 在穩(wěn)定性上仍有提升空間。
Grok 4.1 Fast(自由效率型)
呈現(xiàn)出輕量化與極速響應的產(chǎn)品哲學,原生防御機制相對克制,更強調(diào)開放表達與低摩擦交互體驗。其設計取向為用戶提供了更大的創(chuàng)作自由度與更廣闊的對話空間,體現(xiàn)出一種以效率與表達自由優(yōu)先的安全取舍路徑,在開放性與防護性之間形成鮮明風格。
Nano Banana Pro(柔性重塑型)
擅長通過內(nèi)生語義凈化策略對高風險提示進行隱性重構(gòu),在維持生成質(zhì)量與藝術(shù)表現(xiàn)力的同時,實現(xiàn)較為穩(wěn)定的內(nèi)容合規(guī)控制。這一 “柔性轉(zhuǎn)譯” 式治理模式在多數(shù)場景中有效平衡了安全與創(chuàng)作自由,但其對邊界模糊風險的處理仍高度依賴隱式轉(zhuǎn)換機制,一旦語義重塑失效,防護體系的顯性支撐能力相對有限。
Seedream 4.5(堅實屏障型)
在文生圖領域堅持以強約束為核心的安全設計理念,特別是在版權(quán)與暴力內(nèi)容防御方面構(gòu)建了穩(wěn)定可靠的攔截閉環(huán)。然而,其安全體系明顯呈現(xiàn)出“阻斷優(yōu)先”特征:對邊緣語義與灰區(qū)場景缺乏足夠的語義判別彈性,導致在部分復雜創(chuàng)作需求下出現(xiàn) “要么全擋、要么全漏” 的兩極化風險,暴露出語義理解深度與生成自由度之間的結(jié)構(gòu)性張力。
對抗演進與治理挑戰(zhàn)
1. 多輪自適應攻擊的深層威脅
研究表明,攻擊者通過持續(xù)觀測模型響應并動態(tài)調(diào)整誘導策略,可形成具備 “自我進化” 能力的多步攻擊鏈路。在此范式下,單一攔截層和靜態(tài)規(guī)則體系難以形成有效防線,多輪自適應攻擊在復雜場景中的繞過成功率顯著提升,正在成為下一階段大模型安全治理的核心挑戰(zhàn)。
2. 跨語言安全的結(jié)構(gòu)性不均衡
評測結(jié)果顯示,多數(shù)模型在非英語語境(如泰語、阿拉伯語等)下的安全表現(xiàn)出現(xiàn)20%–40%的系統(tǒng)性下滑,暴露出當前安全對齊在語料分布與策略遷移上的顯著不平衡。這一差距不僅削弱了模型的全球可用性,也放大了區(qū)域性風險外溢的可能性,構(gòu)成全球部署背景下的長期隱患。
3. 決策透明度與可解釋性的治理短板
盡管前沿模型在合規(guī)性指標上持續(xù)進步,但在拒絕決策的可解釋性與責任可追溯性方面仍普遍存在結(jié)構(gòu)性不足。當前安全機制更多體現(xiàn)為 “結(jié)果合規(guī)”,而非 “過程可審計”,這一缺口在高風險領域(如醫(yī)療、公共治理與國家安全)中尤為突出,已成為制約可信部署的重要制度性瓶頸。
結(jié)語
本報告致力于為全球人工智能安全研究提供一份基于系統(tǒng)實證的關鍵參照坐標。隨著模型能力呈指數(shù)級躍升,安全對齊已不再是事后修補式的技術(shù)疊加,而必須轉(zhuǎn)向從底層架構(gòu)、訓練范式到多模態(tài)交互機制的全棧式深度嵌入。
本報告呼吁學術(shù)界、產(chǎn)業(yè)界與治理機構(gòu)應當形成更加緊密的協(xié)同機制,共同構(gòu)建兼具包容性、標準化與動態(tài)演進能力的安全評估體系,以制度化、工程化的方式推動生成式人工智能走向可控、可信與可持續(xù)的發(fā)展路徑。
更為系統(tǒng)和深入的分析見論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.