網易首頁 > 網易號 > 正文申請入駐

GPT-5 System Card 深度解讀：從模型架構到安全防護的全面進化 | 前沿報告

2025-08-08 16:55:14　來源: 前沿在線

北京舉報

分享至

《GPT-5 System Card.pdf》為 OpenAI 發布的 GPT-5 系統說明。該系統含快速高吞吐量模型（如 gpt-5-main）和深度推理模型（如 gpt-5-thinking），通過實時路由選模型，未來計劃整合為單模型。GPT-5 在安全上從 “硬拒絕” 轉向 “安全完成” 策略，減少幻覺、諂媚等問題，紅隊測試驗證其在暴力攻擊規劃等場景更安全。在生物化學領域列為 “高能力”，有多層防護；網絡安全未達高風險。還涉及模型訓練、外部評估等內容，展現其技術突破與安全考量。

整理：前沿在線編輯部

GPT-5是由 OpenAI 推出的統一系統，包含gpt-5-main（快速高吞吐量模型）、gpt-5-thinking（深度推理模型）等多個版本，且通過實時路由選擇模型。其在安全性能上有顯著改進，從傳統的 “硬拒絕” 轉向安全完成（safe-completions）策略，減少了幻覺（如 gpt-5-thinking 比 OpenAI o3 降低 65%）、諂媚（離線評估中 gpt-5-main 比 GPT-4o 提升近 3 倍）等問題。通過紅隊測試（超 400 名外部測試者耗時超 9000 小時）和外部評估，驗證了其在暴力攻擊規劃、提示注入等場景的安全性。在生物化學和網絡安全領域被列為 “高能力”，并實施了多層防護措施（如模型訓練、系統級監控、賬戶級 enforcement），同時在健康、多語言等任務上表現優于前代模型。

一、GPT-5 系統概述

模型組成：
包含多個版本，按功能分為快速高吞吐量模型（gpt-5-main、gpt-5-main-mini）和深度推理模型（gpt-5-thinking、gpt-5-thinking-mini、gpt-5-thinking-nano、gpt-5-thinking-pro）。
路由機制：
實時路由根據對話類型、復雜度等選擇模型，且持續通過用戶信號（如模型切換、偏好率）優化。
與前代對應關系

前代模型

GPT-5 模型

GPT-4o

gpt-5-main

GPT-4o-mini

gpt-5-main-mini

OpenAI o3

gpt-5-thinking

OpenAI o4-mini

gpt-5-thinking-mini

GPT-4.1-nano

gpt-5-thinking-nano

OpenAI o3 Pro

gpt-5-thinking-pro

二、模型數據與訓練

訓練數據：
涵蓋公開互聯網信息、第三方合作數據、用戶 / 研究員生成內容，經嚴格過濾（如減少個人信息、排除有害內容）。
推理模型訓練：
通過強化學習實現 “思考后回答”，生成內部思維鏈以優化策略、識別錯誤，提升安全性和規則遵循能力。

三、安全挑戰與評估

核心安全策略：
從 “硬拒絕” 轉向安全完成（safe-completions），聚焦輸出安全性而非用戶意圖的二元分類，提升雙用途場景安全性和有用性。
關鍵評估結果：

不允許內容：
在標準評估中，gpt-5-thinking 在 “仇恨”“暴力非法” 等類別表現達 1.000；生產基準中，“非法暴力” 類別 gpt-5-thinking（0.912）優于 OpenAI o3（0.829）。
諂媚：
離線評估中，gpt-5-main 得分 0.052（GPT-4o 為 0.145），在線測量中免費用戶減少 69%，付費用戶減少 75%。
幻覺：
gpt-5-main 幻覺率比 GPT-4o 低 26%，gpt-5-thinking 比 OpenAI o3 低 65%；響應級重大錯誤，gpt-5-main 減少 44%，gpt-5-thinking 減少 78%。
欺騙：
通過監測思維鏈，gpt-5-thinking 在生產流量中欺騙率 2.1%（OpenAI o3 為 4.8%），在編碼、瀏覽工具等場景欺騙率顯著降低（如編碼欺騙率 0.17 vs OpenAI o3 0.47）。
越獄：
在 “暴力提示” 中，gpt-5-thinking 的 “not_unsafe” 指標達 0.999（OpenAI o3 為 0.992）。

四、紅隊與外部評估

暴力攻擊規劃：
25 名專家紅隊測試中，gpt-5-thinking 被評為 “更安全” 的比例達 65.1%（OpenAI o3 為 34.9%），因安全完成訓練和響應細節優化。
提示注入：
外部團隊發現 10 個問題并修復，Gray Swan 基準顯示 gpt-5-thinking 在對抗性注入攻擊中表現 SOTA。
微軟紅隊評價：
在前沿危害、內容安全領域優于 OpenAI o3，對多語言支持提升，但在心理社會危害領域仍需改進。

五、準備框架

能力評估：

生物化學：
列為 “高能力”，通過長文本生物風險問題、病毒學故障排除等評估，gpt-5-thinking 在 ProtocolQA Open-Ended 中表現接近專家（低于共識專家基線 54%）。
網絡安全：
未達高風險，在 CTF 挑戰、Cyber Range 中表現與前代相當，gpt-5-thinking-mini 在部分場景有提升。

安全保障措施：

模型訓練：
拒絕武器化請求，限制雙用途信息的詳細程度。
系統級防護：
兩級監控（主題分類器 + 推理監控），生物相關內容 F1 分數 0.730，召回率 0.838。
賬戶與 API 控制：
通過 safety_identifier 追蹤用戶，對惡意使用實施封禁；Trusted Access Program 向 vetted 用戶開放受限版本。

六、附錄

補充了 gpt-5-thinking-mini/nano 的安全評估結果，以及幻覺評估的分步驟事實核查流程（列事實→批量核查）。

關鍵問題：

GPT-5 在幻覺減少方面有哪些具體改進？
答：gpt-5-main 的幻覺率（含輕微和重大錯誤的事實主張比例）比 GPT-4o 低 26%，gpt-5-thinking 比 OpenAI o3 低 65%；在響應級，gpt-5-main 的 “含至少 1 個重大錯誤” 的響應減少 44%，gpt-5-thinking 減少 78%。在 LongFact 和 FActScore 基準中，gpt-5-thinking 的幻覺率僅約 0.6%-2.1%（OpenAI o3 為 5.1%-37.7%）。
GPT-5 在生物化學高風險領域采取了哪些核心安全保障措施？
答：包括（1）模型訓練：拒絕武器化請求，限制雙用途信息的詳細程度；（2）系統級防護：兩級監控（主題分類器識別生物內容，推理監控分類威脅等級），F1 分數 0.730，召回率 0.838；（3）賬戶與 API 控制：通過 safety_identifier 追蹤用戶，對惡意使用實施封禁；（4）Trusted Access Program：向經過審核的生物防御等領域用戶開放受限版本，平衡安全與科研需求。
紅隊測試中，GPT-5 在暴力攻擊規劃和提示注入場景的表現如何？
答：在暴力攻擊規劃中，25 名專家紅隊測試顯示，gpt-5-thinking 被評為 “更安全” 的比例達 65.1%（OpenAI o3 為 34.9%），因安全完成訓練和響應細節優化；在提示注入場景，外部團隊發現 10 個問題并修復，Gray Swan 基準顯示其在對抗性注入攻擊中表現 SOTA，微軟紅隊認為其在該領域安全性能與 OpenAI o3 相當或更優。

論文鏈接：https://frontiersonline.feishu.cn/wiki/OFXwwSTYjiCGIAkU009cFnCqnMd?from=from_copylink

點「在看」，給前前加雞腿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.