![]()
![]()
《GPT-5 System Card.pdf》為 OpenAI 發布的 GPT-5 系統說明。該系統含快速高吞吐量模型(如 gpt-5-main)和深度推理模型(如 gpt-5-thinking),通過實時路由選模型,未來計劃整合為單模型。GPT-5 在安全上從 “硬拒絕” 轉向 “安全完成” 策略,減少幻覺、諂媚等問題,紅隊測試驗證其在暴力攻擊規劃等場景更安全。在生物化學領域列為 “高能力”,有多層防護;網絡安全未達高風險。還涉及模型訓練、外部評估等內容,展現其技術突破與安全考量。
整理:前沿在線 編輯部
GPT-5是由 OpenAI 推出的統一系統,包含gpt-5-main(快速高吞吐量模型)、gpt-5-thinking(深度推理模型)等多個版本,且通過實時路由選擇模型。其在安全性能上有顯著改進,從傳統的 “硬拒絕” 轉向安全完成(safe-completions)策略,減少了幻覺(如 gpt-5-thinking 比 OpenAI o3 降低 65%)、諂媚(離線評估中 gpt-5-main 比 GPT-4o 提升近 3 倍)等問題。通過紅隊測試(超 400 名外部測試者耗時超 9000 小時)和外部評估,驗證了其在暴力攻擊規劃、提示注入等場景的安全性。在生物化學和網絡安全領域被列為 “高能力”,并實施了多層防護措施(如模型訓練、系統級監控、賬戶級 enforcement),同時在健康、多語言等任務上表現優于前代模型。
一、GPT-5 系統概述
- 模型組成:
包含多個版本,按功能分為快速高吞吐量模型(gpt-5-main、gpt-5-main-mini)和深度推理模型(gpt-5-thinking、gpt-5-thinking-mini、gpt-5-thinking-nano、gpt-5-thinking-pro)。
- 路由機制:
實時路由根據對話類型、復雜度等選擇模型,且持續通過用戶信號(如模型切換、偏好率)優化。
- 與前代對應關系
前代模型
GPT-5 模型
GPT-4o
gpt-5-main
GPT-4o-mini
gpt-5-main-mini
OpenAI o3
gpt-5-thinking
OpenAI o4-mini
gpt-5-thinking-mini
GPT-4.1-nano
gpt-5-thinking-nano
OpenAI o3 Pro
gpt-5-thinking-pro
二、模型數據與訓練
- 訓練數據:
涵蓋公開互聯網信息、第三方合作數據、用戶 / 研究員生成內容,經嚴格過濾(如減少個人信息、排除有害內容)。
- 推理模型訓練:
通過強化學習實現 “思考后回答”,生成內部思維鏈以優化策略、識別錯誤,提升安全性和規則遵循能力。
- 核心安全策略:
從 “硬拒絕” 轉向安全完成(safe-completions),聚焦輸出安全性而非用戶意圖的二元分類,提升雙用途場景安全性和有用性。
- 關鍵評估結果:
- 不允許內容:
在標準評估中,gpt-5-thinking 在 “仇恨”“暴力非法” 等類別表現達 1.000;生產基準中,“非法暴力” 類別 gpt-5-thinking(0.912)優于 OpenAI o3(0.829)。
- 諂媚:
離線評估中,gpt-5-main 得分 0.052(GPT-4o 為 0.145),在線測量中免費用戶減少 69%,付費用戶減少 75%。
- 幻覺:
gpt-5-main 幻覺率比 GPT-4o 低 26%,gpt-5-thinking 比 OpenAI o3 低 65%;響應級重大錯誤,gpt-5-main 減少 44%,gpt-5-thinking 減少 78%。
- 欺騙:
通過監測思維鏈,gpt-5-thinking 在生產流量中欺騙率 2.1%(OpenAI o3 為 4.8%),在編碼、瀏覽工具等場景欺騙率顯著降低(如編碼欺騙率 0.17 vs OpenAI o3 0.47)。
- 越獄:
在 “暴力提示” 中,gpt-5-thinking 的 “not_unsafe” 指標達 0.999(OpenAI o3 為 0.992)。
- 暴力攻擊規劃:
25 名專家紅隊測試中,gpt-5-thinking 被評為 “更安全” 的比例達 65.1%(OpenAI o3 為 34.9%),因安全完成訓練和響應細節優化。
- 提示注入:
外部團隊發現 10 個問題并修復,Gray Swan 基準顯示 gpt-5-thinking 在對抗性注入攻擊中表現 SOTA。
- 微軟紅隊評價:
在前沿危害、內容安全領域優于 OpenAI o3,對多語言支持提升,但在心理社會危害領域仍需改進。
- 能力評估:
- 生物化學:
列為 “高能力”,通過長文本生物風險問題、病毒學故障排除等評估,gpt-5-thinking 在 ProtocolQA Open-Ended 中表現接近專家(低于共識專家基線 54%)。
- 網絡安全:
未達高風險,在 CTF 挑戰、Cyber Range 中表現與前代相當,gpt-5-thinking-mini 在部分場景有提升。
- 安全保障措施:
- 模型訓練:
拒絕武器化請求,限制雙用途信息的詳細程度。
- 系統級防護:
兩級監控(主題分類器 + 推理監控),生物相關內容 F1 分數 0.730,召回率 0.838。
- 賬戶與 API 控制:
通過 safety_identifier 追蹤用戶,對惡意使用實施封禁;Trusted Access Program 向 vetted 用戶開放受限版本。
補充了 gpt-5-thinking-mini/nano 的安全評估結果,以及幻覺評估的分步驟事實核查流程(列事實→批量核查)。
關鍵問題:
GPT-5 在幻覺減少方面有哪些具體改進?
答:gpt-5-main 的幻覺率(含輕微和重大錯誤的事實主張比例)比 GPT-4o 低 26%,gpt-5-thinking 比 OpenAI o3 低 65%;在響應級,gpt-5-main 的 “含至少 1 個重大錯誤” 的響應減少 44%,gpt-5-thinking 減少 78%。在 LongFact 和 FActScore 基準中,gpt-5-thinking 的幻覺率僅約 0.6%-2.1%(OpenAI o3 為 5.1%-37.7%)。GPT-5 在生物化學高風險領域采取了哪些核心安全保障措施?
答:包括(1)模型訓練:拒絕武器化請求,限制雙用途信息的詳細程度;(2)系統級防護:兩級監控(主題分類器識別生物內容,推理監控分類威脅等級),F1 分數 0.730,召回率 0.838;(3)賬戶與 API 控制:通過 safety_identifier 追蹤用戶,對惡意使用實施封禁;(4)Trusted Access Program:向經過審核的生物防御等領域用戶開放受限版本,平衡安全與科研需求。紅隊測試中,GPT-5 在暴力攻擊規劃和提示注入場景的表現如何?
答:在暴力攻擊規劃中,25 名專家紅隊測試顯示,gpt-5-thinking 被評為 “更安全” 的比例達 65.1%(OpenAI o3 為 34.9%),因安全完成訓練和響應細節優化;在提示注入場景,外部團隊發現 10 個問題并修復,Gray Swan 基準顯示其在對抗性注入攻擊中表現 SOTA,微軟紅隊認為其在該領域安全性能與 OpenAI o3 相當或更優。
論文鏈接:https://frontiersonline.feishu.cn/wiki/OFXwwSTYjiCGIAkU009cFnCqnMd?from=from_copylink
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
點「在看」,給前前加雞腿
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.