![]()
北京時間 2025 年 2 月 28 日凌晨 4 點,在 DeepSeek 的競爭壓力下,OpenAI 發布了 GPT-4.5。這場僅 13 分鐘的 “下午茶式” 小型發布會,主打用 “情商” 走進人類生活,不過 OpenAI CEO 薩姆?奧爾特曼(Sam Altman)因照顧剛出生的孩子缺席。
一、GPT-4.5 的功能特性與提升
(一)功能概覽
GPT-4.5 具備多項新功能,它能直接聯網搜索信息,支持用戶上傳文件與圖片進行分析,還可借助內置的 Canvas 工具輔助寫作或編程。然而,它目前在功能上存在局限,無法處理語音對話、視頻互動或屏幕共享功能。
(二)情商表現升級
在情商展示環節,面對朋友爽約讓寫短信表達不滿的場景,GPT-4.5 能識別用戶的沮喪情緒,給出更有分寸、具建設性的短信內容,考慮到維護友誼的需求;而 o1 則直接輸出帶有強烈情緒的內容,未能理解用戶深層需求。在解釋 “AI 對齊的必要性” 時,GPT-4.5 注重邏輯引導,通過日常案例輔助理解,將復雜問題拆解為 “目標定義 — 倫理風險 — 技術實現” 步驟,測試者認為這種方式降低了認知負擔,使其更像協作伙伴。
(三)綜合能力優化
GPT-4.5 主要通過可擴展對齊技術和混合訓練機制進行優化。可擴展對齊技術整合小模型訓練數據,增強對人類意圖的理解;混合訓練機制結合監督微調與人類反饋強化學習,用更少數據實現大規模模型優化。它結合無監督學習與推理能力,在處理復雜任務時會拆解邏輯鏈、驗證隱含條件,在科學問答測試 GBQA 中準確率較前代有所提升。在內部評測中,GPT-4.5 在專業領域任務錯誤率明顯降低,虛構內容概率更低。在新的 “氛圍測試” 中,它在創意寫作、情感支持等場景表現出色,能生成更貼合人類交流習慣的內容。在 SimpleQA 基準測試中,GPT-4.5 的準確率達到 62.5%,幻覺率為 37.1%,相比 GPT-4o、o1 和 o3mini 均有優化,在部分標準學術基準測試中也超越了 GPT-4o 和 o3-mini。不過,在復雜推理任務(如數學證明或代碼調試)上,它仍弱于專注推理的專用模型,比如在解釋 “深海魚類高壓適應機制” 時,o3 Mini 會逐步拆解生物進化邏輯,而 GPT-4.5 更依賴既有知識直接歸納結論 。
二、GPT 系列模型的進化歷程
回顧 GPT 系列模型的發展,從 2018 年的 GPT-1 到如今的 GPT-4.5,變化巨大。GPT-1 回答問題時完全是隨機單詞拼湊,毫無邏輯和科學常識。GPT-2 在 2019 年展現出與問題相關的回答能力,但準確性不足,解釋模糊且錯誤較多。GPT-3.5 Turbo 能給出正確答案,卻存在冗余信息,邏輯分散。GPT-4 Turbo 知識儲備提升,卻陷入 “炫技式” 回答,信息組織不佳。而 GPT-4.5 在回答 “海水為什么是咸的” 這一問題時,實現了信息整合與語言優化,用押韻句式和清晰邏輯進行解答,便于記憶。
三、GPT-4.5 的 API 定價與行業爭議
目前開發者可通過 API 調用 GPT-4.5 的核心能力,但多模態功能尚未開放。其 API 定價極高,輸入 100 萬 token 需 75 美元,輸出 100 萬 token 高達 150 美元,價格是 GPT-4o 的 15 - 30 倍,與 DeepSeek-V3 和 R1 的 API 價格相比,差距更為明顯。知名科技播客主持人 Dwarkesh Patel 與微軟 CEO 薩提亞?納德拉(Satya Nadella)就 token 價格問題展開討論,納德拉認為 token 的實用性很重要,技術突破會改變 token 的有效性能邊界。但就目前來看,GPT-4.5 在價格與性能平衡方面表現不佳。
總體而言,GPT-4.5 更像是一次技術 “微調”,雖承載了前作優化成果并為未來升級做鋪墊,但未打破現有技術框架。OpenAI 后續可能會推出 GPT-4.6、GPT-4.7 等漸進式迭代版本。然而,若每次迭代都伴隨著指數級成本攀升,技術進化的方向可能會偏離初衷。在追求 “讓 AI 更懂人” 的同時,也應思考技術進化的終點究竟是為人類提供平等賦能,還是在算力競賽中重塑新的權力結構。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.