網易首頁 > 網易號 > 正文申請入駐

GPT-5亮相，“博士專家”是不是真的Agent？

2025-08-09 08:05:43　來源: 極新

北京舉報

分享至

“ 不是巨人邁步，也是一腳穩落的新臺階。”

文 | 王嫻

出品 | 極新

OpenAI CEO Sam Altman 在發布會上將GPT-5 形容為“一位隨時待命的博士級專家”，并提出“按需生成軟件”將成為這一代模型的核心能力。

或許GPT-5 不再只是更強的語言模型，而是邁向通用Agent的關鍵節點。

01技術新亮點

盡管 GPT-5 的微調能力尚未達到外界對其“通用智能”層面的高期待，但在性能穩定性、推理深度以及工具調用等方面，仍展現出值得肯定的進步。

關鍵詞一：模型矩陣

OpenAI不再只提供單一模型，而是推出了GPT-5 Standard、GPT-5 Mini和GPT-5 Nano等多個版本，針對不同用戶場景分別優化。

在架構上，GPT-5采用了統一的多模型系統：高效基礎模型 + 深度推理模塊 + 實時路由。實時路由器會根據用戶查詢的復雜度，自動判定調用快速響應的模型。這種動態調度意味著用戶不必手動在不同模型之間切換，GPT-5能自動選擇簡潔回答或深入推理，提供解答。一位OpenAI負責人指出，目標是在簡化用戶體驗的同時保證一致性，過去GPT-4與DALL-E、Whisper等模型分立的局面將被一個“一站式”的GPT-5所取代。

且其價格穿透力，被譽為“價格屠夫”，據統計僅相當于Anthropic最新Claude Opus 4.1模型的十五分之一。新一輪普惠化競賽或將由此開始。

關鍵詞二：上下文窗口的巨幅提升

GPT-5支持高達400,000個token的上下文長度，其中輸入272,000個、輸出128,000個token 。這遠超此前GPT-4默認的8K-32K窗口，甚至超過Gemini據傳的100萬token上下文。超長上下文讓GPT-5可處理超長文檔和多輪復雜對話，執行跨文件、跨會話的推理任務而游刃有余。

同時GPT-5具備完整的多模態能力：文字、圖像、語音甚至可能包括視頻，都能在同一接口下被理解和生成。用戶不再需要在不同AI服務之間來回切換，一個GPT-5即可“通吃”視覺與聽覺信息。

關鍵詞三：更智能的推理策略

除了“看得見”的能力提升，GPT-5在隱性的推理策略上也更智能。

OpenAI介紹GPT-5能根據需求調整推理強度：簡單任務快速出結果，遇到復雜問題則自主進入“深思考”模式，提高思考深度。例如在代碼調試場景下，GPT-5可以先嘗試快速修復，如不奏效再逐步加深分析，避免每次都全功率運行浪費算力。這種自適應的智能調度歸功于內置的路由模塊和鏈式推理優化，讓模型懂得權衡速度與精度。再結合OpenAI宣稱的幻覺率降低（錯誤生成降低45% ）以及對指令的更高忠實度，GPT-5無疑將AI助手的可靠性推上了新的臺階。

02距真正的AIAgent還有多遠？

發布會上，Altman雖然淡化了AGI概念，但行業共識是：GPT-5已比肩初級Agent雛形——它具備了鏈式思考、多步執行和工具調用等Agent關鍵要素。

然而，要判斷GPT-5是否真正成為智能Agent，我們需要審視其能力邊界和短板。

從能力上看，GPT-5較前代在自主性和持續推理方面有明顯進步。OpenAI專門針對模型的自主決策、協作溝通和測試能力進行了微調訓練，使GPT-5在執行復雜任務時更加主動。以編碼助手為例，GPT-5可以連續工作數分鐘，調用多種工具來完成一個復雜編程指令，期間會主動輸出計劃、步驟和狀態更新，“一GPT一人一公司”，指日可待。

過去模型往往一問一答，被動等待指令，而GPT-5在工具調用間隙會提出下一步建議，無需用戶事無巨細地確認每一步。這種近似Agent的鏈式思維和自主執行，使其在復雜場景下的表現大幅提升。據測試，GPT-5的深度推理模塊（GPT-5-thinking）可用更少的tokens完成復雜問題，比前代模型減少50%-80%的步驟開銷。這表明GPT-5已經初步具備了長鏈任務規劃和優化執行的能力。

更重要的是工具使用能力的飛躍。OpenAI報告稱，GPT-5在嚴格評測的多工具使用基準τ^2-bench上得分高達97%，而此前所有模型均未超過49%。GPT-5能可靠地串聯多個操作步驟完成真實世界任務。例如在客戶服務場景，GPT-5可以一邊與用戶對話，一邊調用數據庫查詢，再根據實時狀態采取后續行動，其對工具指令的遵循度和出錯處理能力均創下紀錄。這些結果證明，GPT-5已掌握了相當程度的Agent式工具調度與環境交互本領，朝著通用智能體又邁進一步。

然而，GPT-5離真正的自主智能Agent仍有關鍵差距。

OpenAI自己也承認，GPT-5在持久記憶、自主性和跨任務適應性上依然存在明顯限制。它無法像人一樣持續積累長期記憶——一旦超出400K上下文，它對更久遠交互的“記憶”依然會丟失，需要借助外部數據庫或記憶模塊。

在自主性上，雖然GPT-5更主動，但終究還是遵循人類提示觸發，尚不能自主產生新目標或自行啟動任務。它執行多步流程時雖更流暢，但對未明確指示的新情景，缺乏真正的創造性應對，這在模擬真人智能方面仍有差距。這從一些測試可以看出端倪：在被譽為AGI終極挑戰的Arc Prize測試中，GPT-5表現遠不及對手Grok-4，甚至“被人類專家輕松甄別”。OpenAI發言人也強調，GPT-5的新功能主要是現有功能改進，并未徹底解決自主性難題。

不過，可以確定的是：Agent時代，GPT-5也許只差臨門一腳。

03OpenAI的下一戰

OpenAI 此次五模齊發的背后，已經折射出其構建“AI 操作系統”式平臺架構的野心。

GPT-5 不再是單一模型，而是一個由多種規格協同組成的“模型矩陣”，可根據任務復雜度動態調用“深度思考”或高效輕量模型。“GPT-5 大賭注在于合一。”Sam Altman指出，GPT-5 實現了從 GPT-4 手動切換到系統自動路由的架構升級，真正做到“合一”。同時推出的 GPT-5-mini 和 GPT-5-nano 以更低成本提供 400K 上下文和多模態能力，OpenAI 試圖通過高低搭配，覆蓋全場景智能需求。

如果說多型號矩陣是“AI 操作系統”的內核，那么 OpenAI 正在搭建的周邊生態則是操作系統的“框架和接口”。其 Assistants API（助理接口）讓開發者能夠構建定制的 GPT 助手，將模型變成可嵌入任意應用的智能Agent；ChatGPT 插件充當擴展工具，為 GPT 提供調用外部服務和實時數據的能力，如同AI世界的應用商店；而定制模型接口則意味著開發者可以接入自有模型或定制版本，與OpenAI平臺打通。

Sam Altman的愿景更加直白。他曾表示OpenAI的目標不是成為某個應用上的贏家，而是要“成為其他一切構建其上的那一層”。換言之，OpenAI 希望充當AI時代的底層平臺，讓別的應用都建立在自己的“AI操作系統”之上。

為此，OpenAI 正不斷豐富平臺組件：從最新的 GPT-5 模型矩陣，到插件體系、助理API，再到開放模型發布。

一方面，ChatGPT 已從最初的對話機器人躍升為集成搜索引擎、插件工具等于一身的“AI萬能應用” ；另一方面，OpenAI 開始松動封閉策略，首度開源高性能模型，發布了自 GPT-2 以來首批開放權重的大模型gpt-oss 系列，允許開發者免費下載、定制和離線運行。

這被視為OpenAI 向構建生態邁出的關鍵一步：通過 Apache 2.0 開源許可證將自家模型“交到更多人手中” ，以吸引開發者深度參與，夯實其平臺地基。

歷史的回響：封閉崛起還是碎片開放

各家大模型之爭，讓人不由想起科技史上的多次“宿命對決”。

智能手機時代，蘋果憑借封閉的軟硬件一體化為用戶帶來極佳體驗和高粘性生態，建立起牢固的盈利壁壘；而谷歌主導的Android開放授權給眾多廠商，贏得了市場占有率但也付出碎片化和生態良莠不齊的代價。

類似的劇情正投射到AI領域：OpenAI模式頗似當年的蘋果，通過性能拔尖的GPT-5模型和自有平臺把關用戶體驗，以封閉換取質量和商業回報；Anthropic、Meta等提倡的開源開放更像Android陣營，意圖聯合多數、快速鋪開，讓“AI大國民”遍地開花，但同時如何治理眾多版本和標準成為挑戰。

過往多次經驗顯示，封閉生態往往在早期憑借卓越體驗迅速崛起，而開放生態則憑借規模和低門檻后來居上。AI操作系統之爭會重演這一幕嗎？抑或會走出第三條道路？這是大家十分關心的問題。

云計算領域，亞馬遜AWS以IaaS起家，但真正讓其難以撼動的是一系列PaaS產品：開發者一旦使用了AWS提供的數據庫、消息隊列、函數計算等托管服務，就被牢牢綁定在AWS生態中。對照來看，OpenAI 顯然也在從“提供模型算力”向“提供完整平臺服務”演進。

當年有人將AWS稱為“新操作系統”，因為應用直接基于其API構建而不感知底層服務器；今天，OpenAI 何嘗不是在打造AI時代的新操作系統？開發者調用的是OpenAI的接口，背后用的模型、算力甚至插件生態都由OpenAI打包提供。如果說AWS壟斷了云端基礎設施接口，那么OpenAI正嘗試壟斷AI智能層接口。

值得注意的是，AWS生態的壯大并非依靠開源，而是靠易用性與先發優勢形成事實標準。OpenAI的策略與此有異曲同工之妙：搶先占領市場心智，讓GPT API和插件成為開發者默認選項，即便后來的競爭對手開放源碼或降價，已難以扳動其生態地位。

當然，歷史類比并非預言。移動生態最終是雙雄并立，云計算領域后來者微軟Azure、谷歌云也各有一席之地。

當下AI平臺大戰格局更為復雜：巨頭結盟與競爭交織，開放與封閉界限日趨模糊。或許未來的AI世界，不會簡單復制某一過往戰役的結局，但商業與技術演進的底層邏輯卻驚人相似：用戶體驗、開發者生態、標準控制，這三大要素始終決定著平臺戰爭的走向。

OpenAI 究竟是在打造一個人工智能的“操作系統”，還是野心勃勃地想要定義整個AI技術棧、云服務乃至應用范式的未來？這場“模型即平臺，接口即邊界”的群雄逐鹿才剛剛開始，答案有待時間去揭曉，懸念也留給我們所有人去思考。

AI江湖的下一個篇章，值得我們拭目以待。

更多干貨分享敬請關注我們的公眾號與視頻號~超多精彩對話內容等待您的解鎖！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.