網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

全球大模型進(jìn)化的下一個方向，OpenAI的GPT-5做出來了

2025-08-08 10:40:23　來源: 財(cái)經(jīng)AI湃

北京舉報

分享至

（OpenAICEO薩姆·奧爾特曼正在發(fā)布GPT-5 圖源/OpenAI官網(wǎng)直播）

GPT-5出現(xiàn)，意味著大模型終于進(jìn)入了一個新競爭點(diǎn)-能同時只會多個Agent協(xié)同工作，并處理復(fù)雜任務(wù)

文｜《財(cái)經(jīng)》研究員吳俊宇周源

編輯｜謝麗容

美國明星AI（人工智能）創(chuàng)業(yè)公司OpenAI的每一代旗艦?zāi)Ｐ停紩I(lǐng)全球未來半年的技術(shù)潮流。美國西部時間8月7日，這家公司發(fā)布了GPT-5。

OpenAI CEO（首席執(zhí)行官）薩姆·奧爾特曼（Sam Altman）形容，GPT-3給人感覺像是在和高中生交談。雖然偶爾靈光乍現(xiàn)，但也有很多惱人的地方。GPT-4o或許像在和一個大學(xué)生交談，它具備了真正的智能和實(shí)用性。而現(xiàn)在，有了GPT-5，就像是在和一位專家對話——一位在任何領(lǐng)域都能隨時待命、專業(yè)的博士級專家，他們能幫你實(shí)現(xiàn)任何目標(biāo)。GPT-5不僅能聊天，還能為你做事。

GPT-5是兩個模型（長思考版+高效率版，前者可以深度思考，后者可以高效問答）組成的一個系統(tǒng)。它會在用戶提問時，自動判斷切換版本。

OpenAI官網(wǎng)披露的性能基準(zhǔn)測試結(jié)果顯示，GPT-5超越了上一代旗艦?zāi)Ｐ蚈penAI o3，GPT-5（長思考版）幻覺數(shù)量比o3少了六倍。國際市場調(diào)研機(jī)構(gòu)Artificial Analysis長期對全球主流模型進(jìn)行性能基準(zhǔn)測試，截至8月8日的測試結(jié)果顯示，GPT-5目前是全球性能最強(qiáng)的模型。

性能提升的同時，GPT-5推理算力成本也大幅下降。OpenAI官網(wǎng)公布的測試結(jié)果顯示，GPT-5成本表現(xiàn)優(yōu)于 OpenAI o3，輸出token（AI推理算力計(jì)量單位，一個Token可以是單詞、標(biāo)點(diǎn)、數(shù)字、符號等）數(shù)量減少了50%-80%。

需要鞏固“脆弱的優(yōu)勢”

OpenAI一直是大模型賽道領(lǐng)頭羊，它是全球估值最高、收入最高的AI創(chuàng)業(yè)公司。截至今年8月，OpenAI再次融資83億美元，累計(jì)融資超過797億美元，估值3000億美元。

截至今年8月，ChatGPT日活躍用戶1.8億，付費(fèi)企業(yè)用戶數(shù)量500萬。截至今年4月，ChatGPT付費(fèi)個人用戶數(shù)量2000萬。

此前有媒體報道，截至今年7月末，OpenAI預(yù)計(jì)將實(shí)現(xiàn)120億美元的年度經(jīng)常性收入（ARR，Annual Recurring Revenue），同比增長超過80%。其中消費(fèi)者訂閱（ChatGPT Plus等用戶訂閱產(chǎn)品）收入55億美元，商業(yè)與合作伙伴（ChatGPT Team和Enterprise企業(yè)部署版本）收入36億美元，API（軟件調(diào)用接口）調(diào)用收入29億美元，代碼專用產(chǎn)品收入4億美元。

OpenAI作為全球最大AI創(chuàng)業(yè)公司，融資、營收、估值遠(yuǎn)超它的最大競爭對手——全球第二大AI創(chuàng)業(yè)公司Anthropic。

Anthropic 2023年至今已完成14次融資，總金額182億美元。目前Anthropic估值615億美元。OpenAI估值是Anthropic的4.9倍。截至今年7月末，Anthropic年度經(jīng)常性收入預(yù)計(jì)約為50億美元。也就是說，OpenAI營收規(guī)模是Anthropic的2.4倍。

雖然手握優(yōu)勢，OpenAI面臨的市場競爭卻變得更激烈。美國市場，谷歌的Gemini、Anthropic、AI創(chuàng)業(yè)公司xAI都是它的直接競爭對手。這幾家公司的旗艦?zāi)Ｐ秃蚈penAI的差距幾乎只在三個月以內(nèi)。中國市場，兩款開源模型——阿里旗下的Qwen系列、AI創(chuàng)業(yè)公司深度求索旗下的DeepSeek系列，和OpenAI旗艦?zāi)Ｐ筒罹鄡H為3-6個月。

2024年以來，OpenAI模型迭代明顯在提速。但過去一年，OpenAI卻遭遇到了比過去更多的批評。模型迭代次數(shù)多，但性能提升卻未達(dá)公眾預(yù)期。OpenAI多位創(chuàng)始團(tuán)隊(duì)成員出走。這家公司堅(jiān)持的閉源商業(yè)模式也招致抱怨，業(yè)內(nèi)調(diào)侃OpenAI應(yīng)更名為“CloseAI”。

摩根大通7月18日研報指出，OpenAI融資主要被用于算力和人才投入，未來四年可能還要花費(fèi)約460億美元用于算力成本和員工薪酬，預(yù)計(jì)2029年才能盈利。摩根大通還認(rèn)為，谷歌的Gemini 2.5 Pro和中國的DeepSeek-R1崛起表明，大模型市場競爭激烈，性價比日益重要。

一位中國云廠商大模型業(yè)務(wù)負(fù)責(zé)人今年4月曾對《財(cái)經(jīng)》表示，2025年大模型的發(fā)展主脈絡(luò)之一是，提升精度并降低算力成本，簡單說就是多、快、好、省。

“卷模型”不能確保永遠(yuǎn)領(lǐng)先，但卻仍是維持優(yōu)勢的少數(shù)路徑之一。GPT-5正是在這個背景下誕生的——它在性能提升的同時，還降低了算力成本。

為回應(yīng)“不如變成CloseAI”的批評，OpenAI還在8月5日開源了兩款模型——gpt-oss-120b和gpt-oss-20b。市場普遍認(rèn)為，OpenAI此次開源的主要目的是擴(kuò)大自家模型在全球市場的影響力（報道詳見）。

搶占AI應(yīng)用爆發(fā)前夜的先機(jī)

AI應(yīng)用爆發(fā)，尤其是Agent（智能體，一種輕量級的AI應(yīng)用）爆發(fā)是2025年大模型落地過程中最明顯的趨勢。

國際IT咨詢機(jī)構(gòu)Gartner預(yù)測，到2028年，33%的企業(yè)軟件將包含Agent，2024年該比例不到1%；到2028年，15%的日常工作將由Agent自主完成，2024年該比例接近0%。

不過，2025年上半年，Agent被認(rèn)為并不成熟（報道詳見）。原因就是基礎(chǔ)模型能力還不夠強(qiáng)。

此次GPT-5兩項(xiàng)重要技術(shù)突破，都是在解決這一問題——一是多模態(tài)（文本、圖像、視頻、音頻等復(fù)雜格式資料）的模型能力，二是指令遵循和Agent工具使用能力。

OpenAI聯(lián)合創(chuàng)始人格雷格·布羅克曼（Greg Brockman）在GPT-5發(fā)布會以代碼場景舉例表示，GPT-5樹立了一個全新的標(biāo)準(zhǔn)。它在智能體代碼任務(wù)方面是最好的模型。你可以讓它完成一些非常復(fù)雜的事情。它會開始工作，調(diào)用許多工具，連續(xù)工作好幾分鐘，有時甚至更長，來完成你的目標(biāo)、你的指令，無論你想創(chuàng)建什么。

也就是說，隨著GPT-5的多模態(tài)理解能力、Agent工具使用能力成熟，意味著大模型能指揮多個Agent協(xié)同工作。它將具備駕馭Muti-Agent（多智能體）并處理復(fù)雜任務(wù)的能力。

GPT-5開啟了基礎(chǔ)大模型的一個新競爭點(diǎn)，它的基礎(chǔ)能力躍升意味著更多復(fù)雜的AI應(yīng)用將被解鎖。每誕生一批新的AI應(yīng)用，AI算力消耗也會指數(shù)級增長。模型、應(yīng)用、算力的“飛輪”將加速轉(zhuǎn)動。

字節(jié)跳動火山引擎智能算法負(fù)責(zé)人、火山方舟負(fù)責(zé)人吳迪今年6月曾對《財(cái)經(jīng)》解釋上述邏輯。在他看來，無論是中國市場還是美國市場，未來12個月基礎(chǔ)模型的能力還會不斷提升，有三個提升方向。

其一，多模態(tài)（文本+圖片+音頻+視頻）推理模型會成為主角，這是當(dāng)下正在發(fā)生的變化。AI將可以把文本、圖片、音頻、視頻等多種信息融合在一起進(jìn)行綜合推理。它將極大增強(qiáng)Agent對現(xiàn)實(shí)世界復(fù)雜信息的理解能力。

其二，視頻生成模型將成熟可用，預(yù)計(jì)今年末將迎來一輪爆發(fā)。這意味著Agent不僅能理解世界，還能以更動態(tài)、更直觀的方式生成內(nèi)容和模擬過程。

其三，多步驟的復(fù)雜任務(wù)處理能力會大幅提升，預(yù)計(jì)今年末會有重大突破。這是Agent走向成熟的關(guān)鍵一步。當(dāng)模型能夠穩(wěn)定、可靠地規(guī)劃和執(zhí)行包含數(shù)十步甚至上百步的復(fù)雜任務(wù)時，Agent“爛尾”的問題將從根本上被解決。

在吳迪看來，目前大部分Muti-Agent應(yīng)用都“像是玩具”，但基于這三條技術(shù)主線的突破，他給出了最終判斷——Muti-Agent應(yīng)用2025年末準(zhǔn)確率將會大幅提升。2025年底具備視覺理解、推理能力的AI應(yīng)用普及后，一個基礎(chǔ)任務(wù)消耗的算力可能就會超過10萬token。屆時，token消耗量會快速爬坡。

新一輪模型競賽拉開帷幕

模型、應(yīng)用、算力“飛輪”轉(zhuǎn)動的基礎(chǔ)，是不斷提升的模型能力。2025年，全球科技公司的大模型競賽愈演愈烈，大模型迭代步伐都在加速。

大模型領(lǐng)域的知識迭代以“月”甚至“周”為單位。一篇論文、一個模型就可能顛覆原有的技術(shù)路線。一位資深算法工程師曾對《財(cái)經(jīng)》表示，大模型領(lǐng)域，每周都有大量學(xué)術(shù)論文被發(fā)表；幾乎每個月都有新的技術(shù)突破；幾乎每三四個月，領(lǐng)先的模型就會被趕超。

據(jù)《財(cái)經(jīng)》不完全統(tǒng)計(jì)，2025年1月1日-8月8日的220天內(nèi)，中美參與模型競爭的11家科技公司（包括阿里、字節(jié)跳動、騰訊、百度、華為、DeepSeek、月之暗面、谷歌、OpenAI、Anthropic、xAI）發(fā)布或迭代了至少32版大模型，平均每6.9天就會有一版新的大模型被發(fā)布。

基礎(chǔ)模型更新周期甚至越來越短。OpenAI的GPT-4.5到GPT-5更新周期是161天；OpenAI的o1到o3，更新周期132天；xAI的Grok 3到Grok 4，更新周期142天； DeepSeek-R1兩個版本，更新周期128天；DeepSeek-V3兩個版本，更新周期87天；谷歌Gemini 2.5兩個版本，更新周期僅42天。

GPT-5的發(fā)布，將倒逼中美科技公司展開新一輪大模型的競賽——訓(xùn)練更強(qiáng)的模型、采購更大規(guī)模的算力，這條路徑在短時間內(nèi)不會改變。

當(dāng)前大模型的發(fā)展，有幾個關(guān)鍵基石。一是數(shù)據(jù)、二是算法、三是算力，它依賴“大力出奇跡”，即用巨大的資源投入來換取性能提升。

今年6月，杜克大學(xué)電子與計(jì)算機(jī)工程系教授陳怡然曾對《財(cái)經(jīng)》表示，AI演進(jìn)的基本路線，仍是大力出奇跡。大家一直在討論，這種模式未來何時是頭，潛力何時會被耗盡用盡，學(xué)術(shù)界也試圖尋找新的路徑。但目前并沒有其他行之有效的方式，所以產(chǎn)業(yè)界也沒有太多選擇，一直在沿著“大力出奇跡”往前走。

目前，中國科技公司，如阿里Qwen 3今年7月更新版本暫時追平了OpenAI今年4月發(fā)布的o3。GPT-5發(fā)布意味著，新一輪追趕又要開始。

《財(cái)經(jīng)》了解到，阿里大模型研發(fā)部門——通義實(shí)驗(yàn)室今年核心目標(biāo)之一就是，模型性能、下載量、衍生模型數(shù)量都要保持領(lǐng)先。

阿里云CTO（首席技術(shù)官）、通義實(shí)驗(yàn)室負(fù)責(zé)人周靖人今年6月在魔搭開發(fā)者大會群訪環(huán)節(jié)曾對《財(cái)經(jīng)》表示，模型性能必須具備足夠的競爭力，能夠在權(quán)威的、公認(rèn)的基準(zhǔn)測試（Benchmark）中證明自身實(shí)力。

他還提到，通義實(shí)驗(yàn)室一直將追蹤研判全球前沿技術(shù)動態(tài)視為日常工作的一部分。他們不僅會關(guān)注人工智能頂會（AAAI、IJCAI、ICML、NIPS等頂級國際學(xué)術(shù)會議）的論文，還會密切跟蹤全球各大開源社區(qū)、技術(shù)博客以及頭部AI公司的產(chǎn)品發(fā)布。

上述資深算法工程師認(rèn)為，大模型領(lǐng)域，任何性能優(yōu)勢都只是暫時的，競速是持續(xù)不斷的。

注添加微信煩勞注明來意、姓名及職業(yè)，

歡迎一切良性業(yè)務(wù)探討及線索提供！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.