![]()
![]()
(OpenAICEO薩姆·奧爾特曼正在發(fā)布GPT-5 圖源/OpenAI官網(wǎng)直播)
GPT-5出現(xiàn),意味著大模型終于進(jìn)入了一個新競爭點(diǎn)-能同時只會多個Agent協(xié)同工作,并處理復(fù)雜任務(wù)
文|《財(cái)經(jīng)》研究員 吳俊宇 周源
編輯|謝麗容
美國明星AI(人工智能)創(chuàng)業(yè)公司OpenAI的每一代旗艦?zāi)P停紩I(lǐng)全球未來半年的技術(shù)潮流。美國西部時間8月7日,這家公司發(fā)布了GPT-5。
OpenAI CEO(首席執(zhí)行官)薩姆·奧爾特曼(Sam Altman)形容,GPT-3給人感覺像是在和高中生交談。雖然偶爾靈光乍現(xiàn),但也有很多惱人的地方。GPT-4o或許像在和一個大學(xué)生交談,它具備了真正的智能和實(shí)用性。而現(xiàn)在,有了GPT-5,就像是在和一位專家對話——一位在任何領(lǐng)域都能隨時待命、專業(yè)的博士級專家,他們能幫你實(shí)現(xiàn)任何目標(biāo)。GPT-5不僅能聊天,還能為你做事。
GPT-5是兩個模型(長思考版+高效率版,前者可以深度思考,后者可以高效問答)組成的一個系統(tǒng)。它會在用戶提問時,自動判斷切換版本。
OpenAI官網(wǎng)披露的性能基準(zhǔn)測試結(jié)果顯示,GPT-5超越了上一代旗艦?zāi)P蚈penAI o3,GPT-5(長思考版)幻覺數(shù)量比o3少了六倍。國際市場調(diào)研機(jī)構(gòu)Artificial Analysis長期對全球主流模型進(jìn)行性能基準(zhǔn)測試,截至8月8日的測試結(jié)果顯示,GPT-5目前是全球性能最強(qiáng)的模型。
![]()
性能提升的同時,GPT-5推理算力成本也大幅下降。OpenAI官網(wǎng)公布的測試結(jié)果顯示,GPT-5成本表現(xiàn)優(yōu)于 OpenAI o3,輸出token(AI推理算力計(jì)量單位,一個Token可以是單詞、標(biāo)點(diǎn)、數(shù)字、符號等)數(shù)量減少了50%-80%。
![]()
需要鞏固“脆弱的優(yōu)勢”
OpenAI一直是大模型賽道領(lǐng)頭羊,它是全球估值最高、收入最高的AI創(chuàng)業(yè)公司。截至今年8月,OpenAI再次融資83億美元,累計(jì)融資超過797億美元,估值3000億美元。
截至今年8月,ChatGPT日活躍用戶1.8億,付費(fèi)企業(yè)用戶數(shù)量500萬。截至今年4月,ChatGPT付費(fèi)個人用戶數(shù)量2000萬。
![]()
此前有媒體報道,截至今年7月末,OpenAI預(yù)計(jì)將實(shí)現(xiàn)120億美元的年度經(jīng)常性收入(ARR,Annual Recurring Revenue),同比增長超過80%。其中消費(fèi)者訂閱(ChatGPT Plus等用戶訂閱產(chǎn)品)收入55億美元,商業(yè)與合作伙伴(ChatGPT Team和Enterprise企業(yè)部署版本)收入36億美元,API(軟件調(diào)用接口)調(diào)用收入29億美元,代碼專用產(chǎn)品收入4億美元。
OpenAI作為全球最大AI創(chuàng)業(yè)公司,融資、營收、估值遠(yuǎn)超它的最大競爭對手——全球第二大AI創(chuàng)業(yè)公司Anthropic。
Anthropic 2023年至今已完成14次融資,總金額182億美元。目前Anthropic估值615億美元。OpenAI估值是Anthropic的4.9倍。截至今年7月末,Anthropic年度經(jīng)常性收入預(yù)計(jì)約為50億美元。也就是說,OpenAI營收規(guī)模是Anthropic的2.4倍。
雖然手握優(yōu)勢,OpenAI面臨的市場競爭卻變得更激烈。美國市場,谷歌的Gemini、Anthropic、AI創(chuàng)業(yè)公司xAI都是它的直接競爭對手。這幾家公司的旗艦?zāi)P秃蚈penAI的差距幾乎只在三個月以內(nèi)。中國市場,兩款開源模型——阿里旗下的Qwen系列、AI創(chuàng)業(yè)公司深度求索旗下的DeepSeek系列,和OpenAI旗艦?zāi)P筒罹鄡H為3-6個月。
2024年以來,OpenAI模型迭代明顯在提速。但過去一年,OpenAI卻遭遇到了比過去更多的批評。模型迭代次數(shù)多,但性能提升卻未達(dá)公眾預(yù)期。OpenAI多位創(chuàng)始團(tuán)隊(duì)成員出走。這家公司堅(jiān)持的閉源商業(yè)模式也招致抱怨,業(yè)內(nèi)調(diào)侃OpenAI應(yīng)更名為“CloseAI”。
![]()
摩根大通7月18日研報指出,OpenAI融資主要被用于算力和人才投入,未來四年可能還要花費(fèi)約460億美元用于算力成本和員工薪酬,預(yù)計(jì)2029年才能盈利。摩根大通還認(rèn)為,谷歌的Gemini 2.5 Pro和中國的DeepSeek-R1崛起表明,大模型市場競爭激烈,性價比日益重要。
一位中國云廠商大模型業(yè)務(wù)負(fù)責(zé)人今年4月曾對《財(cái)經(jīng)》表示,2025年大模型的發(fā)展主脈絡(luò)之一是,提升精度并降低算力成本,簡單說就是多、快、好、省。
“卷模型”不能確保永遠(yuǎn)領(lǐng)先,但卻仍是維持優(yōu)勢的少數(shù)路徑之一。GPT-5正是在這個背景下誕生的——它在性能提升的同時,還降低了算力成本。
為回應(yīng)“不如變成CloseAI”的批評,OpenAI還在8月5日開源了兩款模型——gpt-oss-120b和gpt-oss-20b。市場普遍認(rèn)為,OpenAI此次開源的主要目的是擴(kuò)大自家模型在全球市場的影響力(報道詳見)。
![]()
搶占AI應(yīng)用爆發(fā)前夜的先機(jī)
AI應(yīng)用爆發(fā),尤其是Agent(智能體,一種輕量級的AI應(yīng)用)爆發(fā)是2025年大模型落地過程中最明顯的趨勢。
國際IT咨詢機(jī)構(gòu)Gartner預(yù)測,到2028年,33%的企業(yè)軟件將包含Agent,2024年該比例不到1%;到2028年,15%的日常工作將由Agent自主完成,2024年該比例接近0%。
不過,2025年上半年,Agent被認(rèn)為并不成熟(報道詳見)。原因就是基礎(chǔ)模型能力還不夠強(qiáng)。
此次GPT-5兩項(xiàng)重要技術(shù)突破,都是在解決這一問題——一是多模態(tài)(文本、圖像、視頻、音頻等復(fù)雜格式資料)的模型能力,二是指令遵循和Agent工具使用能力。
OpenAI聯(lián)合創(chuàng)始人格雷格·布羅克曼(Greg Brockman)在GPT-5發(fā)布會以代碼場景舉例表示,GPT-5樹立了一個全新的標(biāo)準(zhǔn)。它在智能體代碼任務(wù)方面是最好的模型。你可以讓它完成一些非常復(fù)雜的事情。它會開始工作,調(diào)用許多工具,連續(xù)工作好幾分鐘,有時甚至更長,來完成你的目標(biāo)、你的指令,無論你想創(chuàng)建什么。
也就是說,隨著GPT-5的多模態(tài)理解能力、Agent工具使用能力成熟,意味著大模型能指揮多個Agent協(xié)同工作。它將具備駕馭Muti-Agent(多智能體)并處理復(fù)雜任務(wù)的能力。
GPT-5開啟了基礎(chǔ)大模型的一個新競爭點(diǎn),它的基礎(chǔ)能力躍升意味著更多復(fù)雜的AI應(yīng)用將被解鎖。每誕生一批新的AI應(yīng)用,AI算力消耗也會指數(shù)級增長。模型、應(yīng)用、算力的“飛輪”將加速轉(zhuǎn)動。
字節(jié)跳動火山引擎智能算法負(fù)責(zé)人、火山方舟負(fù)責(zé)人吳迪今年6月曾對《財(cái)經(jīng)》解釋上述邏輯。在他看來,無論是中國市場還是美國市場,未來12個月基礎(chǔ)模型的能力還會不斷提升,有三個提升方向。
其一,多模態(tài)(文本+圖片+音頻+視頻)推理模型會成為主角,這是當(dāng)下正在發(fā)生的變化。AI將可以把文本、圖片、音頻、視頻等多種信息融合在一起進(jìn)行綜合推理。它將極大增強(qiáng)Agent對現(xiàn)實(shí)世界復(fù)雜信息的理解能力。
其二,視頻生成模型將成熟可用,預(yù)計(jì)今年末將迎來一輪爆發(fā)。這意味著Agent不僅能理解世界,還能以更動態(tài)、更直觀的方式生成內(nèi)容和模擬過程。
其三,多步驟的復(fù)雜任務(wù)處理能力會大幅提升,預(yù)計(jì)今年末會有重大突破。這是Agent走向成熟的關(guān)鍵一步。當(dāng)模型能夠穩(wěn)定、可靠地規(guī)劃和執(zhí)行包含數(shù)十步甚至上百步的復(fù)雜任務(wù)時,Agent“爛尾”的問題將從根本上被解決。
在吳迪看來,目前大部分Muti-Agent應(yīng)用都“像是玩具”,但基于這三條技術(shù)主線的突破,他給出了最終判斷——Muti-Agent應(yīng)用2025年末準(zhǔn)確率將會大幅提升。2025年底具備視覺理解、推理能力的AI應(yīng)用普及后,一個基礎(chǔ)任務(wù)消耗的算力可能就會超過10萬token。屆時,token消耗量會快速爬坡。
![]()
新一輪模型競賽拉開帷幕
模型、應(yīng)用、算力“飛輪”轉(zhuǎn)動的基礎(chǔ),是不斷提升的模型能力。2025年,全球科技公司的大模型競賽愈演愈烈,大模型迭代步伐都在加速。
大模型領(lǐng)域的知識迭代以“月”甚至“周”為單位。一篇論文、一個模型就可能顛覆原有的技術(shù)路線。一位資深算法工程師曾對《財(cái)經(jīng)》表示,大模型領(lǐng)域,每周都有大量學(xué)術(shù)論文被發(fā)表;幾乎每個月都有新的技術(shù)突破;幾乎每三四個月,領(lǐng)先的模型就會被趕超。
據(jù)《財(cái)經(jīng)》不完全統(tǒng)計(jì),2025年1月1日-8月8日的220天內(nèi),中美參與模型競爭的11家科技公司(包括阿里、字節(jié)跳動、騰訊、百度、華為、DeepSeek、月之暗面、谷歌、OpenAI、Anthropic、xAI)發(fā)布或迭代了至少32版大模型,平均每6.9天就會有一版新的大模型被發(fā)布。
基礎(chǔ)模型更新周期甚至越來越短。OpenAI的GPT-4.5到GPT-5更新周期是161天;OpenAI的o1到o3,更新周期132天;xAI的Grok 3到Grok 4,更新周期142天; DeepSeek-R1兩個版本,更新周期128天;DeepSeek-V3兩個版本,更新周期87天;谷歌Gemini 2.5兩個版本,更新周期僅42天。
![]()
![]()
GPT-5的發(fā)布,將倒逼中美科技公司展開新一輪大模型的競賽——訓(xùn)練更強(qiáng)的模型、采購更大規(guī)模的算力,這條路徑在短時間內(nèi)不會改變。
當(dāng)前大模型的發(fā)展,有幾個關(guān)鍵基石。一是數(shù)據(jù)、二是算法、三是算力,它依賴“大力出奇跡”,即用巨大的資源投入來換取性能提升。
今年6月,杜克大學(xué)電子與計(jì)算機(jī)工程系教授陳怡然曾對《財(cái)經(jīng)》表示,AI演進(jìn)的基本路線,仍是大力出奇跡。大家一直在討論,這種模式未來何時是頭,潛力何時會被耗盡用盡,學(xué)術(shù)界也試圖尋找新的路徑。但目前并沒有其他行之有效的方式,所以產(chǎn)業(yè)界也沒有太多選擇,一直在沿著“大力出奇跡”往前走。
目前,中國科技公司,如阿里Qwen 3今年7月更新版本暫時追平了OpenAI今年4月發(fā)布的o3。GPT-5發(fā)布意味著,新一輪追趕又要開始。
《財(cái)經(jīng)》了解到,阿里大模型研發(fā)部門——通義實(shí)驗(yàn)室今年核心目標(biāo)之一就是,模型性能、下載量、衍生模型數(shù)量都要保持領(lǐng)先。
阿里云CTO(首席技術(shù)官)、通義實(shí)驗(yàn)室負(fù)責(zé)人周靖人今年6月在魔搭開發(fā)者大會群訪環(huán)節(jié)曾對《財(cái)經(jīng)》表示,模型性能必須具備足夠的競爭力,能夠在權(quán)威的、公認(rèn)的基準(zhǔn)測試(Benchmark)中證明自身實(shí)力。
他還提到,通義實(shí)驗(yàn)室一直將追蹤研判全球前沿技術(shù)動態(tài)視為日常工作的一部分。他們不僅會關(guān)注人工智能頂會(AAAI、IJCAI、ICML、NIPS等頂級國際學(xué)術(shù)會議)的論文,還會密切跟蹤全球各大開源社區(qū)、技術(shù)博客以及頭部AI公司的產(chǎn)品發(fā)布。
上述資深算法工程師認(rèn)為,大模型領(lǐng)域,任何性能優(yōu)勢都只是暫時的,競速是持續(xù)不斷的。
![]()
![]()
注添加微信煩勞注明來意、姓名及職業(yè),
歡迎一切良性業(yè)務(wù)探討及線索提供 !
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.