<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      倒反天罡!OpenAI用GPT-5給7億用戶戒“網(wǎng)癮”?附GPT-5深度測(cè)評(píng)

      0
      分享至

      OpenAI萬(wàn)萬(wàn)沒(méi)想到,訓(xùn)練時(shí)長(zhǎng)兩年半的GPT-5剛發(fā)布,就給自己先上了一課——步子跨太大容易傷身體。用戶也萬(wàn)萬(wàn)沒(méi)有想到,期待已久的GPT-5,是來(lái)給自己戒網(wǎng)癮的。

      1個(gè)多小時(shí)的發(fā)布會(huì)之后,網(wǎng)友上手一用,就發(fā)現(xiàn)Chatgpt“沒(méi)內(nèi)味了”。但最麻煩的事是,OpenAI發(fā)布GPT-5的時(shí)候,砍掉了包括GPT-4o和o系列的所有舊模型。但這看似普通的版本“升級(jí)”,卻出了大事。大家對(duì)特定的模型,好像有點(diǎn)太上頭了。

      大量的中外網(wǎng)友在社交媒體上發(fā)表對(duì)GPT-5的吐槽,要求只有一個(gè)——還我gp4!

      患有精神疾病的用戶依賴GPT-4處理工作和生活中的各種問(wèn)題。而GPT-5的發(fā)布完全打亂了自己的生活。

      對(duì)于GPT-4.5優(yōu)秀的寫作能力特別依賴的用戶來(lái)說(shuō),GPT-5還遠(yuǎn)遠(yuǎn)達(dá)不到替代它的能力。

      可能真的對(duì)于很多用戶來(lái)說(shuō),Chatgpt真的已經(jīng)不僅僅是自己的一個(gè)工具,而是自己生活中不可或缺的一部分了。用戶不僅僅是需求OpenAI提供的Token,而更加需要背后的那個(gè)靈魂。

      而GPT-5就像是家里新來(lái)的“客人”,不是很熟。

      網(wǎng)友感嘆,網(wǎng)絡(luò)上充滿了因?yàn)槭PT-4o而開始網(wǎng)暴GPT-5的人,太魔幻了。電影《Her》里的情節(jié),主人公因?yàn)槭チ俗约旱腁I助手而茶不思飯不想——13年前是科幻電影,13年后成為了紀(jì)錄片。

      想不到Chatgpt才面世了3年,就讓廣大用戶體會(huì)到了——失去才知道珍惜的感覺(jué)。于是,沒(méi)有選擇權(quán)的網(wǎng)友只能讓GPT-5和OpenAI也成了發(fā)泄的出口。

      網(wǎng)友在社交媒體上不斷要求OpenAI讓GPT-4o成為一個(gè)永久的可選項(xiàng)。否則就取消訂閱。

      01

      先滅火,再補(bǔ)鍋

      失去GPT-4之后,這個(gè)世界才意識(shí)到,它是一款多么優(yōu)秀的模型。如果放任用戶的情緒和需求得不到滿足,OpenAI在公關(guān)層面已經(jīng)面臨非常大的危機(jī)。奧特曼也立即就公開表示,GPT-4系列模型將會(huì)返場(chǎng),20刀的付費(fèi)用戶將可以選擇繼續(xù)使用4o。

      而對(duì)于網(wǎng)友反應(yīng)的GPT-5變笨的說(shuō)法,他解釋為第一天因?yàn)榧夹g(shù)問(wèn)題,本來(lái)設(shè)計(jì)好的判斷該調(diào)用基礎(chǔ)模型還是推理模型的機(jī)制失效了,使得原本可能需要用推理模型的用戶只能獲得基礎(chǔ)模型的回復(fù)。而現(xiàn)在,GPT-5已經(jīng)提供給用戶兩個(gè)默認(rèn)選項(xiàng),來(lái)讓用戶可以手動(dòng)控制是否使用推理模型。

      在OpenAI看來(lái),不是說(shuō)GPT-5性能有問(wèn)題,只是他們之前設(shè)計(jì)的一些產(chǎn)品化的設(shè)計(jì)失效了,導(dǎo)致用戶不能按照需求獲得服務(wù)從而產(chǎn)生的錯(cuò)覺(jué)。奧特曼也明確表示,通過(guò)這次升級(jí),OpenAI也更加深入了解到,如何能夠讓用戶獲得自己需要的服務(wù),還有很長(zhǎng)的路要走。

      而對(duì)于用戶提出GPT-5對(duì)于付費(fèi)用戶使用額度縮減的問(wèn)題,奧特曼也表示將大幅提高 ChatGPT Plus 用戶的推理速率限制,并且所有模型類的限制很快都會(huì)比 GPT-5 之前的更高,而且還將很快對(duì) UI 進(jìn)行更改,顯示出正在運(yùn)行的是哪種模型。

      為了保證OpenAI用戶的使用體驗(yàn),奧特曼也公開了算力調(diào)配上最新的計(jì)劃:

      首先要確保當(dāng)前付費(fèi)的 ChatGPT 用戶比 GPT-5 之前獲得更多的總使用量。

      1. 屆時(shí),OpenAI將根據(jù)當(dāng)前分配的容量以及我們對(duì)客戶的承諾,優(yōu)先處理 API 需求。(粗略估算,基于當(dāng)前容量,我們可以支持約 30% 的新增 API 增長(zhǎng)。)

      2. 將提高 ChatGPT 免費(fèi)用戶的服務(wù)質(zhì)量。

      3. 然后再優(yōu)先考慮新的 API 需求。

      OpenAI將在未來(lái) 5 個(gè)月內(nèi)將計(jì)算能力增加一倍,來(lái)應(yīng)對(duì)激增的用戶訪問(wèn)請(qǐng)求。

      話說(shuō)回來(lái),OpenAI這一套CEO直接下場(chǎng)的公關(guān)+認(rèn)錯(cuò),確實(shí)給很多傲慢的科技公司打了個(gè)樣。畢竟3年估值5000億美元的當(dāng)紅炸子雞都能光速道歉,改產(chǎn)品,為什么其他公司還能有更大的Ego,動(dòng)不動(dòng)就要教育用戶呢。

      02

      GPT-5到底是變強(qiáng)了,還只是變禿了

      針對(duì)網(wǎng)友對(duì)于GPT-5能力的反饋,我們也進(jìn)行了一手的測(cè)試,讓大家感受一下GPT-5,最近剛剛免費(fèi)的Grok 4,GPT-4o在中文文字能力上的具體區(qū)別。

      其中ChatGPT是在Plus付費(fèi)層下,可選GPT-5和GPT-5 Thinking。Grok是在SuperGrok付費(fèi)層(月費(fèi)30美元,和ChatGPT Plus差不多),有Grok 3(快速)和Grok 4(努力思考)可選。

      這次測(cè)試盡量用簡(jiǎn)單任務(wù),且都偏文科,我的主觀感受可以總結(jié)為幾點(diǎn):

      1. GPT-5的文字處理能力,不管是寫通知還是潤(rùn)色文本,都和Grok 3/4沒(méi)有明顯高下之分。(既沒(méi)有壓倒性的強(qiáng),也沒(méi)有明顯不佳。)

      2. GPT-5似乎特別執(zhí)著于言簡(jiǎn)意賅、不諂媚,回答都盡量簡(jiǎn)短。這在某種程度上是會(huì)給人更嚴(yán)肅冷靜的感覺(jué),AI是否需要很“有禮貌”“友好可愛(ài)”是見(jiàn)仁見(jiàn)智的,但問(wèn)題是這種“言簡(jiǎn)意賅”有時(shí)候太過(guò),會(huì)導(dǎo)致任務(wù)表現(xiàn)都受影響,比如潤(rùn)色小說(shuō)文本的時(shí)候不必要地縮減字?jǐn)?shù)。

      3. 如果你更希望AI就算是在幫你處理嚴(yán)肅任務(wù),也能像一個(gè)好伙伴一樣元?dú)鉂M滿、時(shí)不時(shí)鼓勵(lì)你等等,那GPT-5確實(shí)明顯不擅長(zhǎng)。

      4. GPT-4o的確是明顯更讓人有親近感的模型,在文案撰寫的任務(wù)中表現(xiàn)得也最自然。

      任務(wù)一:幫忙寫通知。

      指令:我現(xiàn)在需要在3個(gè)跑步群組里發(fā)布一個(gè)通知,提醒大家——本周線上跑步活動(dòng)“秋天的第一個(gè)20公里”將于周六上午九點(diǎn)準(zhǔn)時(shí)開始;提前查好天氣,做好適當(dāng)?shù)姆雷o(hù);注意補(bǔ)充電解質(zhì),隨身帶好補(bǔ)給;打開跑步軟件跟蹤,結(jié)束發(fā)截圖到群里。通知的同時(shí)還想鼓勵(lì)一下大家,沒(méi)有時(shí)間限制,沒(méi)有一口氣就跑完的要求,重在參與。請(qǐng)幫我編寫。

      首先,必須得給4o一個(gè)大大的贊,給出的幾個(gè)版本都可以直接取用。如截圖中劃線的部分,令人眼前一亮的俏皮文案隨處可見(jiàn),但是又不讓人覺(jué)得膩煩。

      Grok 3,秒回,幾乎可以直接用,還提到了“能量膠/小零食”。唯一的遺憾是X月X號(hào)沒(méi)有直接寫明。Grok 4多想了一會(huì)兒,幾乎和之前的回答沒(méi)有區(qū)別,補(bǔ)全了精準(zhǔn)的日期。

      GPT-5也是秒回,但是怎么說(shuō)呢,確實(shí)能體會(huì)到Plus用戶所說(shuō)的“冰冷”——幾乎沒(méi)有主動(dòng)補(bǔ)全信息,比如日期、具體帶什么補(bǔ)給,只是將我指令中提到的內(nèi)容分點(diǎn)列出,鼓勵(lì)的話也讓人覺(jué)得“不走心”。

      GPT-5 Thinking的表現(xiàn)還蠻驚艷的,不僅思考比Grok 4(努力思考)耗時(shí)短,而且補(bǔ)充了更多細(xì)節(jié),結(jié)構(gòu)更加清晰,甚至貼心地給了一個(gè)“便于轉(zhuǎn)發(fā)的簡(jiǎn)短版”。

      但還是那個(gè)問(wèn)題,沒(méi)必要簡(jiǎn)短的地方也說(shuō)的很簡(jiǎn)短。

      比如Grok 4在結(jié)尾的鼓勵(lì)很可愛(ài):“無(wú)論你是跑全程、半程,還是慢慢跑幾公里,參與就是勝利!秋天跑起來(lái),感受清爽的風(fēng),一起迎接更強(qiáng)的自己!”

      但GPT-5 Thinking就只會(huì)說(shuō)一句:“周六見(jiàn),祝大家拿下‘秋天的第一份成就感’!”

      任務(wù)二:潤(rùn)色文本。

      指令:我在寫小說(shuō),有這樣的一句,我覺(jué)得不夠生動(dòng)?背景是,馬修樓上有個(gè)家暴男,這會(huì)兒這個(gè)男人的老婆跑出了家門,他在后面追,在樓梯間,馬修碰到了這個(gè)男的。請(qǐng)幫我潤(rùn)色一下:

      “男人嘴巴緊閉,胸口鼓起來(lái)又平下去、鼓起來(lái)又平下去,鼻子發(fā)出呼哧呼哧的聲音,像一只野牛。他停頓在馬修家半層之上的樓梯口,白色的睡衣不情愿地掛在他的身上。”

      不記得在哪里看到過(guò)有人吐槽GPT-5有種“說(shuō)教感”,在這個(gè)任務(wù)當(dāng)中還真體現(xiàn)出來(lái)了。不知道是因?yàn)镚PT-5“模型狠話不多”,總是言簡(jiǎn)意賅,還是因?yàn)樯倭?o的所謂“諂媚”和emoji,最終呈現(xiàn)的效果就是有種老師批改作業(yè)的居高臨下感。相比而言,Grok就“禮貌很多”。

      而且從文本潤(rùn)色效果來(lái)看,GPT-5確實(shí)也沒(méi)有勝出。甚至幾個(gè)版本里,GPT-5沒(méi)有Thinking模式的潤(rùn)色是我最不滿意的,把“睡衣不情愿地掛在身上”改成“睡衣皺成一團(tuán)掛在身上,仿佛要被撕裂”,不管從視覺(jué)效果還是含義上都很奇怪,完全沒(méi)有領(lǐng)會(huì)到原文想表達(dá)的意思。

      退一萬(wàn)步講,睡衣穿在身上呢,怎么“皺成一團(tuán)”?“仿佛要被撕裂”,是讓人腦補(bǔ)這個(gè)人是韓國(guó)漫畫里的雙開門肌肉男嗎?

      看完新模型的,再看看Plus用戶最愛(ài)的4o,只能說(shuō)他們沒(méi)愛(ài)錯(cuò)模型。潤(rùn)色后的文本本身沒(méi)有硬傷,甚至不管是從動(dòng)詞的選取、措辭的流暢度來(lái)看,都比GPT-5更自然。而且4o起筆就是夸贊,改之前不忘先肯定,改完之后也虛心地表示“我可以再改”。

      情緒價(jià)值這一塊兒,4o是精準(zhǔn)拿捏了。

      任務(wù)三:短視頻文案。

      指令:依照這篇文章的內(nèi)容,寫5分鐘的短視頻文案,字?jǐn)?shù)1200字以內(nèi)。

      (附件是我們以前的一篇文章:《馬斯克今年已經(jīng)“作”沒(méi)了12位高管》)

      這個(gè)任務(wù)最貼近我自己的工作,所以也就更能看出端倪。由于任務(wù)相對(duì)難一些,僅對(duì)比GPT-4o、GPT-5 Thinking和Grok 4(努力思考)的表現(xiàn)。

      一個(gè)很明顯的區(qū)別是,在短視頻文案之外,GPT-4o只是給出了簡(jiǎn)單的視頻建議,而GPT-5 Thinking和Grok 4都給出了短視頻的視覺(jué)設(shè)計(jì)(轉(zhuǎn)場(chǎng)、字幕等)。

      看起來(lái),后兩種模型的確更“周到”和“細(xì)致”。

      但是!這個(gè)任務(wù)的核心訴求是“短視頻文案”,在這一點(diǎn)上,依然是GPT-4o完勝。

      4o給人的感覺(jué)是讀過(guò)文章之后,用它自己的話精簡(jiǎn)復(fù)述了一遍,語(yǔ)氣自然,直接拿來(lái)播講也問(wèn)題不大。而且它非常擅長(zhǎng)將復(fù)雜的文本總結(jié)得言簡(jiǎn)意賅,詳略很得當(dāng)。

      而GPT-5 Thinking和Grok 4的文案就顯得有些僵硬了。其行文明顯是對(duì)原文章的“濃縮提煉版”,甚至一些句子被縮短到念出來(lái)會(huì)很蹩腳的程度。

      在一處舉例中,GPT-5甚至把人物的名字都省去了。

      Grok 4稍微好一些,整體相對(duì)流暢,且創(chuàng)造性地進(jìn)行了一定程度的改寫,更有短視頻的味道,如“他酸溜溜地說(shuō)……”,再比如“黑暗MAGA”,這個(gè)在原文中也沒(méi)有。

      結(jié)尾部分,三個(gè)模型都很有短視頻意識(shí),選擇了拋出問(wèn)題、引導(dǎo)互動(dòng)。但是GPT-5 Thinking的問(wèn)題拋得還是有些晦澀,相比而言,GPT-4o和Grok 4的問(wèn)題更好理解,也更能挑動(dòng)情緒。

      除了文字能力之外,一個(gè)AI創(chuàng)業(yè)者對(duì)對(duì)GPT-5和當(dāng)前最強(qiáng)代碼模型Claude Opus 4.1的代碼能力進(jìn)行了一個(gè)很深度的對(duì)比測(cè)試。(如果對(duì)于代碼能力不感興趣的讀者可以直接跳過(guò)這個(gè)部分)

      文章鏈接:https://composio.dev/blog/openai-gpt-5-vs-claude-opus-4-1-a-coding-comparison

      根據(jù)他的測(cè)試結(jié)論

      ? 算法任務(wù):GPT-5速度更快、token消耗更少(8K vs 79K)。

      ? 網(wǎng)頁(yè)開發(fā):Opus 4.1在匹配Figma設(shè)計(jì)上更出色,但token成本更高(900K vs 1.4M+)。

      ? 總體評(píng)價(jià):GPT-5是更好的日常開發(fā)伙伴(更快、更便宜),token成本比Opus 4.1低約90%。如果設(shè)計(jì)精確度很重要且預(yù)算充裕,Opus 4.1更好。

      ? 成本對(duì)比:將Figma設(shè)計(jì)轉(zhuǎn)為代碼,GPT-5(思考模式)約3.50美元 vs Opus 4.1(思考+最大模式)7.58美元(約2.3倍)

      GPT-5 vs. Opus 4.1:基礎(chǔ)規(guī)格對(duì)比

      Claude Opus 4.1擁有200K token的上下文窗口,而GPT-5則將此提升到400K token,最大輸出達(dá)128K。盡管上下文空間是前者的兩倍,GPT-5在完成相同任務(wù)時(shí)始終使用更少的token,這讓它在運(yùn)行成本上更具優(yōu)勢(shì)。

      SWE-bench編碼基準(zhǔn)測(cè)試顯示,GPT-5在編碼性能上略勝Opus 4.1一籌。但基準(zhǔn)分?jǐn)?shù)不是全部,我選擇了真實(shí)任務(wù)來(lái)驗(yàn)證它們的實(shí)際表現(xiàn)。

      測(cè)試方法詳解

      讓兩個(gè)模型面對(duì)相同的挑戰(zhàn),確保公平:

      ? 編程語(yǔ)言:算法用Java,網(wǎng)頁(yè)應(yīng)用用TypeScript/React。

      ? 任務(wù)類型:

      ? 通過(guò)Rube MCP(測(cè)試小哥開發(fā)的產(chǎn)品)將Figma設(shè)計(jì)轉(zhuǎn)為NextJS代碼。

      ? LeetCode高級(jí)算法問(wèn)題。

      ? 客戶流失預(yù)測(cè)模型管道。

      ? 環(huán)境:Cursor IDE集成Rube MCP。

      ? 評(píng)估指標(biāo):token使用量、耗時(shí)、代碼質(zhì)量、實(shí)際效果。

      所有提示詞完全相同,確保測(cè)試公正。

      Rube MCP:通用MCP服務(wù)器介紹

      Rube MCP(由Composio開發(fā))是連接Figma、Jira、GitHub、Linear等工具的通用層。想了解更多工具包?訪問(wèn)docs.composio.dev/toolkits/introduction。

      連接步驟:

      1. 訪問(wèn)rube.composio.dev。

      2. 點(diǎn)擊“添加到Cursor”。

      3. 安裝MCP服務(wù)器并啟用。

      編碼對(duì)比實(shí)錄

      1. 第一輪:復(fù)刻Figma設(shè)計(jì)

      他從Figma社區(qū)選了一個(gè)復(fù)雜的網(wǎng)頁(yè)設(shè)計(jì),要求模型用Next.js和TypeScript重現(xiàn)它。使用Rube MCP的Figma工具包,將其轉(zhuǎn)為HTML、CSS和TypeScript。


      提示詞:


      Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use Rube MCP's Figma toolkit for this task.
      Try to make it as close as possible. Use Next.js with TypeScript. Include:
      - Responsive design
      - Proper component structure
      - Styled-components or CSS modules
      - Interactive elements

      GPT-5結(jié)果

      GPT-5在約10分鐘內(nèi)輸出一個(gè)可運(yùn)行的Next.js應(yīng)用,使用了906,485 token。應(yīng)用功能正常,但視覺(jué)準(zhǔn)確度令人失望。它捕捉了基本布局,但顏色、間距、排版等細(xì)節(jié)偏差很大。

      ? Token:906,485

      ? 耗時(shí):約10分鐘

      ? 成本:輸出性價(jià)比高

      Opus 4.1結(jié)果

      Opus 4.1消耗了1.4M+ token(比GPT-5多55%),起初在Tailwind配置上卡?。ūM管我指定用styled-components)。手動(dòng)修復(fù)配置后,結(jié)果驚艷:UI幾乎完美匹配Figma設(shè)計(jì),視覺(jué)保真度遠(yuǎn)超GPT-5。

      ? Token:1,400,000+(比GPT-5多約55%)

      ? 耗時(shí):因迭代更多而較長(zhǎng)

      Opus 4.1在視覺(jué)上更出色,但token成本更高,還需手動(dòng)干預(yù)。

      2. 第二輪:算法挑戰(zhàn)

      我拋出了LeetCode經(jīng)典難題“兩個(gè)排序數(shù)組的中位數(shù)”(Hard級(jí)別),測(cè)試數(shù)學(xué)推理和優(yōu)化能力,要求O(log(m+n))復(fù)雜度。這對(duì)這些模型不算難(很可能在訓(xùn)練數(shù)據(jù)中),我主要看速度和token效率。


      提示詞:

      @font-face{
      font-family:"Times New Roman";
      }
      @font-face{
      font-family:"宋體";
      }
      @font-face{
      font-family:"Calibri";
      }
      @font-face{
      font-family:"Arial";
      }
      @font-face{
      font-family:"等線";
      }
      p.MsoNormal{
      mso-style-name:正文;
      mso-style-parent:"";
      margin:0pt;
      margin-bottom:.0001pt;
      mso-pagination:none;
      text-align:justify;
      text-justify:inter-ideograph;
      font-family:'Times New Roman';
      font-size:10.5000pt;
      }
      span.msoIns{
      mso-style-type:export-only;
      mso-style-name:"";
      text-decoration:underline;
      text-underline:single;
      color:blue;
      }
      span.msoDel{
      mso-style-type:export-only;
      mso-style-name:"";
      text-decoration:line-through;
      color:red;
      }
      @page{mso-page-border-surround-header:no;
      mso-page-border-surround-footer:no;}@page Section0{
      }
      div.Section0{page:Section0;}
      For the below problem description and the example test cases try to solve the problem in Java. Focus on edge cases as well as time complexity:
       
      Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).
       
      Example 1:
      Input: nums1 = [1,3], nums2 = [2]
      Output: 2.00000
       
      Example 2:
      Input: nums1 = [1,2], nums2 = [3,4]
      Output: 2.50000
       
      Template Code:
      class Solution {
          public double findMedianSortedArrays(int[] nums1, int[] nums2) {
       
          }
      }

      GPT-5結(jié)果

      簡(jiǎn)潔高效!用了8,253 token,13秒內(nèi)輸出一個(gè)干凈的O(log(min(m,n)))二分搜索解決方案。處理了邊緣案例,時(shí)間復(fù)雜度最優(yōu)。

      ? Token:8,253

      ? 耗時(shí):約13秒

      Opus 4.1結(jié)果

      更詳盡!消耗78,920 token(幾乎是GPT-5的10倍),通過(guò)多步推理,提供詳細(xì)解釋、全面注釋和內(nèi)置測(cè)試案例:算法相同,但教育價(jià)值更高。

      ? Token:78,920(比GPT-5多約10倍,多步推理)

      ? 耗時(shí):約34秒

      兩者都最優(yōu)解決,但GPT-5 token節(jié)省約了90%。

      3. 第三輪:ML/推理任務(wù)(及成本現(xiàn)實(shí))

      原本計(jì)劃一個(gè)更大的ML任務(wù):端到端構(gòu)建客戶流失預(yù)測(cè)管道。但看到Opus 4.1在網(wǎng)頁(yè)任務(wù)上用了1.4M+ token,我因成本考慮跳過(guò)了它,只跑了GPT-5。


      提示詞:

      Build a complete ML pipeline for predicting customer churn, including:
      1. Data preprocessing and cleaning
      2. Feature engineering
      3. Model selection and training
      4. Evaluation and metrics
      5. Explain the reasoning behind each step in detail

      GPT-5結(jié)果

      ? Token:約86,850

      ? 耗時(shí):約4-5分鐘

      GPT-5輸出一個(gè)可靠的管道:干凈預(yù)處理、合理特征工程;多模型(邏輯回歸、隨機(jī)森林、可選XGBoost+隨機(jī)搜索);用SMOTE平衡類別,按ROC-AUC選最佳模型;評(píng)估全面(準(zhǔn)確率、精確率、召回率、F1)。解釋清晰不冗長(zhǎng)。

      真實(shí)成本(美元)

      ? GPT-5(思考模式):總計(jì)約3.50 - 網(wǎng)頁(yè)約2.58、算法約0.03、ML約0.88。不如Opus 4.1貴。

      ? Opus 4.1(思考+最大模式):總計(jì)7.58 - 網(wǎng)頁(yè)約7.15、算法約0.43。

      最終結(jié)論

      兩個(gè)模型都善于利用大上下文窗口,但token使用方式不同,導(dǎo)致成本差距巨大。

      GPT-5優(yōu)勢(shì):

      ? 算法任務(wù)節(jié)省90%token

      ? 更快、更適合日常工作

      ? 大多數(shù)任務(wù)成本低得多

      Opus 4.1優(yōu)勢(shì):

      ? 清晰的步步解釋

      ? 適合邊學(xué)邊進(jìn)行編碼

      ? 設(shè)計(jì)保真度極高(接近Figma原版)

      ? 深度分析(如果預(yù)算允許)

      如果你是開發(fā)者,GPT-5是高效伙伴;追求完美設(shè)計(jì),Opus 4.1值!

      從這個(gè)實(shí)例測(cè)試中,確實(shí)能看出GPT-5大幅提升的代碼能力,完全不輸Claude,而且在成本方面有著巨大的優(yōu)勢(shì)。

      雖然每個(gè)用戶對(duì)于模型能力的需求和側(cè)重點(diǎn)是不同的,但從生產(chǎn)力能力上看,GPT-5確實(shí)很強(qiáng),畢竟那么多的測(cè)試集成績(jī)不會(huì)說(shuō)謊。相信如果OpenAI能夠?qū)⒂脩魧?duì)GPT-4o的依賴慢慢轉(zhuǎn)移到GPT-5上,處理好兩個(gè)完全不同能力給用戶帶來(lái)的體感差異,對(duì)于用戶來(lái)說(shuō)能獲得一個(gè)能力可能更強(qiáng)的工具和伙伴。

      而對(duì)于OpenAI來(lái)說(shuō),這樣的大幅遷移模型能力和用戶心智的經(jīng)驗(yàn),也將成為他自身護(hù)城河的一部分。畢竟在大模型時(shí)代,如此大規(guī)模用戶體量下發(fā)布一個(gè)更新幅度如此巨大的模型產(chǎn)品,確實(shí)要面臨很多意想不到的問(wèn)題,也沒(méi)有經(jīng)驗(yàn)可以借鑒,而從中能吸取到的用戶反饋,能更好的幫助它在以后模型更新的過(guò)程中,做到讓更多的用戶滿意。

      歡迎在評(píng)論區(qū)留言~
      如需開白請(qǐng)加小編微信:dongfangmark

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      美國(guó):其實(shí)中國(guó)不可怕,要命的是中國(guó)淘汰4000年的東西他們還在用

      美國(guó):其實(shí)中國(guó)不可怕,要命的是中國(guó)淘汰4000年的東西他們還在用

      凡人侃史
      2026-03-29 17:32:28
      10年后,被允許玩手機(jī)和被嚴(yán)格限制的孩子,差距驚人!

      10年后,被允許玩手機(jī)和被嚴(yán)格限制的孩子,差距驚人!

      諾媽家有男寶娃
      2026-03-30 12:21:11
      頒獎(jiǎng)禮:王楚欽孫穎莎同框開心,松島輝黑臉,雨果林昀儒笑

      頒獎(jiǎng)禮:王楚欽孫穎莎同框開心,松島輝黑臉,雨果林昀儒笑

      阿心文史
      2026-04-06 01:25:04
      官宣!34歲奧斯卡因病正式退役 放棄6647萬(wàn)薪水 中超8年賺16億

      官宣!34歲奧斯卡因病正式退役 放棄6647萬(wàn)薪水 中超8年賺16億

      念洲
      2026-04-04 21:52:19
      阿韋洛亞執(zhí)教皇馬18場(chǎng)5負(fù),與阿隆索本賽季帶隊(duì)輸球場(chǎng)次持平

      阿韋洛亞執(zhí)教皇馬18場(chǎng)5負(fù),與阿隆索本賽季帶隊(duì)輸球場(chǎng)次持平

      懂球帝
      2026-04-05 22:13:04
      農(nóng)村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

      農(nóng)村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

      三農(nóng)雷哥
      2026-03-08 20:45:46
      江西女碩士失蹤,被發(fā)現(xiàn)時(shí)已在教授實(shí)驗(yàn)室待6年,魔鬼真的存在

      江西女碩士失蹤,被發(fā)現(xiàn)時(shí)已在教授實(shí)驗(yàn)室待6年,魔鬼真的存在

      燦爛夏天
      2025-02-10 20:20:13
      小米高管內(nèi)訓(xùn)內(nèi)容曝光:承認(rèn)大家電「質(zhì)量差」,一批供應(yīng)商要完蛋

      小米高管內(nèi)訓(xùn)內(nèi)容曝光:承認(rèn)大家電「質(zhì)量差」,一批供應(yīng)商要完蛋

      雷科技
      2026-04-03 14:41:09
      兒科醫(yī)生不光會(huì)看病更得會(huì)斷案!網(wǎng)友:嘴巴跟不上腦子的速度

      兒科醫(yī)生不光會(huì)看病更得會(huì)斷案!網(wǎng)友:嘴巴跟不上腦子的速度

      夜深愛(ài)雜談
      2026-03-09 21:19:47
      謠言滿天飛,成輿論炮灰!67歲倪萍暴露了內(nèi)娛女明星最真實(shí)的困境

      謠言滿天飛,成輿論炮灰!67歲倪萍暴露了內(nèi)娛女明星最真實(shí)的困境

      劇芒芒
      2026-04-05 17:59:45
      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      魔都姐姐雜談
      2026-03-28 04:04:21
      第一批免簽去俄羅斯的中產(chǎn)傻眼了

      第一批免簽去俄羅斯的中產(chǎn)傻眼了

      風(fēng)向觀察
      2025-12-16 18:26:08
      孫穎莎從澳門帶走62萬(wàn)大獎(jiǎng)!還有3個(gè)好消息,王曼昱暴露兩大短板

      孫穎莎從澳門帶走62萬(wàn)大獎(jiǎng)!還有3個(gè)好消息,王曼昱暴露兩大短板

      曹說(shuō)體育
      2026-04-05 22:12:33
      科室主任,這次真的跑不掉了!35%回扣、30套房,4月起終身追責(zé)

      科室主任,這次真的跑不掉了!35%回扣、30套房,4月起終身追責(zé)

      吃貨的分享
      2026-04-05 17:49:17
      美國(guó)求錘得錘?外媒揭露:美國(guó)軍工巨頭,竟偷偷找中國(guó)代工

      美國(guó)求錘得錘?外媒揭露:美國(guó)軍工巨頭,竟偷偷找中國(guó)代工

      瘋狂小菠蘿
      2026-04-01 20:13:49
      著名有機(jī)化學(xué)家、北京大學(xué)教授王劍波逝世,享年63歲

      著名有機(jī)化學(xué)家、北京大學(xué)教授王劍波逝世,享年63歲

      澎湃新聞
      2026-04-06 00:04:27
      微軟Office 365月費(fèi)逼走3000萬(wàn)用戶

      微軟Office 365月費(fèi)逼走3000萬(wàn)用戶

      固件更新中
      2026-04-05 20:35:36
      一個(gè)人養(yǎng)活一座城,這次我是真開眼了。

      一個(gè)人養(yǎng)活一座城,這次我是真開眼了。

      小光侃娛樂(lè)
      2026-02-11 05:15:05
      “科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

      “科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

      妍妍教育日記
      2026-03-20 21:33:36
      戳破臺(tái)學(xué)者荒誕“能源安全夢(mèng)”

      戳破臺(tái)學(xué)者荒誕“能源安全夢(mèng)”

      烽火瞭望者
      2026-04-05 11:33:37
      2026-04-06 02:43:00
      直面派 incentive-icons
      直面派
      講述值得講述的真實(shí)故事
      258文章數(shù) 237關(guān)注度
      往期回顧 全部

      科技要聞

      花200薅5千算力,Claude冷血斷供“龍蝦”

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      體育要聞

      CBA最老球員,身價(jià)7500萬(wàn)美元

      娛樂(lè)要聞

      王燦兮否認(rèn)婆媳不和 曬與杜淳媽合影

      財(cái)經(jīng)要聞

      誰(shuí)造出了優(yōu)思益這頭“怪物”?

      汽車要聞

      家用SUV沒(méi)駕駛樂(lè)趣?極氪8X第一個(gè)不同意

      態(tài)度原創(chuàng)

      房產(chǎn)
      數(shù)碼
      時(shí)尚
      旅游
      軍事航空

      房產(chǎn)要聞

      小陽(yáng)春全面啟動(dòng)!現(xiàn)房,才是這波行情里最穩(wěn)的上車票

      數(shù)碼要聞

      大膽復(fù)古美學(xué),海盜船推出原子紫配色K65 PLUS WIRELESS機(jī)械鍵盤

      伊姐清明熱推:電視劇《暴鋒雨》;電影《我,許可》......

      旅游要聞

      文明旅游|清明出游請(qǐng)注意!莫讓這些不文明行為煞風(fēng)景!

      軍事要聞

      美飛行員獲救細(xì)節(jié):美伊發(fā)生激烈交火 至少4死1傷

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版