網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5 vs Claude Opus 4.1：編程能力測(cè)評(píng)

2025-08-12 14:06:19　來(lái)源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自夕小瑤科技說(shuō)

聊起嚴(yán)肅的編程，Anthropic 的 Claude 幾乎是公認(rèn)的王者，在很多開(kāi)發(fā)者心里都是 No.1 的位置。

但最近，風(fēng)向似乎有點(diǎn)變了。

OpenAI 發(fā)布了 GPT-5，我在公眾號(hào)里、社群里、論壇里，很多地方都在刷屏一個(gè)消息：GPT-5 來(lái)了，而且在編程能力上“強(qiáng)得可怕”。

雖然看了很多說(shuō) GPT-5 是“編程新王”所謂的噱頭和關(guān)于 GPT5 的評(píng)測(cè)，說(shuō)實(shí)話，我還沒(méi)看到一份有說(shuō)服力的報(bào)告。要么是拿官方的 demo 說(shuō)事，要么是測(cè)了幾個(gè)美觀度還行的 web 網(wǎng)頁(yè)就說(shuō) GPT-5 強(qiáng)。用這些下結(jié)論有點(diǎn)草率了吧。

所以，對(duì)于 GPT-5 和 Claude 誰(shuí)更厲害，模型編程 feature 各自擅長(zhǎng)什么，好多人和我一樣好奇，

今天刷到國(guó)外的一位開(kāi)發(fā)者老哥 Rohit 發(fā)布了一篇 GPT-5 vs Claude Opus 4.1 編程能力的評(píng)測(cè)博客，比較實(shí)用，這里 share 出來(lái)。

首選，評(píng)測(cè)生成的所有代碼都開(kāi)源了，可以在這個(gè)鏈接查看。

https://github.com/rohittcodes/gpt-5-vs-opus-4-1

先說(shuō)核心的結(jié)論：

算法：GPT?5 在速度與 token 數(shù)量上勝出（8K vs 79K）。
網(wǎng)頁(yè)開(kāi)發(fā)：Opus 4.1 對(duì) Figma 設(shè)計(jì)稿的還原度更高，但消耗的 token 量更大（90 萬(wàn) vs 140 萬(wàn) + token）；

GPT-5 響應(yīng)更快且成本更低， token 消耗比 Opus 4.1 節(jié)省約 90%，更適合作為一個(gè)高效的日常開(kāi)發(fā)助手使用；如果你想要設(shè)計(jì)還原度高，而且預(yù)算靈活，Opus 4.1 則更具優(yōu)勢(shì)。

再來(lái)看模型基礎(chǔ)信息與 token 使用效率對(duì)比：

上下文窗口：Claude Opus?4.1 支持 20 萬(wàn) token，上限輸出不詳；而 GPT?5 支持 40 萬(wàn) token 上下文，最大可輸出 128K token。

Token 使用效率：盡管 GPT?5 的上下文空間更大，但在相同任務(wù)下它總是使用更少的 token，從而大幅降低運(yùn)行成本。

雖然在 SWE-bench 等編碼基準(zhǔn)測(cè)試中，GPT?5 略微領(lǐng)先于 Opus?4.1，但作者后續(xù)還實(shí)測(cè)了一些 case。

測(cè)試內(nèi)容涵蓋實(shí)際開(kāi)發(fā)常見(jiàn)場(chǎng)景：

編程語(yǔ)言與任務(wù)類型：
- 算法題：使用 Java 語(yǔ)言實(shí)現(xiàn) LeetCode Advanced 題目。
- Web 開(kāi)發(fā)：使用 TypeScript + React，編寫基于 Figma 設(shè)計(jì)的 Next.js 頁(yè)面，通過(guò) Rube MCP（一種通用 MCP 接入層）進(jìn)行代碼生成。
- 其他任務(wù)：包括客戶流失預(yù)測(cè)模型等業(yè)務(wù)邏輯實(shí)現(xiàn)。
環(huán)境：所有任務(wù)均在 Cursor IDE 聯(lián)合 Rube MCP 的環(huán)境中完成。
測(cè)量指標(biāo)：token 數(shù)量、耗時(shí)、代碼質(zhì)量、實(shí)際結(jié)果。

兩個(gè)模型使用完全一樣的提示詞。

01 Figma 設(shè)計(jì)稿開(kāi)發(fā)

Rohit 從 Figma 社區(qū)找了一個(gè)復(fù)雜的儀表盤設(shè)計(jì)，要求它倆用 Next.js 和 TypeScript 把它復(fù)刻出來(lái)。

提示詞如下：

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use MCP's Figma toolkit for this task. Try to make it as close as possible. Use Next.js with TypeScript. Include: Responsive design Proper component structure Styled-components or CSS modules Interactive elements

兩位選手的表現(xiàn)：

GPT-5：

耗時(shí)：約 10 分鐘
Tokens：906,485（90 萬(wàn) token）

GPT-5 的效率沒(méi)得說(shuō)，10 分鐘就交卷了，應(yīng)用也能跑。但成品……怎么說(shuō)呢，功能完備，但視覺(jué)效果一言難盡。它 get 到了設(shè)計(jì)的框架，卻完全忽略了靈魂。顏色、間距、字體都和原稿相去甚遠(yuǎn)，仿佛開(kāi)了“低保真”模式。

是一個(gè)能干活的工程師，但是不懂審美而且干活很粗糙。

Claude Opus 4.1：

耗時(shí)：更長(zhǎng)（因?yàn)榉磸?fù)迭代）
Tokens：超過(guò) 140 萬(wàn) token (比 GPT-5 多了 55%！)

Opus 4.1 上來(lái)先耍了點(diǎn)“小脾氣”，明明指定了 styled-components，它非要用 Tailwind，需要人工糾正。但當(dāng)它“認(rèn)錯(cuò)”并開(kāi)始工作后，結(jié)果令人震驚。

UI 幾乎與 Figma 設(shè)計(jì)稿一模一樣！視覺(jué)保真度堪稱完美。

一位追求完美的“藝術(shù)家”，雖然燒錢又有點(diǎn)犟，但作品無(wú)可挑剔。

02 LeetCode 算法題

為了考驗(yàn)純粹的邏輯和效率，Rohit 拋出了經(jīng)典的 LeetCode 難題：“尋找兩個(gè)正序數(shù)組的中位數(shù)”，并要求時(shí)間復(fù)雜度為 O(log(m+n))”。

提示詞如下：

Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

GPT-5：

耗時(shí)：約 13 秒
Tokens：8,253

GPT-5 幾乎沒(méi)有任何廢話，13 秒內(nèi)給出了一個(gè)干凈利落、完全正確的二分查找解法。代碼優(yōu)雅，效率拉滿。

Claude Opus 4.1：

耗時(shí)：約 34 秒
Tokens：78,920 (接近 GPT-5 的 10 倍！)

Opus 4.1 則完全是另一種畫風(fēng)。它不僅給出了答案，還附上了一篇“小論文”：詳細(xì)的推理步驟、全面的代碼注釋，甚至內(nèi)置了測(cè)試用例，生怕你學(xué)不會(huì)。雖然算法核心是一樣的，但它的輸出附帶了極高的“教育價(jià)值”。

想快速要答案，找 GPT-5；想學(xué)習(xí)解題思路，Opus 4.1 是你最好的老師。

03 ML 復(fù)雜任務(wù)

最后一個(gè)挑戰(zhàn)是構(gòu)建一個(gè)完整的機(jī)器學(xué)習(xí)的 pipeline，預(yù)測(cè)客戶流失。

然而，在見(jiàn)識(shí)了 Opus 4.1 在第一輪中驚人的 token 消耗后，Rohit 出于對(duì)錢包的尊重，明智地讓它“輪休”了。這一局，只有 GPT-5 單挑。

提示詞如下：

Build a complete ML pipeline for predicting customer churn, including: Data preprocessing and cleaning Feature engineering Model selection and training Evaluation and metrics Explain the reasoning behind each step in detail

結(jié)果顯示，GPT-5 完全能勝任這種復(fù)雜的端到端任務(wù)。從數(shù)據(jù)預(yù)處理、特征工程，到多模型訓(xùn)練（邏輯回歸、隨機(jī)森林、XGBoost），再到使用 SMOTE 處理數(shù)據(jù)不平衡問(wèn)題和全面的效果評(píng)估，整個(gè)流程一氣呵成，代碼扎實(shí)可靠。

耗時(shí)：約 4-5 分鐘
Tokens：約 86,850

04 成本對(duì)決：真金白銀的較量

效果看完了，那我們來(lái)算算賬。畢竟，這才可能是最能影響開(kāi)發(fā)者選擇的因素。

GPT-5 (Thinking 模式)-完成三項(xiàng)測(cè)試任務(wù)
- Web 應(yīng)用：~$2.58
- 算法：~$0.03
- ML 流水線：~$0.88
- 總計(jì)：約 $3.50
Opus 4.1 (Thinking + Max 模式)-僅完成兩項(xiàng)測(cè)試任務(wù)
- Web 應(yīng)用：~$7.15
- 算法：~$0.43
- 總計(jì)：$7.58

結(jié)論一目了然：Opus 4.1 的使用成本是 GPT-5 的兩倍以上。

05 評(píng)測(cè)結(jié)論

GPT-5 的優(yōu)勢(shì)

算法任務(wù)中 token 使用少、響應(yīng)快，效率極高。
更適合日常開(kāi)發(fā)，尤其是快速迭代與原型驗(yàn)證。
整體 token 成本大幅低于 Opus?4.1。

Claude Opus 4.1 的優(yōu)勢(shì)：

提供清晰的、一步步解釋的代碼邏輯，對(duì)學(xué)習(xí)過(guò)程友好。
在視覺(jué) fidelity（設(shè)計(jì)還原度）方面表現(xiàn)出色，非常貼近 Figma 原稿。
適合對(duì)界面精度要求高的場(chǎng)景。

所以，如果你是日常開(kāi)發(fā)，優(yōu)先使用 GPT?5，性能與成本兼顧。如果界面還原要求高的設(shè)計(jì)任務(wù)，可選擇 Claude Opus?4.1，提升最終效果，但需預(yù)算充足。

推薦組合策略：先用 GPT?5 打好基礎(chǔ)，然后在關(guān)鍵界面環(huán)節(jié)，用 Opus?4.1 打磨細(xì)節(jié)，實(shí)現(xiàn)效率與精度的平衡。

參考文獻(xiàn)
https://composio.dev/blog/openai-gpt-5-vs-claude-opus-4-1-a-coding-comparison

作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù)，歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi，共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)！

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計(jì)費(fèi)，平均節(jié)省開(kāi)支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.