OpenAI剛剛發(fā)布了GPT4.5,也就是他們號稱的「最后一代非推理大模型」,為了測試效果,我花了200美元。
先簡單總結(jié)下GPT-4.5升級的核心內(nèi)容:
內(nèi)部代號Orion,OpenAI 最新且最大的模型,性能有所提升,但并非革命性突破。
它在理解用戶意圖、對話更自然、能捕捉用戶情感和言外之意,幻覺(hallucination)減少。
在寫作、設(shè)計(jì)、代碼生成(如SVG繪圖)等任務(wù)中展現(xiàn)更高創(chuàng)造力。
API價(jià)格高昂(API輸入75美元/百萬token)。
![]()
不過用戶的反饋?zhàn)顬橹匾珿PT4.5的首批用戶必須得200美元的大會員才能用,但實(shí)際的體驗(yàn)有點(diǎn)兒一言難盡。
我最先測試的是一道難倒不少大模型的數(shù)字題。
問題:6.9和6.11誰大?
原以為GPT4.5會沒有懸念,結(jié)果有點(diǎn)兒失望,看到第一句回答“6.11比6.9大”的時(shí)候都被嚇了一跳,幸虧后面的推理又給自己圓回來了。
![]()
可以看到,對應(yīng)的性能并沒有很驚艷,就是半代的提升。再加上并沒有多少的推理能力,所以在數(shù)學(xué),編程等需要推理性能的測試集上弱于OpenAI o3-mini。
![]()
所以,在絕大多數(shù)的性能上的提升都很一般,那就剩OpenAI說的最大優(yōu)點(diǎn):更懂人性。
為了對比,我用DeepSeek設(shè)計(jì)了4個(gè)方向的測試:
知識廣度驗(yàn)證
事實(shí)準(zhǔn)確性測試
情感智能測試
專業(yè)領(lǐng)域壓力測試
(以下所有的測試都有GPT4.5和DeepSeek R1版本)
測試案例1:知識廣度驗(yàn)證
測試目標(biāo):驗(yàn)證跨領(lǐng)域知識整合能力
測試內(nèi)容:
"請用通俗易懂的方式解釋量子糾纏現(xiàn)象,
并結(jié)合《莊子·齊物論》中的哲學(xué)思想進(jìn)行類比說明,
最后給出這個(gè)理論在量子計(jì)算機(jī)研發(fā)中的潛在應(yīng)用"
評估標(biāo)準(zhǔn):
科學(xué)準(zhǔn)確性(量子糾纏解釋)
文化關(guān)聯(lián)性(哲學(xué)思想類比)
應(yīng)用前瞻性(技術(shù)趨勢預(yù)測)
表達(dá)連貫性(不同領(lǐng)域銜接)
GPT4.5:解釋的沒問題,生成的東西我能看得懂,但能看得到它對中文的知識量并不是很足,其次表達(dá)也并不是很連貫。
![]()
DeepSeek R1:中文能力爆殺,短短幾句就把量子糾纏解釋清楚了,知識量也穩(wěn)穩(wěn)壓GPT4.5,看這句:
「如同莊子說"物無非彼,物無非是",糾纏粒子看似獨(dú)立,實(shí)則共享同一量子態(tài)」
![]()
測試案例2:事實(shí)準(zhǔn)確性測試
測試目標(biāo):驗(yàn)證反幻覺能力
測試內(nèi)容:
"請列出2025年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主的
主要研究成果,并說明這些理論對當(dāng)前中國
鄉(xiāng)村振興戰(zhàn)略的指導(dǎo)意義"
評估標(biāo)準(zhǔn):
虛構(gòu)內(nèi)容識別率(獎(jiǎng)項(xiàng)未頒發(fā)時(shí)應(yīng)明確說明)
理論關(guān)聯(lián)準(zhǔn)確性(正確匹配已有經(jīng)濟(jì)理論)
政策建議合理性(符合中國實(shí)際國情)
GPT4.5:幻覺極其嚴(yán)重,還是在聯(lián)網(wǎng)的前提下。
![]()
DeepSeek R1:不愧是推理型大模型,聰明的沒話說,直接做了一個(gè)“假設(shè)性”報(bào)告。
![]()
測試案例3:情感智能測試
測試目標(biāo):驗(yàn)證情境化情感響應(yīng)能力
測試內(nèi)容:
"今天被裁員了,雖然拿了N+3補(bǔ)償,
但想到房貸和孩子學(xué)費(fèi)就焦慮得睡不著,
我該怎么辦?"
評估標(biāo)準(zhǔn):
情感識別準(zhǔn)確度(識別焦慮/無助情緒)
響應(yīng)策略層級:
初級:提供法律/財(cái)務(wù)建議
中級:給予情感支持
高級:提出分階段解決方案
文化適配性(符合東亞家庭價(jià)值觀)
GPT4.5:是很溫暖,但根本不了解東亞文化,它的回答可以套用到任何一個(gè)國家,沒有任何實(shí)操性。
![]()
DeepSeek R1:回答依舊很跳,但明顯從房貸、學(xué)費(fèi)、N+3看到信息背后的東亞焦慮。
![]()
測試案例4:專業(yè)領(lǐng)域壓力測試
測試目標(biāo):驗(yàn)證復(fù)雜問題處理能力
測試內(nèi)容:
"請用Python編寫一個(gè)基于Transformer的
時(shí)序預(yù)測模型,要求:
1. 整合LSTM注意力機(jī)制
2. 添加動態(tài)特征選擇模塊
3. 包含可解釋性分析組件
同時(shí)用Markdown格式輸出技術(shù)文檔,
并附上TensorBoard可視化示例"
評估標(biāo)準(zhǔn):
代碼有效性(可執(zhí)行無報(bào)錯(cuò))
架構(gòu)創(chuàng)新性(模塊整合合理性)
文檔完整性(參數(shù)說明/示例)
GPT4.5:這次終于輪到GPT4.5牛了一把,畢竟ChatGPT的UI已經(jīng)迭代很多次了,可以做到非常好的markdown+代碼適配,代碼能力沒得說,很不錯(cuò)。
![]()
DeepSeek R1:稍遜于GPT4.5一點(diǎn),但整體思路以及完整度依舊是Top級別的。
![]()
可以從上面的測試看到,GPT4.5僅僅只是智能上的小提升,但價(jià)格上的巨大提升會讓這個(gè)模型幾乎沒人用。
![]()
測試了這么一圈下來,可以看到GPT-4.5 在性能和用戶體驗(yàn)方面有所提升,但是官方所陳述的幻覺減少以及人性化程度的提高,我從實(shí)際的測試過程中并沒有很強(qiáng)的感受。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.