網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

GPT4.5四大維度測試報(bào)告：幻覺嚴(yán)重，有點(diǎn)兒失望

2025-02-28 08:41:41　來源: 平凡AI

海外舉報(bào)

分享至

OpenAI剛剛發(fā)布了GPT4.5，也就是他們號稱的「最后一代非推理大模型」，為了測試效果，我花了200美元。

先簡單總結(jié)下GPT-4.5升級的核心內(nèi)容：

內(nèi)部代號Orion，OpenAI 最新且最大的模型，性能有所提升，但并非革命性突破。
它在理解用戶意圖、對話更自然、能捕捉用戶情感和言外之意，幻覺（hallucination）減少。
在寫作、設(shè)計(jì)、代碼生成（如SVG繪圖）等任務(wù)中展現(xiàn)更高創(chuàng)造力。
API價(jià)格高昂（API輸入75美元/百萬token）。

不過用戶的反饋?zhàn)顬橹匾珿PT4.5的首批用戶必須得200美元的大會員才能用，但實(shí)際的體驗(yàn)有點(diǎn)兒一言難盡。

我最先測試的是一道難倒不少大模型的數(shù)字題。

問題：6.9和6.11誰大？

原以為GPT4.5會沒有懸念，結(jié)果有點(diǎn)兒失望，看到第一句回答“6.11比6.9大”的時(shí)候都被嚇了一跳，幸虧后面的推理又給自己圓回來了。

可以看到，對應(yīng)的性能并沒有很驚艷，就是半代的提升。再加上并沒有多少的推理能力，所以在數(shù)學(xué)，編程等需要推理性能的測試集上弱于OpenAI o3-mini。

所以，在絕大多數(shù)的性能上的提升都很一般，那就剩OpenAI說的最大優(yōu)點(diǎn)：更懂人性。

為了對比，我用DeepSeek設(shè)計(jì)了4個(gè)方向的測試：

知識廣度驗(yàn)證
事實(shí)準(zhǔn)確性測試
情感智能測試
專業(yè)領(lǐng)域壓力測試

（以下所有的測試都有GPT4.5和DeepSeek R1版本）

測試案例1：知識廣度驗(yàn)證

測試目標(biāo)：驗(yàn)證跨領(lǐng)域知識整合能力
測試內(nèi)容：

"請用通俗易懂的方式解釋量子糾纏現(xiàn)象，

并結(jié)合《莊子·齊物論》中的哲學(xué)思想進(jìn)行類比說明，

最后給出這個(gè)理論在量子計(jì)算機(jī)研發(fā)中的潛在應(yīng)用"

評估標(biāo)準(zhǔn)：

科學(xué)準(zhǔn)確性（量子糾纏解釋）
文化關(guān)聯(lián)性（哲學(xué)思想類比）
應(yīng)用前瞻性（技術(shù)趨勢預(yù)測）
表達(dá)連貫性（不同領(lǐng)域銜接）

GPT4.5：解釋的沒問題，生成的東西我能看得懂，但能看得到它對中文的知識量并不是很足，其次表達(dá)也并不是很連貫。

DeepSeek R1：中文能力爆殺，短短幾句就把量子糾纏解釋清楚了，知識量也穩(wěn)穩(wěn)壓GPT4.5，看這句：

「如同莊子說"物無非彼，物無非是"，糾纏粒子看似獨(dú)立，實(shí)則共享同一量子態(tài)」

測試案例2：事實(shí)準(zhǔn)確性測試

測試目標(biāo)：驗(yàn)證反幻覺能力
測試內(nèi)容：

"請列出2025年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主的

主要研究成果，并說明這些理論對當(dāng)前中國

鄉(xiāng)村振興戰(zhàn)略的指導(dǎo)意義"

評估標(biāo)準(zhǔn)：

虛構(gòu)內(nèi)容識別率（獎(jiǎng)項(xiàng)未頒發(fā)時(shí)應(yīng)明確說明）
理論關(guān)聯(lián)準(zhǔn)確性（正確匹配已有經(jīng)濟(jì)理論）
政策建議合理性（符合中國實(shí)際國情）

GPT4.5：幻覺極其嚴(yán)重，還是在聯(lián)網(wǎng)的前提下。

DeepSeek R1：不愧是推理型大模型，聰明的沒話說，直接做了一個(gè)“假設(shè)性”報(bào)告。

測試案例3：情感智能測試

測試目標(biāo)：驗(yàn)證情境化情感響應(yīng)能力
測試內(nèi)容：

"今天被裁員了，雖然拿了N+3補(bǔ)償，

但想到房貸和孩子學(xué)費(fèi)就焦慮得睡不著，

我該怎么辦？"

評估標(biāo)準(zhǔn)：

情感識別準(zhǔn)確度（識別焦慮/無助情緒）
響應(yīng)策略層級：
初級：提供法律/財(cái)務(wù)建議
中級：給予情感支持
高級：提出分階段解決方案
文化適配性（符合東亞家庭價(jià)值觀）

GPT4.5：是很溫暖，但根本不了解東亞文化，它的回答可以套用到任何一個(gè)國家，沒有任何實(shí)操性。

DeepSeek R1：回答依舊很跳，但明顯從房貸、學(xué)費(fèi)、N+3看到信息背后的東亞焦慮。

測試案例4：專業(yè)領(lǐng)域壓力測試

測試目標(biāo)：驗(yàn)證復(fù)雜問題處理能力
測試內(nèi)容：

"請用Python編寫一個(gè)基于Transformer的

時(shí)序預(yù)測模型，要求：

1. 整合LSTM注意力機(jī)制

2. 添加動態(tài)特征選擇模塊

3. 包含可解釋性分析組件

同時(shí)用Markdown格式輸出技術(shù)文檔，

并附上TensorBoard可視化示例"

評估標(biāo)準(zhǔn)：

代碼有效性（可執(zhí)行無報(bào)錯(cuò)）
架構(gòu)創(chuàng)新性（模塊整合合理性）
文檔完整性（參數(shù)說明/示例）

GPT4.5：這次終于輪到GPT4.5牛了一把，畢竟ChatGPT的UI已經(jīng)迭代很多次了，可以做到非常好的markdown+代碼適配，代碼能力沒得說，很不錯(cuò)。

DeepSeek R1：稍遜于GPT4.5一點(diǎn)，但整體思路以及完整度依舊是Top級別的。

可以從上面的測試看到，GPT4.5僅僅只是智能上的小提升，但價(jià)格上的巨大提升會讓這個(gè)模型幾乎沒人用。

測試了這么一圈下來，可以看到GPT-4.5 在性能和用戶體驗(yàn)方面有所提升，但是官方所陳述的幻覺減少以及人性化程度的提高，我從實(shí)際的測試過程中并沒有很強(qiáng)的感受。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

黑老大2名表超5千萬成交深圳原政法委書記是其保護(hù)傘

每日經(jīng)濟(jì)新聞 2025-12-26 20:34:51
2370 跟貼 2370
澤連斯基提出"和平計(jì)劃" 俄方最新回應(yīng)：戰(zhàn)場上見

魯中晨報(bào) 2025-12-26 13:05:09
27932 跟貼 27932

首富馬斯克最新身家7519億美元超第二近5000億美元

魯中晨報(bào) 2025-12-26 17:05:03
2403 跟貼 2403

中國航發(fā)集團(tuán)原董事長曹建國已從中國工程院院士名單中撤下

澎湃新聞 2025-12-27 09:54:26
34 跟貼 34
拜登平安夜發(fā)了一張"奇怪的全家福" 還被"好大兒"背刺

澎湃新聞 2025-12-26 22:59:31
290 跟貼 290

中方對20家美國軍工相關(guān)企業(yè)及高管采取反制措施

央視新聞客戶端 2025-12-26 17:04:30
1835 跟貼 1835

天塹變通途！極氪001車隊(duì)首批穿越天山勝利隧道，南北疆從此邁入“一日往返”時(shí)代

魯中晨報(bào) 2025-12-26 19:16:51
14875 跟貼 14875
2026年全國兩會召開時(shí)間來了

央視新聞客戶端 2025-12-27 09:14:00
39 跟貼 39

美媒自問自答稱特朗普的"黃金艦隊(duì)"難匹敵中國海軍

澎湃新聞 2025-12-27 08:15:39
132 跟貼 132
曝開拓者對交易羅威持開放態(tài)度球隊(duì)中鋒輪換已有克林根與楊瀚森

北青網(wǎng)-北京青年報(bào) 2025-12-27 07:35:04
35 跟貼 35
鄭麗文計(jì)劃明年到訪大陸：黃花崗起義紀(jì)念日不錯(cuò)

看看新聞Knews 2025-12-26 23:21:04
2 跟貼 2
價(jià)值50萬元！陜西360克“無主黃金”，至今仍沒找到主人

封面新聞 2025-12-26 15:09:05
1041 跟貼 1041
神舟出差返回后 "太空鼠"當(dāng)媽媽啦

央視新聞客戶端 2025-12-27 08:08:30
275 跟貼 275
男子徒手打開滅火毯，雙手刺痛扎滿玻璃纖維

學(xué)申論的談妹 2025-12-27 04:40:56
272 跟貼 272
日本今年逾2萬種食品漲價(jià) 明年初再漲近3600種

財(cái)聯(lián)社 2025-12-26 21:21:09
88 跟貼 88
NBA最新MVP榜出爐：約基奇蟬聯(lián)榜首，東契奇穩(wěn)居前三

魯中晨報(bào) 2025-12-27 09:57:06
17 跟貼 17
iPhone又行了？蘋果手機(jī)11月中國銷售同比翻番

第一財(cái)經(jīng)資訊 2025-12-26 16:24:14
187 跟貼 187
賈國龍首次回應(yīng)西貝風(fēng)波稱自己連續(xù)40天靠安眠藥入睡

上游新聞 2025-12-27 11:19:05
1 跟貼 1
日本2026財(cái)年防衛(wèi)預(yù)算創(chuàng)新高

新華社 2025-12-26 10:11:37
274 跟貼 274
中經(jīng)評論：在冰雪消費(fèi)熱中用好“冷資源”

中國經(jīng)濟(jì)網(wǎng) 2025-12-27 08:28:05
25 跟貼 25
京津冀高校學(xué)子齊聚天津引才聚智“雙向奔赴”

中國網(wǎng)資訊 2025-12-27 11:38:11
1 跟貼 1
價(jià)格飆升，多地零售價(jià)突破10元/斤！年初一斤僅一兩元，網(wǎng)友：雞蛋都快配不上它了

每日經(jīng)濟(jì)新聞 2025-12-26 10:01:26
1 跟貼 1
仙游鯉南鎮(zhèn)某小區(qū)發(fā)生意外事件！

仙游微事 2025-12-27 12:48:55
0 跟貼 0
廣東一工業(yè)區(qū)廠房突發(fā)火災(zāi)，現(xiàn)場濃煙滾滾，燃燒近5小時(shí)！最新通報(bào)

大象新聞 2025-12-27 12:45:02
0 跟貼 0
新能源車沒電兩人高速推行被撞身亡

新快報(bào)新聞 2025-12-27 12:43:03
0 跟貼 0
周大福3千塊“黃金牛馬”吊墜翻車：打工人自稱牛馬，不是流量密碼

新浪財(cái)經(jīng) 2025-12-27 12:52:17
0 跟貼 0

周大福回應(yīng)黃金牛馬吊墜陰陽打工人

界面新聞

2025-12-26 15:42:10

2026第一場雪！大范圍影響江蘇！

最江陰

2025-12-26 11:35:06

“鍍鉻版猛禽”亮相美國航空攝影師再次拍到采用鏡面涂層的F-22

hawk26講武堂

2025-12-26 12:11:08

南博事件繼續(xù)升級！借走字畫的神秘“老同志”是誰？全網(wǎng)都在找…

火山詩話

2025-12-21 06:56:09

早就想打！日媒首次爆料：中國雙航母出動時(shí)日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

詩意世界

2025-08-21 13:13:50

教過那么多孩子，我發(fā)現(xiàn)家庭條件越好的孩子，越容易成為學(xué)霸！

好爸育兒

2025-12-27 08:45:19

東契奇：我從小就崇拜喬丹，我用跟他同樣的心態(tài)對待比賽

懂球帝

2025-12-27 00:55:13

無視慘敗！即便湖人圣誕夜狂輸23分，詹姆斯仍強(qiáng)勢創(chuàng)下5大神跡！

田先生籃球

2025-12-26 14:47:46

意外！上港簽下新鵬城28歲前鋒，上賽季23場2球1助攻，球迷不理解

羅掌柜體育

2025-12-27 10:19:57

價(jià)格飆升，多地零售價(jià)突破10元/斤！年初一斤僅一兩元，網(wǎng)友：雞蛋都快配不上它了……

每日經(jīng)濟(jì)新聞

2025-12-26 10:01:26

身在美國卻說和祖國不能分割，姜昆的圣誕離岸愛國秀，諷刺感拉滿

歷史總在押韻

2025-12-25 22:58:56

百年龐家故事大揭秘：他們?yōu)楹尾贿x擇離開大陸？

金牌輿情官

2025-12-25 20:15:34

今冬最冷時(shí)間表出爐，何時(shí)最冷？2026年春節(jié)冷不冷？早看早知道

好賢觀史記

2025-12-25 10:07:03

中央特科最美傳奇女特工被判槍決,毛主席拍案大怒:她是全黨的恩人

睡前講故事

2025-12-21 16:15:28

女子高峰期占電梯后續(xù)：被暴打，正面曝光，已社死，結(jié)局很舒適

尋墨閣

2025-12-27 08:45:27

很多家庭走向絕戶，主要是這3個(gè)原因，再忙也要看看

千秋文化

2025-12-20 16:25:09

頂流空降深圳！有人早上開始排隊(duì)

深圳晚報(bào)

2025-12-26 22:19:48

甲骨文單季度暴跌30%，分析師：“如果不調(diào)整與OpenAI的協(xié)議，甲骨文可能無法履約”

華爾街見聞官方

2025-12-27 09:58:35

560億元天價(jià)索賠！聞泰科技誓收安世

EETOP半導(dǎo)體社區(qū)

2025-12-27 09:00:49

5艘航母逼近中國近海，特朗普直接打明牌，逼著中國接招！

奉壹數(shù)碼

2025-12-26 22:02:25

平凡AI

高校AI從業(yè)者

54文章數(shù) 23關(guān)注度

往期回顧全部

科技要聞

小米也漲價(jià)了！業(yè)界稱終端再不漲明年必虧

頭條要聞

賈國龍首次回應(yīng)西貝風(fēng)波稱自己連續(xù)40天靠安眠藥入睡

頭條要聞

賈國龍首次回應(yīng)西貝風(fēng)波稱自己連續(xù)40天靠安眠藥入睡

體育要聞

NBA教練圈的布朗尼，花了22年證明自己

娛樂要聞

劉宇寧：我的價(jià)值不需要靠番位來證明

財(cái)經(jīng)要聞

注意，開始拉物價(jià)了！

汽車要聞

好音響比大屏更重要？車企開始“聽”用戶的

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

本地

房產(chǎn)

時(shí)尚

公開課

《拳皇98》版不知火舞最新雕像性感無雙背壓巨大

本地新聞

云游安徽｜踏訪池州，讀懂山水間的萬年史書

房產(chǎn)要聞

炸裂，三亞360億超級清單發(fā)布，又一批重大配套要來了！

推廣中獎(jiǎng)名單-更新至2025年12月15日推廣

公開課

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

GPT4.5四大維度測試報(bào)告：幻覺嚴(yán)重，有點(diǎn)兒失望

小米也漲價(jià)了！業(yè)界稱終端再不漲明年必虧

賈國龍首次回應(yīng)西貝風(fēng)波 稱自己連續(xù)40天靠安眠藥入睡

賈國龍首次回應(yīng)西貝風(fēng)波 稱自己連續(xù)40天靠安眠藥入睡

NBA教練圈的布朗尼，花了22年證明自己

劉宇寧：我的價(jià)值不需要靠番位來證明

注意，開始拉物價(jià)了！

好音響比大屏更重要？車企開始“聽”用戶的

態(tài)度原創(chuàng)

《拳皇98》版不知火舞最新雕像 性感無雙背壓巨大

云游安徽｜踏訪池州，讀懂山水間的萬年史書

炸裂，三亞360億超級清單發(fā)布，又一批重大配套要來了！

推廣中獎(jiǎng)名單-更新至2025年12月15日推廣

賈國龍首次回應(yīng)西貝風(fēng)波稱自己連續(xù)40天靠安眠藥入睡

賈國龍首次回應(yīng)西貝風(fēng)波稱自己連續(xù)40天靠安眠藥入睡

《拳皇98》版不知火舞最新雕像性感無雙背壓巨大