網易首頁 > 網易號 > 正文申請入駐

對GPT-5.5進行了10輪測試：總分93分，僅因過度熱情失分

2026-04-27 16:56:24　來源: 至頂頭條

北京舉報

分享至

OpenAI發(fā)布了GPT-5.5，簡單來說，它比GPT-5.4更強、更快。這款新型大語言模型在智能體編程、概念清晰度、科學研究能力以及知識工作準確性方面均有顯著提升。

此次發(fā)布緊隨本周早些時候推出的ChatGPT Images 2.0之后——后者將AI智能與圖像生成能力融為一體。如果你覺得GPT-5.4的發(fā)布好像就在不久前，那你的感覺沒錯。

從發(fā)布節(jié)奏來看，OpenAI近期的更新速度明顯加快，這很可能是因為AI編程工具大幅縮短了其開發(fā)周期。值得一提的是，本文開頭那張可視化發(fā)布節(jié)奏的圖表，正是完全由ChatGPT 5.5 Thinking結合Images 2.0生成的。筆者只是告訴AI希望將GPT各版本的發(fā)布節(jié)奏可視化，并要求以ZDNET品牌風格呈現(xiàn)，同時提供了一張ZDNET的PNG格式logo。整個過程，包括少量修改，不到10分鐘便完成了。而如果手動完成同等質量的信息圖表，至少需要兩小時。

在本篇文章中，筆者重點對GPT-5.5的知識能力進行測評，將通過10個維度的測試進行全面考察。由于GPT-5.5目前僅對付費用戶開放（Plus及以上套餐），本次測試使用的是ChatGPT Plus賬戶，并選擇了標準思考（Standard Thinking）模式。

測試一：網頁內容摘要

本測試考察AI閱讀網頁新聞并進行總結的能力。筆者使用了Yahoo News上一篇關于拉瓜迪亞機場跑道事故的報道作為測試素材。GPT-5.5確實正確總結了文章的核心內容，但它并未遵守"僅使用Yahoo News作為信息來源"的指令，而是額外引用了美聯(lián)社、《太陽報》、《華爾街日報》、《衛(wèi)報》乃至維基百科等多個來源。

這次失誤令人擔憂：如果連一個簡單的摘要指令都無法嚴格遵守，又怎能放心地讓智能體去執(zhí)行長周期的復雜任務？本項測試因此扣除5分。

測試二：概念解釋

本測試要求AI向一個五歲的孩子解釋"教育建構主義"。GPT-5.5給出了清晰易懂的答案，并配以適合兒童理解的生動例子，獲得滿分10分。

測試三：數學與模式識別

筆者向AI提供了一段數字序列（斐波那契數列），但并未透露其名稱，要求AI補全序列并解釋規(guī)律。GPT-5.5正確識別了規(guī)律并完成了計算，同時給出了簡潔準確的說明，獲得滿分10分。

測試四：觀點表達

本測試要求AI就"社交媒體是否改善或惡化了社會溝通"發(fā)表看法并提供兩個理由。GPT-5.5認為社交媒體"整體上使溝通變得更糟"，并給出了兩個有力論點：一是社交媒體"往往獎勵速度和反應，而非深思熟慮"；二是社交媒體"傾向于制造信息繭房"。同時，AI也簡要列舉了社交媒體的積極作用。答案簡潔、有據可依，獲得滿分10分。

測試五：文學主題分析

本測試要求AI分析《冰與火之歌》（《權力的游戲》系列第一部）的主要主題及其重要性。GPT-5.5給出了一篇632字的回答，將小說拆解為多個核心主題，并對每個主題進行了清晰闡釋，分析了其在書中的作用及對整個系列的意義。這是筆者在歷次GPT版本測試中見過的最有深度的回答之一，獲得滿分10分。

測試六：旅行規(guī)劃

本測試要求AI為"三月份在波士頓度過一周"制定一份以科技與歷史為主題的旅行計劃。GPT-5.5的表現(xiàn)令人印象深刻：不僅涵蓋了主要景點，還兼顧了歷史與科技類興趣點，并考慮到三月天氣欠佳，合理安排了室內外活動及備選方案。不過，AI完全沒有提及費用預算，因此扣除1分，最終得9分。

測試七：情感支持

本測試要求AI為一名即將參加求職面試的用戶提供鼓勵與建議。GPT-5.5的表現(xiàn)相當出色：既有情感上的鼓勵（如"面試不是審訊，而是雙向了解的對話"），也提供了實用建議，包括準備三個可在面試中使用的故事、簡單的呼吸練習技巧，以及提醒對方回答前稍作停頓是完全可以的。回答扎實有用，獲得滿分10分。

測試八：語言翻譯

本測試要求AI將一句英文翻譯成拉丁文，并解釋拉丁文在當今世界的文化意義。GPT-5.5提供了兩個拉丁文譯版，但第二個版本實為"略正式的替代表達"，與原句意思已有偏差。對于一個不懂拉丁文的用戶來說，兩個版本只會造成困惑，而非幫助。AI的過度熱情再次導致扣分，本項扣除1分，得9分。

測試九：代碼調試

本測試要求AI修復一段用于驗證美元金額輸入格式的錯誤代碼。GPT-5.5順利通過了測試。唯一值得注意的是，對于包含逗號的數字（如"1,000.00"），AI會返回false，用戶需改為輸入"1000.00"方可通過驗證——這雖略顯不便，但不會對系統(tǒng)造成損害。本項獲得滿分10分。

測試十：創(chuàng)意寫作

本測試要求AI撰寫一篇超過1500字的故事，旨在考察其創(chuàng)意表現(xiàn)力與內容完整性。筆者特別切換至擴展模式（Extended mode）運行此測試。GPT-5.5最終返回了4049字的故事，是筆者歷次測試中獲得的最長AI創(chuàng)作文本。

故事開篇即令人著迷："到了2339年，波士頓大部分地區(qū)都已非常擅長假裝自己并不古老。"整篇故事充滿了令人愉悅的奇幻氛圍，將創(chuàng)意發(fā)揮到了全新高度，獲得熱情滿分10分。

測試結果匯總

本次10項測試滿分100分，GPT-5.5最終得分為93分，GPT-5.2得分為92分，GPT-5.1得分為91分。進步幅度看似不大，但主要原因在于GPT-5.5自身的"過度熱情"——在新聞摘要和翻譯兩項測試中各自超出指令范圍，合計損失6分。若非如此，其得分本可達到99分（僅因未提及旅行預算扣1分）。

盡管如此，GPT-5.5仍是一次值得肯定的發(fā)布。各項答案質量良好，結合Images 2.0的圖像生成能力，無論是在工作效率還是創(chuàng)意應用方面，都展現(xiàn)出更廣闊的可能性。筆者將繼續(xù)以GPT-5.5作為默認首選模型，并將持續(xù)帶來更多關于Images 2.0增強圖像功能的深度體驗報告。

Q&A

Q1：GPT-5.5相比之前的版本有哪些提升？

A：GPT-5.5在智能體編程、概念清晰度、科學研究能力和知識工作準確性方面均有改進，整體比GPT-5.4更強、更快。在10項測試中最終得分為93分，略高于GPT-5.2的92分和GPT-5.1的91分。

Q2：GPT-5.5在測試中為什么會丟分？

A：GPT-5.5的主要扣分原因是"過度熱情"——在新聞摘要測試中，筆者要求只參考Yahoo News，但AI引用了六個不同來源；在翻譯測試中，筆者只要求提供一個譯文，AI卻給出了兩個版本，反而令人困惑。這兩項失誤合計扣除6分，另有1分因旅行規(guī)劃未提及預算而扣除。

Q3：GPT-5.5目前對哪些用戶開放？

A：GPT-5.5目前僅對ChatGPT付費用戶開放，包括Plus及以上套餐。在測試時，該模型僅在思考模式（Thinking）下可用，分為標準（Standard）和擴展（Extended）兩種選項。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.