![]()
OpenAI發(fā)布了GPT-5.5,簡單來說,它比GPT-5.4更強、更快。這款新型大語言模型在智能體編程、概念清晰度、科學研究能力以及知識工作準確性方面均有顯著提升。
此次發(fā)布緊隨本周早些時候推出的ChatGPT Images 2.0之后——后者將AI智能與圖像生成能力融為一體。如果你覺得GPT-5.4的發(fā)布好像就在不久前,那你的感覺沒錯。
從發(fā)布節(jié)奏來看,OpenAI近期的更新速度明顯加快,這很可能是因為AI編程工具大幅縮短了其開發(fā)周期。值得一提的是,本文開頭那張可視化發(fā)布節(jié)奏的圖表,正是完全由ChatGPT 5.5 Thinking結合Images 2.0生成的。筆者只是告訴AI希望將GPT各版本的發(fā)布節(jié)奏可視化,并要求以ZDNET品牌風格呈現(xiàn),同時提供了一張ZDNET的PNG格式logo。整個過程,包括少量修改,不到10分鐘便完成了。而如果手動完成同等質量的信息圖表,至少需要兩小時。
在本篇文章中,筆者重點對GPT-5.5的知識能力進行測評,將通過10個維度的測試進行全面考察。由于GPT-5.5目前僅對付費用戶開放(Plus及以上套餐),本次測試使用的是ChatGPT Plus賬戶,并選擇了標準思考(Standard Thinking)模式。
測試一:網頁內容摘要
本測試考察AI閱讀網頁新聞并進行總結的能力。筆者使用了Yahoo News上一篇關于拉瓜迪亞機場跑道事故的報道作為測試素材。GPT-5.5確實正確總結了文章的核心內容,但它并未遵守"僅使用Yahoo News作為信息來源"的指令,而是額外引用了美聯(lián)社、《太陽報》、《華爾街日報》、《衛(wèi)報》乃至維基百科等多個來源。
這次失誤令人擔憂:如果連一個簡單的摘要指令都無法嚴格遵守,又怎能放心地讓智能體去執(zhí)行長周期的復雜任務?本項測試因此扣除5分。
測試二:概念解釋
本測試要求AI向一個五歲的孩子解釋"教育建構主義"。GPT-5.5給出了清晰易懂的答案,并配以適合兒童理解的生動例子,獲得滿分10分。
測試三:數學與模式識別
筆者向AI提供了一段數字序列(斐波那契數列),但并未透露其名稱,要求AI補全序列并解釋規(guī)律。GPT-5.5正確識別了規(guī)律并完成了計算,同時給出了簡潔準確的說明,獲得滿分10分。
測試四:觀點表達
本測試要求AI就"社交媒體是否改善或惡化了社會溝通"發(fā)表看法并提供兩個理由。GPT-5.5認為社交媒體"整體上使溝通變得更糟",并給出了兩個有力論點:一是社交媒體"往往獎勵速度和反應,而非深思熟慮";二是社交媒體"傾向于制造信息繭房"。同時,AI也簡要列舉了社交媒體的積極作用。答案簡潔、有據可依,獲得滿分10分。
測試五:文學主題分析
本測試要求AI分析《冰與火之歌》(《權力的游戲》系列第一部)的主要主題及其重要性。GPT-5.5給出了一篇632字的回答,將小說拆解為多個核心主題,并對每個主題進行了清晰闡釋,分析了其在書中的作用及對整個系列的意義。這是筆者在歷次GPT版本測試中見過的最有深度的回答之一,獲得滿分10分。
測試六:旅行規(guī)劃
本測試要求AI為"三月份在波士頓度過一周"制定一份以科技與歷史為主題的旅行計劃。GPT-5.5的表現(xiàn)令人印象深刻:不僅涵蓋了主要景點,還兼顧了歷史與科技類興趣點,并考慮到三月天氣欠佳,合理安排了室內外活動及備選方案。不過,AI完全沒有提及費用預算,因此扣除1分,最終得9分。
測試七:情感支持
本測試要求AI為一名即將參加求職面試的用戶提供鼓勵與建議。GPT-5.5的表現(xiàn)相當出色:既有情感上的鼓勵(如"面試不是審訊,而是雙向了解的對話"),也提供了實用建議,包括準備三個可在面試中使用的故事、簡單的呼吸練習技巧,以及提醒對方回答前稍作停頓是完全可以的。回答扎實有用,獲得滿分10分。
測試八:語言翻譯
本測試要求AI將一句英文翻譯成拉丁文,并解釋拉丁文在當今世界的文化意義。GPT-5.5提供了兩個拉丁文譯版,但第二個版本實為"略正式的替代表達",與原句意思已有偏差。對于一個不懂拉丁文的用戶來說,兩個版本只會造成困惑,而非幫助。AI的過度熱情再次導致扣分,本項扣除1分,得9分。
測試九:代碼調試
本測試要求AI修復一段用于驗證美元金額輸入格式的錯誤代碼。GPT-5.5順利通過了測試。唯一值得注意的是,對于包含逗號的數字(如"1,000.00"),AI會返回false,用戶需改為輸入"1000.00"方可通過驗證——這雖略顯不便,但不會對系統(tǒng)造成損害。本項獲得滿分10分。
測試十:創(chuàng)意寫作
本測試要求AI撰寫一篇超過1500字的故事,旨在考察其創(chuàng)意表現(xiàn)力與內容完整性。筆者特別切換至擴展模式(Extended mode)運行此測試。GPT-5.5最終返回了4049字的故事,是筆者歷次測試中獲得的最長AI創(chuàng)作文本。
故事開篇即令人著迷:"到了2339年,波士頓大部分地區(qū)都已非常擅長假裝自己并不古老。"整篇故事充滿了令人愉悅的奇幻氛圍,將創(chuàng)意發(fā)揮到了全新高度,獲得熱情滿分10分。
測試結果匯總
本次10項測試滿分100分,GPT-5.5最終得分為93分,GPT-5.2得分為92分,GPT-5.1得分為91分。進步幅度看似不大,但主要原因在于GPT-5.5自身的"過度熱情"——在新聞摘要和翻譯兩項測試中各自超出指令范圍,合計損失6分。若非如此,其得分本可達到99分(僅因未提及旅行預算扣1分)。
盡管如此,GPT-5.5仍是一次值得肯定的發(fā)布。各項答案質量良好,結合Images 2.0的圖像生成能力,無論是在工作效率還是創(chuàng)意應用方面,都展現(xiàn)出更廣闊的可能性。筆者將繼續(xù)以GPT-5.5作為默認首選模型,并將持續(xù)帶來更多關于Images 2.0增強圖像功能的深度體驗報告。
Q&A
Q1:GPT-5.5相比之前的版本有哪些提升?
A:GPT-5.5在智能體編程、概念清晰度、科學研究能力和知識工作準確性方面均有改進,整體比GPT-5.4更強、更快。在10項測試中最終得分為93分,略高于GPT-5.2的92分和GPT-5.1的91分。
Q2:GPT-5.5在測試中為什么會丟分?
A:GPT-5.5的主要扣分原因是"過度熱情"——在新聞摘要測試中,筆者要求只參考Yahoo News,但AI引用了六個不同來源;在翻譯測試中,筆者只要求提供一個譯文,AI卻給出了兩個版本,反而令人困惑。這兩項失誤合計扣除6分,另有1分因旅行規(guī)劃未提及預算而扣除。
Q3:GPT-5.5目前對哪些用戶開放?
A:GPT-5.5目前僅對ChatGPT付費用戶開放,包括Plus及以上套餐。在測試時,該模型僅在思考模式(Thinking)下可用,分為標準(Standard)和擴展(Extended)兩種選項。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.