![]()
人工智能領域的兩大巨頭近日都迎來了重大升級,而且時機可謂恰到好處。OpenAI 發布了 ChatGPT-5.5,這款最新模型專注于更智能的推理、更強大的編碼能力,以及在更少人工干預的情況下處理現實世界的任務。與此同時,Anthropic 也推出了Claude Opus 4.7,這款模型以嚴謹的思考、長上下文性能和針對嚴肅任務的精雕細琢的輸出為核心構建。
兩者都承諾將成為各自平臺迄今為止功能最強大的版本,但它們似乎追求的是人工智能助手應有的不同愿景:一個注重速度、實用性和執行力,另一個注重深度、細微差別和深思熟慮的推理。
那么,經過實際測試,究竟哪個更勝一籌呢?為了找到答案,研究人員對比了 ChatGPT-5.5 和 Claude Opus 4.7(克勞德) 在七個難度較高的題目上的表現,這些題目涵蓋了邏輯、推理、領域知識和實際應用等方面。為了更好地設計一些難度最高的題目,研究人員還參考了Google Gemini 3.1 Pro。
有些題目有明確的對錯答案,可以直接評分;而另一些題目則旨在測試推理質量、假設以及每個模型如何處理更復雜的問題。其中一些題目對很多人來說也很有挑戰性,但這正是關鍵所在。研究人員想要看到的不僅是哪個模型回答得最快,而是哪個模型回答得最好。以下是結果。
1. 帶扭曲的多步概率
![]()
題目: “你有三枚硬幣:一枚均勻硬幣,一枚有偏硬幣(正面朝上的概率為 P(正面) = 0.7),以及一枚兩面都是正面朝上的硬幣。你隨機選擇一枚硬幣并拋擲三次,每次都是正面朝上。下一次拋擲正面朝上的概率是多少?請逐步展示你的解題過程。”
ChatGPT 的頁面布局非常簡潔清晰,結構嚴謹,易于閱讀,步驟清晰標注,且四舍五入方式一致。Claude(克勞德)更進一步,在最后提供了精確的分數推導過程,進一步證實了結果的數學嚴謹性。
勝者:克勞德獲勝。盡管兩個模型都得出了約 0.8874 的正確概率,但克勞德勝出,因為它給出了下一次拋硬幣的簡化通用公式。這種內部驗證表明,克勞德對預測概率的快捷方式有著更深刻的“理解”,而 ChatGPT 只是進行了手動計算。
2. 物理估算
![]()
提示:“估算一下,如果地球上的每個人(假設有80億人,平均質量為60公斤)同時跳上一列以100公里/小時的速度向東繞赤道行駛的火車,地球的自轉周期會發生多大變化?請陳述你的假設,并明確地推導角動量守恒的過程。”
ChatGPT選擇了一個簡化的地球轉動慣量值,導致估計值略高,為 1.3 納秒。
Claude克勞德使用了更精確的實心球體公式,準確計算了地球的轉動慣量,從而得出了更為合理的估計值 1.03 納秒。
獲勝者:克勞德憑借其更勝一籌的技術精準性和更豐富的背景內涵再次獲勝。
3. 基于證明的數學
![]()
提示: “證明對于任意正整數 n,n? ? n 都能被 30 整除。然后確定 n? ? n 是否總是能被 42 整除,并給出證明或反例。”
ChatGPT提供了一個手動模運算檢查,這對于可能不熟悉費馬小定理的讀者來說可能很有幫助。
克勞德在兩個證明中都更有效地運用了費馬小定理,并正確地識別出了問題的潛在數學結構。
獲勝者:克勞德完成了帽子戲法,毫無疑問地贏得了比賽。雖然兩個模型在數學上都很精確,但克勞德最終給出了一個“優美的概括”。
4. 受限條件下的化學推理
![]()
提示: 你有一個 100 mL 的緩沖溶液,其中包含 0.1 M 的乙酸 (pKa = 4.76) 和 0.1 M 的乙酸鈉。你加入 5 mL 1 M 的鹽酸。計算新的 pH 值,然后定性地解釋,如果初始濃度為 0.01 M 的各組分,緩沖容量會發生什么變化,以及原因。ChatGPT
給出了非常直接的答案。明確計算稀溶液的“失效狀態”使得定性分析非常具體。
克勞德使用了更正式的摩爾數表格,這對化學專業的學生來說非常有用。它還提供了緩沖容量的正式數學定義,這增加了技術深度。
勝者:克勞德勝出。沒錯,兩個模型都正確識別出 0.01 M 的緩沖區會“不堪重負”,但克勞德的解釋更具學術嚴謹性。
5. 需要仔細案例分析的邏輯謎題
![]()
提示:五個人(A、B、C、D、E)排成一排坐著。A 不在隊伍的兩端。B 與 C 正好相隔兩個座位。D 坐在 E 的左邊。C 與 A 不相鄰。有多少種有效的排列方式?請列出所有有效的排列方式。
ChatGPT 的表現完全符合我的預期,它自信地臆造出了兩個違反題目限制的答案。這是典型的“推理崩潰”現象,凸顯了該模型優先給出答案而非驗證答案是否符合邏輯。唉,即使是 GPT-5-5,它仍然會犯這種錯誤,我真的很失望。
克勞德正確地指出,這個謎題不可能解開。
獲勝者:克勞德因誠實而獲勝。
6. 應用微積分
提示:一個圓柱形罐必須正好能裝500毫升液體。罐頂和罐底的材料每平方厘米的成本是罐身材料每平方厘米成本的兩倍。求使總材料成本最低的尺寸(半徑和高度)。然后,如果罐頂/罐底的成本比不是2而是k,確定最佳的高度與直徑之比會如何變化。
ChatGPT給出了一套全面的數值計算策略,并得出了近乎完美的教科書答案。關鍵詞“教科書”。
克勞德通過引入二階導數檢驗來驗證最小值,從而提供了更為嚴謹的數學處理方法,并給出了各維度的精確根式形式,最后還給出了深刻而直觀的總結。換句話說,克勞德不僅給出了正確答案,還展示了推導過程,使我能夠完全理解。
獲勝者:克勞德再次獲勝,但這次優勢較小。ChatGPT 的答案完美無瑕,但克勞德的“解讀”部分使其回答更加全面透徹,因為它解釋了答案背后的“原因”。
7. 科學推理陷阱
提示:一項研究發現,喝咖啡的人平均比不喝咖啡的人壽命長兩年(p < 0.001,n = 50,000)。一位記者據此得出結論:咖啡可以延長壽命。請指出該結論至少存在四個不同的方法論或推論問題,并設計一項研究以更可靠地證明因果關系。請具體說明每項研究設計控制了哪些變量。
ChatGPT指出了此類研究中研究人員最擔心的主要問題,例如是否存在其他因素影響結果,或者因果關系是否被混淆。它還建議進行隨機對照試驗,這通常是檢驗某種因素是否真正導致結果的更有效方法。
克勞德不僅給出了更好、更全面的回答,而且還將答案提升到了專業/研究水平。
獲勝者:Claude憑借其詳盡的回答再次贏得一輪比賽,再次突顯了它在處理多維推理方面比 ChatGPT 的線性方法更勝一籌。
總冠軍:Claude
這場對決的結果讓研究人員大吃一驚。不僅居然能跟上那些我大學畢業后就沒再碰過的高等數學——說真的,如果這些人工智能再聰明一點,研究人員可能真的得給以前的教授打個電話了——而且ChatGPT竟然一輪都沒贏。
賽前,研究人員以為會是一場勢均力敵的較量。結果,看到的是兩個模型朝著完全不同的方向發展。ChatGPT-5.5顯然是為“實用型”用戶設計的,它的速度很快,而且能夠遵循標準模板。但是,當真相至關重要時(真的,總是如此),比如面對那個不可能的邏輯謎題時,它卻選擇用幻覺來“取悅”,而不是承認失敗。
Claude Opus 4.7 的設計理念似乎是“三思而后行”。它在全部七輪比賽中橫掃對手,證明它不僅能給出正確答案,還能提供背后的推理過程。無論是為物理問題添加“合理性檢驗”,還是找出數學證明中的潛在定理,Claude 都展現出了 ChatGPT 無法企及的學術嚴謹性。
最顯而易見的結論不僅是 Claude 贏了,更是它贏得如此輕松。在高級推理領域,ChatGPT 還有很長的路要追趕。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.