網易首頁 > 網易號 > 正文申請入駐

全球AI智商排名今日出爐：Gemini 2.5 Pro登頂，愛因斯坦160分紀錄仍未被超越

2025-08-19 23:28:04　來源: 新網科技

上海舉報

分享至

今日，由獨立項目Trackingai.org 發布的全球首份大型語言模型智商測試報告引發廣泛關注。該測試摒棄傳統技術跑分，首次參照人類智商評估體系，對主流AI模型進行標準化智力測評。結果顯示，谷歌Gemini 2.5 Pro以137分位列榜首，OpenAI的GPT-5 Pro與xAI的Grok 4分別獲121分和125分，但無一超越愛因斯坦估算值160分的水平。

一、測試方法：雙維度量化AI“腦力”

項目采用兩種測評體系：

門薩標準測試：沿用人類智商評估標桿，130分以上視為“極超常智力”（即前2%頂尖人群）；

AI專用數據集測試：覆蓋大規模邏輯推理與模式識別任務，難度更高。

這種設計首次將AI能力轉化為公眾可理解的“智商數值”，打破了MMLU、HellaSwag等專業術語的認知壁壘。

二、頭部模型表現：邏輯能力接近人類天才

（1）門薩測試結果：

Gemini 2.5 Pro（137分） ：達到人類“極超常智力”標準，處理復雜邏輯推理與模式識別的能力媲美頂尖科學家群體。其解題路徑展現高效的系統化思維，如在九宮格推理題中精準識別旋轉對稱規律。

Grok 4（125分） ：雖分數低于Gemini，但解題過程凸顯探索性思維，通過多維度分析（線條主題、數量變化）最終推導正確答案。

GPT-5 Pro（121分） ：展現強大抽象能力，但在門薩測試中意外低于前代模型o3（分數未公開），開發者推測因技術路線取舍所致。

愛因斯坦參照系：后世估算其智商約160分，當前AI最高分僅達其85.6%，顯示人類頂級智慧仍具優勢。

（2）數據集測試排名：

GPT-5 Pro反超至第一，Gemini 2.5 Pro次之，Grok 4第四。這表明AI在專項邏輯任務中的表現更依賴訓練數據規模與架構優化。

三、黑馬與反思：AI智商的深層啟示

DeepSeek R1成最大驚喜：該模型使用5月底舊版數據，仍獲102分，超越Meta新一代Llama 4 Maverick。證明算法優化可彌補數據時效性缺陷，為開源社區提供“性價比”路徑。

Meta的困境：曾引領開源浪潮的Llama系列此次未進頭部，反映閉源模型在資源投入上的壓倒性優勢。Meta正以高薪爭奪谷歌、OpenAI人才試圖破局。

四、專家解讀：智商測試的邊界與意義

Trackingai.org 強調測評本質是“趣味實驗”，因當前AI智商僅反映聚合性思維（規則下的邏輯演繹），而人類獨有的發散性思維（創造力、社會情感認知）仍難被模仿。

技術意義：137分證明AI已成最強邏輯分析引擎，將重構人機協作范式。例如Gemini可輔助科研突破，Grok或更適配創新探索場景。

公眾價值：用“智商”概念降低理解門檻，推動社會理性討論AI能力邊界。

結語

本次排名雖揭示AI在特定認知領域逼近人類頂尖水平，但愛因斯坦的智慧豐碑仍未被撼動。當Gemini們以137分的“超常智力”成為人類得力助手時，我們更需思考：如何培育AI無法替代的創造力與人文精神？這或許才是技術狂潮中堅守人類價值的核心命題。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.