今日,由獨立項目Trackingai.org 發布的全球首份大型語言模型智商測試報告引發廣泛關注。該測試摒棄傳統技術跑分,首次參照人類智商評估體系,對主流AI模型進行標準化智力測評。結果顯示,谷歌Gemini 2.5 Pro以137分位列榜首,OpenAI的GPT-5 Pro與xAI的Grok 4分別獲121分和125分,但無一超越愛因斯坦估算值160分的水平。
![]()
一、測試方法:雙維度量化AI“腦力”
項目采用兩種測評體系:
門薩標準測試:沿用人類智商評估標桿,130分以上視為“極超常智力”(即前2%頂尖人群);
![]()
AI專用數據集測試:覆蓋大規模邏輯推理與模式識別任務,難度更高。
這種設計首次將AI能力轉化為公眾可理解的“智商數值”,打破了MMLU、HellaSwag等專業術語的認知壁壘。
二、頭部模型表現:邏輯能力接近人類天才
(1)門薩測試結果:
Gemini 2.5 Pro(137分) :達到人類“極超常智力”標準,處理復雜邏輯推理與模式識別的能力媲美頂尖科學家群體。其解題路徑展現高效的系統化思維,如在九宮格推理題中精準識別旋轉對稱規律。
Grok 4(125分) :雖分數低于Gemini,但解題過程凸顯探索性思維,通過多維度分析(線條主題、數量變化)最終推導正確答案。
GPT-5 Pro(121分) :展現強大抽象能力,但在門薩測試中意外低于前代模型o3(分數未公開),開發者推測因技術路線取舍所致。
愛因斯坦參照系:后世估算其智商約160分,當前AI最高分僅達其85.6%,顯示人類頂級智慧仍具優勢。
(2)數據集測試排名:
GPT-5 Pro反超至第一,Gemini 2.5 Pro次之,Grok 4第四。這表明AI在專項邏輯任務中的表現更依賴訓練數據規模與架構優化。
三、黑馬與反思:AI智商的深層啟示
DeepSeek R1成最大驚喜:該模型使用5月底舊版數據,仍獲102分,超越Meta新一代Llama 4 Maverick。證明算法優化可彌補數據時效性缺陷,為開源社區提供“性價比”路徑。
![]()
Meta的困境:曾引領開源浪潮的Llama系列此次未進頭部,反映閉源模型在資源投入上的壓倒性優勢。Meta正以高薪爭奪谷歌、OpenAI人才試圖破局。
四、專家解讀:智商測試的邊界與意義
Trackingai.org 強調測評本質是“趣味實驗”,因當前AI智商僅反映聚合性思維(規則下的邏輯演繹),而人類獨有的發散性思維(創造力、社會情感認知)仍難被模仿。
![]()
技術意義:137分證明AI已成最強邏輯分析引擎,將重構人機協作范式。例如Gemini可輔助科研突破,Grok或更適配創新探索場景。
公眾價值:用“智商”概念降低理解門檻,推動社會理性討論AI能力邊界。
結語
本次排名雖揭示AI在特定認知領域逼近人類頂尖水平,但愛因斯坦的智慧豐碑仍未被撼動。當Gemini們以137分的“超常智力”成為人類得力助手時,我們更需思考:如何培育AI無法替代的創造力與人文精神?這或許才是技術狂潮中堅守人類價值的核心命題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.