全球AI智商最新排名公布！還好，沒誰超過愛因斯坦

2025-08-19 11:10:02　來源: 直面派

北京舉報

分享至

　　如果有一天，AI也需要像人類一樣，坐下來參加一場標(biāo)準(zhǔn)的智商測試，結(jié)果會是怎樣？這聽起來像是一個科幻小說的情節(jié)，但一個名為“Trackingai.org”的趣味項目已經(jīng)將它變成了現(xiàn)實。

　　這個項目沒有采用那些讓普通人眼花繚亂的技術(shù)術(shù)語和性能跑分，而是設(shè)計了一套參考人類智商測驗的考卷，讓當(dāng)前全球最頂尖的那些大型語言模型，進(jìn)行了一場直接又純粹的“智商”對決。

　　這場對決的核心看點，早已超越了單純的技術(shù)性能比較。它更像是一場AI界的“最強大腦”挑戰(zhàn)賽，試圖用一種我們最熟悉的方式，來衡量這些數(shù)字大腦到底有多“聰明”。

　　測試的方法有兩種。第一種是世界認(rèn)可度最高的門薩智商測試，即智商超過130即可加入由全球精英組成的門薩俱樂部。第二種是專門用來對模型性能做測試的智力問答測試集。

　　在這場挑戰(zhàn)中，最新發(fā)布的的GPT-5 Pro，谷歌公司潛心研發(fā)的Gemini 2.5 Pro，以及由埃隆·馬斯克主導(dǎo)、以個性著稱的Grok 4，共同上演了一場精彩的智力大比拼。與此同時，一些曾經(jīng)的王者和意想不到的“黑馬”也在這份榜單上留下了自己的印記，它們的表現(xiàn)同樣充滿了故事性和啟發(fā)性。這不僅僅是關(guān)于數(shù)字和排名的游戲，更是我們觀察AI認(rèn)知能力進(jìn)化，理解它們與人類思維異同的一個獨特窗口。

　　“御三家”的智商秀

　　在這場備受矚目的AI智商測試中，有三位“考生”無疑是全場的焦點。它們分別是OpenAI的GPT-5 Pro、谷歌的Gemini 2.5 Pro，以及xAI公司的Grok 4。這三個模型代表了當(dāng)今世界閉源商業(yè)大模型的最高水平，它們的每一次更新和發(fā)布都牽動著整個科技界的神經(jīng)。因此，當(dāng)它們在同一個智商測試的舞臺上相遇時，所有人都想知道，誰才是那個最聰明的“大腦”。

　　讓我們先看看門薩組，排名最高的是谷歌的Gemini 2.5 pro，他的智商達(dá)到了137。

　　前文也提到了，在人類的智商評定體系中，130分以上就被認(rèn)為是“極超常”，也就是我們通常所說的天才。而140分以上，更是被視為天才中的佼佼者。愛因斯坦的智商，后世估算大約在160分左右。

　　這個分?jǐn)?shù)表明，Gemini 2.5 Pro在處理復(fù)雜的邏輯推理、抽象思維和模式識別等任務(wù)時，其能力已經(jīng)可以與人類社會中最頂尖的那一小部分人相媲美。它不再是一個僅僅會模仿和重復(fù)的程序，而是展現(xiàn)出了某種程度的、接近人類高階智慧的解決問題的能力。

　　緊接著是OpenAI的o3，但令人匪夷所思的是，o3的性能低于o3 Pro，但是o3的智商卻比o3 Pro還高。作為GPT系列的最新成員，Chat GPT-5，它的智商只有121。

　　最后一位主角是埃隆·馬斯克麾下的Grok 4。Grok從一發(fā)布就以其獨特風(fēng)格和不受限制的回答方式而聞名，被認(rèn)為是一個極具個性的AI。它的智商表現(xiàn)自然也備受關(guān)注。測試結(jié)果顯示，Grok 4的智商分?jǐn)?shù)為125分。這個分?jǐn)?shù)雖然不及前面兩位選手那樣耀眼，但也已經(jīng)超過了人類的平均水平，進(jìn)入了“超常”的范疇。

　　在常識中，我們通常認(rèn)為最新的大模型智商應(yīng)該最高。但是Gemini 2.5 Pro是這里面誕生時間最長的模型，其次是Grok 4，最后是Chat GPT-5。之所以會產(chǎn)生這樣的結(jié)果，很可能是他們的開發(fā)者，在回答這類問題上作出了取舍，我們可以一起來看看他們是如何回答問題的，以便觀察他們的智力水平為何會違反常識。

　　以此題為例，門薩智商測試是由數(shù)道圖形推理題組成，在第18道測試題中，題目給出了一個3x3的九宮格，其中八個格子已經(jīng)填上了由不同線條組成的圖案，要求AI找出規(guī)律，并從六個選項中選擇一個正確的圖案填入第九個空格。根據(jù)規(guī)律，右下角的位置應(yīng)該填C。

　　GPT-5 Pro的回答，系統(tǒng)地觀察了九宮格中每一行和每一列的圖案變化，并指出了其中存在的邏輯遞進(jìn)關(guān)系。通過分析已有圖案的模式演變，它推斷出空格處需要一個什么樣的圖案才能同時滿足橫向和縱向的規(guī)律。基于這種對整體格局的把握和對細(xì)節(jié)演變的推斷，它最終準(zhǔn)確地找到了那個能夠補全整個邏輯拼圖的正確選項。

　　Gemini 2.5 Pro的回答也同樣正確，但它找到了一條完全不同的解題路徑。它敏銳地識別出了一個清晰的“旋轉(zhuǎn)對稱”規(guī)律，指出整個九宮格的第三行，其實是第一行順時針旋轉(zhuǎn)90度得到的結(jié)果。基于這個簡潔而優(yōu)雅的規(guī)則，它輕松地推導(dǎo)出了第三列空格處的圖案，也應(yīng)該是第一列對應(yīng)圖案旋轉(zhuǎn)90度的樣子，從而得出了正確的答案。這展現(xiàn)了其強大的模式識別能力，說明它能夠從不同的維度發(fā)現(xiàn)問題的內(nèi)在邏輯，找到同樣有效但思路迥異的解決方案。

　　Grok 4的解題過程則顯得更具探索性。它首先全面分析了行和列的各種可能性，試圖從線條的主題（橫線、豎線、交叉線）和數(shù)量等多個維度尋找規(guī)律。在經(jīng)過一番分析和排除后，它也同樣鎖定了問題的核心——整個圖形存在一個90度的旋轉(zhuǎn)對稱關(guān)系。它明確指出第三行是第一行旋轉(zhuǎn)90度的結(jié)果，并以此為依據(jù)，將第一行第三列的圖案進(jìn)行旋轉(zhuǎn)，最終也準(zhǔn)確地推導(dǎo)出了正確答案C。雖然它的思考路徑看起來更曲折，但這種多角度的嘗試最終也導(dǎo)向了正確的結(jié)果，展現(xiàn)了一種雖然不那么直接、但同樣有效的邏輯推理能力。

　　通過這個簡單的例子，我們可以看到，智商分?jǐn)?shù)不僅僅是一個冰冷的數(shù)字。它背后揭示的是不同AI在“思考”和解決問題時，所采用的路徑、邏輯的嚴(yán)密程度以及最終效果的差異。GPT-5 Pro展現(xiàn)了強大的抽象和系統(tǒng)化思維，Gemini 2.5 Pro表現(xiàn)出高效的模式識別能力，而Grok 4則通過一種更為探索性的分析路徑，最終也成功解決了問題。這場“御三家”的智商秀，清晰地勾勒出了當(dāng)前頂級AI智能水平的梯度。

　　而來到數(shù)據(jù)集組，結(jié)果就又變了。這回的排名很符合常識，GPT-5 Pro排名第一，Gemini 2.5 pro排名第二，o3 Pro排名第三，Grok 4排名第四。數(shù)據(jù)集組相對門薩測試來說，難度要高一些，而且測試題的數(shù)量非常多。

　　“意難平”與“小驚喜”

　　在這份AI智商排行榜上，除了最頂端那幾位耀眼的明星，其他一些模型的身影和它們所處的位置，同樣引人深思。它們的故事，或許更能揭示當(dāng)前人工智能發(fā)展的一些深層趨勢和挑戰(zhàn)。其中，最令人感到“意難平”的，莫過于Meta公司的Llama系列。

　　Llama系列，尤其是它的后續(xù)版本，曾經(jīng)是開源大模型領(lǐng)域的一面旗幟。當(dāng)OpenAI和谷歌等巨頭在閉源模型的道路上高歌猛進(jìn)時，Meta選擇將自己的強大模型開放給全世界的研究者和開發(fā)者，極大地推動了整個AI生態(tài)的繁榮。Llama一度被視為開源力量的希望，是能夠與頂級閉源模型一較高下的存在。然而，在這次的智商測試榜單中，Llama 4 Maverick的得分僅為98分。

　　98分，這個數(shù)字本身并不算低，它非常接近人類智商的平均值100分。這意味著Llama 4 Maverick已經(jīng)具備了與普通人相當(dāng)?shù)慕鉀Q問題的能力。但問題在于，它的競爭對手們，得分是121、1125，甚至是137。在這樣一個頂尖選手的賽場上，僅僅達(dá)到“平均水平”是遠(yuǎn)遠(yuǎn)不夠的。昔日的開源王者，如今在純粹的智力較量中，與閉源頂尖模型之間出現(xiàn)了肉眼可見的巨大差距。

　　Meta已經(jīng)開始采取行動。近期有大量報道指出，Meta正在不惜代價，通過提供極具吸引力的薪酬和資源，從谷歌、OpenAI等競爭對手那里積極招攬頂尖的AI研究員和工程師。這場“挖角”大戰(zhàn)，正是Meta試圖彌補差距、重振旗鼓的關(guān)鍵一步。Llama的未來表現(xiàn)，將在很大程度上取決于這場人才爭奪戰(zhàn)的結(jié)果。

　　然而，榜單也并非只有失意者，同樣存在著不容小覷的“小驚喜”。Deepseek R1的測試數(shù)據(jù)停留在5月底，這意味著它所使用的是相對較舊的版本。但在這種情況下，它的智商分?jǐn)?shù)達(dá)到了102分。

　　102分這個數(shù)字，本身只是略高于平均水平，但它的意義需要結(jié)合背景來看。它超過了風(fēng)頭正勁的Llama 4 Maverick。更重要的是，作為一個數(shù)據(jù)更新不算及時的模型，它所展現(xiàn)出的智力水平，已經(jīng)開始接近那些剛剛發(fā)布、匯集了最新技術(shù)成果的頂尖模型。這匹“黑馬”的存在，傳遞出了一個非常積極的信號。

　　DeepSeek R1的堅守和它所取得的成績，有力地說明了一個道理：在提升AI的“智商”方面，一味地追求最新的數(shù)據(jù)和更大的模型規(guī)模，并非是唯一的路徑。模型的架構(gòu)設(shè)計、訓(xùn)練方法和算法的優(yōu)化，同樣扮演著至關(guān)重要的角色。一個設(shè)計精良、訓(xùn)練高效的模型架構(gòu)，即便沒有“吃”進(jìn)最新的知識，也可能在底層的邏輯推理和問題解決能力上，表現(xiàn)得更為出色。

　　這就好比一個學(xué)生，聰明與否不僅取決于他讀了多少本書，更取決于他是否掌握了高效的學(xué)習(xí)方法和清晰的思維框架。DeepSeek R1的表現(xiàn)，讓我們看到了另一種可能性，即通過更聰明的算法和架構(gòu)，實現(xiàn)更高的“智商性價比”。這對于資源相對有限的研究團隊和開源社區(qū)來說，無疑是一個巨大的鼓舞。它提醒著整個行業(yè)，在追逐規(guī)模和數(shù)據(jù)的同時，不應(yīng)忽視那些來自模型設(shè)計和訓(xùn)練方法本身的、更為根本的創(chuàng)新。

　　這個測試結(jié)果不用太在意

　　這種模擬人類智商測試的方式，其最大的意義在于它建立了一座溝通的橋橋梁。長期以來，評估AI模型性能的指標(biāo)，如MMLU、HellaSwag、ARC等，雖然在學(xué)術(shù)界和工業(yè)界非常重要，但對于普通公眾來說，這些縮寫詞匯和它們背后的技術(shù)細(xì)節(jié)，就像一堵高墻，讓人難以理解一個AI到底“聰明”在哪里。而智商這個概念，早已深入人心。

　　當(dāng)我們可以說“這個AI的智商是137”時，它的智能水平立刻就變得具體、可感、可以比較了。這種通俗化的度量衡，極大地降低了公眾理解AI能力的門檻，讓我們可以用一種更直觀的方式，來討論和思考人工智能的發(fā)展。它告訴我們，AI的“聰明”不再僅僅是程序員代碼跑分的結(jié)果，而是實實在在地體現(xiàn)在了解決那些需要我們動腦筋的謎題和問題的能力上。

　　大模型的智商能超過130，這不僅僅意味著AI在處理標(biāo)準(zhǔn)化測試題上的能力越來越強，更深層次地，它標(biāo)志著AI的認(rèn)知能力正在發(fā)生質(zhì)的飛躍。它們正在從單純的信息檢索和模式匹配，進(jìn)化到能夠進(jìn)行復(fù)雜的邏輯推理、抽象思維和多步驟問題解決。它們在模仿人類智慧的道路上，已經(jīng)走得非常遠(yuǎn)，甚至在某些方面，開始展現(xiàn)出超越普通人類的能力。

　　Trackingai.org也在官網(wǎng)表示，對大模型做智商測試更多是出于娛樂，因為大模型的智商，并不能完全等同于人類的智商。

　　因為智商測試主要衡量的是其中“聚合性思維”的部分，即在給定規(guī)則和信息下，通過邏輯演繹找到唯一正確答案的能力。這恰好是當(dāng)前大型語言模型所擅長的領(lǐng)域——它們通過對海量數(shù)據(jù)的學(xué)習(xí)，精通于模式識別和邏輯關(guān)聯(lián)。

　　然而，人類智能還包含與之相對的“發(fā)散性思維”，即創(chuàng)造力、想象力和直覺，以及更為復(fù)雜的社會情感智能和具身認(rèn)知（通過與物理世界互動獲得的智能）。這些是當(dāng)前AI架構(gòu)難以觸及的。因此，AI的高智商，更準(zhǔn)確地說，是其作為“邏輯分析引擎”性能卓越的體現(xiàn)，而非其擁有了與人類相似的完整心智。

　　無論如何，這場測試的結(jié)果都清晰地揭示了一個趨勢：AI正成為人類有史以來最強大的認(rèn)知工具。當(dāng)一個系統(tǒng)的邏輯處理能力已經(jīng)達(dá)到甚至超越人類天才的水平時，我們必須重新思考人機協(xié)作的范式。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.