![]()
![]()
![]()
人工智能(AI)領(lǐng)域的時(shí)髦術(shù)語(yǔ)往往相當(dāng)有技術(shù)含量:感知機(jī)、卷積、變換器。這些詞匯指的都是特定的計(jì)算方法。近來(lái),有一個(gè)術(shù)語(yǔ)聽(tīng)起來(lái)很普通,卻蘊(yùn)含著革命性的意義,那就是“時(shí)間線”。如果向AI領(lǐng)域的某人詢問(wèn)他們的“時(shí)間線”,他們會(huì)告訴你預(yù)計(jì)何時(shí)能實(shí)現(xiàn)AGI,即通用人工智能,其定義有時(shí)可解讀為一種能在大多數(shù)任務(wù)中媲美人類能力的AI技術(shù)。隨著計(jì)算機(jī)速度的提升、算法的優(yōu)化以及數(shù)據(jù)的積累,AI的成熟度日益提高,實(shí)現(xiàn)的時(shí)間線也在縮短。近期,包括OpenAI、Anthropic和谷歌DeepMind在內(nèi)的大型AI實(shí)驗(yàn)室的負(fù)責(zé)人都表示,預(yù)計(jì)將在幾年內(nèi)實(shí)現(xiàn)AGI。 能像人類一樣思考的計(jì)算機(jī)系統(tǒng)將實(shí)現(xiàn)緊密的人機(jī)協(xié)作。雖然實(shí)現(xiàn)AGI的近期和長(zhǎng)期影響尚不明確,但可以預(yù)見(jiàn)的是,
它將在經(jīng)濟(jì)、科學(xué)發(fā)現(xiàn)和地緣政治領(lǐng)域引發(fā)變革。如果AGI進(jìn)一步發(fā)展為超級(jí)智能,它甚至可能動(dòng)搖人類在食物鏈頂端的地位。因此,我們必須追蹤這項(xiàng)技術(shù)的發(fā)展進(jìn)程,為即將到來(lái)的劇變做好準(zhǔn)備。衡量AI的能力能讓我們據(jù)此制定法律法規(guī)、確立工程目標(biāo)、建立社會(huì)規(guī)范、調(diào)整商業(yè)模式,并從更廣泛的層面去理解“智能”。
衡量任何智力能力都絕非易事,衡量AGI則面臨著特殊的挑戰(zhàn),部分原因是人們對(duì)AGI的定義存在嚴(yán)重分歧。有些人通過(guò)它在基準(zhǔn)測(cè)試中的表現(xiàn)來(lái)定義它,有些人則依據(jù)其內(nèi)部工作原理、經(jīng)濟(jì)影響,甚至是基于一種“感覺(jué)”來(lái)定義。因此,衡量AI智能的第一步是就這個(gè)總體概念達(dá)成共識(shí)。
另一個(gè)問(wèn)題是,AI系統(tǒng)相較于人類的優(yōu)勢(shì)和劣勢(shì)不同。因此,即使將AGI定義為“在大多數(shù)任務(wù)中能媲美人類的AI”,我們依然可能會(huì)爭(zhēng)論哪些任務(wù)真正重要,以及應(yīng)以哪部分人類表現(xiàn)作為標(biāo)準(zhǔn)。直接比較非常困難。“我們正在構(gòu)建的是‘異形’智能體。”多倫多大學(xué)榮休教授、因在AI領(lǐng)域的杰出貢獻(xiàn)而獲得諾貝爾獎(jiǎng)的杰弗里·辛頓(Geoffrey Hinton)說(shuō)。
盡管如此,研究人員并不氣餒,而是積極設(shè)計(jì)和提出各種測(cè)試,以期能對(duì)我們的未來(lái)提供一些洞見(jiàn)。但有個(gè)問(wèn)題依然存在:這些測(cè)試能否清楚地說(shuō)明我們是否已經(jīng)實(shí)現(xiàn)了長(zhǎng)期追求的AGI目標(biāo)?
智能的種類是無(wú)限的,即使人類的智能也是如此。智商測(cè)試包含了一系列涉及記憶、邏輯、空間處理、數(shù)學(xué)和詞匯等內(nèi)容的半關(guān)聯(lián)性任務(wù),可提供一種概括性的統(tǒng)計(jì)。從不同維度來(lái)看,個(gè)體在每項(xiàng)任務(wù)中的表現(xiàn)都依賴于流體智力(即實(shí)時(shí)推理能力)和晶體智力(即應(yīng)用所學(xué)知識(shí)或技能的能力)的混合。
對(duì)于高收入國(guó)家的人群而言,智商測(cè)試往往能預(yù)測(cè)學(xué)業(yè)成就、事業(yè)成功等關(guān)鍵結(jié)果。但我們不能在AI上套用對(duì)人類的這種假設(shè),因?yàn)锳I的能力組合方式與人類截然不同。讓機(jī)器完成為人類設(shè)計(jì)的智商測(cè)試,其結(jié)論可能與測(cè)試結(jié)果對(duì)人類的意義大相徑庭。
此外,還有許多智力類型往往不在智商測(cè)試評(píng)估范圍內(nèi),甚至當(dāng)前大多數(shù)AI基準(zhǔn)測(cè)試也很難對(duì)其進(jìn)行衡量。這類智力包括社會(huì)智力(例如進(jìn)行心理推斷的能力)與肢體智力(例如理解物體與作用力之間因果關(guān)系的能力,或協(xié)調(diào)身體適應(yīng)環(huán)境的能力)。這兩類能力對(duì)人類應(yīng)對(duì)復(fù)雜情境至關(guān)重要。
對(duì)人、動(dòng)物或機(jī)器進(jìn)行智力測(cè)試很困難。我們必須警惕假正例與假負(fù)例。受試者有可能僅憑投機(jī)取巧等手段顯得很聰明,著名的“聰明漢斯”就是典型案例:這匹馬表面上“會(huì)算數(shù)”,實(shí)際上依靠的是對(duì)非語(yǔ)言線索做出的反應(yīng);反之,測(cè)試對(duì)象也可能因不熟悉測(cè)試流程或存在認(rèn)知障礙而顯得愚鈍。
![]()
智力概念的界定之所以困難,還因?yàn)樗鼤?huì)隨地域和時(shí)代變化而變遷。佐治亞理工學(xué)院心理學(xué)助理教授安娜·伊萬(wàn)諾娃(Anna Ivanova)指出:“社會(huì)對(duì)智力的含義及其價(jià)值維度的認(rèn)知正在發(fā)生深刻轉(zhuǎn)變。”例如:在百科全書和互聯(lián)網(wǎng)出現(xiàn)之前,“大腦中儲(chǔ)備大量知識(shí)被視為智慧的重要標(biāo)志”;而今,我們?cè)絹?lái)越重視流體智力,而非晶體智力。
多年來(lái),人們?cè)啻吾槍?duì)機(jī)器設(shè)立大規(guī)模挑戰(zhàn),號(hào)稱需要擁有媲美人類的智慧才可完成這些挑戰(zhàn)。1958年,三位頂尖AI研究者寫道:“國(guó)際象棋是智力游戲的巔峰......如果能制造出成功的國(guó)際象棋機(jī)器,便意味著觸及了人類智能的核心。”他們承認(rèn),理論上有這樣的可能,即這種機(jī)器“或許能發(fā)現(xiàn)某種如同車輪之于人腿的東西,其運(yùn)作方式與人類迥異,但本身卻極其有效且可能非常簡(jiǎn)單”。但他們?nèi)詧?jiān)持認(rèn)為“目前此類突破未見(jiàn)端倪”。然而1997年,IBM“深藍(lán)”計(jì)算機(jī)實(shí)現(xiàn)了這種突破,它擊敗了當(dāng)時(shí)的國(guó)際象棋世界冠軍加里·卡斯帕羅夫(Garry Kasparov),但它卻連玩跳棋這種通用智能都不具備。
![]()
1950年,艾倫·圖靈提出了“模仿游戲”,其中一種游戲要求機(jī)器在文字對(duì)話中以假亂真地模仿人類。“這種問(wèn)答方式似乎適合展現(xiàn)我們想要囊括的任何人類智慧領(lǐng)域。”他寫道。隨后數(shù)十年里,通過(guò)圖靈測(cè)試曾被視為近乎不可能的任務(wù),這也是衡量AGI的重要指標(biāo)。
然而2025年,研究人員報(bào)告稱,在分別與真人和OpenAI的GPT-4.5進(jìn)行5分鐘對(duì)話,然后判斷哪個(gè)是人類時(shí),人們選擇AI的情況高達(dá)73%。但與此同時(shí),頂級(jí)語(yǔ)言模型卻常犯人類幾乎不會(huì)犯的錯(cuò)誤,比如數(shù)不清“strawberry”中字母“r”出現(xiàn)了幾次。這些系統(tǒng)更像是車輪,而非擁有通用能力的“人腿”。因此,科學(xué)家仍在尋找無(wú)法被技術(shù)取巧的真正類人智能的衡量標(biāo)準(zhǔn)。
當(dāng)前有一項(xiàng)備受矚目的AGI基準(zhǔn)測(cè)試盡管并不完美,但已成為衡量大多數(shù)前沿模型的重要試金石。2019年,時(shí)任谷歌軟件工程師、現(xiàn)為AI創(chuàng)業(yè)公司Ndea創(chuàng)始人的弗朗索瓦·肖萊(Fran?ois Chollet)發(fā)表了題為《論智能的衡量》(On the Measure of Intelligence)的論文。多數(shù)人認(rèn)為智能等同于能力,通用智能等同于一系列廣泛的能力。但肖萊對(duì)智能的定義更具體,認(rèn)為智能只有一個(gè)至關(guān)重要的特定能力,即輕松獲得新能力的能力。支撐ChatGPT等工具的大語(yǔ)言模型之所以能在眾多基準(zhǔn)測(cè)試中表現(xiàn)出色,完全依賴于使用數(shù)萬(wàn)億書面詞語(yǔ)對(duì)其進(jìn)行的訓(xùn)練。遇到與訓(xùn)練數(shù)據(jù)差異很大的情況時(shí),這些模型往往難以適應(yīng)且表現(xiàn)失常。依照肖萊的標(biāo)準(zhǔn),它們?nèi)匀狈χ悄堋?/p>
為配合論文發(fā)布,肖萊創(chuàng)建了一個(gè)新的AGI基準(zhǔn)測(cè)試,名為“抽象與推理語(yǔ)料庫(kù)”(ARC)。其中包含數(shù)百道視覺(jué)謎題,每道題都配有若干示例和一道測(cè)試題。示例包含輸入網(wǎng)格和輸出網(wǎng)格,其中填滿了彩色方塊;測(cè)試題則只有一個(gè)輸入網(wǎng)格。要求是從示例中學(xué)習(xí)規(guī)律,并根據(jù)此規(guī)律完成測(cè)試題,生成新的輸出網(wǎng)格。
![]()
ARC側(cè)重流體智力。“解決任何問(wèn)題都需要一定的知識(shí)儲(chǔ)備,然后實(shí)時(shí)重組這些知識(shí)。”肖萊向我解釋道。要確保該測(cè)試不考察記憶性知識(shí)而考察知識(shí)重組能力,訓(xùn)練謎題應(yīng)提供所需的全部“核心先驗(yàn)知識(shí)”,包括對(duì)象連貫、對(duì)稱性、計(jì)數(shù)等幼童已具備的常識(shí)。接受過(guò)這類訓(xùn)練和少量示例后,你能否精準(zhǔn)調(diào)用相關(guān)知識(shí)來(lái)解決全新謎題?人類能輕松完成大部分題目,但AI系統(tǒng)舉步維艱,至少在初期如此。最終,OpenAI開發(fā)的o3推理模型的某個(gè)版本超越了人類受試者的平均水平,正確率達(dá)到88%,但每道題的計(jì)算成本預(yù)估高達(dá)2萬(wàn)美元(OpenAI從未公開發(fā)布該模型,故未將其計(jì)入排行榜)。
2025年3月,肖萊推出了難度升級(jí)的新版本,名為“ARC-AGI-2”,由其新設(shè)立的非營(yíng)利組織ARC Prize基金會(huì)監(jiān)管。該機(jī)構(gòu)表示:“我們的使命是通過(guò)持久性基準(zhǔn)測(cè)試,成為實(shí)現(xiàn)AGI的北極星。”ARC Prize設(shè)立了百萬(wàn)美元獎(jiǎng)金,主要獎(jiǎng)勵(lì)那些訓(xùn)練出符合以下條件的AI的團(tuán)隊(duì):在12小時(shí)內(nèi)使用4個(gè)圖形處理器,解答120道新謎題的準(zhǔn)確率達(dá)到85%。新謎題比2019年版本更復(fù)雜,有時(shí)需要應(yīng)用多種規(guī)則、進(jìn)行多步推理或解讀符號(hào)含義。目前人類平均正確率為60%,而截至本文撰稿時(shí),最佳AI的正確率僅約16%。
![]()
AI專家們肯定了ARC的價(jià)值,但也指出了它的局限。伊利諾伊大學(xué)厄巴納-香檳分校計(jì)算機(jī)科學(xué)家尤佳軒認(rèn)為,ARC是一種“非常好的理論基準(zhǔn)測(cè)試”,能揭示算法的運(yùn)作機(jī)制,但“未充分考慮AI應(yīng)用中的現(xiàn)實(shí)復(fù)雜性,比如社會(huì)推理任務(wù)”。
圣塔菲研究所的計(jì)算機(jī)科學(xué)家梅拉尼·米切爾(Melanie Mitchell)指出,該測(cè)試“捕捉到了人類某些有趣的能力”,例如,從少量示例中提取新規(guī)律的能力。但鑒于其任務(wù)形式不夠多樣化,她表示:“我不認(rèn)為這能涵蓋人們所說(shuō)的通用智能。”
盡管存在這些局限,ARC-AGI-2或許仍是當(dāng)前先進(jìn)AI與普通人類表現(xiàn)差距最大的基準(zhǔn)測(cè)試,使其成為了衡量AGI進(jìn)步的重要標(biāo)尺。更重要的是,ARC仍在持續(xù)發(fā)展。肖萊表示AI可能在一兩年內(nèi)就能在當(dāng)前測(cè)試中達(dá)到人類水平,他已經(jīng)在開發(fā)ARC-AGI-3。每個(gè)任務(wù)都將如同微型電子游戲,參與者需要理解相關(guān)概念、探索可行操作并最終達(dá)成目標(biāo)。
![]()
研究人員也在不斷推出新的基準(zhǔn)來(lái)探究通用智能的不同維度,每個(gè)新基準(zhǔn)同時(shí)也揭示了我們認(rèn)知版圖中尚未填補(bǔ)的空白。
最近,一篇論文介紹了一種名為“General-Bench”的基準(zhǔn)測(cè)試,它使用了文本、圖像、視頻、音頻和3D模型5種輸入模態(tài),可通過(guò)數(shù)百項(xiàng)任務(wù)檢驗(yàn)AI系統(tǒng)的識(shí)別、推理、創(chuàng)造、倫理判斷能力,以及其他理解和生成資料的能力。理想的AGI應(yīng)當(dāng)展現(xiàn)協(xié)同效應(yīng),在各項(xiàng)任務(wù)中融會(huì)貫通多種能力,從而超越最頂尖的AI專家。但目前還沒(méi)有任何AI能同時(shí)駕馭5種模態(tài)。
其他基準(zhǔn)測(cè)試還涉及虛擬世界。2025年4月,《自然》雜志上的一篇論文介紹了谷歌DeepMind開發(fā)的通用算法“Dreamer”,該算法已學(xué)會(huì)執(zhí)行超過(guò)150項(xiàng)任務(wù),包括玩街機(jī)游戲、操控虛擬機(jī)器人、在《我的世界》游戲中獲取鉆石等。這些任務(wù)要求具備感知、探索、長(zhǎng)期規(guī)劃和交互能力,但尚不清楚Dreamer處理現(xiàn)實(shí)世界復(fù)雜問(wèn)題的能力如何。該論文的第一作者丹尼亞爾·哈夫納(Danijar Hafner)指出,操控電子游戲角色比操控真實(shí)機(jī)器人簡(jiǎn)單,“游戲角色永遠(yuǎn)不會(huì)摔得臉著地”。這些任務(wù)還缺乏與人類的深度互動(dòng),以及結(jié)合手勢(shì)和環(huán)境的語(yǔ)言理解能力。他說(shuō):“理想情況下,你對(duì)家務(wù)機(jī)器人說(shuō)‘把碗碟放進(jìn)那個(gè)櫥柜,不是那邊’,同時(shí)用手指向(某個(gè)櫥柜),它就能理解。”哈夫納表示其團(tuán)隊(duì)正在努力提升模擬和任務(wù)的真實(shí)度。
除現(xiàn)有基準(zhǔn)測(cè)試外,專家們對(duì)于理想示范形態(tài)的爭(zhēng)論由來(lái)已久。早在1970年,AI先驅(qū)馬文·明斯基就對(duì)《生活》(Life)雜志預(yù)言:“未來(lái)3到8年,我們將制造出具備普通人類水平的通用智能機(jī)器。我指的是一臺(tái)能閱讀莎士比亞、能給汽車上潤(rùn)滑油、玩得轉(zhuǎn)辦公室政治、會(huì)說(shuō)笑話、會(huì)吵架的機(jī)器。”如果能對(duì)“辦公室政治”進(jìn)行可操作化定義,這套任務(wù)組合倒不失為不錯(cuò)的起點(diǎn)。
2024年《工程》(Engineering)雜志上發(fā)表的一篇論文提出了“通”測(cè)試。該測(cè)試將為虛擬人物隨機(jī)分配任務(wù),不僅檢驗(yàn)其理解能力,更評(píng)估其價(jià)值判斷。例如,AI可能突然遇到掉在地上的錢或正在哭的嬰兒,研究人員則可借此機(jī)會(huì)觀察AI如何應(yīng)對(duì)。該論文的作者認(rèn)為,基準(zhǔn)測(cè)試應(yīng)評(píng)估AI自主探索和設(shè)定目標(biāo)的能力、與人類價(jià)值觀的相符情況、因果理解能力、虛擬/實(shí)體軀體操控能力。此外,基準(zhǔn)測(cè)試還應(yīng)能生成無(wú)限多個(gè)涉及動(dòng)態(tài)實(shí)物和社會(huì)交互的任務(wù)。
明斯基等其他學(xué)者則提議,需要進(jìn)行不同程度的現(xiàn)實(shí)世界交互測(cè)試,例如在陌生廚房泡咖啡、將10萬(wàn)美元增值至百萬(wàn)美元、在大學(xué)校園就讀并獲取學(xué)位等。遺憾的是,此類測(cè)試中有一些既難以實(shí)施又存在現(xiàn)實(shí)風(fēng)險(xiǎn)。例如,AI可能通過(guò)詐騙手段來(lái)賺取百萬(wàn)資金。
筆者曾問(wèn)過(guò)諾貝爾獎(jiǎng)得主辛頓,AI最難掌握哪些技能。“我過(guò)去認(rèn)為,理解他人心思這類能力會(huì)是其瓶頸。”他說(shuō),“但它已經(jīng)具備了一些這種能力,甚至已經(jīng)能進(jìn)行欺騙。”(最近一項(xiàng)多所大學(xué)的聯(lián)合研究顯示,在誘導(dǎo)受試者選擇錯(cuò)誤答案方面,大語(yǔ)言模型已超越人類。)他繼續(xù)說(shuō):“所以,我現(xiàn)在的答案是管道維修。修老房子的管道需要探入狹窄的縫隙,還要以特定方式擰緊零件。我認(rèn)為至少未來(lái)10年內(nèi)AI無(wú)法完成這項(xiàng)任務(wù)。”
![]()
AI是否需要能執(zhí)行涉及實(shí)物的任務(wù)才算是AGI,學(xué)界對(duì)此始終存在爭(zhēng)論。谷歌DeepMind一篇關(guān)于衡量AGI級(jí)別的論文持否定立場(chǎng),并主張這類智能只需通過(guò)軟件展現(xiàn)。他們認(rèn)為,實(shí)物操作能力是AGI的附加能力而非必要能力。
圣塔菲研究所的米切爾提出,我們應(yīng)當(dāng)測(cè)試AI承擔(dān)整個(gè)工作崗位任務(wù)所需的能力。她指出,AI雖然能完成人類放射科醫(yī)生的許多任務(wù),但無(wú)法完全取代人類醫(yī)生,因?yàn)檫@份工作包含大量連醫(yī)師本人都未意識(shí)到的隱性工作,比如決定要做什么以及應(yīng)對(duì)突發(fā)狀況等。“現(xiàn)實(shí)世界中有可能發(fā)生的意外情況實(shí)在太多了。”她說(shuō)。某些掃地機(jī)器人因未接受過(guò)識(shí)別狗糞便的訓(xùn)練,會(huì)將狗糞便抹滿地毯。“在構(gòu)建智能系統(tǒng)時(shí),有太多此類無(wú)法預(yù)見(jiàn)的突發(fā)狀況。”
部分科學(xué)家表示,我們不僅要觀察系統(tǒng)表現(xiàn),更需探查其內(nèi)部運(yùn)作機(jī)制。加拿大不列顛哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)家杰夫·克倫(Jeff Clune)聯(lián)合發(fā)表的論文指出,深度學(xué)習(xí)常導(dǎo)致AI系統(tǒng)形成“割裂的糾纏表征”(fractured entangled representations),基本上就是大量臨時(shí)拼湊的捷徑機(jī)制。而人類則善于尋找普適且合理的通用規(guī)律。某個(gè)AI系統(tǒng)或許能在特定測(cè)試中表現(xiàn)得很智能,但如果不了解其內(nèi)部機(jī)制,它在新場(chǎng)景下應(yīng)用錯(cuò)誤的規(guī)則可能引發(fā)意外后果。
作家劉易斯·卡羅爾(Lewis Car-roll)曾描寫過(guò)這樣一個(gè)角色:他使用“一英里代表一英里”比例尺的全國(guó)地圖,最終索性將整個(gè)國(guó)家本身當(dāng)作地圖。在智力測(cè)試領(lǐng)域,要精準(zhǔn)地體現(xiàn)個(gè)體在特定情境中的表現(xiàn),最佳方式就是將其置于這個(gè)情境中進(jìn)行檢驗(yàn)。按照這一邏輯,對(duì)AGI的有佳測(cè)試或許是讓機(jī)器人完整度過(guò)人類的一生,例如將孩子撫養(yǎng)成年。
“最終,檢驗(yàn)AI能力的真實(shí)標(biāo)準(zhǔn)是它們?cè)诂F(xiàn)實(shí)世界中的作為。”克倫告訴我,“因此相較于基準(zhǔn)測(cè)試,我更關(guān)注(AI)有了哪些科學(xué)發(fā)現(xiàn)、自動(dòng)完成了哪些工作。如果人類雇用AI而非人類來(lái)完成工作,并且堅(jiān)持執(zhí)行這一決定,這本身就是對(duì)AI能力的強(qiáng)烈認(rèn)可。”但有些時(shí)候,在使用AI替代人類之前,我們希望預(yù)先了解其表現(xiàn)水平。
我們或許永遠(yuǎn)無(wú)法就AGI或“像人一樣”的AI的定義達(dá)成共識(shí),也無(wú)法確定怎樣證實(shí)它就是AGI。隨著AI技術(shù)的進(jìn)步,機(jī)器仍會(huì)犯錯(cuò),人們也總會(huì)借此宣稱AI并非真正的智能。最期,在一個(gè)專題討論會(huì)上,主持人問(wèn)到了佐治亞理工學(xué)院心理學(xué)家伊萬(wàn)諾娃關(guān)于AGI時(shí)間線的問(wèn)題。“有位學(xué)者認(rèn)為它永遠(yuǎn)不可能實(shí)現(xiàn),”她告訴我,“而另一位則表示它已然出現(xiàn)。”因此,“AGI”這個(gè)術(shù)語(yǔ)或許只是表達(dá)目標(biāo)或擔(dān)憂的一個(gè)便捷符號(hào),其實(shí)際價(jià)值可能有限。在大多數(shù)情況下,在提及這個(gè)詞時(shí),我們都該為其加上星號(hào)注釋,標(biāo)明具體的基準(zhǔn)測(cè)試。
作者:Matthew Hutson
IEEE Spectrum
《科技縱覽》
官方微信公眾平臺(tái)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.