網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OECD發(fā)布AI能力指標(biāo)評(píng)估量表

2025-11-24 08:45:43　來源: 國(guó)際與比較教育研究所

北京舉報(bào)

分享至

2025年11月14日，經(jīng)合組織（OECD）發(fā)布《OECD人工智能能力指標(biāo)技術(shù)報(bào)告》，就其提出的9個(gè)AI能力指標(biāo)的評(píng)估進(jìn)行了詳細(xì)解釋。

報(bào)告開篇即指出：根據(jù)信息來源的不同，AI要么被塑造成救世主，要么被描繪成滅世者。在這個(gè)被炒作與恐懼主導(dǎo)的輿論場(chǎng)中，關(guān)于AI真實(shí)能力的清晰、可靠且細(xì)致入微的信息依然驚人地缺失。即便是AI開發(fā)者，也無法完全理解當(dāng)前AI系統(tǒng)的實(shí)際能力——或者它們正在以多快的速度進(jìn)步。

作為應(yīng)對(duì)，這份由OECD牽頭、聯(lián)合全球數(shù)十位頂尖計(jì)算機(jī)科學(xué)家和心理學(xué)家制定的報(bào)告，首次建立了一套系統(tǒng)的AI能力評(píng)估框架，提出了9個(gè)核心能力指標(biāo)，包括語言、問題解決、社會(huì)互動(dòng)、創(chuàng)造力、知識(shí)-學(xué)習(xí)-記憶、元認(rèn)知與批判性思維、視覺、操作及機(jī)器人智能，并將每個(gè)能力劃分為從1到5的五個(gè)等級(jí)（5級(jí)代表達(dá)到穩(wěn)健的人類水平），旨在為政策制定者和公眾提供一個(gè)評(píng)估AI真實(shí)能力的“標(biāo)尺”。

報(bào)告的部分內(nèi)容總結(jié)如下：

一、能力指標(biāo)的政策應(yīng)用場(chǎng)景

報(bào)告通過將AI能力指標(biāo)與美國(guó)職業(yè)數(shù)據(jù)庫(kù)（O*NET，涵蓋了約900種美國(guó)職業(yè)，包含關(guān)于人類能力、技能、知識(shí)、工作方式和背景的詳細(xì)描述）中的人類能力要求進(jìn)行交叉映射，并開發(fā)了“追趕指數(shù)”來進(jìn)行量化分析。該指數(shù)衡量的是AI能力水平與任務(wù)所需能力水平之間的等級(jí)差（范圍為0-4），指數(shù)為0表示AI已能勝任，指數(shù)越大則表示差距越大。

報(bào)告具體通過分析三種不同任務(wù)的“追趕指數(shù)”畫像，具體揭示了AI在不同領(lǐng)域的能力差距與未來轉(zhuǎn)型路徑。

1.需要高水平推理能力的任務(wù)

對(duì)于該類任務(wù)，報(bào)告以編制、分析和核實(shí)年度報(bào)告及財(cái)務(wù)報(bào)表，并確保其符合各種法規(guī)和標(biāo)準(zhǔn)為例進(jìn)行了分析。研究發(fā)現(xiàn)這一工作的追趕指數(shù)為2，這意味著當(dāng)前的AI能力尚未滿足該工作要求。

報(bào)告認(rèn)為，雖然目前AI尚無法完成此項(xiàng)任務(wù)，但對(duì)其組成部分進(jìn)行研究能夠?yàn)闃?gòu)建一個(gè)設(shè)想人類與AI協(xié)作完成工作的轉(zhuǎn)型方案提供有價(jià)值的見解。在未來情景中，隨著AI系統(tǒng)在AI能力指標(biāo)中的推理能力達(dá)到專家級(jí)水平，財(cái)務(wù)報(bào)告中的勞動(dòng)密集型工作可能會(huì)在很大程度上實(shí)現(xiàn)自動(dòng)化。這些系統(tǒng)將直接與財(cái)務(wù)、工資、庫(kù)存和銀行平臺(tái)對(duì)接，實(shí)現(xiàn)數(shù)據(jù)格式的標(biāo)準(zhǔn)化，并持續(xù)檢查異常、遺漏或重復(fù)情況。交易可以根據(jù)發(fā)票和審批進(jìn)行驗(yàn)證，自動(dòng)起草審計(jì)追蹤，并且只有在需要人工判斷或政策裁量時(shí)才會(huì)發(fā)出警報(bào)。所有這些工作都可以近乎實(shí)時(shí)地完成，并且每一步都有清晰的、由機(jī)器生成的解釋。

在此場(chǎng)景下，人類的專業(yè)知識(shí)將轉(zhuǎn)向更高價(jià)值的職責(zé)。專業(yè)人士將定義指導(dǎo)人工智能的會(huì)計(jì)規(guī)則和重要性閾值，審查其標(biāo)記的少數(shù)復(fù)雜例外情況，并確定適當(dāng)?shù)幕貞?yīng)或披露。他們將解釋系統(tǒng)的輸出結(jié)果，將其轉(zhuǎn)化為針對(duì)高管和監(jiān)管機(jī)構(gòu)的定價(jià)、流動(dòng)性和風(fēng)險(xiǎn)方面的戰(zhàn)略建議，同時(shí)對(duì)人工智能進(jìn)行審計(jì)，以確保其符合道德、法律和透明度標(biāo)準(zhǔn)。日常的“數(shù)據(jù)偵探”工作將委托給機(jī)器，使專業(yè)人士能夠擔(dān)任政策架構(gòu)師、戰(zhàn)略顧問和信任管理者等角色。

2.要求高水平身體能力的任務(wù)

對(duì)于該類任務(wù)，報(bào)告以使用手動(dòng)或電動(dòng)工具組裝、安裝、測(cè)試或維護(hù)電氣或電子線路、設(shè)備、器具、裝置或固定裝置為例進(jìn)行了分析。研究發(fā)現(xiàn)這一工作的追趕指數(shù)為1，這意味著當(dāng)前的AI能力在很大程度上滿足了該工作的推理需求，但仍未達(dá)到必要的敏捷性和感知能力。

報(bào)告認(rèn)為，在未來情景中，隨著具備四級(jí)視覺和操控能力的機(jī)器人出現(xiàn)并成熟，安裝電線的物理工藝將很大程度上轉(zhuǎn)移給AI。自主單元將掃描現(xiàn)場(chǎng)、鋪設(shè)線管、以力反饋精度拉線和端接導(dǎo)線，并將每一步記錄在數(shù)字竣工模型中，同時(shí)僅在出現(xiàn)規(guī)范模糊或障礙時(shí)向人類發(fā)出警報(bào)。電工的角色相應(yīng)地從動(dòng)手工作轉(zhuǎn)向更高層次的監(jiān)管——設(shè)定任務(wù)參數(shù)、授權(quán)重新布線、解決標(biāo)記的合規(guī)問題、執(zhí)行現(xiàn)場(chǎng)檢查以獲得監(jiān)管簽字，以及維護(hù)或微調(diào)機(jī)器人系統(tǒng)。因此，專業(yè)知識(shí)向上游轉(zhuǎn)移到規(guī)劃、監(jiān)督和持續(xù)改進(jìn)，而不是停留在手動(dòng)安裝上。

3.需要高水平社交互動(dòng)和推理能力的任務(wù)

對(duì)于該類任務(wù)，報(bào)告以鼓勵(lì)個(gè)人和家庭成員發(fā)展并使用建設(shè)性的應(yīng)對(duì)策略為例進(jìn)行了分析。研究發(fā)現(xiàn)這一工作的追趕指數(shù)為2，這是因?yàn)楫?dāng)前的AI系統(tǒng)——即使是最有能力的對(duì)話模型——仍然難以在多次交流中維持連貫的治療敘事，推斷潛在的家庭權(quán)力動(dòng)態(tài)，并使干預(yù)措施適應(yīng)不同的文化或發(fā)展背景。

報(bào)告認(rèn)為，隨著先進(jìn)AI系統(tǒng)縮小其在語言、社交互動(dòng)和問題解決方面與人的差距，溝通技巧培訓(xùn)將從治療師主導(dǎo)的微觀教練練習(xí)轉(zhuǎn)變?yōu)榛旌系摹?shù)據(jù)豐富的工作流程。嵌入攝像頭、麥克風(fēng)和可穿戴設(shè)備的多模態(tài)模型將實(shí)時(shí)解析輪流發(fā)言、面部情感和生理喚醒，診斷故障并向來訪者推送個(gè)性化提示。同一引擎通過逼真的虛擬形象生成文化適應(yīng)的演示，根據(jù)壓力信號(hào)的升降即時(shí)調(diào)整場(chǎng)景，并編譯次次交流的儀表盤，以繪制同理心增益、沖突恢復(fù)速度和預(yù)測(cè)的復(fù)發(fā)風(fēng)險(xiǎn)圖。當(dāng)超過早期預(yù)警閾值時(shí)，自動(dòng)升級(jí)標(biāo)志會(huì)在幾秒鐘內(nèi)召喚人類臨床醫(yī)生。

在此場(chǎng)景下，治療師的比較優(yōu)勢(shì)將上升到更抽象的層面。人類專業(yè)人員不是指導(dǎo)每一次反思性傾聽交流，而是策劃AI的干預(yù)措施，將其編織成連貫的治療敘事，并在創(chuàng)傷史、權(quán)力不對(duì)稱或文化細(xì)微差別要求不同路徑時(shí)暫停或推翻自動(dòng)化。倫理守護(hù)變得至關(guān)重要：從業(yè)者審計(jì)算法以防止偏見，確保持續(xù)感知的同意，并在安全或尊嚴(yán)受到威脅時(shí)直接干預(yù)。他們還指導(dǎo)來訪者理解AI的反饋，培養(yǎng)元認(rèn)知洞察力，使建設(shè)性對(duì)話技巧得以內(nèi)化和持續(xù)，即使在傳感器關(guān)閉之后。最終結(jié)果是重塑了婚姻家庭治療師在關(guān)系教練至關(guān)重要的各個(gè)領(lǐng)域的技能概況和培訓(xùn)需求。

二、AI發(fā)展對(duì)教育政策的啟示

報(bào)告認(rèn)為，AI能力的進(jìn)步可能會(huì)使某些任務(wù)實(shí)現(xiàn)完全自動(dòng)化。因此，執(zhí)行這些任務(wù)所需的基礎(chǔ)技能在工作場(chǎng)所或日常生活中可能不再必要。這將促使人們對(duì)教育系統(tǒng)中使用的學(xué)習(xí)和教學(xué)內(nèi)容與方法進(jìn)行重新評(píng)估。

然而，某些技能的實(shí)踐需求減少并不意味著它們?nèi)狈r(jià)值或意義。人們可能出于各種原因仍然選擇學(xué)習(xí)它們。AI在技術(shù)上能夠執(zhí)行某些技能，并不意味著此類系統(tǒng)應(yīng)該被普遍應(yīng)用。此外，技能并非僅僅與職業(yè)需求相關(guān)——個(gè)人可能為了個(gè)人樂趣、成就感，或者因?yàn)樗麄兿嘈胚@些技能具有內(nèi)在的人類價(jià)值而學(xué)習(xí)它們。

報(bào)告提出，此分析的核心問題是：“當(dāng)AI能比人類更好地完成某些工作或日常任務(wù)時(shí)，我們是否仍然希望人們學(xué)習(xí)去做這些任務(wù)？”由此問題衍生出三種主要觀點(diǎn)：

1.是——該觀點(diǎn)強(qiáng)調(diào)人們不應(yīng)變得依賴AI。這意味著人類的能力和自主性很重要，與AI的效率無關(guān)。

2.是，但是——這種更細(xì)致的立場(chǎng)表明，人類與AI在此特定任務(wù)上協(xié)同工作將是有益的，并且學(xué)習(xí)目標(biāo)應(yīng)隨之演變，以反映AI能做什么和不能做什么。

3.否——從這個(gè)角度來看，如果AI能更好地完成任務(wù)，那么人們就不應(yīng)該做這些任務(wù)，教育也不應(yīng)優(yōu)先教授這些技能。相反，重點(diǎn)應(yīng)轉(zhuǎn)向更相關(guān)的能力。

報(bào)告進(jìn)一步指出，當(dāng)社會(huì)達(dá)成共識(shí)，認(rèn)為某些任務(wù)或職業(yè)應(yīng)當(dāng)轉(zhuǎn)型以融入AI，且教育體系必須隨之調(diào)整時(shí)，關(guān)鍵在于將轉(zhuǎn)型后人類新角色的能力框架與對(duì)應(yīng)教育項(xiàng)目的課程內(nèi)容、教學(xué)方法及培養(yǎng)層次進(jìn)行系統(tǒng)性比對(duì)。這種比較可以借助教育項(xiàng)目追趕指數(shù)（education programme catch-up index，衡量課程所授技能與當(dāng)前AI能力差距的指標(biāo)）來引導(dǎo)。

該指數(shù)能夠?yàn)檎n程內(nèi)容和目標(biāo)的定性重新評(píng)估提供信息，有可能促使課程本身發(fā)生變革。此方法尤其適用于為特定職業(yè)輸送人才的高等教育課程，但同樣適用于基礎(chǔ)教育階段的學(xué)科評(píng)估。通過將受AI影響的能力需求與現(xiàn)有教學(xué)內(nèi)容及方法進(jìn)行校準(zhǔn)，教育工作者可精準(zhǔn)識(shí)別需要更新、調(diào)整或拓展的環(huán)節(jié)，從而更有效地培養(yǎng)學(xué)生應(yīng)對(duì)變革世界的能力。

三、關(guān)于AI意識(shí)的爭(zhēng)議

報(bào)告最后還探討了引發(fā)爭(zhēng)議的AI“意識(shí)”，由于科學(xué)和倫理上的巨大不確定性，該量表最終未被納入正式的評(píng)估指標(biāo)。

該量表基于這樣一個(gè)原則：意識(shí)源于進(jìn)行心理模擬的能力，并由通過與環(huán)境交互而形成的內(nèi)部世界模型提供支持。

級(jí)別1（無意識(shí)）：AI系統(tǒng)并未表現(xiàn)出任何意識(shí)跡象。

級(jí)別2（原始適應(yīng)性行為）：AI系統(tǒng)在應(yīng)對(duì)環(huán)境變化時(shí)展現(xiàn)出初步的適應(yīng)性行為。此類系統(tǒng)表現(xiàn)出一定程度的靈活性，類似于簡(jiǎn)單生物體，其行為調(diào)整是由環(huán)境反饋驅(qū)動(dòng)的。

級(jí)別3（基于世界模型的學(xué)習(xí)）：系統(tǒng)擁有內(nèi)部世界模型，這些模型使它們能夠根據(jù)假設(shè)的未來行為模擬潛在結(jié)果。此類系統(tǒng)開始展現(xiàn)出超越單純反應(yīng)行為的自主性，逐漸向由內(nèi)在動(dòng)機(jī)驅(qū)動(dòng)的目標(biāo)導(dǎo)向行動(dòng)轉(zhuǎn)變。

級(jí)別4（多感官整合）：AI系統(tǒng)展現(xiàn)出了與人類相當(dāng)?shù)恼J(rèn)知能力。

級(jí)別5（人類級(jí)意識(shí)）：AI系統(tǒng)實(shí)現(xiàn)了人類級(jí)別的意識(shí)，其特征是符號(hào)表征和抽象推理。

報(bào)告強(qiáng)調(diào)，所提出的AI意識(shí)量表旨在作為一個(gè)基于特定理論視角——信息生成假說（IGH）的概念性和假設(shè)性框架。該量表反映了作者對(duì)選定理論框架的解釋和綜合，主要與計(jì)算功能主義相一致。它并非旨在暗示一個(gè)權(quán)威性或廣泛認(rèn)可的評(píng)估AI意識(shí)的標(biāo)準(zhǔn)。

報(bào)告也提出了一個(gè)根本性問題：如果我們?cè)贏I中完全實(shí)現(xiàn)了所有已知的意識(shí)功能，我們是否應(yīng)該認(rèn)為這樣的AI系統(tǒng)具有意識(shí)？歸根結(jié)底，AI系統(tǒng)是否存在意識(shí)不僅是一個(gè)學(xué)術(shù)問題，更是一個(gè)具有倫理和監(jiān)管意義的問題。隨著機(jī)器可能發(fā)展出自主意識(shí)的未來，我們必須認(rèn)真思考有意識(shí)AI系統(tǒng)的權(quán)利及其創(chuàng)造者的責(zé)任。

資料來源：

OECD (2025), OECD AI Capability Indicators Technical Report, OECD Publishing, Paris, https://doi.org/10.1787/9cdb3dd1-en.

[本文為教育部國(guó)別和區(qū)域研究基地中國(guó)教育科學(xué)研究院國(guó)際教育研究中心成果]

本文由中國(guó)教育科學(xué)研究院“教育國(guó)際前沿”課題組成員整理，課題組負(fù)責(zé)人張永軍，編輯劉強(qiáng)，內(nèi)容僅供參考。點(diǎn)擊左下角“閱讀原文”可下載該文獻(xiàn)。

本文為原創(chuàng)，轉(zhuǎn)載請(qǐng)注明出處。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.