![]()
2025年11月14日,經合組織(OECD)發布《OECD人工智能能力指標技術報告》,就其提出的9個AI能力指標的評估進行了詳細解釋。
報告開篇即指出:根據信息來源的不同,AI要么被塑造成救世主,要么被描繪成滅世者。在這個被炒作與恐懼主導的輿論場中,關于AI真實能力的清晰、可靠且細致入微的信息依然驚人地缺失。即便是AI開發者,也無法完全理解當前AI系統的實際能力——或者它們正在以多快的速度進步。
作為應對,這份由OECD牽頭、聯合全球數十位頂尖計算機科學家和心理學家制定的報告,首次建立了一套系統的AI能力評估框架,提出了9個核心能力指標,包括語言、問題解決、社會互動、創造力、知識-學習-記憶、元認知與批判性思維、視覺、操作及機器人智能,并將每個能力劃分為從1到5的五個等級(5級代表達到穩健的人類水平),旨在為政策制定者和公眾提供一個評估AI真實能力的“標尺”。
報告的部分內容總結如下:
一、能力指標的政策應用場景
報告通過將AI能力指標與美國職業數據庫(O*NET,涵蓋了約900種美國職業,包含關于人類能力、技能、知識、工作方式和背景的詳細描述)中的人類能力要求進行交叉映射,并開發了“追趕指數”來進行量化分析。該指數衡量的是AI能力水平與任務所需能力水平之間的等級差(范圍為0-4),指數為0表示AI已能勝任,指數越大則表示差距越大。
報告具體通過分析三種不同任務的“追趕指數”畫像,具體揭示了AI在不同領域的能力差距與未來轉型路徑。
![]()
1.需要高水平推理能力的任務
對于該類任務,報告以編制、分析和核實年度報告及財務報表,并確保其符合各種法規和標準為例進行了分析。研究發現這一工作的追趕指數為2,這意味著當前的AI能力尚未滿足該工作要求。
報告認為,雖然目前AI尚無法完成此項任務,但對其組成部分進行研究能夠為構建一個設想人類與AI協作完成工作的轉型方案提供有價值的見解。在未來情景中,隨著AI系統在AI能力指標中的推理能力達到專家級水平,財務報告中的勞動密集型工作可能會在很大程度上實現自動化。這些系統將直接與財務、工資、庫存和銀行平臺對接,實現數據格式的標準化,并持續檢查異常、遺漏或重復情況。交易可以根據發票和審批進行驗證,自動起草審計追蹤,并且只有在需要人工判斷或政策裁量時才會發出警報。所有這些工作都可以近乎實時地完成,并且每一步都有清晰的、由機器生成的解釋。
在此場景下,人類的專業知識將轉向更高價值的職責。專業人士將定義指導人工智能的會計規則和重要性閾值,審查其標記的少數復雜例外情況,并確定適當的回應或披露。他們將解釋系統的輸出結果,將其轉化為針對高管和監管機構的定價、流動性和風險方面的戰略建議,同時對人工智能進行審計,以確保其符合道德、法律和透明度標準。日常的“數據偵探”工作將委托給機器,使專業人士能夠擔任政策架構師、戰略顧問和信任管理者等角色。
2.要求高水平身體能力的任務
對于該類任務,報告以使用手動或電動工具組裝、安裝、測試或維護電氣或電子線路、設備、器具、裝置或固定裝置為例進行了分析。研究發現這一工作的追趕指數為1,這意味著當前的AI能力在很大程度上滿足了該工作的推理需求,但仍未達到必要的敏捷性和感知能力。
報告認為,在未來情景中,隨著具備四級視覺和操控能力的機器人出現并成熟,安裝電線的物理工藝將很大程度上轉移給AI。自主單元將掃描現場、鋪設線管、以力反饋精度拉線和端接導線,并將每一步記錄在數字竣工模型中,同時僅在出現規范模糊或障礙時向人類發出警報。電工的角色相應地從動手工作轉向更高層次的監管——設定任務參數、授權重新布線、解決標記的合規問題、執行現場檢查以獲得監管簽字,以及維護或微調機器人系統。因此,專業知識向上游轉移到規劃、監督和持續改進,而不是停留在手動安裝上。
3.需要高水平社交互動和推理能力的任務
對于該類任務,報告以鼓勵個人和家庭成員發展并使用建設性的應對策略為例進行了分析。研究發現這一工作的追趕指數為2,這是因為當前的AI系統——即使是最有能力的對話模型——仍然難以在多次交流中維持連貫的治療敘事,推斷潛在的家庭權力動態,并使干預措施適應不同的文化或發展背景。
報告認為,隨著先進AI系統縮小其在語言、社交互動和問題解決方面與人的差距,溝通技巧培訓將從治療師主導的微觀教練練習轉變為混合的、數據豐富的工作流程。嵌入攝像頭、麥克風和可穿戴設備的多模態模型將實時解析輪流發言、面部情感和生理喚醒,診斷故障并向來訪者推送個性化提示。同一引擎通過逼真的虛擬形象生成文化適應的演示,根據壓力信號的升降即時調整場景,并編譯次次交流的儀表盤,以繪制同理心增益、沖突恢復速度和預測的復發風險圖。當超過早期預警閾值時,自動升級標志會在幾秒鐘內召喚人類臨床醫生。
在此場景下,治療師的比較優勢將上升到更抽象的層面。人類專業人員不是指導每一次反思性傾聽交流,而是策劃AI的干預措施,將其編織成連貫的治療敘事,并在創傷史、權力不對稱或文化細微差別要求不同路徑時暫停或推翻自動化。倫理守護變得至關重要:從業者審計算法以防止偏見,確保持續感知的同意,并在安全或尊嚴受到威脅時直接干預。他們還指導來訪者理解AI的反饋,培養元認知洞察力,使建設性對話技巧得以內化和持續,即使在傳感器關閉之后。最終結果是重塑了婚姻家庭治療師在關系教練至關重要的各個領域的技能概況和培訓需求。
二、AI發展對教育政策的啟示
報告認為,AI能力的進步可能會使某些任務實現完全自動化。因此,執行這些任務所需的基礎技能在工作場所或日常生活中可能不再必要。這將促使人們對教育系統中使用的學習和教學內容與方法進行重新評估。
然而,某些技能的實踐需求減少并不意味著它們缺乏價值或意義。人們可能出于各種原因仍然選擇學習它們。AI在技術上能夠執行某些技能,并不意味著此類系統應該被普遍應用。此外,技能并非僅僅與職業需求相關——個人可能為了個人樂趣、成就感,或者因為他們相信這些技能具有內在的人類價值而學習它們。
報告提出,此分析的核心問題是:“當AI能比人類更好地完成某些工作或日常任務時,我們是否仍然希望人們學習去做這些任務?”由此問題衍生出三種主要觀點:
1.是——該觀點強調人們不應變得依賴AI。這意味著人類的能力和自主性很重要,與AI的效率無關。
2.是,但是——這種更細致的立場表明,人類與AI在此特定任務上協同工作將是有益的,并且學習目標應隨之演變,以反映AI能做什么和不能做什么。
3.否——從這個角度來看,如果AI能更好地完成任務,那么人們就不應該做這些任務,教育也不應優先教授這些技能。相反,重點應轉向更相關的能力。
報告進一步指出,當社會達成共識,認為某些任務或職業應當轉型以融入AI,且教育體系必須隨之調整時,關鍵在于將轉型后人類新角色的能力框架與對應教育項目的課程內容、教學方法及培養層次進行系統性比對。這種比較可以借助教育項目追趕指數(education programme catch-up index,衡量課程所授技能與當前AI能力差距的指標)來引導。
![]()
該指數能夠為課程內容和目標的定性重新評估提供信息,有可能促使課程本身發生變革。此方法尤其適用于為特定職業輸送人才的高等教育課程,但同樣適用于基礎教育階段的學科評估。通過將受AI影響的能力需求與現有教學內容及方法進行校準,教育工作者可精準識別需要更新、調整或拓展的環節,從而更有效地培養學生應對變革世界的能力。
![]()
三、關于AI意識的爭議
報告最后還探討了引發爭議的AI“意識”,由于科學和倫理上的巨大不確定性,該量表最終未被納入正式的評估指標。
該量表基于這樣一個原則:意識源于進行心理模擬的能力,并由通過與環境交互而形成的內部世界模型提供支持。
級別1(無意識):AI系統并未表現出任何意識跡象。
級別2(原始適應性行為):AI系統在應對環境變化時展現出初步的適應性行為。此類系統表現出一定程度的靈活性,類似于簡單生物體,其行為調整是由環境反饋驅動的。
級別3(基于世界模型的學習):系統擁有內部世界模型,這些模型使它們能夠根據假設的未來行為模擬潛在結果。此類系統開始展現出超越單純反應行為的自主性,逐漸向由內在動機驅動的目標導向行動轉變。
級別4(多感官整合):AI系統展現出了與人類相當的認知能力。
級別5(人類級意識):AI系統實現了人類級別的意識,其特征是符號表征和抽象推理。
報告強調,所提出的AI意識量表旨在作為一個基于特定理論視角——信息生成假說(IGH)的概念性和假設性框架。該量表反映了作者對選定理論框架的解釋和綜合,主要與計算功能主義相一致。它并非旨在暗示一個權威性或廣泛認可的評估AI意識的標準。
報告也提出了一個根本性問題:如果我們在AI中完全實現了所有已知的意識功能,我們是否應該認為這樣的AI系統具有意識?歸根結底,AI系統是否存在意識不僅是一個學術問題,更是一個具有倫理和監管意義的問題。隨著機器可能發展出自主意識的未來,我們必須認真思考有意識AI系統的權利及其創造者的責任。
資料來源:
OECD (2025), OECD AI Capability Indicators Technical Report, OECD Publishing, Paris, https://doi.org/10.1787/9cdb3dd1-en.
[本文為教育部國別和區域研究基地中國教育科學研究院國際教育研究中心成果]

本文由中國教育科學研究院“教育國際前沿”課題組成員整理,課題組負責人張永軍,編輯劉強,內容僅供參考。點擊左下角“閱讀原文”可下載該文獻。
本文為原創,轉載請注明出處。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.