大模型的能力再強,也無非是把人類的表面功夫學得更像;大模型的認知輸出,與人類做出的判斷有著本質的區別;它不是真正的認知主體,它不會承擔什么,也并不相信什么;它極盡掌握人類之術,而全無人類之道。
最近一項來自歐洲的研究,進一步揭示了人類智能與人工智能之間的本質區別。由羅馬Sapienza大學計算機科學系Walter Quattrociocchi等三位學者合寫的論文《人類智能與人工智能之間的認識論斷層線》(Epistemological Fault Lines Between Human and Artificial Intelligence ),引發了廣泛的關注。
這個研究團隊,包括了計算機科學、心理學、數學和科學等領域的學者。他們發現,盡管大型語言模型(LLM)通常被描述為人工智能,但其認識論特征與人類認知之間存在根本性的差異。人類與機器輸出在表層上的對齊,掩蓋了生成這些結果的底層過程在機制上的深度錯位。大型語言模型并非認識論意義上的“認知主體”,而應被理解為概率性的模式補全系統;在形式上,它們更類似于在高維語言轉移圖上的隨機游走過程,而非基于信念結構或世界模型進行推理的系統。
![]()
通過對人類智能與人工智能認識流程的系統性對照分析,他們定義了七條關鍵的認識論斷層線:
1,錨定斷層(The Grounding fault)人類將判斷錨定于感知的、具身的與社會性的經驗之中;大語言模型僅從文本出發,通過符號間接重構意義。
2,情境解析斷層(The Parsing fault)人類通過整合的感知與概念過程來解析情境;大語言模型則進行機械式的分詞處理,生成在結構上便利但在語義上單薄的表征。
3,經驗斷層(The Experience fault)人類依賴情景記憶、直覺物理與直覺心理,以及習得的概念;大語言模型僅依賴嵌入空間中編碼的統計關聯。
4,動機斷層(The Motivation fault)人類判斷受情感、目標、價值以及進化塑造的動機所引導;大語言模型不具備內在偏好、目標或情感意義。
5,因果斷層(The Causality fault)人類借助因果模型、反事實推理與有原則的評估進行思考;大語言模型在不構建因果解釋的情況下整合文本語境,而是依賴表層相關性。
6,元認知斷層(The Metacognitive fault)人類能夠監控不確定性、識別錯誤,并可以懸置判斷;大語言模型缺乏元認知,且必須始終產生輸出,從而使幻覺在結構上不可避免。
7,價值斷層(The Value fault)人類判斷反映身份、道德以及現實世界中的利害關系;大語言模型的“判斷”只是概率性的下一個詞元預測,不具備內在價值或可追責性。
因為這些認識斷層,大模型整體表現出一種“認識表象”(Epistemia),其中語言層面的似真性取代了真正的認識論評估,從而制造出一種無需判斷付出的的“知道感”。
論文認為幻覺是大語言模型的固有缺陷。它們不是某個本應具備認知能力的系統所出現的異常,而是從統計模型中采樣的必然結果 —— 這類模型并未編碼指涉關系、真值條件或證據約束。在生成式系統中,生成與外部現實脫節的內容并非例外,而是其默認的運行狀態。
盡管Transformer加上擴展定律(scaling law),是大模型的利器,在諸多領域中表現流暢且具有適應性。但是,大模型依據的是統計規律,提取自人類生成文本,而非對世界的表征。它們所呈現出的能力,源于對語言如何運作的學習,而非對事實狀況形成信念。它們并不追蹤真值條件或因果結構,而是追蹤文本中的共現模式、關聯關系與延續方式。
從這一意義上說,擴展定律并不是從語言自動化通向認知的橋梁。增加數據規模與參數數量,只是細化了一個函數逼近器,并未改變其底層計算方式。擴展增加了覆蓋面,也讓語言變得更平滑,但不是認識論上的通達性。它改善了與人類輸出在表層上的對齊,卻并未在內部過程上促成趨同。
哈佛大學知名心理學家平克(Steven Pinker)高度評價了這項研究,在于它對自然的與人工的智能之間做出了定性的分析。
![]()
既然AI與人類的認知有這種根本區別,它對于AI評價體系、治理框架都會帶來重大影響。研究者們尤其提出,社會中的組織日益圍繞生成式人工智能,需要建立起認識論的素養。他們提出了如下建議:
評測:作者們明確反對當前主流的評測邏輯,即用“模型是否像一個好答題者”來評估。他們指出,這種評估方式只檢驗輸出的外觀,而不檢驗判斷的過程。認識論測評,要超越表面對齊。不該只看答案對不對,而要看系統在什么時候應該“不回答”、是否能暴露不確定性、是否對因果變化敏感。
治理:要超越行為合規。作者們非常明確地批評了當前 AI 治理的主流路徑,即關注模型有沒有說“壞話”;有沒有違法、歧視、仇恨內容;有沒有行為對齊。他們認為這抓錯了層級。真正的風險不是模型說錯,而是亂說,它在不具備判斷能力的情況下,被當成判斷機制來使用。
因此,要限定可讓AI替代的場景,區分輔助性使用(起草、檢索、提示)和判斷性使用(醫療、法律、政策、新聞)。后者中不能允許模型成為“最終判斷者”,這不是技術建議,而是制度設計建議。
作者們認為,僅僅標注“使用了 AI”是不夠的。應該披露的是AI是否核驗了事實,是否管理了不確定性輸出是有證據支持的?推測性的?還是純語言生成的?重點不是“使用了 AI”,而是AI 在這個流程中,是否被當成了判斷主體。
不要迷信技術增強,那也只是緩解問題,而不是解決問題。作者特別點名RAG、工具調用、外部記憶等,這些都不能解決認識論問題,只可能降低部分錯誤率,卻可能增強權威感與說服力。因此,技術增強必須伴隨制度約束,否則會加劇認識表象癥。
教育:面對AI,教育應該從“批判性思維”升級為“認識論素養”(epistemic literacy),這是論文中最人文、但也最深的一點。因為傳統批判性思維假設判斷者就是表達者,論證等于信念,錯誤相當于認知失敗;但在生成式 AI 環境中,判斷被“外包”,表達被“自動化”,信念不再由表達者承擔。
認識論素養不是教人多懷疑,而是教人識別判斷是否真的發生,識別那7條認識論斷層線的癥狀:面對AI的回答,需要重建判斷流程,如什么時候必須二次核查,什么時候應當拒絕現成答案。認識論素養教人如何在一個“判斷被模擬”的環境中,重新把判斷奪回來。
最后這一點尤其重要。如果說在一些工作場景中,人類會把一些可以放心的判斷交給AI,在教育中,必須建培養出學生的判斷能力。AI進入學校,改變教育,終將造就其原生的一代。人類要保持其認識世界的主體地位,就要從娃娃抓起。
論文原文:
https://osf.io/preprints/psyarxiv/c5gh8_v1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.