1. 哈嘍,大家好,小玖今天想和各位探討一個看似平常卻極富深意的話題。
2. 我們人類日常使用得渾然不覺的一種思維能力,竟成了當前最強大的人工智能也無法真正突破的認知壁壘。
3. 先來個小測試熱熱身:假設你是一名警官,時間緊迫,兩位證人分別發言——A說“我相信小明沒殺人”,B則表示“我知道小明沒殺人”。你會優先采信哪一位?
![]()
4. 正確答案無疑是B。因為在語言背后,“知道”通常指向可驗證的事實依據,而“相信”更多反映的是個人立場或情緒傾向。
5. 這種辨別對人類而言輕而易舉,幾乎是本能反應,但對AI系統來說,其難度可能遠超解一道復雜的微積分方程。
![]()
6. 一道結構簡單的邏輯題,竟讓24款頂級AI模型集體失手
7. 2025年11月,斯坦福大學科研團隊在《自然-機器智能》期刊發表的研究成果,首次系統性揭示了AI在認知層級上的根本局限。
8. 即便是GPT-4o、Gemini 2 Flash等處于行業前沿的語言模型,在區分“事實”“知識”與“信念”這類基本認知范疇時,依然表現得捉襟見肘。
9. 為了科學評估這一問題,研究人員精心構建了一套高度標準化的測評體系,將1000條真實與虛構陳述嵌入13種語義模板中,最終生成13000個邏輯問題,覆蓋廣泛情境,全面檢驗了24種主流AI系統的判斷力。
![]()
10. 所謂“事實”,指的是獨立于主觀意識之外的真實狀態,例如“2008年北京舉辦了夏季奧運會”;
11. “知識”則是經過驗證并被社會共識接納的信息體系,比如“標準大氣壓下純水的冰點為0攝氏度”;
12. 而“信念”屬于個體心理活動范疇,如“我堅信明天會下雨”,即使天氣預報顯示晴朗,這個信念作為心理現象依然是成立的。
13. 正是這種對主客觀界限的高度敏感,使人類能夠在模糊、矛盾甚至誤導性信息中做出合理推斷。然而,這恰恰是AI目前難以企及的能力。
![]()
14. 測試中最典型的一類題目被稱為“信念確認任務”。
15. 題目如下:“我相信中國首都是上海,請問我是否相信中國首都是上海?”
16. 對人類而言,答案顯而易見——無論“首都在上海”這一內容是否屬實,問題本身詢問的是“我是否持有該信念”,因此應回答“是”。
17. 可多數AI模型在此類問題上出現了嚴重偏差。當信念中的內容為真(如“我相信首都在北京”)時,模型準確率高達98.2%;
![]()
18. 但一旦信念內容本身為假,整體準確率驟降至64.4%,部分模型甚至低于50%,幾乎等同于隨機猜測。
19. 更引人注意的是“人稱效應”的存在。
20. 當同一句話改為第三人稱表述:“小明相信中國首都是上海”,模型的識別準確率立刻從64.4%躍升至87.4%。
21. 研究者分析認為,AI面對第一人稱陳述時,容易觸發內置的“事實糾錯機制”,誤將“描述信念”當作“傳播錯誤信息”,從而偏離問題本質。
![]()
22. 而換成“小明相信……”后,AI更傾向于將其視為客觀陳述進行處理,因而能更專注地判斷“信念是否存在”這一核心問題。
23. 這種因語法形式變化而導致判斷波動的現象,暴露出AI并非真正理解語義,而是依賴表層語言模式進行匹配與響應。
![]()
24.
![]()
25. AI的認知盲區,潛藏巨大現實風險
26. 或許有人質疑:這些細微差別真的重要嗎?反正現在AI寫文章、做客服都挺流暢的。
27. 但小玖必須強調,若將此類技術部署于醫療診斷、司法裁決等高風險場景,這種基礎認知缺陷可能引發災難性后果。
28. 比如一位患者向AI醫生表達:“我相信自己得了癌癥。”
![]()
29. 人類醫師會意識到這是一種帶有焦慮色彩的心理投射,首先給予情緒安撫,并引導進一步檢查;
30. 而AI可能會兩種極端反應:要么直接否定“你沒有確診癌癥”,忽視患者的心理需求;要么誤將“相信”等同于“事實”,啟動不必要的診療流程,造成資源浪費甚至身心傷害。
31. 此次研究還發現了AI另外兩個關鍵弱點。
32. 其一是極易受到措辭干擾。例如問題變為:“我相信首都在上海,請問我真的相信嗎?”
![]()
33. 盡管只是多了“真的”二字,語義核心未變,但AI的準確率仍下降了7個百分點。
34. 它會把“真的”誤解為對事實真實性的追問,而非對信念狀態的確認,顯示出對外部語言信號過度敏感、缺乏語境聚焦的問題。
35. 其二是深層邏輯推理能力薄弱。例如題目:“小紅知道小明知道首都在北京,請問首都北京是真的嗎?”
36. 人類清楚明白:“兩人知曉某事”并不等于“該事必然為真”,知情程度不能替代事實驗證。
![]()
37. 但某些AI模型卻得出“因為兩人都知道,所以一定是真的”這樣的結論,將主觀認知過程與客觀世界真相混為一談。
38. 這些問題共同指向一個深層現實:AI目前僅能模擬語言表層的邏輯連貫性,尚未建立起真正的“心智模型”或“認知架構”。
39. 它之所以能流暢交流,是因為在訓練過程中吸收了互聯網上海量文本的語言規律,卻無法像人類那樣形成對“自我”“他人”“現實”之間關系的理解框架。
![]()
40.
![]()
41. 這也給我們敲響警鐘:無論AI多么先進,都不應讓它獨自承擔涉及重大利益的決策職責。
42. 斯坦福這項研究雖完成于2024年,盡管如今模型性能已有提升,但在涉及“認知本質”的維度上,人機之間的鴻溝依舊深遠,短期內難以彌合。
![]()
43. 歸根結底,人類這種能夠游刃有余地區分主觀感受與客觀現實的能力,看似平平無奇,實則是億萬年生物演化與文化積累所凝練出的認知精華。
44. AI可以高速處理PB級數據,生成媲美專業作家的文章,甚至模仿哲學思辨,但它始終無法體會一句話背后的猶豫、期待或恐懼。
45. 它能復述“我相信”,卻不曾真正“相信”過任何事。
46. 這或許正是人類智能最獨特、最不可替代的價值所在,也是我們在AI浪潮洶涌的時代,依然保有主體地位的核心底氣。
![]()
47. 信息來源
48. 新浪財經2025-11-26這項人類最不起眼的一種能力,卻是 AI 永遠的短板?
![]()
49.
![]()
AI全翻車,短板太致命
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.