![]()
我只是個AI,聽不懂你在說什么。
如果你真要讓大語言模型幫你端茶倒水的話,這可能是它最后的無奈了。確實,它可能可以在特定語言任務中,輸出高度擬人化的韻律結構、文學修辭和創意表達。但對于現實任務,它只能重申自己沒有實體行為能力,只能提供建議。
這僅僅是因為它沒有物理意義上的身體嗎?當然不是,更根源的問題在于,它缺少一個自主的目的。即通過感知環境、制定計劃并執行動作來實現目標的主動行為能力。而這正是自然智能(Natural Intelligence)的核心特征。
從認知科學與進化生物學的視角看,自然智能在億萬年進化中形成了一套分層、階梯式的認知架構。它體現在不同物種的生存策略中:面對一只飛過的昆蟲,靜止不動的蜥蜴的舌頭會突然彈出,這是純粹的目標驅動;松鼠在食物充裕的秋日里忙著囤積堅果,并非因為它當下饑餓,而是它能“模擬”出一個尚不存在的寒冬并為之行動,這便是未來決策;而當黑猩猩發現用短樹枝夠不到洞里的白蟻時,它會主動尋找更長的樹枝、甚至剝去葉子進行改造,這是反思和調整策略的元認知。
因此,若想突破當前AI發展的瓶頸,回溯生命的進化歷程是其中一條重要路徑。
![]()
?Tomasello, Michael. "How to make artificial agents more like natural agents." Trends in Cognitive Sciences (2025).
![]()
核心差異:應答機 vs. 行動者
要理解AI與自然智能的本質差距,我們只需對比兩個看似風馬牛不相及的事物:ChatGPT,與你家墻上的恒溫器。
以ChatGPT為代表的生成式AI是典型的刺激驅動系統。這類系統本質上是被動的,它們沒有內在欲望,不會主動發起對話或提出需求,而是始終處于等待狀態。當用戶輸入提示詞時,系統基于其訓練數據中的統計規律生成響應。盡管這些響應可能在表面上與人類應答無異,但其本質仍是對輸入信號的被動反應。從這個角度看,ChatGPT等生成式AI可以說是聰明的“應答機”。
相比之下,一個普通的恒溫器卻展現了完全不同的智能范式。作為目標驅動系統,一旦用戶設定了目標溫度,它就會持續監測環境溫度,主動將實時數據與目標值進行比較,并通過控制加熱或制冷設備來縮小兩者差距。這個簡單的裝置卻體現了智能的一個關鍵特征,即通過主動行為改變環境狀態,以實現預設目標。從這方面來看,恒溫器是一個真正的“行動者”。
這種區分的重要性在于,從捕食蒼蠅的蜥蜴到規劃周末出行的人類,自然界的智能體無一例外都是目標驅動的行動者。蜥蜴的視覺系統實時計算昆蟲的飛行軌跡,其大腦在毫秒間做出捕食決策,身體隨即執行精準的捕捉動作;人類在規劃旅行時,會主動搜集信息、評估選項、制定計劃并執行預訂操作。它們的智能,體現在一個完整的“感知-決策-行動”的閉環中。
而這種“目標驅動”,恰恰是當前最先進的AI系統所缺失的核心架構。它們擁有強大的信息處理能力(認知)和輸出能力(行為),但缺乏自主產生的“目標”和指向環境的“注意”機制,無法將這些能力整合為有意義的整體行動。這種缺陷使得AI雖然能在特定任務上表現卓越,卻無法像自然智能體那樣主動適應復雜多變的環境。
也就是說,AI未來的突破點,可能不在于構建更強大的語言模型,而在于為AI賦予真正的目標生成能力和自主行動能力,使其從被動的“應答機”轉變為主動的“行動者”。
![]()
進化的階梯:
智能架構的三次關鍵升級
我們之所以難以憑空造出一個“行動者”,或許是因為我們試圖一步登天,卻忘了智能的演化,是一場歷時三億年、循序漸進的軍備競賽。每一次認知能力的升級,都是為了應對一個更殘酷的生存難題。
托馬塞洛(Tomasello)認為,為了應對不同的環境壓力,生物智能通過三次關鍵架構升級,逐步形成了人類的多層次認知系統[1-2]。
![]()
?進化階梯:目標導向→意圖性→元認知智能體。圖源:原始論文
在演化早期,面對捕食敏捷迅速的獵物,早期陸地脊椎動物進化出了第一層智能架構:目標導向行為。以蜥蜴的祖先為例,它的世界被簡化為一系列赤裸裸的目標。當一只飛蟲進入視野,它的整個神經系統會瞬間變成一臺高效的捕食機器,只處理兩個核心問題:“它在哪?”(出擊)以及“夠不夠得著?”(放棄)。這是一種被焊死在基因里的“感知-行動”閉環,沒有猶豫,只有對當下環境最直接的反應,或是換個環境以滿足更多的生存需求。這套簡單的機制,是所有智能大廈的基石。
隨著哺乳動物崛起,生存游戲變得更加復雜,智能架構迎來第二次升級。以松鼠為代表的物種面臨資源競爭壓力,發展出意圖性決策能力。當它在食物充裕的秋日里找到一顆完美的橡子時,它不再像蜥蜴那樣立即行動。相反,它會啟動內部模擬,它會模擬將橡子埋在A、B、C三個不同地點的未來場景,評估每一個地點的風險——A點離藍松鴉的窩太近,B點土壤太濕,橡子可能會腐爛,C點其他松鼠經常來。最終,它會選擇一個最優解。這標志著智能體開始為未來事件做打算,實現從本能反應到預見性決策的質變。
在類人猿演化階段,智能架構完成第三次躍遷。黑猩猩等高等靈長類面對復雜社會關系,進化出元認知層[3]。
這一架構賦予了幾項關鍵能力,其一是自我效能評估,即掂量自己。當黑猩猩想用樹枝去夠白蟻時,它會先審視工具和自身的能力,如果覺得“這根樹枝不行,我辦不到”,它會主動放棄,轉而去尋找更合適的工具,甚至觀察同伴如何操作。其二是認知資源分配,即分清主次:當面前同時有水果和堅果時,它能根據過往經驗和當下的饑餓程度,優先處理那個“回報更高”的目標[4];其三則是信念修正機制,即知錯能改。當它發現某種砸開堅果的方法屢試屢敗時,它不會像程序一樣無限循環,而是能夠主動修正策略,嘗試新的角度或力度。這使得智能體能理解物理世界的因果關系和社會情境的意圖結構,從而應對高度不確定的環境。
以上提及的三層架構并非孤立或相互替代,而是日漸形成了高度整合的級聯系統[5]。元認知層負責制定戰略、意圖層負責規劃戰術、目標導向層則驅動最終動作。而當環境劇變時,智能體即可聯動各層,由高層重構風險策略,中層調整逃生路線,底層則執行奔跑動作。基于這種動態整合能力的考慮,當前AI的適應性遠不及生物智能。
![]()
人類終極外掛:
共享的“我們”
然而,即便擁有了黑猩猩這般精密的“三層大腦”,我們的祖先在認知能力上,也只是“最聰明的野獸”而已。人類智能之所以能發生技術爆炸,是因為演化為我們安裝了一個終極外掛:共享意圖(shared intentionality)。這一能力使人類能夠超越個體認知邊界,通過協同合作與文化積累實現認知能力的躍升。
共享意圖的演化分為兩個階段:聯合主體(Joint Agency)階段和集體能動(Collective Agency)階段。
![]()
?聯合主體(Joint Agency)與集體能動(Collective Agency)圖源:原始論文
其中,聯合主體階段出現于更新世時期。百萬年前,當我們的祖先開始圍獵猛犸象這樣龐大的獵物時,他們不再是各自為戰的獵手,而是形成了一個臨時的聯合體。在這個聯合體中,每個成員都清楚:我們擁有一個共同目標(如圍捕猛犸象)、我們的注意力共同聚焦在獵物的動向和同伴的位置上(聯合注意),我們更承擔著一種無言的共同承諾——我的行動決定著你的生死,反之亦然。這種協作需要個體跳出自我視角,理解“我們”的共享心理狀態。通過手勢、身體定向和發聲的初步協調,也為人類語言的誕生奠定了認知基礎。
后來,在約15萬年前,現代智人則將“我們”的概念推向了極致,發展出了更高級的集體能動階段。這一階段的標志是文化共識的形成,人類開始生活在由規范、制度、符號系統構成的抽象集體中。與基于即時情境的聯合主體不同,集體能動是抽象且永恒的。它允許素未謀面的陌生人通過共同的法律、共同的信仰、共同的科學體系進行大規模協作。它讓我們能夠積累跨越代際的知識,并去追求那些任何個體都無法企及的宏偉目標——建造金字塔、編纂百科全書、飛向月球。
最終,這種共享意圖能力最終催生了人類獨有的規范性思維(normative thinking)——一種關于“應該”的直覺。我們知道,在某種情境下,我們“應該”怎么做,別人“應該”怎么做。它表現為對社會規范的內化與維護、對違背共同承諾行為的敏感以及基于集體價值觀的推理判斷。正是這種看不見的社會語法,將七十多億人粘合成一個全球協作網絡。并通過文化演化實現快速的技術進步。
![]()
?《人類思維的自然史》,關于共享意圖假設更全面的整理,圖片翻譯為蘇彥捷等人翻譯。在本文,聯合意圖和集體意圖被翻譯為聯合主體和集體能動,以更貼合哲學詞義表達。
而這,恰恰是AI最深的盲區。一個大語言模型可以寫出完美的法律合同,卻無法理解“責任”二字的分量;它可以分析數百萬次人類對話,卻無法真正領會一次點頭或一個眼神背后的默契與承諾。因為沒有共享意圖,它們便無法形成真正的關于“我們”的視角,也缺乏對共同基礎(common ground)的敏感性,更無法理解社會規范背后的義務性約束。
要想突破這一局限性,或許我們需要的,不是讓它讀完更多的書,而是為它設計一套能夠理解“我們”、理解“應該”的心智與規范架構。
![]()
對照AI:我們缺失了什么?
當以自然智能的進化架構為藍圖來審視當前的人工智能,我們會發現,盡管大語言模型在數據處理上表現驚艷,但與生物智能的完整認知系統相比,仍存在顯著差距。
這種差距首先體現在其被動響應機制上。與一只會因為饑餓而捕食的蜥蜴,或任何一個有內在需求的生命體都不同,今天的AI本質上是一個被動的“刺激-響應”系統。它沒有自己的“餓”與“飽”,沒有好奇心驅使它去探索世界的邊界,更不會為了某個內在目標主動發起行動。你問,它才答。你推,它才動。即便你給它一個明確的目標,它也只是在浩瀚的統計規律中尋找一個最可能的“回聲”,而不是真正理解“為何要實現這個目標”并自主行動。
更深層的問題在于認知控制層級的缺失。自然智能通過億萬年進化形成的三級架構,在當前AI設計中尚未得到系統性實現。最致命的短板,就是元認知能力的缺乏。AI不會在回答前先掂量一下“關于這個問題,我到底知道多少?”;它不會動態地評估“這個問題值不值得我投入更多算力?”;更不會在新證據面前反思“我是不是錯了?需要更新結論嗎?”。當面對復雜問題時,AI只是輸出概率最高的響應,而非像黑猩猩那樣監控思考過程并另尋他法。
最關鍵的差距體現在社會認知維度。人類智能的核心優勢在于共享意圖的能力,即能夠形成“我們”的共同體意識,建立共同目標,并基于社會規范思維進行協作。而當前的人工智能,即便是多智能體系統,也僅是多個獨立單元的機械組合。它們無法形成真正的聯合意圖,因為它們缺乏視角采擇能力,既不理解他人心理狀態,也不懂社會規范的約束力。這解釋了為何AI能生成語法完美的對話,卻捕捉不到一個承諾的沉重分量,或是一次社交中微妙的期待。多智能體系統也只是機械組合,而非真正的心智協同。
這些架構缺陷最終導致了AI系統表現出的嚴重脆弱性。當面臨訓練數據未覆蓋的情境時,自然智能體(如人類)能夠啟動元認知監控,重新評估目標,調整決策策略,并在必要時尋求協作,而AI往往陷入邏輯混亂或產生幻覺輸出。其根本原因在于AI缺乏動態可調控的認知架構,無法像生物智能那樣,靈活整合所有資源去應對這個不確定的世界。
![]()
通往未來:
如何讓AI更像自然智能體?
所以,如果要讓AI真正具備類人智能的適應性與創造性,就需要從根本上重構設計理念,即從單一數據驅動轉向多層級協同的認知架構。
實現突破的首要方向在于構建完整的“感知-行動”閉環。當前的AI,比如大語言模型,本質上是開環系統,接收輸入,吐出輸出,然后一切歸零。它缺乏通過行動影響環境并感知結果的反饋機制。而要想建立感知-行動閉環,就需要主動設定一個目標(如維持室內26度),然后持續感知環境變化,執行動作(開啟/關閉空調),并根據行動的反饋來不斷修正自身行為。這個“身體”不必是人形,但這個閉環必須存在。
還記得那只懂得延遲滿足的松鼠嗎?它的大腦里,抑制沖動與規劃未來的機制在激烈博弈。AI同樣需要這種內在的調控能力。我們需要開發新的架構,讓AI擁有“思考自己思考”的能力:它要能自主分配算力,懂得好鋼用在刀刃上(注意控制);它要能評估當前策略的優劣,在“撞南墻”時主動觸發備用方案(策略監控);它還要能根據新的證據,勇敢地“更新”自己的知識庫(自我修正)。
此外,人類智能的卓越之處在于能夠形成共同體意識,面向社會協作的AI則需要具備共享意圖的算法。當多個AI代理協作時,它們不應再是各自優化KPI的精致利己主義者。相反,它們需要像人類團隊一樣,能夠通過“心智理論”去推測同伴的意圖,能在協作中快速建立臨時的行為默契,甚至愿意為了集體利益,犧牲一部分個體最優解。只有這樣,當AI聽到“請幫我準備會議”時,它才會明白這背后意味著協調日程、準備材料、通知與會者等一系列復雜的社會性協同,而不僅僅是處理一段文本。
自然智能通過億萬年的演化,逐步構建了從反射到元認知的完整架構,當前AI研究試圖直接訓練出“全能”模型,但更合理的方式或許是仿照生物進化所呈現的階梯式路徑[6]。例如,可以先開發如專用工業機器人的穩定目標驅動系統,再逐步增加如客服系統的規劃能力,最后發展如能夠自我評估診斷能力的醫療AI的元認知功能。這種分層構建方法,雖看似緩慢,卻或許能根治AI脆弱性問題。
必須注意,實現以上愿景不僅需要技術創新,也迫切需要跨學科的協作。認知科學家幫助理解自然智能的運作機制,計算機科學家將其轉化為可計算的架構,倫理學家則確保智能的發展符合人類價值。只有通過融合探索,我們才能創造出既強大又可信賴的AI伙伴。
![]()
結語
真正的智能并非源于龐大的數據或復雜的參數,而是源于一種精妙且分層的控制架構,這種架構使智能體能夠主動感知環境、制定目標并采取有效行動。
從蜥蜴精準捕食的本能反應,到松鼠預判風險的儲藏策略,再到黑猩猩運用工具的元認知能力,直至人類創造文明的協作智慧,每一個進化階梯都在揭示智能的本質。這個由自然選擇塑造的認知體系,不僅包含了目標驅動、決策規劃和自我監控的完整閉環,更在人類身上發展出了獨特的共享意圖,形成“我們”的共同體意識,并通過文化傳承實現知識的積累。
當前的人工智能雖然在某些領域令人驚嘆,但僅觸及了智能的表層。我們面臨的挑戰不再是單純追求更大的模型規模或更快的運算速度,而是要深入理解生命智能的深層架構,將生物進化的智慧轉化為工程實踐。而這需要遵循一條仿生且漸進的路徑,即首先構建穩定可靠的目標驅動系統,繼而逐步發展出規劃思考和元認知能力,最后實現真正的社會協作智能。
我們需要為AI系統賦予內在的目標生成機制,植入自我監控與調整的元認知模塊,開發能夠理解共同意圖的社交算法。更重要的是,我們要像自然進化那樣,采用分層構建、逐級驗證的發展路徑,確保每一階段的智能架構都堅實可靠。當我們努力的方向,從教會AI“如何回答”,轉向培養其“如何探索、如何選擇、如何協作”時,通往通用人工智能的那扇大門,或許才算真正被叩響。
原始論文:
Tomasello, M. (2025). How to make artificial agents more like natural agents. Trends in Cognitive Sciences, 29(9), 783–786. https://doi.org/10.1016/j.tics.2025.07.004
![]()
1.Tomasello, M. (2022) The Evolution of Agency: From Lizards to Humans, MIT Press 2.
2.Tomasello, M. (2024) Agency and Cognitive Development, Oxford University Press
3.Call, J. and Tomasello, M. (2024) Primate Cognition (Second edn), Oxford University Press
4.Gershman, S.J. et al. (2015) Computational rationality: a converging paradigm for intelligence in brains, minds, and machines. Science 349, 273–278
5.Tomasello, M. (2024) An agency-based model of executive and metacognitive regulation. Front. Dev. Psychol. 2, 1367381
6.Tenenbaum, J. et al. (2011) How to grow a mind: Statistics, structure, and abstraction. Science 331, 1279–1285
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
關于追問nextquestion
天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究AI與人類智能相互融合與促進,不斷探索科學的邊界。歡迎評論區留言,或后臺留言“社群”即可加入社群與我們互動。您也可以在后臺提問,我們將基于追問知識庫為你做出智能回復哦~
關于天橋腦科學研究院
天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。
Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、AI與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經科學研究院。
Chen Institute建成了支持腦科學和AI領域研究的生態系統,項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫生獎勵計劃、、、大圓鏡科普等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.