網易首頁 > 網易號 > 正文申請入駐

具身認知的神經符號方法

2026-01-13 09:07:02　來源: CreateAMind

上海舉報

分享至

Grounding Agent Reasoning in Image Schemas: A NeurosymbolicApproach to Embodied Cognition

意象圖式驅動的智能體推理：具身認知的神經符號方法

https://arxiv.org/pdf/2503.24110

摘要
盡管具身人工智能取得了進展，但智能體推理系統仍然難以捕捉人類自然用于理解和與環境互動的基本概念結構。為了解決這一問題，我們提出了一種新的框架，通過利用圖像模式的形式化描述，將具身認知理論與智能體系統相結合。圖像模式被定義為結構化人類認知的感知運動體驗的重復模式。通過定制大型語言模型（LLM），將自然語言描述轉換為基于這些感知運動模式的形式化表示，我們可以創建一個將智能體的理解建立在基本概念結構上的神經符號系統。我們認為，這種方法不僅提高了效率和可解釋性，還通過共享的具身體驗，使人類與智能體之間的互動更加直觀。

關鍵詞：具身人工智能；具身認知；神經符號人工智能；圖像模式；自然語言理解；智能體推理；心理模擬。

1 引言
到20世紀末，認知科學的經典范式受到了根本性的挑戰，因為越來越多的證據表明，我們的大腦并不是像孤立的符號處理計算機那樣運行，而是與我們在世界中的身體體驗密不可分。這一點在我們理解和使用語言時表現得尤為明顯。正如萊考夫（Lakoff）和約翰遜（Johnson）在《我們賴以生存的隱喻》[19]中開創性地指出，我們通過依賴身體體驗作為源域來理解抽象概念（目標域）——我們通過位置來理解時間（“未來在我們前面”），通過大小來理解重要性（“這是一件大事”），以及通過空間方向來理解情緒狀態（“我感到低落”）。
為了彌合身體體驗與思維之間的差距，約翰遜[16]引入了圖像模式——從我們的感知運動互動中抽象出來的重復模式，并展示了它們在結構化人類思維（無論是具體領域還是抽象領域）中的普遍作用。多年來，這一理論在多項研究中得到了有力的實驗證實[24, 31]，甚至在非語言領域（如數學）中也取得了成果[20]。一個常見的圖像模式例子是“物體放入容器”（OBJECT_INTO_CONTAINER），它源自我們早期將物體放入容器（例如杯子和桶）的身體體驗，后來成為理解字面句子（如“比爾在房子里”）、更抽象的句子（如“柏林在德國”或“陷入愛河”）以及數學表達式（如“2∈N”）的源域。最近的研究還探討了這些圖像模式如何被分解為更基本的組成部分，稱為概念原語[24]。例如，要理解“支撐”這一概念，需要具備“上下”（UP/DOWN）和“接觸”（CONTACT）的概念原語。
正如認知科學不得不超越純粹的計算模型來解釋人類的認知和語言能力一樣，目前關于人工智能系統是否需要類似的基底來實現真正的語言理解和常識推理也存在爭議[4, 36]。盡管一些最近的研究表明，大型語言模型（LLMs）可以通過文本本身掌握物理概念[28]，但仍有理由對這種基于統計的學習是否能夠捕捉人類概念理解的全部深度持懷疑態度[23, 25]。例如，[29]指出，采用上下文學習的大型語言模型在需要廣泛說明的任務中面臨重大挑戰，尤其是在即使是人類標注者也必須仔細審查一套復雜的標注指南才能正確執行任務的情況下。通過模擬任務，[38]也展示了統計方法的基本概念局限性——這些局限性無論數據規模如何都依然存在。因此，為人工智能體配備這些概念化的具身體驗結構成為一個關鍵目標，因為這不僅能夠通過共享的具身體驗實現更直觀、更可解釋的人機互動，而且正如[7]所建議的那樣，這可能是將人工智能推向當前多模態系統之外的下一個主要范式所必需的一步。
然而，實現這種智能體的主要挑戰在于形式化這些心理學理論和深度具身結構，并以一種有希望的方式將由此產生的符號語言與神經識別和隱喻映射技術相結合。在這項工作中，我們討論了這種嘗試的主要挑戰，并提出了一種將符號語言與神經架構相結合以創建一個集成的神經符號框架的有前景的方法。與現有工作相比，我們的方法的主要優勢在于對概念結構的完全形式化描述、使用現有的符號求解器來推理這些描述，以及在神經網絡中深度集成以創建神經符號架構。
本文的其余部分安排如下：第2節從符號和機器學習的角度介紹了一些相關工作；第3節討論了預期的形式化應該滿足的主要屬性，以便如第4節所示有效地捕捉構成圖像模式結構的不同概念原語；第5節介紹了如何以有意義的方式將形式化與神經網絡結合，以實現完全具身的智能體；第6節討論了這種具身智能體在推理和自然語言理解方面獲得的優勢；第7節總結了本文。

2 相關工作
圖像模式的形式化并不是一個新嘗試——到20世紀末，弗蘭克（Frank）和勞巴爾（Raubal）[12]已經對現有的形式化方法進行了綜述。在隨后的形式化方法中，值得關注的包括基于雙圖（bigraph）的表示方法[2]、利用WordNet詞匯數據庫的方法[18]，以及基于定性演算的方法[5, 13]。定性演算通常對應于關系代數[11]，它們非常適合用于圖像模式的形式化任務，因為它們像人類的認知處理一樣，抽象掉了精確的數值測量，而專注于相對關系。
赫德布洛姆（Hedblom）的工作顯著推動了這一領域的發展，他通過結合區域連接演算（Region Connection Calculus）、定性軌跡演算（Qualitative Trajectory Calculus）、基本方向和線性時態邏輯，廣泛利用了定性演算的適用性，以表示圖像模式的空間和時間維度[13]。最近，赫德布洛姆等人提出了圖像模式的系統化圖表語言——圖像模式圖表語言（DISL）[14]，這是一種為圖像模式提供結構化視覺框架的系統化圖表表示語言。
在機器學習領域關于圖像模式和具身方法的研究中，沃霍維亞克（Wachowiak）等人的工作探討了人工智能體如何捕捉語言背后隱含的人類直覺[41]，并引入了將自然語言表達歸類到圖像模式的系統化方法[39]。最近大型語言模型（LLMs）的進步也被利用來提升具身學習任務中的表現，尤其是在具身指令遵循方面[34]，同時標準化的基準測試正在出現，以系統地評估這些能力[21]。最后，[38]中開發的框架與我們的目標非常接近，它通過心理模擬和隱喻映射來實現語言理解。

3 形式化屬性

如[24]中所述，圖像模式可以分解為概念原語。例如，進入（GOING_IN）至少需要物體（OBJECT）、容器（CONTAINER）和路徑（PATH）的概念。為了介紹我們的方法，我們使用了[14]中更近期的分類，如表1所示。可以看出，一些概念原語僅是空間的或時空的，而另一些是力動態原語，這些原語對應于無法用時空方式表示的具身感覺（例如，UMPH對應于施加力）。

屬性1：由于圖像模式可以結構化無限多樣的物理配置和場景，任何用于表示它們的正式化方法都必須能夠定性地編碼關系（例如，在不知道確切位置或形狀的情況下處于“內部”）[22]。這一要求在以前的正式化嘗試中已被廣泛認可。

屬性2. 不同類型的對象可以參與一個圖像模式，例如，原子“物體”（OBJECTS）可以是點，而“路徑”（PATHS）可以是線。此外，為了定義某些實體（例如，“容器”可以是圓形、方形等），類型之間的排序可能很有用。因此，形式化方法應該是有序分類的，并支持定義類型化的關系。

屬性3. 由于圖像模式可以被理解為小故事，形式化方法應該支持時間的表達以及配置隨時間的演變。

屬性4. 形式化方法應該支持量化，以表達一般規則并斷言對象的存在或不存在（例如，對于“空”（EMPTY）這一概念原語），以及支持邏輯連接詞以有效地表達邏輯約束。

屬性5. 最后，形式化方法應該支持默認操作符的使用，以模擬默認行為，例如重力或慣性定律（即，除非有動作導致它們改變，否則事物保持不變）[33]。重要的是，包含默認操作符使得形式化方法具有非單調性。

4 形式化圖像模式
滿足這些要求，或者可以通過額外擴展來實現這些要求的一個有前景的候選方案，是在非單調的可量化平衡邏輯中實現聲明式空間推理框架（DSR）[6]，該邏輯帶有可評估函數[8, 9]。可量化平衡邏輯保留了一階邏輯的語法，同時在語義上將否定解釋為默認否定（即，失敗的否定）[10]。可評估函數使得DSR框架能夠嵌入其中，因為DSR框架從根本上依賴于參數化函數來表示對象（見圖1，右上角），并通過這些參數上的多項式約束定義對象之間的定性關系（右下角）[30]。與第2節中提到的代數定性演算的常見用法不同，DSR框架允許組合異構對象，并且不對定義的關系集合施加任何條件。

關于時間建模，已經在文獻[1]中提出了時間均衡邏輯的一階擴展。為了即將到來的例子，我們考慮以下時間運算符：

下一步（next）
總是（always）
最終向前（eventually forward）
直到（until）
最終（final）
最終之前（eventually before）

最后，已經開發了許多與均衡邏輯密切相關的形式化方法[3]，而關于有序邏輯的正式處理可以在文獻[17]中找到。

在接下來的內容中，我們將解釋如何在我們的形式化方法中處理概念原語，并提供一些它們的組合示例。我們的處理方法與文獻[14]有相似之處，因為我們應用了圖1中展示的分類。

實體對應于邏輯中的常量。實體OBJECT簡單地對應于一個點。實體CONTAINER對應于任何可以用于“包含”關系的幾何對象，如 inside、properPart 等。有序排序使我們能夠將此實體定義為超類，即任何圓、矩形等都可以是CONTAINER實體。PATH實體被建模為具有起點和終點的線。例如，SOURCE_PATH_GOAL圖像模式，它支持我們對由連續步驟組成的進程的理解（例如，學生學術旅程中學位的進展，棒球中通過各個壘的前進等），可以通過一系列位置來表示，如 ?(l? ∧ ?(l? ∧ ?(... ∧ ?ln)))，其中 l? 和 ln 分別代表 START_PATH 和 END_PATH 作為特定位置，每個 li 代表一個中間位置。通過約束實際位置與前一個位置的?運算符來獲得前進運動。實體REGION可以通過距離函數?或作為類似于上述CONTAINER實體來建模。最后，更抽象的概念DOWN可以被建模為放置在場景底部的線，或者直接編碼在位移動作中。例如，重力可以被建模為 □(?x(??y on(x, y) → moveDown(x)))，其中 x 和 y 是域中的任何實體。注意后一個公式中默認否定的使用。

關系原語主要對應于二元（或更高元）的關系。位置（LOCATION）可以通過位置或拓撲關系（例如，on、closeTo、inside等）來表達。如上所述，起始路徑（START_PATH）和結束路徑（END_PATH）可以被定義為點或幾何區域，以限定路徑實體。接觸（CONTACT）、包含（CONTAINED）和部分（PART_OF）簡單地對應于DSR框架中定義的拓撲邏輯關系，同樣對于較小/較大（SMALLER/LARGER）作為大小關系。鏈接（LINK）可以通過距離Δ來定義，該距離不能超過某個閾值，或者作為實際接觸相關對象的線段。最后，持久性（PERMANENCE）可以通過默認否定來表達，編碼了如果我們不能證明某個實體的參數函數已更改，我們保留其實際狀態的值。

盡管屬性概念原語最初似乎對應于應用于實體的一元謂詞，但它們通常需要復雜的公式。例如，空（EMPTY）對應于一個公式，其中我們聲明對于一個容器（CONTAINER），沒有實體在其內部。力動態概念原語主動-UMPH和被動-UMPH通過默認否定來建模。基本上，除非對一個對象施加了相反的力，否則后者在每個狀態下都受到一個動作的約束（可能直到實現某個目標），使用U運算符。這種力的概念如上所述，出現在重力的表述中。最后，運動（MOTION）、靜止（AT_REST）和（無）生命原語對應于修改/應用于實體位置的動作謂詞沿著狀態。

當這些概念原語結合時，它們形成了圖像模式，每個圖像模式在形式上對應于一個小理論T，封裝了其基本結構并支持推理。這種完全形式化的特征可能還有助于澄清和標準化圖像模式在該領域內的定義。從模型理論的角度來看，每個理論T的模型代表了結構的可能實例化，這與將模式用作模板以生成無限多具體圖像和場景的想法相一致。

5 通過神經圖像模式識別進行自然語言解析

在前幾節中建立了表示圖像模式的形式化基礎之后，我們現在轉向從自然語言中自動提取這些表示的挑戰。我們的目標是開發一個系統，該系統可以將普通句子解析為上述非單調量化形式化表示。

與傳統的語義解析相比，這項任務提出了獨特的挑戰。雖然傳統的語義解析器通常將語言映射到經典邏輯系統[27, 42]，但我們的系統必須捕捉語言中固有的具身、時空意義。例如，在處理[14]中提出的謎題中的句子“僧侶爬上山”時，系統不僅要識別涉及的實體，還要識別諸如SOURCE_PATH_GOAL和CONTACT等圖像模式的復雜相互作用及其隨時間的演變。

為了應對這一挑戰，我們提議利用最近在大型語言模型（LLMs）和神經架構方面的進展。基于現代變壓器的模型在理解語言結構和生成復雜輸出方面表現出了顯著的能力。我們可以利用它們強大的語言理解和生成能力，將自然語言描述轉換為我們的圖像模式形式化表示。開發這樣一個系統的一個關鍵挑戰是收集足夠高質量的自然語言句子及其圖像模式表示之間的映射數據。幸運的是，可以利用一些現有資源：

[39, 41]中的結構化數據庫提供了用于訓練、驗證和測試的現成示例。
文獻中的心理實驗，例如[31]，提供了關于人類參與者中圖像模式誘發的經驗數據。
可以通過策略性提示LLMs來生成自然語言句子的候選圖像模式注釋。
專家語言學家和認知科學家可以提供將語言成分映射到模式角色并識別活躍圖像模式的金標準注釋。

關于圖像模式表示的形式化，我們提議采用兩階段方法。首先，我們可以利用LLMs強大的推理能力來生成已識別模式的初始形式化描述。我們的形式化遵循帶有時間運算符的一階邏輯，使其特別適合自動化生成，因為這些邏輯結構在LLMs的訓練數據中得到了很好的表示。其次，我們可以在我們的收集的數據集上微調一個專門的翻譯模型，該數據集將自然語言句子與其形式表示配對。該模型將學習直接將輸入文本映射到我們形式化表示中的規范表達式。為了確保質量和一致性，我們提議采用迭代開發過程，其中模型輸出與專家注釋進行驗證，并根據錯誤分析進行細化。

最后，評估這樣一個系統需要超越簡單的準確性指標。雖然與金標準注釋的完全匹配提供了一種成功的衡量標準，我們還必須考慮部分匹配指標，以評估系統識別正確圖像模式、分配適當角色和保持適當時間結構的能力。此外，還應評估系統在需要真正理解空間關系、運動事件和力成分的下游任務中的性能。

6 自然語言理解、推理和類比

所提出的模型可以作為具身人工智能系統中的一個關鍵組成部分，幫助彌合語言理解和與物理世界的互動之間的差距。圖像模式，由于其基于身體經驗和空間理解，提供了語言輸入和物理行動之間的自然中間表示。通過在我們的正式符號中捕捉這些具身認知模式，我們使人工智能系統能夠以直接連接到空間推理和運動規劃的方式處理語言。這在自然語言理解和現實世界互動之間創造了更緊密的聯系——系統不再將語言視為純粹的符號操作，而是可以將語言意義建立在人類使用的空間和運動原語之上。

通過與人類認知過程更緊密的對齊，推理也將得到增強。通過在人類使用的相同圖像模式表示上操作，人工智能系統可以更好地模擬和預測人類的理解與誤解。例如，通過分析涉及哪些圖像模式以及它們是否自然地映射到熟悉的具身經驗，代理可以識別出人類可能難以理解某個概念的情況。此外，這些代理可以以類似于人類推理模式的方式進行推理。正如Shimojima在他對圖表推理的分析[35]中所展示的，某些結論可以從視覺表示中自然地（或“免費”地）得出，而無需明確的邏輯規則。圖像模式利用了相同的原理，因為實體之間的空間約束捕捉了目標領域中的邏輯約束[26]。為了在計算框架中實現這些推理，我們可以利用Clingo的答題集編程，如在相關工作領域[32, 37, 40]中部分探索的那樣。Clingo處理非單調推理和納入自定義理論（如描述圖像模式的那些）的能力使其特別適合實現我們的形式化。

最后，我們的形式化可能在捕捉類比關系方面特別有用，其中概念結構可以映射到多個目標領域。考慮太陽系和（盧瑟福-玻爾）原子系統之間的經典類比，如句子“電子圍繞原子核旋轉”和“行星圍繞太陽旋轉”[15]所示。兩者都可以使用相同的圖像模式結構進行形式化，其中電子/行星與原子核/太陽之間的距離Δ(x, y)被限制在一定范圍內，并且θ(x, y) < ?θ(x, y)確保x相對于y的角度位置不斷增加，捕捉了圓形軌道運動。這些形式化揭示的結構相似性解釋了類比的認知力量——兩種情況共享相同的基礎圖像模式結構。

7 結論和挑戰

本文提出了一種全面的方法來彌合自然語言理解和具身認知之間的差距。基于圖像模式的認知理論和大型語言模型的最新進展，我們已經概述了一種形式化方法，它捕捉了人類概念理解背后的基本空間、時間和力動態原語。雖然完整的形式化仍有待完全開發，但我們已經展示了如何系統地組合關鍵組件來表示復雜的概念結構。將這種形式化與現代變壓器架構集成為將語言理解建立在具身經驗中開辟了新的可能性。通過以計算上可行的形式捕捉圖像模式，我們使系統能夠以鏡像人類認知模式的方式處理語言。所得到的表示支持自然形式的推理和類比映射，如從基本的包含關系到復雜類比的例子所展示的那樣。我們的工作為開發能夠以更類似人類的方式理解和推理語言的人工智能系統提供了基礎。

原文鏈接：https://arxiv.org/pdf/2503.24110

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.