網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

心智推理 2.0：AI 從靜態(tài)判斷邁向動(dòng)態(tài)認(rèn)知

2026-03-25 16:11:16　來(lái)源: 人工智能學(xué)家

北京舉報(bào)

分享至

當(dāng)我們談?wù)摗癆I 是否具備心智理論（Theory of Mind）”時(shí)，往往會(huì)陷入一種錯(cuò)覺(jué)，只要模型能解釋“他為什么這么做”，那它就算是理解了人類的心理。但現(xiàn)實(shí)世界遠(yuǎn)比心理學(xué)測(cè)試題復(fù)雜得多。尤其在災(zāi)害、醫(yī)療、金融這些高風(fēng)險(xiǎn)場(chǎng)景里，人類的信念不是靜止的，而是會(huì)隨著信息變化不斷更新、強(qiáng)化、沖突、甚至突然崩塌。大型語(yǔ)言模型雖然能給出看似合理的解釋，卻往往無(wú)法回答一個(gè)更關(guān)鍵的問(wèn)題——人類的信念是如何一步步演化到當(dāng)前狀態(tài)的。

這篇來(lái)自霍普金斯大學(xué) 、佛羅里達(dá)大學(xué)和猶他大學(xué)的跨學(xué)科團(tuán)隊(duì)的新研究成果《Learning Dynamic Belief Graphs for Theory-of-mind Reasoning》，正是試圖解決這個(gè)問(wèn)題。它提出了一個(gè)新的范式，讓 AI 不再只是“猜測(cè)你現(xiàn)在在想什么”，而是“理解你的信念是如何隨時(shí)間變化，并最終驅(qū)動(dòng)你的行為”。

一句大白話總結(jié)就是別再讓 AI 做心理測(cè)驗(yàn)式的靜態(tài)推理了，讓它學(xué)會(huì)“跟蹤一個(gè)人的心路歷程”。

01人工智能的“心智理論”困境

大型語(yǔ)言模型在 ToM 推理上的局限其實(shí)非常明顯，只是我們平時(shí)不太愿意承認(rèn)。

首先，它們的信念推斷是靜態(tài)的。給它一段描述，它就給你一個(gè)“此刻的信念判斷”，但不會(huì)記住你之前說(shuō)過(guò)什么，也不會(huì)考慮信念的累積效應(yīng)。人類的信念可不是一幀一幀的截圖，而是一條連續(xù)的軌跡。

它們把信念當(dāng)成彼此獨(dú)立的變量，現(xiàn)實(shí)中，“擔(dān)心火勢(shì)蔓延”會(huì)強(qiáng)化“需要撤離”的信念，“相信官方信息”會(huì)抑制“聽(tīng)鄰居謠言”的信念，這些都是相互作用的。但 LLM 的推理往往是“一條信念一句話”，缺乏結(jié)構(gòu)化的依賴關(guān)系。

它們?nèi)狈σ蚬恢滦浴ＤＰ屯茢嗟男拍罱?jīng)常無(wú)法解釋行為，而行為也無(wú)法反推信念。你問(wèn)它“為什么這個(gè)人撤離”，它能給你一個(gè)理由；你問(wèn)它“這個(gè)人會(huì)不會(huì)撤離”，它又能給你另一個(gè)理由，但這兩個(gè)理由之間可能毫無(wú)邏輯聯(lián)系。

在高風(fēng)險(xiǎn)場(chǎng)景中，這些問(wèn)題會(huì)被無(wú)限放大。災(zāi)害響應(yīng)中，人們的信念會(huì)隨著觀察變化而劇烈波動(dòng)；醫(yī)療決策中，風(fēng)險(xiǎn)感知與信任關(guān)系會(huì)交織影響行動(dòng)；金融危機(jī)中，恐慌情緒會(huì)在群體中傳播。如果 AI 想真正理解人類行為，它必須學(xué)會(huì)處理這些動(dòng)態(tài)信念結(jié)構(gòu)，而不是停留在“靜態(tài)猜測(cè)”的層面。

這項(xiàng)研究提出的核心問(wèn)題也因此顯得格外尖銳，如何讓AI理解“人類信念是如何隨時(shí)間演化的”？

這項(xiàng)研究的貢獻(xiàn)可以說(shuō)是把心理學(xué)、圖模型、能量函數(shù)、LLM 語(yǔ)義理解和行為科學(xué)揉成了一套新的 ToM 推理框架。它的核心創(chuàng)新點(diǎn)有四個(gè)。

最重要的是“動(dòng)態(tài)信念圖”（Dynamic Belief Graph）。研究團(tuán)隊(duì)把信念建模成一個(gè)隨時(shí)間演化的圖結(jié)構(gòu)，信念之間可以相互強(qiáng)化或抑制，整個(gè)系統(tǒng)像一個(gè)不斷更新的認(rèn)知網(wǎng)絡(luò)，而不是一堆孤立的判斷。

其次是“語(yǔ)義到勢(shì)能的投影”（Semantic-to-Potential Projection）。這一步非常巧妙，它讓 LLM 的語(yǔ)義embedding 不再只是“理解文本”，而是直接映射到圖模型的 unary 和 pairwise potentials。換句話說(shuō)，語(yǔ)言模型提供語(yǔ)義證據(jù)，圖模型負(fù)責(zé)結(jié)構(gòu)化推理，兩者終于不再各說(shuō)各話。

第三個(gè)創(chuàng)新是“行為驅(qū)動(dòng)的信念學(xué)習(xí)”（Action-conditioned ELBO）。信念不是憑空推斷的，而是必須能解釋行為；行為反過(guò)來(lái)約束信念的學(xué)習(xí)。這讓模型的信念軌跡具備了因果一致性，而不是隨口編的心理分析。

最后，研究團(tuán)隊(duì)在真實(shí)的野火撤離數(shù)據(jù)上驗(yàn)證了模型。不是玩具環(huán)境，不是虛構(gòu)故事，而是真實(shí)的高風(fēng)險(xiǎn)場(chǎng)景。這讓模型的有效性更具說(shuō)服力。

研究團(tuán)隊(duì)來(lái)自一個(gè)典型的跨學(xué)科團(tuán)隊(duì)，Ruxiao Chen（約翰斯·霍普金斯大學(xué)）、Susu Xu（約翰斯·霍普金斯大學(xué)，通訊研究團(tuán)隊(duì)）、Xilei Zhao（佛羅里達(dá)大學(xué)）、Thomas J. Cova（猶他大學(xué)）、Frank A. Drews（猶他大學(xué)）。

他們橫跨系統(tǒng)工程、災(zāi)害科學(xué)、環(huán)境社會(huì)學(xué)、心理學(xué)，是一個(gè)“研究人類在極端情境下如何思考和行動(dòng)”的黃金組合。

項(xiàng)目地址：https://anonymous.4open.science/r/ICML_submission-6373/

02ToM推理的技術(shù)脈絡(luò)

要理解這項(xiàng)研究的意義，我們得先看看 ToM 推理的技術(shù)演化史。

傳統(tǒng)的 Machine ToM 主要依賴 Bayesian Inverse Planning，把人類行為看作“理性代理”的結(jié)果，通過(guò)反演決策過(guò)程來(lái)推斷信念和目標(biāo)。

這種方法理論上非常優(yōu)雅，因果結(jié)構(gòu)清晰，但問(wèn)題也很明顯，需要手工定義狀態(tài)空間、信念變量、轉(zhuǎn)移結(jié)構(gòu)，只能在小規(guī)模、玩具環(huán)境中運(yùn)行，完全無(wú)法處理真實(shí)世界的復(fù)雜語(yǔ)義輸入。

隨著 LLM 的出現(xiàn)，研究者開(kāi)始嘗試讓模型直接從文本中推斷信念，代表性方法包括AutoToM、MuMToM 等。它們的優(yōu)勢(shì)是語(yǔ)義理解能力強(qiáng)，不需要手工定義信念空間，能處理開(kāi)放世界的自然語(yǔ)言輸入。但它們的缺陷也非常致命，信念是獨(dú)立的，沒(méi)有結(jié)構(gòu)；信念是靜態(tài)的，沒(méi)有時(shí)間；推理完全依賴 prompt，容易漂移；信念無(wú)法解釋行為，也無(wú)法被行為反推。

為了讓模型具備“結(jié)構(gòu)化的記憶”和“可解釋的推理”，研究者開(kāi)始引入深度馬爾可夫模型（DMM）、能量模型（EBM）、因子圖（Factor Graph）等方法。它們各有優(yōu)勢(shì)，但單獨(dú)使用都無(wú)法解決 ToM 推理的核心難題。

這項(xiàng)研究的創(chuàng)新就在于把 LLM 的語(yǔ)義能力、DMM 的時(shí)間結(jié)構(gòu)、因子圖的依賴建模、EBM 的一致性約束融合成一個(gè)統(tǒng)一框架，讓 AI 終于可以從“靜態(tài)心理測(cè)驗(yàn)式推理”邁向“動(dòng)態(tài)認(rèn)知軌跡建?！薄?/p>

03問(wèn)題定義——從觀察到信念，從信念到行為

如果說(shuō)這項(xiàng)研究的目標(biāo)是“讓 AI 學(xué)會(huì)理解人類的心路歷程”，那問(wèn)題定義這一節(jié)就是它的“世界觀設(shè)定”。研究團(tuán)隊(duì)把人類在高風(fēng)險(xiǎn)場(chǎng)景中的認(rèn)知過(guò)程拆解成四類核心變量，它們共同構(gòu)成了一個(gè)完整的認(rèn)知循環(huán)，看到什么、怎么想、怎么變、最后做什么。

圖1：信念軌跡隨著高風(fēng)險(xiǎn)的觀察而演變，在閾值交叉時(shí)觸發(fā)行動(dòng)。

最底層的是環(huán)境狀態(tài) St。它代表真實(shí)世界正在發(fā)生什么，比如火勢(shì)是否逼近、是否收到官方警報(bào)、鄰居是否開(kāi)始撤離。這個(gè)狀態(tài)通常是不可見(jiàn)的，或者說(shuō)人類只能通過(guò)有限的觀察去推測(cè)它。

接下來(lái)是觀察文本 ot。這是人類在每個(gè)時(shí)間點(diǎn)實(shí)際看到、聽(tīng)到或感受到的信息。在論文的數(shù)據(jù)集中，這些觀察來(lái)自真實(shí)的野火調(diào)查問(wèn)卷，比如“看到煙霧”“收到緊急通知”“鄰居開(kāi)始撤離”等。模型就是通過(guò)這些文本來(lái)理解“此刻發(fā)生了什么”。

然后是信念向量 bt，這是整個(gè)框架的靈魂。它是一個(gè) K 維二元向量，每一維代表一個(gè)具體的心理信念，比如“我家是否處于危險(xiǎn)”“火勢(shì)是否會(huì)蔓延”“官方信息是否可信”等。論文中 K=6，這個(gè)規(guī)模既能表達(dá)足夠豐富的心理狀態(tài)，又不會(huì)讓計(jì)算變得不可控。

最后是行為 at。這是人類在每個(gè)時(shí)間點(diǎn)做出的選擇，比如“繼續(xù)觀察”“準(zhǔn)備撤離”“立即離開(kāi)”。行為是信念的外顯結(jié)果，也是模型最終要預(yù)測(cè)的目標(biāo)。

這四個(gè)變量構(gòu)成了一個(gè)完整的生成過(guò)程，觀察影響信念，信念隨時(shí)間累積和變化，信念驅(qū)動(dòng)行為，而行為又反過(guò)來(lái)揭示信念的合理性。整個(gè)系統(tǒng)是一個(gè)結(jié)構(gòu)化的隱變量模型，信念是隱藏的、不可直接觀測(cè)的，但它必須能解釋行為，否則模型就會(huì)在訓(xùn)練中被 ELBO 懲罰。

這個(gè)模型不是在“猜信念”，而是在“學(xué)習(xí)一套能解釋行為的信念動(dòng)態(tài)”。這比傳統(tǒng)的 LLM prompt 推理要嚴(yán)謹(jǐn)?shù)枚?，也更接近真?shí)的人類認(rèn)知。

04模型核心，動(dòng)態(tài)信念圖（Dynamic Belief Graph）

如果說(shuō)上一節(jié)定義了“世界觀”，這一節(jié)就是研究的“戰(zhàn)斗系統(tǒng)”。研究團(tuán)隊(duì)提出的動(dòng)態(tài)信念圖，是一個(gè)融合了圖模型、能量函數(shù)和 LLM 語(yǔ)義理解的混合結(jié)構(gòu)。它既有概率圖模型的嚴(yán)謹(jǐn)性，又有語(yǔ)言模型的語(yǔ)義能力，是一個(gè)非常典型的“神經(jīng)符號(hào)混合體”。

圖2:結(jié)構(gòu)化認(rèn)知軌跡ToM框架概述。這里，st表示觀察到的動(dòng)作處的潛在環(huán)境狀態(tài)，ot表示代理的觀察，bt表示潛在的信念狀態(tài)，et表示LLM提取的語(yǔ)義嵌入。

信念作為馬爾可夫隨機(jī)場(chǎng)（MRF）

研究把信念向量 bt 建模為一個(gè)馬爾可夫隨機(jī)場(chǎng)（MRF），其能量函數(shù)寫成：

這里的 unary potential ?i 表示單個(gè)信念的傾向性，而 pairwise potential ?ij 則表示信念之間的相互作用。

為什么要建模 pairwise interaction？因?yàn)槿祟惖男拍畈皇仟?dú)立的。心理學(xué)研究早就告訴我們，風(fēng)險(xiǎn)感知、信任、威脅評(píng)估等信念之間存在強(qiáng)烈的強(qiáng)化或抑制關(guān)系。

例如，“看到煙霧”會(huì)強(qiáng)化“火勢(shì)逼近”的信念， “相信官方信息”會(huì)抑制“聽(tīng)鄰居謠言”的信念， “鄰居撤離”會(huì)強(qiáng)化“需要行動(dòng)”的信念。

如果模型不捕捉這些關(guān)系，它就無(wú)法解釋真實(shí)的人類行為。

MRF 的好處是，它能自然表達(dá)這些依賴關(guān)系，同時(shí)允許信念在每個(gè)時(shí)間點(diǎn)形成一個(gè)結(jié)構(gòu)化的整體，而不是一堆孤立的二元變量。

語(yǔ)義到勢(shì)能的投影（Semantic-to-Potential Projection）

這一部分是研究最巧妙的設(shè)計(jì)之一。研究團(tuán)隊(duì)沒(méi)有直接讓模型學(xué)習(xí)勢(shì)能，而是讓 LLM 來(lái)提供語(yǔ)義證據(jù)，再把這些證據(jù)投影到 unary 和 pairwise potentials 上。

對(duì)于每個(gè)信念 bt,i，模型會(huì)向 LLM 提兩個(gè)prompt，

一個(gè)假設(shè)上一時(shí)刻信念為真（Yes），一個(gè)假設(shè)上一時(shí)刻信念為假（No）。

LLM 會(huì)返回兩個(gè) embedding，hYes 和hNo。然后模型根據(jù)當(dāng)前觀察 ot 生成一個(gè)語(yǔ)義embedding ht，并通過(guò)對(duì)比方式構(gòu)造 unary potential 的基礎(chǔ)部分：

這個(gè)對(duì)比結(jié)構(gòu)非常關(guān)鍵，它避免了“語(yǔ)義翻轉(zhuǎn)”（sign flipping）的問(wèn)題。因?yàn)樵跓o(wú)監(jiān)督學(xué)習(xí)中，如果模型把“1”當(dāng)成“否定”，把“0”當(dāng)成“肯定”，數(shù)學(xué)上完全等價(jià)，但語(yǔ)義上就亂套了。通過(guò)對(duì)比 embedding，模型能保持信念語(yǔ)義方向的一致性。

pairwise embedding 則是通過(guò) LLM 對(duì)信念對(duì) (bi,bj) 的語(yǔ)義理解來(lái)生成，再映射到 pairwise potential:

這讓模型能夠捕捉信念之間的強(qiáng)化或抑制關(guān)系，而不是靠人工指定。

信念邊緣概率的計(jì)算

由于信念是 K 維二元變量，所有可能的信念配置有 2K 種。研究中 K=6，因此總共有 64 種配置，完全可以枚舉。

信念邊緣概率的計(jì)算公式是

為什么 K=6 時(shí)可行？因?yàn)?4 個(gè)配置 × 每個(gè)時(shí)間點(diǎn) 3 步 × 每個(gè)樣本幾十條記錄，計(jì)算量完全在可控范圍內(nèi)。

如果 K=20，那就要 1,048,576 種配置，模型就炸了。研究團(tuán)隊(duì)顯然是經(jīng)過(guò)深思熟慮才選擇 K=6 的。

05行為模型，信念如何驅(qū)動(dòng)行動(dòng)？

如果說(shuō)動(dòng)態(tài)信念圖負(fù)責(zé)回答“人是怎么想的”，那行為模型就是回答“人為什么這么做”。這部分是研究中最“貼近現(xiàn)實(shí)”的地方，因?yàn)樗苯影研拍詈托袆?dòng)綁在一起，讓模型必須面對(duì)一個(gè)殘酷事實(shí)，信念如果不能解釋行為，那就是錯(cuò)的。

在這個(gè)框架里，每個(gè)行為都有自己的“信念條件嵌入”（belief-conditioned embedding）。這聽(tīng)起來(lái)有點(diǎn)抽象，但其實(shí)很好理解，不同的行為受不同的信念組合影響，比如“繼續(xù)觀察”可能受“火勢(shì)不嚴(yán)重”的信念影響，而“立即撤離”則可能由“看到煙霧 + 鄰居撤離 + 官方警告”共同觸發(fā)。

為了捕捉這種差異，模型為每個(gè)行為構(gòu)建一個(gè)獨(dú)立的信念 token matrix。更妙的是，LLM 會(huì)為每個(gè)信念生成兩個(gè) embedding，一個(gè)是假設(shè)信念為真，一個(gè)是假設(shè)信念為假。然后模型根據(jù)當(dāng)前信念的邊緣概率，把這兩個(gè) embedding 混合成一個(gè)“信念條件行為 embedding”。

模型不是在問(wèn)“這個(gè)行為是什么”，而是在問(wèn)“如果這個(gè)人真的相信這些事情，他會(huì)怎么做”。這比傳統(tǒng)的分類器要聰明得多。

為了進(jìn)一步捕捉信念之間的組合效應(yīng)，研究團(tuán)隊(duì)為每個(gè)行為都設(shè)計(jì)了一個(gè)獨(dú)立的自注意力模塊（Action-specific Self-Attention）。這一步非常關(guān)鍵，因?yàn)樾袨橥皇怯蓡我恍拍钣|發(fā)的，而是由信念之間的非線性交互決定的。

比如“看到煙霧”本身可能不會(huì)讓人撤離，但如果同時(shí)“鄰居開(kāi)始撤離”，那撤離的概率就會(huì)突然飆升。自注意力機(jī)制正是用來(lái)捕捉這種“1+1>2”的心理效應(yīng)。

這也是為什么研究團(tuán)隊(duì)沒(méi)有使用一個(gè)統(tǒng)一的注意力結(jié)構(gòu)，而是為每個(gè)行為單獨(dú)建模。不同的行為有不同的觸發(fā)邏輯，不能混為一談。

圖3：針對(duì)中間行動(dòng)和最終疏散決策的訓(xùn)練周期的行動(dòng)預(yù)測(cè)準(zhǔn)確性。

06推斷模型與訓(xùn)練，ELBO如何讓信念變得“可解釋”？

動(dòng)態(tài)信念圖和行為模型構(gòu)成了生成模型，但生成模型本身無(wú)法直接訓(xùn)練，因?yàn)樾拍钍请[藏的、不可觀測(cè)的。為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)引入了一個(gè)推斷模型（Inference Model），它在訓(xùn)練時(shí)負(fù)責(zé)“猜測(cè)”信念。

推斷模型可以看到行為，這一點(diǎn)非常重要。因?yàn)樾袨槭切拍畹耐怙@結(jié)果，知道行為就能更好地反推信念。生成模型不能看到行為，而推斷模型可以，這種“非對(duì)稱性”是變分推斷的經(jīng)典設(shè)計(jì)。

整個(gè)訓(xùn)練過(guò)程由 ELBO（Evidence Lower Bound）驅(qū)動(dòng)，它包含兩個(gè)部分。

第一個(gè)部分是行為似然項(xiàng)。它要求信念必須能夠解釋行為。如果模型推斷的信念無(wú)法產(chǎn)生觀察到的行為，ELBO 就會(huì)懲罰它。這讓信念學(xué)習(xí)變得“行為一致”，而不是隨便瞎猜。

第二個(gè)部分是 KL 項(xiàng)，它要求推斷模型的信念分布必須與生成模型的信念先驗(yàn)保持一致。換句話說(shuō)，推斷模型不能“作弊”，不能為了擬合行為而生成不合理的信念。

圖4：訓(xùn)練期間ELBO組件動(dòng)態(tài)。動(dòng)作似然項(xiàng)的演化以及推理后驗(yàn)和信念轉(zhuǎn)移前驗(yàn)之間的KL分歧。

圖 4 展示了訓(xùn)練動(dòng)態(tài)，KL 項(xiàng)在早期迅速下降，說(shuō)明推斷模型和生成模型快速對(duì)齊；行為似然項(xiàng)穩(wěn)步上升，說(shuō)明信念越來(lái)越能解釋行為。這種訓(xùn)練曲線非常健康，也說(shuō)明模型確實(shí)在學(xué)習(xí)“合理的信念軌跡”。

07實(shí)驗(yàn)與結(jié)果，模型是否真的學(xué)到了“人類信念”？

為了驗(yàn)證模型的有效性，研究團(tuán)隊(duì)使用了真實(shí)的野火撤離調(diào)查數(shù)據(jù)，包括 Kincade Fire 和 Marshall Fire。這些數(shù)據(jù)包含了居民在災(zāi)害中的觀察、信念、行為等信息，是研究 ToM 的絕佳素材。

圖5：（a）模型預(yù)測(cè)信念與個(gè)人信念的人類評(píng)級(jí)之間的斯皮爾曼相關(guān)性。（b）成對(duì)信念結(jié)構(gòu)學(xué)習(xí)的斯皮爾曼相關(guān)性。

這些場(chǎng)景非常適合 ToM 研究，因?yàn)樗鼈兙哂腥齻€(gè)特點(diǎn)，信息不完全、風(fēng)險(xiǎn)高、信念變化快。換句話說(shuō)，這些場(chǎng)景能逼迫模型面對(duì)“真實(shí)的人類認(rèn)知復(fù)雜性”。

在行為預(yù)測(cè)方面，模型在中間行為和最終撤離決策上都表現(xiàn)穩(wěn)定，訓(xùn)練集和測(cè)試集的曲線幾乎重合，說(shuō)明模型沒(méi)有過(guò)擬合，泛化能力很強(qiáng)。

在信念預(yù)測(cè)質(zhì)量方面，研究團(tuán)隊(duì)使用 Spearman 相關(guān)來(lái)評(píng)估模型預(yù)測(cè)的信念與調(diào)查問(wèn)卷中的自報(bào)告信念之間的關(guān)系。Spearman是一個(gè) rank-based 指標(biāo)，非常適合這種主觀評(píng)分?jǐn)?shù)據(jù)，因?yàn)樗灰蠼^對(duì)值一致，只要求排序一致。

結(jié)果顯示，模型在大多數(shù)信念維度上都顯著優(yōu)于 AutoToM 和 FLARE。這說(shuō)明動(dòng)態(tài)信念圖確實(shí)學(xué)到了“人類信念的排序結(jié)構(gòu)”。

圖6：消融結(jié)果對(duì)信念準(zhǔn)確性和時(shí)間動(dòng)力學(xué)的影響。（a）不同消融下的Spearman相關(guān)性。（b）信念結(jié)構(gòu)學(xué)習(xí)和時(shí)間一致性的全球指標(biāo)。

更令人驚喜的是，模型還恢復(fù)了信念之間的 pairwise 結(jié)構(gòu)。也就是說(shuō)，它不僅知道“哪些信念更強(qiáng)”，還知道“哪些信念會(huì)一起變化”。這在心理學(xué)中被稱為“信念協(xié)變結(jié)構(gòu)”，是理解人類行為的關(guān)鍵。

與 AutoToM 和 FLARE 相比，研究的方法在信念結(jié)構(gòu)恢復(fù)上有明顯優(yōu)勢(shì)。這說(shuō)明結(jié)構(gòu)化建模確實(shí)比 prompt-based 推理更可靠。

08為什么這是ToM推理的重要突破？

這項(xiàng)研究的意義不僅在于提出了一個(gè)新模型，更在于它重新定義了 ToM 推理的技術(shù)路線。

它讓 ToM 推理從“靜態(tài)信念”邁向“動(dòng)態(tài)信念圖”。信念不再是孤立的判斷，而是一個(gè)隨時(shí)間演化的結(jié)構(gòu)化系統(tǒng)。

它讓 ToM 推理從“LLM 直接推理”邁向“LLM + 結(jié)構(gòu)化模型”。語(yǔ)言模型負(fù)責(zé)語(yǔ)義理解，圖模型負(fù)責(zé)結(jié)構(gòu)化推理，兩者各司其職。

它讓 ToM 推理從“解釋行為”邁向“行為反向約束信念”。信念必須能解釋行為，行為也必須能反推信念，這讓模型具備了因果一致性。

它為未來(lái)的 ToM 研究提供了一個(gè)新的方向，不要再依賴 prompt，不要再依賴靜態(tài)推理，而是構(gòu)建一個(gè)能隨時(shí)間更新、能表達(dá)信念關(guān)系、能被行為約束的認(rèn)知軌跡模型。

一句話總結(jié)，這項(xiàng)研究不是在讓AI更像人，而是在讓AI更像一個(gè)“能理解人”的系統(tǒng)。（END）

參考資料：https://arxiv.org/abs/2603.20170

關(guān)于波動(dòng)智能——

波動(dòng)智能旨在建立一個(gè)基于人類意圖與反應(yīng)的真實(shí)需求洞察及滿足的價(jià)值體系，融合人工智能與意識(shí)科學(xué)，構(gòu)建覆蓋情緒識(shí)別、建模與推薦的智能引擎，自主研發(fā)面向社交、電商等場(chǎng)景的多模態(tài)意圖識(shí)別引擎、意圖標(biāo)簽系統(tǒng)及意圖智能推薦算法，形成從情緒采集、意圖建模到商業(yè)轉(zhuǎn)化的完整解決方案。波動(dòng)智能提出“意圖是連接人、物與內(nèi)容的新型接口”，其產(chǎn)品廣泛應(yīng)用于AI社交、個(gè)性化內(nèi)容推薦、虛擬陪伴、電商體驗(yàn)優(yōu)化等領(lǐng)域。波動(dòng)智能正在探索“EMO-as-a-Service”技術(shù)服務(wù)架構(gòu)，賦能企業(yè)實(shí)現(xiàn)更高效的用戶洞察與精準(zhǔn)情緒交互，推動(dòng)從功能驅(qū)動(dòng)到意圖驅(qū)動(dòng)的產(chǎn)業(yè)范式升級(jí)。

親愛(ài)的人工智能研究者，為了確保您不會(huì)錯(cuò)過(guò)*波動(dòng)智能*的最新推送，請(qǐng)星標(biāo)*波動(dòng)智能*。我們傾心打造并精選每篇內(nèi)容，只為為您帶來(lái)啟發(fā)和深思，希望能成為您理性思考路上的伙伴！

加入AI交流群請(qǐng)掃碼加微信

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.