網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

解決推理能力瓶頸，用因果推理提升LLM智能決策

2025-09-11 21:01:04　來(lái)源: deephub

北京舉報(bào)

分享至

從ChatGPT到現(xiàn)在的智能體AI這個(gè)跨越說(shuō)明了一個(gè)關(guān)鍵轉(zhuǎn)變。ChatGPT本質(zhì)上是個(gè)聊天機(jī)器人，生成文本回應(yīng)；而AI智能體能夠自主完成復(fù)雜任務(wù)——銷售、旅行規(guī)劃、航班預(yù)訂、找裝修師傅、點(diǎn)外賣，這些都在它的能力范圍內(nèi)。

目前我們解決用戶任務(wù)時(shí)，主要是讓大語(yǔ)言模型（LLM）做任務(wù)分解，這也是和生成式AI重疊的地方。但問(wèn)題就出在這里：

今天的智能體AI系統(tǒng)被LLM的推理能力限制住了——這個(gè)問(wèn)題在蘋(píng)果的兩篇論文1、2里討論得很深入。

核心問(wèn)題來(lái)自智能體AI系統(tǒng)的非確定性特征。看看下面這個(gè)電商場(chǎng)景：

執(zhí)行計(jì)劃里有兩個(gè)非確定性操作："檢查信用"和"配送模式"。配送模式意味著用戶既可以自提也可以送貨上門(mén)，所以配送這個(gè)任務(wù)可能根本不會(huì)執(zhí)行。這種非確定性帶來(lái)一個(gè)問(wèn)題：

我們需要一個(gè)多步推理模型來(lái)理解底層智能體組件之間的因果關(guān)系。

這里涉及一個(gè)經(jīng)典問(wèn)題：相關(guān)性不等于因果關(guān)系。不管LLM規(guī)模多大，它們本質(zhì)上只能抓住訓(xùn)練數(shù)據(jù)中特征之間的統(tǒng)計(jì)相關(guān)性，然后做預(yù)測(cè)。因果關(guān)系雖然暗示相關(guān)性，但這種影響可能微弱到可以忽略。

當(dāng)前LLM缺少的正是因果關(guān)系理解。

接下來(lái)我們看看如何通過(guò)因果關(guān)系和內(nèi)省來(lái)解決智能體工作流中的非確定性問(wèn)題，前者用于LLM訓(xùn)練階段，后者用于推理階段。

因果推理的作用機(jī)制

因果關(guān)系研究的是事物"為什么"發(fā)生。它能夠規(guī)范性地解釋為什么某些行動(dòng)比其他行動(dòng)效果更好，從而影響未來(lái)結(jié)果。正如亞里士多德說(shuō)的："如果你證明了原因，你就立即證明了結(jié)果；反之，沒(méi)有任何事物可以在沒(méi)有其原因的情況下存在。"

人類天生具有因果思維。我們依靠因果關(guān)系做決策、制定計(jì)劃、解釋行為、適應(yīng)變化，基本上所有決策都是基于對(duì)后果的考量。

Gartner在2024年AI技術(shù)成熟度曲線中把因果AI放在"創(chuàng)新觸發(fā)"階段，分析師的評(píng)價(jià)是：

因果AI識(shí)別并利用因果關(guān)系，超越基于相關(guān)性的預(yù)測(cè)模型，讓AI系統(tǒng)能夠更有效地給出行動(dòng)建議并更自主地執(zhí)行。當(dāng)我們需要更穩(wěn)健的預(yù)測(cè)能力，以及更精準(zhǔn)地確定影響特定結(jié)果的最佳行動(dòng)時(shí)，因果AI就顯得至關(guān)重要。

因果AI能夠影響智能體AI生命周期的多個(gè)環(huán)節(jié)，特別是推理、可觀察性和可解釋性這幾個(gè)方面。

LLM推理能力的現(xiàn)實(shí)困境

蘋(píng)果最近的研究（論文1）深入分析了LLM的推理局限性。研究發(fā)現(xiàn)，當(dāng)面對(duì)以下情況時(shí)，最先進(jìn)的LLM準(zhǔn)確率會(huì)顯著下降：同一問(wèn)題的不同表述版本、包含多個(gè)條件的復(fù)雜問(wèn)題、以及看起來(lái)相關(guān)但實(shí)際無(wú)關(guān)的干擾信息。

這些限制導(dǎo)致準(zhǔn)確率下降高達(dá)65%，主要是因?yàn)槟Ｐ碗y以分辨相關(guān)信息和處理復(fù)雜問(wèn)題。

另一篇論文2進(jìn)一步揭示，前沿的大型推理模型（LRM）在問(wèn)題復(fù)雜度超過(guò)某個(gè)閾值時(shí)會(huì)出現(xiàn)準(zhǔn)確率完全崩潰。更反直覺(jué)的是，這些模型表現(xiàn)出奇怪的擴(kuò)展限制：推理努力程度會(huì)隨問(wèn)題復(fù)雜度增加到某個(gè)點(diǎn)，然后即使token預(yù)算充足也會(huì)下降。就算提供明確的人類輸入（實(shí)際解決方案描述或算法），在這個(gè)階段也無(wú)濟(jì)于事。

這些發(fā)現(xiàn)暴露了依賴LLM解決問(wèn)題的風(fēng)險(xiǎn)。LLM看起來(lái)無(wú)法進(jìn)行真正的邏輯推理，只是在模仿訓(xùn)練數(shù)據(jù)中觀察到的推理步驟。

要讓AI真正具備推理和問(wèn)題解決能力，它必須在算法層面理解因果關(guān)系。

換句話說(shuō)，需要理解事物發(fā)生的動(dòng)態(tài)機(jī)制，這樣才能探索各種"假設(shè)"情況。這類似于人腦的新皮層功能，負(fù)責(zé)高階推理，比如決策、規(guī)劃和感知。

為了達(dá)到這個(gè)目標(biāo)，我們建議在LLM/LRM的訓(xùn)練和微調(diào)過(guò)程中加入因果AI作為核心組件，同時(shí)結(jié)合知識(shí)圖譜。

LLM推理——在LLM/LRM訓(xùn)練中提供WHAT、HOW和WHY成分

因果AI能夠提供幾個(gè)關(guān)鍵的推理組件：根本原因分析（檢測(cè)和排序?qū)е陆Y(jié)果的因果驅(qū)動(dòng)因素），假設(shè)場(chǎng)景和反事實(shí)分析（確定替代行動(dòng)相對(duì)于當(dāng)前狀態(tài)的后果），可解釋性（解釋為什么某些行動(dòng)比其他行動(dòng)更優(yōu)），混雜因子識(shí)別（找出無(wú)關(guān)、誤導(dǎo)或隱藏的影響因素），以及路徑分析（理解相互關(guān)聯(lián)的行動(dòng)和達(dá)成結(jié)果的行動(dòng)序列）。

實(shí)現(xiàn)方式是將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)架構(gòu)與因果推理技術(shù)結(jié)合，在神經(jīng)網(wǎng)絡(luò)內(nèi)部推斷因果路徑。這意味著在訓(xùn)練數(shù)據(jù)集中建模因果關(guān)系，理解特征間的關(guān)系、相互影響方式以及對(duì)預(yù)測(cè)的作用。

舉個(gè)例子，下面的圖5展示了一個(gè)用于評(píng)估貸款申請(qǐng)信用風(fēng)險(xiǎn)的推斷因果模型。紅色箭頭表示特征與信用度呈負(fù)相關(guān)，綠色箭頭表示正面的因果驅(qū)動(dòng)因素，箭頭粗細(xì)代表因果關(guān)系的強(qiáng)度。

這通過(guò)因果組件模型來(lái)實(shí)現(xiàn)，這些模型可以逐步集成來(lái)達(dá)成特定用例的目標(biāo)（類似模型微服務(wù)的概念）。因果組件模型把系統(tǒng)拆分成不同的、可管理的組件，每個(gè)組件代表特定的因果關(guān)系，然后將這些組件連接起來(lái)形成完整的系統(tǒng)因果模型。

隨著時(shí)間推移，通過(guò)將強(qiáng)化學(xué)習(xí)（RL）和自學(xué)推理方法（比如STaR）集成到相互連接的模型和智能體系統(tǒng)中，可以創(chuàng)建自學(xué)習(xí)循環(huán)。這些系統(tǒng)通過(guò)管理轉(zhuǎn)移學(xué)習(xí)過(guò)程，基于彼此的行動(dòng)、知識(shí)、獎(jiǎng)勵(lì)和策略進(jìn)行集體學(xué)習(xí)。

因果模型能夠逐步發(fā)現(xiàn)按影響力排序的復(fù)雜因果關(guān)系，從而增強(qiáng)LLM的推理過(guò)程。

因果推理還能幫助限制幻覺(jué)問(wèn)題。領(lǐng)域特定的小語(yǔ)言模型（SLM）被廣泛認(rèn)為是智能體AI的未來(lái)方向。它們可以作為智能體AI系統(tǒng)的"基礎(chǔ)事實(shí)"，提供可靠數(shù)據(jù)，防止基于錯(cuò)誤或虛構(gòu)信息的行動(dòng)。像howso這樣的公司正在通過(guò)集成因果AI、數(shù)據(jù)水印和歸因推理來(lái)創(chuàng)建新的推理模型，目標(biāo)是降低風(fēng)險(xiǎn)并提升準(zhǔn)確性。

內(nèi)省機(jī)制增強(qiáng)推理過(guò)程

從LLM訓(xùn)練轉(zhuǎn)到推理階段，我們來(lái)看看如何通過(guò)添加"內(nèi)省"步驟來(lái)進(jìn)一步改善智能體推理。

智能體AI的核心架構(gòu)

一個(gè)完整的智能體AI平臺(tái)包含幾個(gè)關(guān)鍵模塊。推理模塊負(fù)責(zé)分解復(fù)雜任務(wù)并調(diào)整執(zhí)行策略來(lái)達(dá)成目標(biāo)；智能體市場(chǎng)提供現(xiàn)有和可用的智能體資源；編排模塊負(fù)責(zé)協(xié)調(diào)和監(jiān)控多智能體系統(tǒng)的執(zhí)行；集成模塊與企業(yè)系統(tǒng)對(duì)接，比如SCADA系統(tǒng)和知識(shí)庫(kù)；共享內(nèi)存管理處理智能體間的數(shù)據(jù)和上下文共享；治理層涵蓋可解釋性、隱私、安全等方面。

智能體AI平臺(tái)參考架構(gòu)

給定用戶任務(wù)后，智能體AI平臺(tái)的目標(biāo)是找到（或組合）能夠執(zhí)行這個(gè)任務(wù)的智能體。所以首先需要一個(gè)推理模塊，能夠把任務(wù)分解成子任務(wù)，然后由編排引擎協(xié)調(diào)相應(yīng)智能體的執(zhí)行。

解決復(fù)雜任務(wù)的基本思路包括兩步：先把復(fù)雜任務(wù)分解成簡(jiǎn)單任務(wù)的層次結(jié)構(gòu)或工作流，然后組合能夠執(zhí)行這些簡(jiǎn)單任務(wù)的智能體。這可以用動(dòng)態(tài)或靜態(tài)方式實(shí)現(xiàn)。動(dòng)態(tài)方式下，系統(tǒng)根據(jù)運(yùn)行時(shí)可用智能體的能力來(lái)制定計(jì)劃；靜態(tài)方式下，在設(shè)計(jì)時(shí)就手動(dòng)定義好復(fù)合智能體，組合它們的能力。

思維鏈（CoT）是目前最廣泛使用的分解框架，它把復(fù)雜任務(wù)轉(zhuǎn)換成多個(gè)可管理的任務(wù)，同時(shí)讓模型的思考過(guò)程變得可解釋。

ReAct（reasoning and acting）框架讓智能體能夠批判性地評(píng)估自己的行動(dòng)和輸出，從中學(xué)習(xí)，然后改進(jìn)計(jì)劃和推理過(guò)程。

智能體組合需要一個(gè)智能體市場(chǎng)或注冊(cè)表，里面有智能體能力和限制的明確描述。比如Agent2Agent（A2A）協(xié)議定義了智能體卡概念，這是一個(gè)JSON文檔，相當(dāng)于智能體的數(shù)字"名片"。包含的關(guān)鍵信息有：

Identity: name, description, provider information. Service Endpoint: The url where the A2A service can be reached. A2A Capabilities: Supported protocol features like streaming or pushNotifications. Authentication: Required authentication schemes (e.g., "Bearer", "OAuth2") to interact with the agent. Skills: A list of specific tasks or functions the agent can perform (AgentSkill objects), including their id, name, description, inputModes, outputModes, and examples.

內(nèi)省增強(qiáng)的ReAct推理

標(biāo)準(zhǔn)的ReAct智能體在網(wǎng)絡(luò)檢索任務(wù)上表現(xiàn)不錯(cuò)，但在工業(yè)物聯(lián)網(wǎng)環(huán)境中就不夠用了，經(jīng)常出現(xiàn)這些問(wèn)題：領(lǐng)域特定推理的缺失（比如無(wú)法把冷卻器單元噸位和能效聯(lián)系起來(lái)，這在工業(yè)物聯(lián)網(wǎng)中是重要關(guān)聯(lián)），推理不一致（特別是日期偏移推理，比如"上個(gè)月"這種表達(dá)），過(guò)早結(jié)束任務(wù)、重復(fù)調(diào)用工具、多步組合失敗等。

為了解決這些問(wèn)題，我們用迭代的ReAct +內(nèi)省策略來(lái)增強(qiáng)智能體，讓智能體系統(tǒng)能夠處理復(fù)雜的工業(yè)領(lǐng)域查詢。

distillation模塊作為預(yù)處理器，把復(fù)雜查詢分解成結(jié)構(gòu)化的語(yǔ)義單元：變量、約束和目標(biāo)。ReAct繼續(xù)作為底層編排框架，根據(jù)用戶查詢生成執(zhí)行計(jì)劃。

為了提升推理準(zhǔn)確度，特別是在實(shí)體消歧方面，編排器會(huì)在開(kāi)始執(zhí)行前發(fā)出內(nèi)部子查詢來(lái)指導(dǎo)后續(xù)推理。

這個(gè)預(yù)期查詢也會(huì)由LLM回答，能夠改善計(jì)劃一致性、任務(wù)執(zhí)行準(zhǔn)確度和工具調(diào)用精度。下面是系統(tǒng)提示的例子：

You are an advanced reasoning agent that can improve based on introspection. You will be given a previous reasoning trial in which you were given access to multiple agents and tools and a query to answer. You were unsuccessful in resolving the query correctly either because you misunderstood the query, or you used up your set number of reasoning steps. In a few sentences, diagnose a possible reason for failure and devise a new high-level execution plan that aims to mitigate the same failure. Use complete sentences. Here are some examples: {examples} Previous trial: Query: {query} {plan}

review模塊作為L(zhǎng)LM-as-a-Judge驗(yàn)證器，把最終推理步驟的輸出分為已完成、部分完成或失敗三類，判斷標(biāo)準(zhǔn)是生成的輸出是否解決了用戶查詢。這會(huì)觸發(fā)reflect模塊對(duì)執(zhí)行計(jì)劃進(jìn)行內(nèi)省，評(píng)估推理步驟、智能體和工具調(diào)用等。

輸出的是針對(duì)性反饋，以執(zhí)行計(jì)劃調(diào)整或推理模板的形式，這些反饋會(huì)加入到系統(tǒng)提示中指導(dǎo)未來(lái)的執(zhí)行。

總結(jié)

當(dāng)前LLM的推理局限性已成為制約智能體AI企業(yè)級(jí)應(yīng)用的核心瓶頸。由于智能體系統(tǒng)在任務(wù)規(guī)劃階段高度依賴LLM能力，這種局限性直接影響了AI智能體的自主決策水平。

通過(guò)深入分析基于統(tǒng)計(jì)相關(guān)性的傳統(tǒng)模型架構(gòu)，可以識(shí)別出"因果關(guān)系理解"這一關(guān)鍵缺失環(huán)節(jié)。在推理階段，通過(guò)引入"內(nèi)省機(jī)制"對(duì)ReAct框架進(jìn)行擴(kuò)展，顯著改善了智能體在實(shí)體消歧、領(lǐng)域特定推理等復(fù)雜場(chǎng)景下的表現(xiàn)。

論文:

https://avoid.overfit.cn/post/3a400ca049a14aa187a39f57f3caeacc

作者：Debmalya Biswas

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.