從ChatGPT到現(xiàn)在的智能體AI這個(gè)跨越說(shuō)明了一個(gè)關(guān)鍵轉(zhuǎn)變。ChatGPT本質(zhì)上是個(gè)聊天機(jī)器人,生成文本回應(yīng);而AI智能體能夠自主完成復(fù)雜任務(wù)——銷售、旅行規(guī)劃、航班預(yù)訂、找裝修師傅、點(diǎn)外賣,這些都在它的能力范圍內(nèi)。
![]()
目前我們解決用戶任務(wù)時(shí),主要是讓大語(yǔ)言模型(LLM)做任務(wù)分解,這也是和生成式AI重疊的地方。但問(wèn)題就出在這里:
今天的智能體AI系統(tǒng)被LLM的推理能力限制住了——這個(gè)問(wèn)題在蘋(píng)果的兩篇論文1、2里討論得很深入。
核心問(wèn)題來(lái)自智能體AI系統(tǒng)的非確定性特征。看看下面這個(gè)電商場(chǎng)景:
![]()
執(zhí)行計(jì)劃里有兩個(gè)非確定性操作:"檢查信用"和"配送模式"。配送模式意味著用戶既可以自提也可以送貨上門(mén),所以配送這個(gè)任務(wù)可能根本不會(huì)執(zhí)行。這種非確定性帶來(lái)一個(gè)問(wèn)題:
我們需要一個(gè)多步推理模型來(lái)理解底層智能體組件之間的因果關(guān)系。
這里涉及一個(gè)經(jīng)典問(wèn)題:相關(guān)性不等于因果關(guān)系。不管LLM規(guī)模多大,它們本質(zhì)上只能抓住訓(xùn)練數(shù)據(jù)中特征之間的統(tǒng)計(jì)相關(guān)性,然后做預(yù)測(cè)。因果關(guān)系雖然暗示相關(guān)性,但這種影響可能微弱到可以忽略。
當(dāng)前LLM缺少的正是因果關(guān)系理解。
接下來(lái)我們看看如何通過(guò)因果關(guān)系和內(nèi)省來(lái)解決智能體工作流中的非確定性問(wèn)題,前者用于LLM訓(xùn)練階段,后者用于推理階段。
因果推理的作用機(jī)制
因果關(guān)系研究的是事物"為什么"發(fā)生。它能夠規(guī)范性地解釋為什么某些行動(dòng)比其他行動(dòng)效果更好,從而影響未來(lái)結(jié)果。正如亞里士多德說(shuō)的:"如果你證明了原因,你就立即證明了結(jié)果;反之,沒(méi)有任何事物可以在沒(méi)有其原因的情況下存在。"
人類天生具有因果思維。我們依靠因果關(guān)系做決策、制定計(jì)劃、解釋行為、適應(yīng)變化,基本上所有決策都是基于對(duì)后果的考量。
Gartner在2024年AI技術(shù)成熟度曲線中把因果AI放在"創(chuàng)新觸發(fā)"階段,分析師的評(píng)價(jià)是:
因果AI識(shí)別并利用因果關(guān)系,超越基于相關(guān)性的預(yù)測(cè)模型,讓AI系統(tǒng)能夠更有效地給出行動(dòng)建議并更自主地執(zhí)行。當(dāng)我們需要更穩(wěn)健的預(yù)測(cè)能力,以及更精準(zhǔn)地確定影響特定結(jié)果的最佳行動(dòng)時(shí),因果AI就顯得至關(guān)重要。
因果AI能夠影響智能體AI生命周期的多個(gè)環(huán)節(jié),特別是推理、可觀察性和可解釋性這幾個(gè)方面。
![]()
LLM推理能力的現(xiàn)實(shí)困境
蘋(píng)果最近的研究(論文1)深入分析了LLM的推理局限性。研究發(fā)現(xiàn),當(dāng)面對(duì)以下情況時(shí),最先進(jìn)的LLM準(zhǔn)確率會(huì)顯著下降:同一問(wèn)題的不同表述版本、包含多個(gè)條件的復(fù)雜問(wèn)題、以及看起來(lái)相關(guān)但實(shí)際無(wú)關(guān)的干擾信息。
這些限制導(dǎo)致準(zhǔn)確率下降高達(dá)65%,主要是因?yàn)槟P碗y以分辨相關(guān)信息和處理復(fù)雜問(wèn)題。
另一篇論文2進(jìn)一步揭示,前沿的大型推理模型(LRM)在問(wèn)題復(fù)雜度超過(guò)某個(gè)閾值時(shí)會(huì)出現(xiàn)準(zhǔn)確率完全崩潰。更反直覺(jué)的是,這些模型表現(xiàn)出奇怪的擴(kuò)展限制:推理努力程度會(huì)隨問(wèn)題復(fù)雜度增加到某個(gè)點(diǎn),然后即使token預(yù)算充足也會(huì)下降。就算提供明確的人類輸入(實(shí)際解決方案描述或算法),在這個(gè)階段也無(wú)濟(jì)于事。
這些發(fā)現(xiàn)暴露了依賴LLM解決問(wèn)題的風(fēng)險(xiǎn)。LLM看起來(lái)無(wú)法進(jìn)行真正的邏輯推理,只是在模仿訓(xùn)練數(shù)據(jù)中觀察到的推理步驟。
要讓AI真正具備推理和問(wèn)題解決能力,它必須在算法層面理解因果關(guān)系。
換句話說(shuō),需要理解事物發(fā)生的動(dòng)態(tài)機(jī)制,這樣才能探索各種"假設(shè)"情況。這類似于人腦的新皮層功能,負(fù)責(zé)高階推理,比如決策、規(guī)劃和感知。
為了達(dá)到這個(gè)目標(biāo),我們建議在LLM/LRM的訓(xùn)練和微調(diào)過(guò)程中加入因果AI作為核心組件,同時(shí)結(jié)合知識(shí)圖譜。
![]()
LLM推理——在LLM/LRM訓(xùn)練中提供WHAT、HOW和WHY成分
因果AI能夠提供幾個(gè)關(guān)鍵的推理組件:根本原因分析(檢測(cè)和排序?qū)е陆Y(jié)果的因果驅(qū)動(dòng)因素),假設(shè)場(chǎng)景和反事實(shí)分析(確定替代行動(dòng)相對(duì)于當(dāng)前狀態(tài)的后果),可解釋性(解釋為什么某些行動(dòng)比其他行動(dòng)更優(yōu)),混雜因子識(shí)別(找出無(wú)關(guān)、誤導(dǎo)或隱藏的影響因素),以及路徑分析(理解相互關(guān)聯(lián)的行動(dòng)和達(dá)成結(jié)果的行動(dòng)序列)。
實(shí)現(xiàn)方式是將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)架構(gòu)與因果推理技術(shù)結(jié)合,在神經(jīng)網(wǎng)絡(luò)內(nèi)部推斷因果路徑。這意味著在訓(xùn)練數(shù)據(jù)集中建模因果關(guān)系,理解特征間的關(guān)系、相互影響方式以及對(duì)預(yù)測(cè)的作用。
舉個(gè)例子,下面的圖5展示了一個(gè)用于評(píng)估貸款申請(qǐng)信用風(fēng)險(xiǎn)的推斷因果模型。紅色箭頭表示特征與信用度呈負(fù)相關(guān),綠色箭頭表示正面的因果驅(qū)動(dòng)因素,箭頭粗細(xì)代表因果關(guān)系的強(qiáng)度。
![]()
這通過(guò)因果組件模型來(lái)實(shí)現(xiàn),這些模型可以逐步集成來(lái)達(dá)成特定用例的目標(biāo)(類似模型微服務(wù)的概念)。因果組件模型把系統(tǒng)拆分成不同的、可管理的組件,每個(gè)組件代表特定的因果關(guān)系,然后將這些組件連接起來(lái)形成完整的系統(tǒng)因果模型。
隨著時(shí)間推移,通過(guò)將強(qiáng)化學(xué)習(xí)(RL)和自學(xué)推理方法(比如STaR)集成到相互連接的模型和智能體系統(tǒng)中,可以創(chuàng)建自學(xué)習(xí)循環(huán)。這些系統(tǒng)通過(guò)管理轉(zhuǎn)移學(xué)習(xí)過(guò)程,基于彼此的行動(dòng)、知識(shí)、獎(jiǎng)勵(lì)和策略進(jìn)行集體學(xué)習(xí)。
因果模型能夠逐步發(fā)現(xiàn)按影響力排序的復(fù)雜因果關(guān)系,從而增強(qiáng)LLM的推理過(guò)程。
因果推理還能幫助限制幻覺(jué)問(wèn)題。領(lǐng)域特定的小語(yǔ)言模型(SLM)被廣泛認(rèn)為是智能體AI的未來(lái)方向。它們可以作為智能體AI系統(tǒng)的"基礎(chǔ)事實(shí)",提供可靠數(shù)據(jù),防止基于錯(cuò)誤或虛構(gòu)信息的行動(dòng)。像howso這樣的公司正在通過(guò)集成因果AI、數(shù)據(jù)水印和歸因推理來(lái)創(chuàng)建新的推理模型,目標(biāo)是降低風(fēng)險(xiǎn)并提升準(zhǔn)確性。
內(nèi)省機(jī)制增強(qiáng)推理過(guò)程
從LLM訓(xùn)練轉(zhuǎn)到推理階段,我們來(lái)看看如何通過(guò)添加"內(nèi)省"步驟來(lái)進(jìn)一步改善智能體推理。
智能體AI的核心架構(gòu)
一個(gè)完整的智能體AI平臺(tái)包含幾個(gè)關(guān)鍵模塊。推理模塊負(fù)責(zé)分解復(fù)雜任務(wù)并調(diào)整執(zhí)行策略來(lái)達(dá)成目標(biāo);智能體市場(chǎng)提供現(xiàn)有和可用的智能體資源;編排模塊負(fù)責(zé)協(xié)調(diào)和監(jiān)控多智能體系統(tǒng)的執(zhí)行;集成模塊與企業(yè)系統(tǒng)對(duì)接,比如SCADA系統(tǒng)和知識(shí)庫(kù);共享內(nèi)存管理處理智能體間的數(shù)據(jù)和上下文共享;治理層涵蓋可解釋性、隱私、安全等方面。
![]()
智能體AI平臺(tái)參考架構(gòu)
給定用戶任務(wù)后,智能體AI平臺(tái)的目標(biāo)是找到(或組合)能夠執(zhí)行這個(gè)任務(wù)的智能體。所以首先需要一個(gè)推理模塊,能夠把任務(wù)分解成子任務(wù),然后由編排引擎協(xié)調(diào)相應(yīng)智能體的執(zhí)行。
解決復(fù)雜任務(wù)的基本思路包括兩步:先把復(fù)雜任務(wù)分解成簡(jiǎn)單任務(wù)的層次結(jié)構(gòu)或工作流,然后組合能夠執(zhí)行這些簡(jiǎn)單任務(wù)的智能體。這可以用動(dòng)態(tài)或靜態(tài)方式實(shí)現(xiàn)。動(dòng)態(tài)方式下,系統(tǒng)根據(jù)運(yùn)行時(shí)可用智能體的能力來(lái)制定計(jì)劃;靜態(tài)方式下,在設(shè)計(jì)時(shí)就手動(dòng)定義好復(fù)合智能體,組合它們的能力。
思維鏈(CoT)是目前最廣泛使用的分解框架,它把復(fù)雜任務(wù)轉(zhuǎn)換成多個(gè)可管理的任務(wù),同時(shí)讓模型的思考過(guò)程變得可解釋。
ReAct(reasoning and acting)框架讓智能體能夠批判性地評(píng)估自己的行動(dòng)和輸出,從中學(xué)習(xí),然后改進(jìn)計(jì)劃和推理過(guò)程。
智能體組合需要一個(gè)智能體市場(chǎng)或注冊(cè)表,里面有智能體能力和限制的明確描述。比如Agent2Agent(A2A)協(xié)議定義了智能體卡概念,這是一個(gè)JSON文檔,相當(dāng)于智能體的數(shù)字"名片"。包含的關(guān)鍵信息有:
Identity: name, description, provider information. Service Endpoint: The url where the A2A service can be reached. A2A Capabilities: Supported protocol features like streaming or pushNotifications. Authentication: Required authentication schemes (e.g., "Bearer", "OAuth2") to interact with the agent. Skills: A list of specific tasks or functions the agent can perform (AgentSkill objects), including their id, name, description, inputModes, outputModes, and examples.
內(nèi)省增強(qiáng)的ReAct推理
標(biāo)準(zhǔn)的ReAct智能體在網(wǎng)絡(luò)檢索任務(wù)上表現(xiàn)不錯(cuò),但在工業(yè)物聯(lián)網(wǎng)環(huán)境中就不夠用了,經(jīng)常出現(xiàn)這些問(wèn)題:領(lǐng)域特定推理的缺失(比如無(wú)法把冷卻器單元噸位和能效聯(lián)系起來(lái),這在工業(yè)物聯(lián)網(wǎng)中是重要關(guān)聯(lián)),推理不一致(特別是日期偏移推理,比如"上個(gè)月"這種表達(dá)),過(guò)早結(jié)束任務(wù)、重復(fù)調(diào)用工具、多步組合失敗等。
為了解決這些問(wèn)題,我們用迭代的ReAct +內(nèi)省策略來(lái)增強(qiáng)智能體,讓智能體系統(tǒng)能夠處理復(fù)雜的工業(yè)領(lǐng)域查詢。
![]()
distillation模塊作為預(yù)處理器,把復(fù)雜查詢分解成結(jié)構(gòu)化的語(yǔ)義單元:變量、約束和目標(biāo)。ReAct繼續(xù)作為底層編排框架,根據(jù)用戶查詢生成執(zhí)行計(jì)劃。
為了提升推理準(zhǔn)確度,特別是在實(shí)體消歧方面,編排器會(huì)在開(kāi)始執(zhí)行前發(fā)出內(nèi)部子查詢來(lái)指導(dǎo)后續(xù)推理。
這個(gè)預(yù)期查詢也會(huì)由LLM回答,能夠改善計(jì)劃一致性、任務(wù)執(zhí)行準(zhǔn)確度和工具調(diào)用精度。下面是系統(tǒng)提示的例子:
You are an advanced reasoning agent that can improve based on introspection. You will be given a previous reasoning trial in which you were given access to multiple agents and tools and a query to answer. You were unsuccessful in resolving the query correctly either because you misunderstood the query, or you used up your set number of reasoning steps. In a few sentences, diagnose a possible reason for failure and devise a new high-level execution plan that aims to mitigate the same failure. Use complete sentences. Here are some examples: {examples} Previous trial: Query: {query} {plan}
review模塊作為L(zhǎng)LM-as-a-Judge驗(yàn)證器,把最終推理步驟的輸出分為已完成、部分完成或失敗三類,判斷標(biāo)準(zhǔn)是生成的輸出是否解決了用戶查詢。這會(huì)觸發(fā)reflect模塊對(duì)執(zhí)行計(jì)劃進(jìn)行內(nèi)省,評(píng)估推理步驟、智能體和工具調(diào)用等。
輸出的是針對(duì)性反饋,以執(zhí)行計(jì)劃調(diào)整或推理模板的形式,這些反饋會(huì)加入到系統(tǒng)提示中指導(dǎo)未來(lái)的執(zhí)行。
總結(jié)
當(dāng)前LLM的推理局限性已成為制約智能體AI企業(yè)級(jí)應(yīng)用的核心瓶頸。由于智能體系統(tǒng)在任務(wù)規(guī)劃階段高度依賴LLM能力,這種局限性直接影響了AI智能體的自主決策水平。
通過(guò)深入分析基于統(tǒng)計(jì)相關(guān)性的傳統(tǒng)模型架構(gòu),可以識(shí)別出"因果關(guān)系理解"這一關(guān)鍵缺失環(huán)節(jié)。在推理階段,通過(guò)引入"內(nèi)省機(jī)制"對(duì)ReAct框架進(jìn)行擴(kuò)展,顯著改善了智能體在實(shí)體消歧、領(lǐng)域特定推理等復(fù)雜場(chǎng)景下的表現(xiàn)。
論文:
https://avoid.overfit.cn/post/3a400ca049a14aa187a39f57f3caeacc
作者:Debmalya Biswas
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.