<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      解決推理能力瓶頸,用因果推理提升LLM智能決策

      0
      分享至

      從ChatGPT到現(xiàn)在的智能體AI這個(gè)跨越說(shuō)明了一個(gè)關(guān)鍵轉(zhuǎn)變。ChatGPT本質(zhì)上是個(gè)聊天機(jī)器人,生成文本回應(yīng);而AI智能體能夠自主完成復(fù)雜任務(wù)——銷售、旅行規(guī)劃、航班預(yù)訂、找裝修師傅、點(diǎn)外賣,這些都在它的能力范圍內(nèi)。



      目前我們解決用戶任務(wù)時(shí),主要是讓大語(yǔ)言模型(LLM)做任務(wù)分解,這也是和生成式AI重疊的地方。但問(wèn)題就出在這里:

      今天的智能體AI系統(tǒng)被LLM的推理能力限制住了——這個(gè)問(wèn)題在蘋(píng)果的兩篇論文1、2里討論得很深入。

      核心問(wèn)題來(lái)自智能體AI系統(tǒng)的非確定性特征。看看下面這個(gè)電商場(chǎng)景:



      執(zhí)行計(jì)劃里有兩個(gè)非確定性操作:"檢查信用"和"配送模式"。配送模式意味著用戶既可以自提也可以送貨上門(mén),所以配送這個(gè)任務(wù)可能根本不會(huì)執(zhí)行。這種非確定性帶來(lái)一個(gè)問(wèn)題:

      我們需要一個(gè)多步推理模型來(lái)理解底層智能體組件之間的因果關(guān)系。

      這里涉及一個(gè)經(jīng)典問(wèn)題:相關(guān)性不等于因果關(guān)系。不管LLM規(guī)模多大,它們本質(zhì)上只能抓住訓(xùn)練數(shù)據(jù)中特征之間的統(tǒng)計(jì)相關(guān)性,然后做預(yù)測(cè)。因果關(guān)系雖然暗示相關(guān)性,但這種影響可能微弱到可以忽略。

      當(dāng)前LLM缺少的正是因果關(guān)系理解。

      接下來(lái)我們看看如何通過(guò)因果關(guān)系內(nèi)省來(lái)解決智能體工作流中的非確定性問(wèn)題,前者用于LLM訓(xùn)練階段,后者用于推理階段。

      因果推理的作用機(jī)制

      因果關(guān)系研究的是事物"為什么"發(fā)生。它能夠規(guī)范性地解釋為什么某些行動(dòng)比其他行動(dòng)效果更好,從而影響未來(lái)結(jié)果。正如亞里士多德說(shuō)的:"如果你證明了原因,你就立即證明了結(jié)果;反之,沒(méi)有任何事物可以在沒(méi)有其原因的情況下存在。"

      人類天生具有因果思維。我們依靠因果關(guān)系做決策、制定計(jì)劃、解釋行為、適應(yīng)變化,基本上所有決策都是基于對(duì)后果的考量。

      Gartner在2024年AI技術(shù)成熟度曲線中把因果AI放在"創(chuàng)新觸發(fā)"階段,分析師的評(píng)價(jià)是:

      因果AI識(shí)別并利用因果關(guān)系,超越基于相關(guān)性的預(yù)測(cè)模型,讓AI系統(tǒng)能夠更有效地給出行動(dòng)建議并更自主地執(zhí)行。當(dāng)我們需要更穩(wěn)健的預(yù)測(cè)能力,以及更精準(zhǔn)地確定影響特定結(jié)果的最佳行動(dòng)時(shí),因果AI就顯得至關(guān)重要。

      因果AI能夠影響智能體AI生命周期的多個(gè)環(huán)節(jié),特別是推理可觀察性可解釋性這幾個(gè)方面。



      LLM推理能力的現(xiàn)實(shí)困境

      蘋(píng)果最近的研究(論文1)深入分析了LLM的推理局限性。研究發(fā)現(xiàn),當(dāng)面對(duì)以下情況時(shí),最先進(jìn)的LLM準(zhǔn)確率會(huì)顯著下降:同一問(wèn)題的不同表述版本、包含多個(gè)條件的復(fù)雜問(wèn)題、以及看起來(lái)相關(guān)但實(shí)際無(wú)關(guān)的干擾信息。

      這些限制導(dǎo)致準(zhǔn)確率下降高達(dá)65%,主要是因?yàn)槟P碗y以分辨相關(guān)信息和處理復(fù)雜問(wèn)題。

      另一篇論文2進(jìn)一步揭示,前沿的大型推理模型(LRM)在問(wèn)題復(fù)雜度超過(guò)某個(gè)閾值時(shí)會(huì)出現(xiàn)準(zhǔn)確率完全崩潰。更反直覺(jué)的是,這些模型表現(xiàn)出奇怪的擴(kuò)展限制:推理努力程度會(huì)隨問(wèn)題復(fù)雜度增加到某個(gè)點(diǎn),然后即使token預(yù)算充足也會(huì)下降。就算提供明確的人類輸入(實(shí)際解決方案描述或算法),在這個(gè)階段也無(wú)濟(jì)于事。

      這些發(fā)現(xiàn)暴露了依賴LLM解決問(wèn)題的風(fēng)險(xiǎn)。LLM看起來(lái)無(wú)法進(jìn)行真正的邏輯推理,只是在模仿訓(xùn)練數(shù)據(jù)中觀察到的推理步驟。

      要讓AI真正具備推理和問(wèn)題解決能力,它必須在算法層面理解因果關(guān)系。

      換句話說(shuō),需要理解事物發(fā)生的動(dòng)態(tài)機(jī)制,這樣才能探索各種"假設(shè)"情況。這類似于人腦的新皮層功能,負(fù)責(zé)高階推理,比如決策、規(guī)劃和感知。

      為了達(dá)到這個(gè)目標(biāo),我們建議在LLM/LRM的訓(xùn)練和微調(diào)過(guò)程中加入因果AI作為核心組件,同時(shí)結(jié)合知識(shí)圖譜。



      LLM推理——在LLM/LRM訓(xùn)練中提供WHAT、HOW和WHY成分

      因果AI能夠提供幾個(gè)關(guān)鍵的推理組件:根本原因分析(檢測(cè)和排序?qū)е陆Y(jié)果的因果驅(qū)動(dòng)因素),假設(shè)場(chǎng)景和反事實(shí)分析(確定替代行動(dòng)相對(duì)于當(dāng)前狀態(tài)的后果),可解釋性(解釋為什么某些行動(dòng)比其他行動(dòng)更優(yōu)),混雜因子識(shí)別(找出無(wú)關(guān)、誤導(dǎo)或隱藏的影響因素),以及路徑分析(理解相互關(guān)聯(lián)的行動(dòng)和達(dá)成結(jié)果的行動(dòng)序列)。

      實(shí)現(xiàn)方式是將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)架構(gòu)與因果推理技術(shù)結(jié)合,在神經(jīng)網(wǎng)絡(luò)內(nèi)部推斷因果路徑。這意味著在訓(xùn)練數(shù)據(jù)集中建模因果關(guān)系,理解特征間的關(guān)系、相互影響方式以及對(duì)預(yù)測(cè)的作用。

      舉個(gè)例子,下面的圖5展示了一個(gè)用于評(píng)估貸款申請(qǐng)信用風(fēng)險(xiǎn)的推斷因果模型。紅色箭頭表示特征與信用度呈負(fù)相關(guān),綠色箭頭表示正面的因果驅(qū)動(dòng)因素,箭頭粗細(xì)代表因果關(guān)系的強(qiáng)度。



      這通過(guò)因果組件模型來(lái)實(shí)現(xiàn),這些模型可以逐步集成來(lái)達(dá)成特定用例的目標(biāo)(類似模型微服務(wù)的概念)。因果組件模型把系統(tǒng)拆分成不同的、可管理的組件,每個(gè)組件代表特定的因果關(guān)系,然后將這些組件連接起來(lái)形成完整的系統(tǒng)因果模型。

      隨著時(shí)間推移,通過(guò)將強(qiáng)化學(xué)習(xí)(RL)和自學(xué)推理方法(比如STaR)集成到相互連接的模型和智能體系統(tǒng)中,可以創(chuàng)建自學(xué)習(xí)循環(huán)。這些系統(tǒng)通過(guò)管理轉(zhuǎn)移學(xué)習(xí)過(guò)程,基于彼此的行動(dòng)、知識(shí)、獎(jiǎng)勵(lì)和策略進(jìn)行集體學(xué)習(xí)。

      因果模型能夠逐步發(fā)現(xiàn)按影響力排序的復(fù)雜因果關(guān)系,從而增強(qiáng)LLM的推理過(guò)程。

      因果推理還能幫助限制幻覺(jué)問(wèn)題。領(lǐng)域特定的小語(yǔ)言模型(SLM)被廣泛認(rèn)為是智能體AI的未來(lái)方向。它們可以作為智能體AI系統(tǒng)的"基礎(chǔ)事實(shí)",提供可靠數(shù)據(jù),防止基于錯(cuò)誤或虛構(gòu)信息的行動(dòng)。像howso這樣的公司正在通過(guò)集成因果AI、數(shù)據(jù)水印和歸因推理來(lái)創(chuàng)建新的推理模型,目標(biāo)是降低風(fēng)險(xiǎn)并提升準(zhǔn)確性。

      內(nèi)省機(jī)制增強(qiáng)推理過(guò)程

      從LLM訓(xùn)練轉(zhuǎn)到推理階段,我們來(lái)看看如何通過(guò)添加"內(nèi)省"步驟來(lái)進(jìn)一步改善智能體推理。

      智能體AI的核心架構(gòu)

      一個(gè)完整的智能體AI平臺(tái)包含幾個(gè)關(guān)鍵模塊。推理模塊負(fù)責(zé)分解復(fù)雜任務(wù)并調(diào)整執(zhí)行策略來(lái)達(dá)成目標(biāo);智能體市場(chǎng)提供現(xiàn)有和可用的智能體資源;編排模塊負(fù)責(zé)協(xié)調(diào)和監(jiān)控多智能體系統(tǒng)的執(zhí)行;集成模塊與企業(yè)系統(tǒng)對(duì)接,比如SCADA系統(tǒng)和知識(shí)庫(kù);共享內(nèi)存管理處理智能體間的數(shù)據(jù)和上下文共享;治理層涵蓋可解釋性、隱私、安全等方面。



      智能體AI平臺(tái)參考架構(gòu)

      給定用戶任務(wù)后,智能體AI平臺(tái)的目標(biāo)是找到(或組合)能夠執(zhí)行這個(gè)任務(wù)的智能體。所以首先需要一個(gè)推理模塊,能夠把任務(wù)分解成子任務(wù),然后由編排引擎協(xié)調(diào)相應(yīng)智能體的執(zhí)行。

      解決復(fù)雜任務(wù)的基本思路包括兩步:先把復(fù)雜任務(wù)分解成簡(jiǎn)單任務(wù)的層次結(jié)構(gòu)或工作流,然后組合能夠執(zhí)行這些簡(jiǎn)單任務(wù)的智能體。這可以用動(dòng)態(tài)或靜態(tài)方式實(shí)現(xiàn)。動(dòng)態(tài)方式下,系統(tǒng)根據(jù)運(yùn)行時(shí)可用智能體的能力來(lái)制定計(jì)劃;靜態(tài)方式下,在設(shè)計(jì)時(shí)就手動(dòng)定義好復(fù)合智能體,組合它們的能力。

      思維鏈(CoT)是目前最廣泛使用的分解框架,它把復(fù)雜任務(wù)轉(zhuǎn)換成多個(gè)可管理的任務(wù),同時(shí)讓模型的思考過(guò)程變得可解釋。

      ReAct(reasoning and acting)框架讓智能體能夠批判性地評(píng)估自己的行動(dòng)和輸出,從中學(xué)習(xí),然后改進(jìn)計(jì)劃和推理過(guò)程。

      智能體組合需要一個(gè)智能體市場(chǎng)或注冊(cè)表,里面有智能體能力和限制的明確描述。比如Agent2Agent(A2A)協(xié)議定義了智能體卡概念,這是一個(gè)JSON文檔,相當(dāng)于智能體的數(shù)字"名片"。包含的關(guān)鍵信息有:

      Identity: name, description, provider information. Service Endpoint: The url where the A2A service can be reached. A2A Capabilities: Supported protocol features like streaming or pushNotifications. Authentication: Required authentication schemes (e.g., "Bearer", "OAuth2") to interact with the agent. Skills: A list of specific tasks or functions the agent can perform (AgentSkill objects), including their id, name, description, inputModes, outputModes, and examples.

      內(nèi)省增強(qiáng)的ReAct推理

      標(biāo)準(zhǔn)的ReAct智能體在網(wǎng)絡(luò)檢索任務(wù)上表現(xiàn)不錯(cuò),但在工業(yè)物聯(lián)網(wǎng)環(huán)境中就不夠用了,經(jīng)常出現(xiàn)這些問(wèn)題:領(lǐng)域特定推理的缺失(比如無(wú)法把冷卻器單元噸位和能效聯(lián)系起來(lái),這在工業(yè)物聯(lián)網(wǎng)中是重要關(guān)聯(lián)),推理不一致(特別是日期偏移推理,比如"上個(gè)月"這種表達(dá)),過(guò)早結(jié)束任務(wù)、重復(fù)調(diào)用工具、多步組合失敗等。

      為了解決這些問(wèn)題,我們用迭代的ReAct +內(nèi)省策略來(lái)增強(qiáng)智能體,讓智能體系統(tǒng)能夠處理復(fù)雜的工業(yè)領(lǐng)域查詢。



      distillation模塊作為預(yù)處理器,把復(fù)雜查詢分解成結(jié)構(gòu)化的語(yǔ)義單元:變量、約束和目標(biāo)。ReAct繼續(xù)作為底層編排框架,根據(jù)用戶查詢生成執(zhí)行計(jì)劃。

      為了提升推理準(zhǔn)確度,特別是在實(shí)體消歧方面,編排器會(huì)在開(kāi)始執(zhí)行前發(fā)出內(nèi)部子查詢來(lái)指導(dǎo)后續(xù)推理。

      這個(gè)預(yù)期查詢也會(huì)由LLM回答,能夠改善計(jì)劃一致性、任務(wù)執(zhí)行準(zhǔn)確度和工具調(diào)用精度。下面是系統(tǒng)提示的例子:

      You are an advanced reasoning agent that can improve based on introspection. You will be given a previous reasoning trial in which you were given access to multiple agents and tools and a query to answer. You were unsuccessful in resolving the query correctly either because you misunderstood the query, or you used up your set number of reasoning steps. In a few sentences, diagnose a possible reason for failure and devise a new high-level execution plan that aims to mitigate the same failure. Use complete sentences. Here are some examples: {examples} Previous trial: Query: {query} {plan}

      review模塊作為L(zhǎng)LM-as-a-Judge驗(yàn)證器,把最終推理步驟的輸出分為已完成、部分完成或失敗三類,判斷標(biāo)準(zhǔn)是生成的輸出是否解決了用戶查詢。這會(huì)觸發(fā)reflect模塊對(duì)執(zhí)行計(jì)劃進(jìn)行內(nèi)省,評(píng)估推理步驟、智能體和工具調(diào)用等。

      輸出的是針對(duì)性反饋,以執(zhí)行計(jì)劃調(diào)整或推理模板的形式,這些反饋會(huì)加入到系統(tǒng)提示中指導(dǎo)未來(lái)的執(zhí)行。

      總結(jié)

      當(dāng)前LLM的推理局限性已成為制約智能體AI企業(yè)級(jí)應(yīng)用的核心瓶頸。由于智能體系統(tǒng)在任務(wù)規(guī)劃階段高度依賴LLM能力,這種局限性直接影響了AI智能體的自主決策水平。

      通過(guò)深入分析基于統(tǒng)計(jì)相關(guān)性的傳統(tǒng)模型架構(gòu),可以識(shí)別出"因果關(guān)系理解"這一關(guān)鍵缺失環(huán)節(jié)。在推理階段,通過(guò)引入"內(nèi)省機(jī)制"對(duì)ReAct框架進(jìn)行擴(kuò)展,顯著改善了智能體在實(shí)體消歧、領(lǐng)域特定推理等復(fù)雜場(chǎng)景下的表現(xiàn)。

      論文:

      https://avoid.overfit.cn/post/3a400ca049a14aa187a39f57f3caeacc

      作者:Debmalya Biswas

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      伊朗最大“內(nèi)鬼”被抓?革命衛(wèi)隊(duì):勾結(jié)以色列,指揮官卡尼被拘!

      伊朗最大“內(nèi)鬼”被抓?革命衛(wèi)隊(duì):勾結(jié)以色列,指揮官卡尼被拘!

      青青子衿
      2026-03-05 11:57:03
      打瘋了!東契奇首節(jié)狂轟22+5三分 生涯30次單節(jié)20+升歷史第四

      打瘋了!東契奇首節(jié)狂轟22+5三分 生涯30次單節(jié)20+升歷史第四

      醉臥浮生
      2026-03-07 12:13:33
      伊拉克庫(kù)爾德第一夫人宣言:我們不是任人驅(qū)使的炮灰!

      伊拉克庫(kù)爾德第一夫人宣言:我們不是任人驅(qū)使的炮灰!

      勝研集
      2026-03-06 13:44:23
      廣東一女子不愿上班常年坐街邊,因長(zhǎng)得好看被路人投喂:又懶又饞

      廣東一女子不愿上班常年坐街邊,因長(zhǎng)得好看被路人投喂:又懶又饞

      明智家庭教育
      2026-03-06 17:19:16
      美以伊軍事沖突最大副作用,是斬?cái)嗔硕砹_斯的“救命稻草”

      美以伊軍事沖突最大副作用,是斬?cái)嗔硕砹_斯的“救命稻草”

      廖保平
      2026-03-05 12:08:52
      “不想為以色列賣命”:帝國(guó)最后的遮羞布,美式民主終成笑話

      “不想為以色列賣命”:帝國(guó)最后的遮羞布,美式民主終成笑話

      怪口歷史的K先生
      2026-03-06 15:22:51
      為何關(guān)閉霍爾木茲海峽就能掐全球脖子?因?yàn)橐晾试褪侨澜缱詈玫?>
    </a>
        <h3>
      <a href=風(fēng)向觀察
      2026-03-06 21:31:15
      兩會(huì)不到3天,5大好消息傳來(lái)!老百姓暗暗叫好:希望國(guó)家盡快落實(shí)

      兩會(huì)不到3天,5大好消息傳來(lái)!老百姓暗暗叫好:希望國(guó)家盡快落實(shí)

      談史論天地
      2026-03-07 06:54:29
      1979年,張國(guó)燾凍死在養(yǎng)老院,許世友:除了主席,沒(méi)人是他的對(duì)手

      1979年,張國(guó)燾凍死在養(yǎng)老院,許世友:除了主席,沒(méi)人是他的對(duì)手

      文史季季紅
      2026-03-05 13:35:03
      寫(xiě)入教科書(shū)的一天:F-35在德黑蘭完成全球首次實(shí)戰(zhàn)空對(duì)空擊殺

      寫(xiě)入教科書(shū)的一天:F-35在德黑蘭完成全球首次實(shí)戰(zhàn)空對(duì)空擊殺

      斌聞天下
      2026-03-06 07:30:03
      伊方:因美以襲擊喪生的伊朗人三成為青少年

      伊方:因美以襲擊喪生的伊朗人三成為青少年

      環(huán)球網(wǎng)資訊
      2026-03-07 06:39:29
      為什么美國(guó)的華人華裔地位那么低 網(wǎng)友從各方面分析 真就那樣

      為什么美國(guó)的華人華裔地位那么低 網(wǎng)友從各方面分析 真就那樣

      侃神評(píng)故事
      2026-03-06 07:10:03
      我包養(yǎng)過(guò)一個(gè)女大學(xué)生,七年花了一千多萬(wàn)

      我包養(yǎng)過(guò)一個(gè)女大學(xué)生,七年花了一千多萬(wàn)

      煙火人間故事匯
      2026-03-06 23:05:03
      性壓抑已經(jīng)變態(tài)至此了?

      性壓抑已經(jīng)變態(tài)至此了?

      黯泉
      2026-03-07 11:28:43
      蘿莉島,是進(jìn)入核心圈層的投名狀,你猜他們?yōu)槭裁炊即┘t皮鞋

      蘿莉島,是進(jìn)入核心圈層的投名狀,你猜他們?yōu)槭裁炊即┘t皮鞋

      百曉生談歷史
      2026-03-05 22:00:08
      一份“煮熟的三文魚(yú)”火了,原來(lái)低認(rèn)知的家長(zhǎng),真能搞出人命!

      一份“煮熟的三文魚(yú)”火了,原來(lái)低認(rèn)知的家長(zhǎng),真能搞出人命!

      妍妍教育日記
      2026-03-07 08:45:06
      伊朗萬(wàn)萬(wàn)沒(méi)想到,自家王牌武器遭到破解,美軍多了一張底牌

      伊朗萬(wàn)萬(wàn)沒(méi)想到,自家王牌武器遭到破解,美軍多了一張底牌

      空天力量
      2026-03-06 13:09:18
      上次被發(fā)現(xiàn)還是1911年!上海寶山驚現(xiàn)1只,專家:可能是坐船來(lái)的

      上次被發(fā)現(xiàn)還是1911年!上海寶山驚現(xiàn)1只,專家:可能是坐船來(lái)的

      萬(wàn)象硬核本尊
      2026-03-06 23:54:22
      女子實(shí)名舉報(bào)某團(tuán)外賣:不上大額券就讓我變成“凌晨營(yíng)業(yè)”,你們真黑!

      女子實(shí)名舉報(bào)某團(tuán)外賣:不上大額券就讓我變成“凌晨營(yíng)業(yè)”,你們真黑!

      回旋鏢
      2026-03-06 21:13:59
      塔圖姆復(fù)出15分12板7助攻凱爾特人大勝獨(dú)行俠,布朗24分7板7助

      塔圖姆復(fù)出15分12板7助攻凱爾特人大勝獨(dú)行俠,布朗24分7板7助

      湖人崛起
      2026-03-07 10:25:09
      2026-03-07 13:43:00
      deephub incentive-icons
      deephub
      CV NLP和數(shù)據(jù)挖掘知識(shí)
      1940文章數(shù) 1456關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽(tīng)懵了

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽(tīng)懵了

      體育要聞

      塔圖姆歸來(lái):凱爾特人的春之綠

      娛樂(lè)要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財(cái)經(jīng)要聞

      針對(duì)"不敢休、不讓休"怪圈 國(guó)家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩(wěn)

      態(tài)度原創(chuàng)

      本地
      房產(chǎn)
      數(shù)碼
      時(shí)尚
      公開(kāi)課

      本地新聞

      食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

      房產(chǎn)要聞

      傳統(tǒng)學(xué)區(qū)房熄火?2月海口二手房爆火的板塊竟然是…

      數(shù)碼要聞

      蘋(píng)果M5 Pro芯片GeekBench跑分曝光:多核破2.8萬(wàn)

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡(jiǎn)單舒適

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版