<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      字節(jié)跳動(dòng)李航博士新作:AI智能體的通用框架

      0
      分享至



      引言

      AI 智能體是人工智能領(lǐng)域的重要研究方向之一。近期,字節(jié)跳動(dòng)的李航博士在我國(guó)計(jì)算機(jī)科學(xué)領(lǐng)域頂級(jí)期刊 Journal of Computer Science and Technology(JCST)上發(fā)表了一篇題為《General Framework of AI Agents》的觀點(diǎn)論文(將收錄于 JCST 創(chuàng)刊 40 周年專輯),提出了一個(gè)涵蓋軟件智能體和硬件智能體的通用框架。其中,軟件智能體是指可運(yùn)行于 PC 和手機(jī)等設(shè)備上的智能體,而硬件智能體則指物理世界中的機(jī)器人。

      該框架的主要特點(diǎn)是:智能體以完成任務(wù)為目標(biāo),以文本或多模態(tài)數(shù)據(jù)作為輸入和輸出,依賴大語(yǔ)言模型(LLM)進(jìn)行推理,通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行構(gòu)建,并能夠使用各類工具與長(zhǎng)期記憶系統(tǒng)。

      李航博士認(rèn)為,目前業(yè)界常見的智能體,以及字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)最近研發(fā)的智能體,均可納入這一通用框架。此外,文章還比較了智能體通用框架與人腦信息處理機(jī)制之間的關(guān)聯(lián),分析了智能體技術(shù)的主要特點(diǎn),并探討了該領(lǐng)域未來(lái)研究的重要方向。

      該文章主要觀點(diǎn)如下:

      • 智能體以完成任務(wù)為目標(biāo),以文本和多模態(tài)數(shù)據(jù)為輸入和輸出,依賴 LLM 進(jìn)行思考,通過(guò)強(qiáng)化學(xué)習(xí)構(gòu)建,使用各種工具和長(zhǎng)期記憶。
      • LLM 是智能體的核心,承擔(dān)「思考」功能,其能力決定智能體的水平。
      • 智能體框架與人腦信息處理機(jī)制在功能層面存在對(duì)應(yīng)關(guān)系。
      • 智能體的信息處理應(yīng)該是神經(jīng)符號(hào)處理。
      • 智能體的未來(lái)研究方向包括:改進(jìn)模型架構(gòu)與訓(xùn)練方法、擴(kuò)大數(shù)據(jù)規(guī)模、研發(fā)主動(dòng)和持續(xù)學(xué)習(xí)技術(shù)、增強(qiáng)安全性與可控性。
      • 如果智能體強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)超出完成任務(wù)的范圍,有可能帶來(lái)重大風(fēng)險(xiǎn),需設(shè)立研發(fā)紅線。

      • 論文信息:Li H. General framework of AI agents. Journal of Computer Science and Technology. 2026, DOI: 10.1007/s11390-025-5951-5
      • 論文地址:
      • https://jcst.ict.ac.cn/article/doi/10.1007/s11390-025-5951-5
      • https://link.springer.com/article/10.1007/s11390-025-5951-5


      智能體的通用框架

      人工智能智能體(AI 智能體)通常擁有以下特點(diǎn)。

      1. 智能體是「合理行動(dòng)的機(jī)器」,能在環(huán)境中與環(huán)境(包括其中的人類)進(jìn)行互動(dòng),以完成任務(wù)為目標(biāo),有評(píng)價(jià)完成任務(wù)好壞的標(biāo)準(zhǔn)。
      2. 智能體以文本、多模態(tài)數(shù)據(jù)(包括圖像、視頻、音頻)為輸入,以文本、多模態(tài)數(shù)據(jù)或動(dòng)作數(shù)據(jù)為輸出。
      3. 智能體中從輸入到輸出的信息處理機(jī)制是通過(guò)數(shù)據(jù)驅(qū)動(dòng)、機(jī)器學(xué)習(xí)的手段構(gòu)建的,一般基于強(qiáng)化學(xué)習(xí)。
      4. 智能體使用多模態(tài)大語(yǔ)言模型(MLLM)包括其中的 LLM,可以對(duì)文本的輸入(提示),給出文本的輸出(回復(fù));也可以對(duì)多模態(tài)的輸入,產(chǎn)生多模態(tài)的輸出。MLLM 通常是預(yù)訓(xùn)練好的,在強(qiáng)化學(xué)習(xí)中得到進(jìn)一步微調(diào)。
      5. 智能體中的 LLM 承擔(dān)著智能體「思考」的功能,是智能體的核心。在思考過(guò)程中,可以生成輸出思維鏈,進(jìn)行推理。智能體的思考還包括規(guī)劃、總結(jié)和反思。
      6. 智能體根據(jù)需要使用各種工具,以及長(zhǎng)期記憶或記憶。工具和記憶的使用使智能體有別于 LLM 本身,更重要的是,這使其能力范圍得到質(zhì)的擴(kuò)展。工具可以是內(nèi)置的(如計(jì)算器),也可以是外掛的(如搜索引擎)。
      7. 智能體根據(jù)應(yīng)用的需要可以具有高自主性或低自主性,即獨(dú)立地進(jìn)行決策和行動(dòng)的能力。前者的例子有自動(dòng)駕駛汽車,后者的例子有智能客服系統(tǒng)。

      隨著人工智能技術(shù)的發(fā)展,各種 AI 智能體的信息處理框架的基本形態(tài)已經(jīng)逐漸形成。該文將已有系統(tǒng)的框架進(jìn)行概括整理,提出一個(gè)新的通用框架(圖 1)。



      圖 1. AI 智能體的通用框架

      智能體由多模態(tài)大語(yǔ)言模型(MLLM, 其中 LLM 為核心部分)、工具、記憶(包括長(zhǎng)期記憶和工作記憶)、多模態(tài)編碼器、多模態(tài)解碼器以及動(dòng)作解碼器組成。

      智能體可以接收文本輸入并生成文本輸出,其中文本既可以是自然語(yǔ)言,也可以是形式化語(yǔ)言;LLM 根據(jù)文本輸入生成文本輸出,并且還可能生成表示推理過(guò)程的文本,即思維鏈(chain of thought)。在這一過(guò)程中,智能體可以調(diào)用不同的工具,并從記憶中讀取或向記憶中寫入信息和知識(shí)。

      智能體還可以接收多模態(tài)輸入并生成多模態(tài)輸出,包括圖像、音頻和視頻;通過(guò)多模態(tài)編碼器,智能體生成多模態(tài)的中間表示,將其輸入到 MLLM 中,再生成新的多模態(tài)中間表示,最終通過(guò)多模態(tài)解碼器生成多模態(tài)輸出;在此過(guò)程中也可以使用工具。

      硬件智能體(即機(jī)器人)同樣可以接收文本和多模態(tài)輸入,并輸出物理動(dòng)作和多模態(tài)結(jié)果;物理動(dòng)作可以表現(xiàn)為機(jī)器人運(yùn)動(dòng)和操作的軌跡,這些動(dòng)作輸出后由機(jī)器人的硬件和控制系統(tǒng)實(shí)際執(zhí)行。

      在硬件智能體中,一般需要兩類模型:MLLM 本身;以及多模態(tài) - 語(yǔ)言 - 動(dòng)作模型(MLAM),即在 MLLM 基礎(chǔ)上增強(qiáng)了動(dòng)作解碼器的模型。MLLM 主要用于高層任務(wù)規(guī)劃、推理,以及與環(huán)境的交互,而 MLAM 則用于低層動(dòng)作規(guī)劃(即生成用于執(zhí)行計(jì)劃的運(yùn)動(dòng)和操作軌跡)。

      MLLM 和多模態(tài)編碼器主要通過(guò)預(yù)訓(xùn)練獲得;MLLM、多模態(tài)編碼器、多模態(tài)解碼器以及動(dòng)作解碼器在后訓(xùn)練階段進(jìn)一步微調(diào),一般通過(guò)模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)進(jìn)行。

      該文提出的框架具有兩層結(jié)構(gòu):底層由 MLLM、編碼器、解碼器、工具和記憶等組件構(gòu)成;頂層則是整體的信息處理機(jī)制。此外,這些組件同時(shí)處理符號(hào)表征和神經(jīng)表征。

      智能體實(shí)例

      業(yè)界知名的智能體或智能體框架,如 AutoGPT、LangChain、ReAct、Reflexion、LATS、ToolFormer、Voyager、OS-Copilot、Gemini Robotics 1.5,以及字節(jié)跳動(dòng) Seed 近期研發(fā)的智能體 AGILE、Delta Prover、Robix+GR-3 和 M3 Agent,其信息處理框架均可視為圖 1 所示通用框架的特例。

      這些智能體在輸入和輸出形式上各不相同,并且可能使用工具、記憶,或兩者兼而有之,但它們的核心架構(gòu)與工作流程是一致的。未來(lái),隨著智能體朝著更高通用性方向發(fā)展,其底層框架也將逐漸趨于通用化。

      與人腦的比較

      人的思維,即大腦的信息處理,大多是在下意識(shí)中進(jìn)行的,有諸多個(gè)相對(duì)獨(dú)立的子系統(tǒng)并行處理信息。腦科學(xué)中的全局工作空間(global workspace)假說(shuō)認(rèn)為,意識(shí)是實(shí)現(xiàn)全腦信息同步的機(jī)制,其信息處理表現(xiàn)出串行特征。下意識(shí) - 意識(shí)的這種并行 - 串行協(xié)同機(jī)制,使大腦在保持高效處理的同時(shí),也能有效地應(yīng)對(duì)復(fù)雜的環(huán)境。

      具身認(rèn)知論(embodied cognition)認(rèn)為,在人的思維過(guò)程中,意識(shí)中的處理產(chǎn)生的是表象(image),心智計(jì)算論(computational theory of mind)認(rèn)為意識(shí)中的處理產(chǎn)生的是心智語(yǔ)言(mental language, mentalese)。目前沒有定論,該文借鑒兩者的觀點(diǎn),假設(shè)思維中既能產(chǎn)生心智語(yǔ)言,也能產(chǎn)生表象。圖 2 描繪了大腦的信息處理機(jī)制。



      圖 2 人腦大腦的信息處理機(jī)制

      可以看出,智能體的框架與人腦大腦的信息處理機(jī)制在功能層面上有對(duì)應(yīng)關(guān)系,都具有兩層的信息處理結(jié)構(gòu)(當(dāng)然兩者在算法和實(shí)現(xiàn)層面上完全不同)。上層是串行處理,下層是并行處理。兩層之間的信息交流通過(guò)神經(jīng)表征和符號(hào)表征進(jìn)行。

      圖 1 所示的智能體可以對(duì)視覺和聽覺信息進(jìn)行處理,生成語(yǔ)言,開展推理,規(guī)劃動(dòng)作,并且在其中進(jìn)行有機(jī)的協(xié)調(diào);這方面與人有相似之處。當(dāng)然也有一些不同點(diǎn),例如,計(jì)算機(jī)可以以文本的形式,對(duì)語(yǔ)言進(jìn)行輸入和輸出,而人則通過(guò)視覺、聽覺、觸覺等多模態(tài)形式對(duì)語(yǔ)言進(jìn)行輸入和輸出。

      在人腦與通用智能體框架之間,在功能層面存在若干相似之處。首先,兩者均呈現(xiàn)雙層結(jié)構(gòu):底層由多個(gè)處理模塊構(gòu)成,上層則負(fù)責(zé)協(xié)調(diào)與同步。其次,兩者在處理信息時(shí),均通過(guò)這些模塊以符號(hào)表征與神經(jīng)表征兩種形式進(jìn)行。或者說(shuō),人腦與 AI 智能體均采用了神經(jīng)符號(hào)處理。

      分析和討論

      軟件智能體和硬件智能體

      軟件智能體與硬件智能體(機(jī)器人)本質(zhì)上具有相似性,但也存在差異。這主要是因?yàn)樗鼈冞\(yùn)行的環(huán)境不同:軟件智能體活動(dòng)于數(shù)字世界,而硬件智能體則作用于物理世界。盡管兩者所處的環(huán)境有所區(qū)別,但它們?cè)谛畔⑻幚砜蚣苌鲜且恢碌摹6咧饕膮^(qū)別在于其輸入與輸出的形式不同。

      軟件智能體通常以文本及多模態(tài)(視覺與聽覺)數(shù)據(jù)作為輸入,輸出則多為符號(hào)形式,如文本、代碼或其他結(jié)構(gòu)化表達(dá)。相比之下,機(jī)器人這樣的硬件智能體需要處理更多樣的多模態(tài)輸入。例如,它們可以整合觸覺數(shù)據(jù)。更重要的是,硬件智能體的輸出不限于文本和多模態(tài),還包括物理動(dòng)作。

      具身認(rèn)知理論認(rèn)為,人類智能是通過(guò)身體與環(huán)境的互動(dòng)發(fā)展而來(lái)的,這一原理也可以拓展至機(jī)器智能。硬件智能體可以借助更豐富的輸入與動(dòng)作空間,從而發(fā)展出更通用、更具適應(yīng)性的智能。

      智能體中的大語(yǔ)言模型

      大語(yǔ)言模型 LLM 承擔(dān)著智能體「思考」的功能,是智能體的核心。智能體的智能水平主要依賴于 LLM 的能力。

      經(jīng)過(guò)強(qiáng)化學(xué)習(xí)微調(diào)的 LLM 本身就是一種強(qiáng)大的智能體,通過(guò)生成語(yǔ)言,完成與人交互的任務(wù)。其中交互可以是單輪的,也可以是多輪的;交互的過(guò)程中可能使用思維鏈進(jìn)行推理;生成的語(yǔ)言可以是自然語(yǔ)言,也可以是形式語(yǔ)言,例如代碼。LLM 的語(yǔ)言生成基于上下文,在多輪交互時(shí)就是目前為止的交互記錄,存儲(chǔ)在 LLM 的上下文窗口或短期記憶中。

      但是 LLM 也有不足:只有短期記憶,無(wú)法無(wú)限制地存儲(chǔ)和使用信息和知識(shí)。 LLM 也不具備搜索、算術(shù)計(jì)算、代碼執(zhí)行等能力。再有,LLM 也不能直接處理多模態(tài)數(shù)據(jù)。

      智能體在 LLM 的基礎(chǔ)上,增加長(zhǎng)期記憶、各種工具、多模態(tài)處理模塊,組成兩層結(jié)構(gòu),并通過(guò)強(qiáng)化學(xué)習(xí)再訓(xùn)練,使它變得更加強(qiáng)大。

      推理

      推理是一個(gè)具有多重含義的概念,存在若干種類型。深度學(xué)習(xí)中的推理通常指用訓(xùn)練好的模型對(duì)未知數(shù)據(jù)的預(yù)測(cè),當(dāng)模型是生成模型時(shí)是指對(duì)新數(shù)據(jù)的生成。數(shù)學(xué)領(lǐng)域的邏輯推理(包括命題邏輯、一階謂詞邏輯)是整個(gè)數(shù)學(xué)的基礎(chǔ)。機(jī)器學(xué)習(xí)領(lǐng)域的貝葉斯推斷和因果推斷各自擁有嚴(yán)格和完備的數(shù)學(xué)體系。類推推理(analogical reasoning)是指針對(duì)兩個(gè)相似的事物,將其中一個(gè)事物的屬性、類別、功能推廣到另一個(gè)事物上的推理。一般認(rèn)為機(jī)器學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)的分類、語(yǔ)言模型的生成等實(shí)現(xiàn)的是類推推理。

      人的推理采用哪種類型?目前科學(xué)并沒有定論。可以看出是多面的。我們?cè)谧鰯?shù)學(xué)定理證明的時(shí)候,推導(dǎo)過(guò)程中使用的是邏輯推理。福爾摩斯通過(guò)收集的證據(jù)判斷犯人是誰(shuí)的可能性最大,這個(gè)過(guò)程可以用貝葉斯推斷來(lái)刻畫。但人在日常思考過(guò)程中更多使用的是類推推理,在人的理解、決策、學(xué)習(xí)中起著重要作用。例如,「時(shí)間」是一個(gè)抽象的概念,我們通常用從左到右的一條帶箭頭直線,一個(gè)實(shí)在的概念,來(lái)理解它;實(shí)際是一個(gè)比喻。

      LLM 的推理要分三個(gè)不同層次來(lái)理解。

      1. 預(yù)訓(xùn)練模型的推理是一個(gè)自回歸地預(yù)測(cè)或生成下一個(gè)詞元的過(guò)程(next token prediction)。實(shí)際是基于上下文的詞元序列的循環(huán)類推推理。預(yù)訓(xùn)練時(shí)的目標(biāo)是產(chǎn)生似然函數(shù)最大或交叉熵?fù)p失最小的詞元序列,等價(jià)于對(duì)訓(xùn)練數(shù)據(jù)的無(wú)損壓縮。
      2. 在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行強(qiáng)化學(xué)習(xí)(基于驗(yàn)證器或 Reinforcement Learning from Human Feedback,RLHF)微調(diào),得到的模型是一個(gè)策略函數(shù),其狀態(tài)由當(dāng)前上下文的詞元序列表示,動(dòng)作由下一個(gè)詞元表示。(Supervised Fine-Tuning, SFT, 可以看作是模仿學(xué)習(xí))。強(qiáng)化學(xué)習(xí)的一條推理路徑是 LLM 與環(huán)境交互過(guò)程中產(chǎn)生的詞元序列。獎(jiǎng)勵(lì)的期望值最大的路徑是最優(yōu)的詞元序列。訓(xùn)練時(shí)最終得到獎(jiǎng)勵(lì),推理時(shí)始終沒有獎(jiǎng)勵(lì),因此推理的每一步模型做的也是下一個(gè)詞元預(yù)測(cè)。
      3. LLM 的推理也可以看作是在陳述的空間中的搜索。LLM 生成的詞元子序列會(huì)形成一段文字,表示一個(gè)完整的語(yǔ)義,這里稱之為陳述(statement)。事實(shí)上,LLM 的推理也是在所有可能的陳述組成的空間進(jìn)行的。陳述可以是基于自然語(yǔ)言的,也可以是基于形式語(yǔ)言的。可以表示邏輯推理,也可以表示類推推理。思維鏈也是陳述的一種。這樣,LLM 的推理(搜索)就可以呈現(xiàn)多種類型的推理能力,特別是經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的 LLM。智能體中的 LLM 最后通過(guò)整體的強(qiáng)化學(xué)習(xí)訓(xùn)練得到,繼承了 LLM 的這種推理能力。

      神經(jīng)符號(hào)處理

      神經(jīng)符號(hào)處理是指符號(hào)處理與神經(jīng)處理(深度學(xué)習(xí))的結(jié)合。智能體應(yīng)具備神經(jīng)符號(hào)處理能力,這也是智能體與多模態(tài)大語(yǔ)言模型(MLLM/LLM)之間的主要區(qū)別。

      盡管 LLM 在一定程度上能進(jìn)行符號(hào)處理,但在需要嚴(yán)謹(jǐn)性的任務(wù)中,它們并不完全可靠。相比之下,使用工具的初衷正是為了進(jìn)行符號(hào)處理。例如,邏輯推理和數(shù)學(xué)計(jì)算本質(zhì)屬于符號(hào)處理,應(yīng)當(dāng)通過(guò)相應(yīng)的工具來(lái)實(shí)現(xiàn),而非僅僅依賴于 LLM。這是因?yàn)?LLM 從機(jī)制上無(wú)法實(shí)現(xiàn)嚴(yán)謹(jǐn)?shù)倪壿嬐评砗蛿?shù)學(xué)計(jì)算。

      此外,長(zhǎng)期記憶中的世界知識(shí)本質(zhì)上是多模態(tài)的。這類知識(shí)中的一部分可以更自然、更合理地以符號(hào)形式呈現(xiàn)。科學(xué)證據(jù)表明,人類知識(shí)的獲取和記憶是以實(shí)體和概念為中心的,這些實(shí)體和概念在腦海中形成了一個(gè)龐大的語(yǔ)義網(wǎng)絡(luò)。同樣,智能體的記憶中也可以維護(hù)這樣一種語(yǔ)義網(wǎng)絡(luò),該網(wǎng)絡(luò)可以通過(guò)符號(hào)處理從 LLM 的輸出中構(gòu)建。

      智能體對(duì)環(huán)境的理解(例如對(duì)語(yǔ)言和視覺輸入的理解)不應(yīng)局限于表象形式,而必須深入到語(yǔ)義層面,即實(shí)現(xiàn)錨定(grounding)。對(duì)環(huán)境的準(zhǔn)確理解能使智能體更有效地完成任務(wù)。錨定的本質(zhì)在于將輸入信息與已有知識(shí)建立關(guān)聯(lián)。以「神經(jīng) - 符號(hào)」混合形式存儲(chǔ)在長(zhǎng)期記憶中的知識(shí),能夠有效地促進(jìn)這一錨定過(guò)程。

      未來(lái)發(fā)展

      智能體和機(jī)器人的發(fā)展仍處于早期階段,仍然有許多科學(xué)和技術(shù)問(wèn)題有待探索和攻克。除了基本的模型架構(gòu)、訓(xùn)練方法以外,以下幾個(gè)重要的研究課題也需要廣泛的探索和深入的研究。

      擴(kuò)大數(shù)據(jù)規(guī)模

      缺乏訓(xùn)練數(shù)據(jù)應(yīng)該是目前智能體開發(fā)中遇到的最大瓶頸。如何在智能體的通用或垂直領(lǐng)域中收集足夠大規(guī)模的數(shù)據(jù),用于模型訓(xùn)練,是亟待解決,也是大家正在努力解決的問(wèn)題。例如,機(jī)器人的開發(fā)需要有足夠量的機(jī)器人硬件系統(tǒng)幫助進(jìn)行數(shù)據(jù)采集。

      一個(gè)解決方案是在實(shí)際場(chǎng)景當(dāng)中,先有一個(gè)還不錯(cuò)的智能體進(jìn)行運(yùn)行,進(jìn)行數(shù)據(jù)采集,在這個(gè)過(guò)程中,得到大量的真實(shí)數(shù)據(jù),構(gòu)建數(shù)據(jù)模型訓(xùn)練的閉環(huán)。另一個(gè)解決方案是通過(guò)自動(dòng)的手段,包括生成式 AI 技術(shù),自動(dòng)合成數(shù)據(jù)用于模型訓(xùn)練。這些方法都需要今后充分的嘗試和探索。

      自主和持續(xù)學(xué)習(xí)

      目前智能體一般是事先訓(xùn)練好,然后在具體場(chǎng)景中使用。許多學(xué)者指出,未來(lái)的智能體應(yīng)該能夠在使用過(guò)程中,也就是與環(huán)境的互動(dòng)過(guò)程中,進(jìn)行自主學(xué)習(xí)(autonomous learning)和持續(xù)學(xué)習(xí)(continual learning)。

      即使是現(xiàn)在的智能體框架,也能更主動(dòng)地學(xué)習(xí)。例如,智能體在使用過(guò)程中進(jìn)行在線強(qiáng)化學(xué)習(xí)。通過(guò)軌跡采樣,得到環(huán)境的獎(jiǎng)勵(lì),進(jìn)行利用和探索的平衡,學(xué)習(xí)到更好的策略。目前在線強(qiáng)化學(xué)習(xí)由于安全等原因并沒有實(shí)際使用起來(lái)。

      主動(dòng)和持續(xù)學(xué)習(xí)意味著智能體在與環(huán)境的互動(dòng)中,不斷構(gòu)建或更新對(duì)環(huán)境的感知和認(rèn)知,持續(xù)掌握或提高完成任務(wù)的規(guī)劃和控制能力,提升自身的智能水平。

      安全性和可控性

      智能體的安全性和可控性永遠(yuǎn)是最重要的問(wèn)題之一。高自主性的智能體可能帶來(lái)的風(fēng)險(xiǎn)更大,如何將可能的風(fēng)險(xiǎn)控制在最小范圍是持續(xù)需要解決的問(wèn)題。

      如果是使用強(qiáng)化學(xué)習(xí)訓(xùn)練智能體,這就關(guān)系到如何定義強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)。如果獎(jiǎng)勵(lì)函數(shù)表示完成任務(wù)的好壞,同時(shí)與人類價(jià)值觀對(duì)齊;這時(shí)風(fēng)險(xiǎn)雖然存在,但相對(duì)可控。

      如果獎(jiǎng)勵(lì)函數(shù)超出完成任務(wù)的范圍,那就有可能給人類帶來(lái)極大的風(fēng)險(xiǎn)。我們需要設(shè)置研究和開發(fā)的紅線。例如,假設(shè)以智能體在環(huán)境中是否能生存作為獎(jiǎng)勵(lì)函數(shù),那么訓(xùn)練出來(lái)的智能體,就有可能變得自私,容易會(huì)去作惡。智能體在與環(huán)境交互中進(jìn)行學(xué)習(xí),環(huán)境中總是存在使智能體「學(xué)壞」的信息和知識(shí),這一點(diǎn)人也是一樣的,其實(shí)并不可怕。關(guān)鍵是智能體是否能排除干擾,學(xué)習(xí)到「好的」技能和行為。這里,獎(jiǎng)勵(lì)函數(shù)起著決定性的作用。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      一周13人傷亡!建議中國(guó)游客春節(jié)避免前往俄羅斯旅游

      一周13人傷亡!建議中國(guó)游客春節(jié)避免前往俄羅斯旅游

      基本常識(shí)
      2026-01-28 22:17:24
      濕冷持續(xù)!武漢連日小雨+雨夾雪,最低溫跌至0℃

      濕冷持續(xù)!武漢連日小雨+雨夾雪,最低溫跌至0℃

      極目新聞
      2026-01-29 13:36:06
      對(duì)話鳴鳴很忙晏周:千億零食王國(guó)的誕生、合并與遠(yuǎn)征

      對(duì)話鳴鳴很忙晏周:千億零食王國(guó)的誕生、合并與遠(yuǎn)征

      晚點(diǎn)LatePost
      2026-01-28 11:26:55
      唏噓!44歲前國(guó)腳被終身禁足 11天前官宣任新帥 曾率隊(duì)奪中超冠軍

      唏噓!44歲前國(guó)腳被終身禁足 11天前官宣任新帥 曾率隊(duì)奪中超冠軍

      我愛英超
      2026-01-29 13:19:06
      以媒爆料內(nèi)塔尼亞胡手機(jī)攝像頭被貼紙封住,疑與黑客攻擊有關(guān)

      以媒爆料內(nèi)塔尼亞胡手機(jī)攝像頭被貼紙封住,疑與黑客攻擊有關(guān)

      環(huán)球網(wǎng)資訊
      2026-01-29 07:11:08
      多次挑釁中國(guó)!烏克蘭名將:我的國(guó)家冬天很艱難 沒有電沒有一切

      多次挑釁中國(guó)!烏克蘭名將:我的國(guó)家冬天很艱難 沒有電沒有一切

      念洲
      2026-01-29 08:03:43
      原來(lái)李莉就是“春晚釘子戶”孫濤的老婆,難怪孫濤每年都能上春晚

      原來(lái)李莉就是“春晚釘子戶”孫濤的老婆,難怪孫濤每年都能上春晚

      李健政觀察
      2026-01-29 09:23:45
      法國(guó)貓徒步5個(gè)月從西班牙回家!只為再蹭蹭主人的手

      法國(guó)貓徒步5個(gè)月從西班牙回家!只為再蹭蹭主人的手

      新歐洲
      2026-01-28 21:37:40
      相聲社賣票156元,因演員救場(chǎng)被文旅部門罰6萬(wàn),合法不合理?

      相聲社賣票156元,因演員救場(chǎng)被文旅部門罰6萬(wàn),合法不合理?

      我就是個(gè)碼字的
      2026-01-29 07:30:03
      百年浩劫:奴隸制將成為阿富汗永久國(guó)策!

      百年浩劫:奴隸制將成為阿富汗永久國(guó)策!

      大漠行舟
      2026-01-29 00:57:23
      汕頭一女生神似敦煌壁畫里的古典美人!全網(wǎng)盛贊:這才是東方美

      汕頭一女生神似敦煌壁畫里的古典美人!全網(wǎng)盛贊:這才是東方美

      深圳晚報(bào)
      2026-01-28 21:04:57
      水貝黃金平臺(tái)“杰我睿”兌付危機(jī):40倍杠桿對(duì)賭,金價(jià)越漲平臺(tái)越虧

      水貝黃金平臺(tái)“杰我睿”兌付危機(jī):40倍杠桿對(duì)賭,金價(jià)越漲平臺(tái)越虧

      中國(guó)能源網(wǎng)
      2026-01-29 09:06:23
      金融、電力、煙草、石油,多地對(duì)“近親繁殖”出手了

      金融、電力、煙草、石油,多地對(duì)“近親繁殖”出手了

      中國(guó)新聞周刊
      2026-01-27 14:23:19
      神話實(shí)錘?埃及金字塔地下神秘“地下世界”,衛(wèi)星掃出巨型結(jié)構(gòu)

      神話實(shí)錘?埃及金字塔地下神秘“地下世界”,衛(wèi)星掃出巨型結(jié)構(gòu)

      Science科學(xué)說(shuō)
      2026-01-28 08:05:03
      奧迪只賣10萬(wàn)了?多地奧迪4S店被曝閉店跑路!

      奧迪只賣10萬(wàn)了?多地奧迪4S店被曝閉店跑路!

      小南看車
      2026-01-28 15:55:33
      鐘漢良在成都農(nóng)村擺攤!皮肉松垮白發(fā)遮不住,蹲街邊賣菜像小老頭

      鐘漢良在成都農(nóng)村擺攤!皮肉松垮白發(fā)遮不住,蹲街邊賣菜像小老頭

      長(zhǎng)星寄明月
      2026-01-29 14:21:03
      阿富汗真正的悲劇在于世界已經(jīng)不在乎

      阿富汗真正的悲劇在于世界已經(jīng)不在乎

      海子侃生活
      2026-01-29 11:10:03
      逼急了?網(wǎng)約車司機(jī)將車子開到幾百公里外深山,公司找到車時(shí)已被鋼筋插土、膠水粘牢!

      逼急了?網(wǎng)約車司機(jī)將車子開到幾百公里外深山,公司找到車時(shí)已被鋼筋插土、膠水粘牢!

      網(wǎng)約車觀察室
      2026-01-29 10:13:36
      華西村那頭1噸金牛,15年后竟成最成功的投資?

      華西村那頭1噸金牛,15年后竟成最成功的投資?

      比利
      2026-01-28 20:15:42
      紀(jì)實(shí):女兒多次被虐待渾身淤青,父親沖進(jìn)教室,怒砍校霸13刀致死

      紀(jì)實(shí):女兒多次被虐待渾身淤青,父親沖進(jìn)教室,怒砍校霸13刀致死

      談史論天地
      2026-01-28 17:20:03
      2026-01-29 14:36:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12213文章數(shù) 142552關(guān)注度
      往期回顧 全部

      科技要聞

      周亞輝的AI新賭局:國(guó)內(nèi)太卷 出海另起爐灶

      頭條要聞

      82歲大爺背包獨(dú)自出國(guó)旅行10年 1個(gè)月花掉近1年退休金

      頭條要聞

      82歲大爺背包獨(dú)自出國(guó)旅行10年 1個(gè)月花掉近1年退休金

      體育要聞

      詹姆斯哭了!騎士視頻致敬41歲超巨

      娛樂(lè)要聞

      張譯不再隱瞞!公開回應(yīng)退圈息影真相

      財(cái)經(jīng)要聞

      黃金價(jià)格太高了嗎

      汽車要聞

      車長(zhǎng)超5米還帶后輪轉(zhuǎn)向 比亞迪海豹08/海獅08將亮相

      態(tài)度原創(chuàng)

      本地
      旅游
      親子
      藝術(shù)
      公開課

      本地新聞

      云游中國(guó)|撥開云霧,巫山每幀都是航拍大片

      旅游要聞

      衣錦城遺址博物館開館 沉浸式解碼吳越風(fēng)華

      親子要聞

      “林平之就是這么被閹的!”兒童繪本再爆雷,成年人聽了都忍不住

      藝術(shù)要聞

      梵高全集(高清350張)震撼……

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版