網易首頁 > 網易號 > 正文申請入駐

李飛飛的答案：大模型之后，Agent 向何處去？

2025-09-04 15:34:48　來源: 劃重點KeyPoints

云南舉報

分享至

劃重點：

1、李飛飛最新論文，為當下火熱的Agent劃定了邊界、確立了范式。谷歌、OpenAI和微軟等巨頭的最新布局，幾乎都遵循了論文給出的能力棧。

2、論文提出了一套完整的認知閉環架構——從感知、認知、行動，到學習與記憶，構成動態迭代的智能體體系。這不僅是技術的整合，更是對未來AGI路徑的系統性構想。

3、大模型是驅動Agent的核心引擎，但環境交互是解決幻覺和偏見的關鍵錨點。論文強調，LLM/VLM提供認知能力，但必須通過真實或模擬環境的反饋來校準現實，減少幻覺，并引入倫理與安全機制。

4、應用潛力橫跨游戲、機器人和醫療三大前沿領域——游戲中的沉浸式NPC、機器人中的自主規劃與物理操作、醫療中的智能問診與健康管理，展現了Agent從理論走向實踐的清晰路徑。

作者林易

編輯重點君

2025年，被普遍認為是Agent的元年，與之相關的概念從年初至今熱度持續走高，包括智能體、AI Agent、Agentic AI等等。

而就在最近，一篇由李飛飛領銜的Agent重磅論文在業內引發了廣泛討論，熱度居高不下。網友們如此評價：“幾乎是跪著看完的”、“太清晰，硬控了我3個小時”。

這篇長達80頁的綜述名為《Agent AI: Surveying the Horizons of Multimodal Interaction》，由李飛飛等14位來自斯坦福大學和微軟的專家聯合撰寫。

它之所以備受推崇，是因為這篇綜述為Agent這一略顯混沌的領域，建立了一個清晰的框架：從感知-決策-行動，到記憶、工具使用、環境交互與評測，試圖把分散在對話模型、視覺-語言模型、強化學習、工具調用等技術線索，統一到一個多模態Agent的新視角里。

并且，雖然這篇論文最早發表于去年年底，但站在當下節點回顧今年Agent的發展，谷歌、OpenAI和微軟等主流玩家的核心打法，幾乎都是按照論文給出的能力棧來推進的；這也反過來印證了論文對“從大模型到Agent”這一演進路徑的前瞻性判斷。

也正如李飛飛在自傳《我看見的世界》里強調的，“現在學生太過于追求熱點，其實很多老論文是非常經典且具備借鑒意義”；即便這篇綜述發表至今不過半年，但其意義之大、影響之深，仍值得每一位AI從業者深入品讀。

接下來，我們就一起看看這篇綱領性巨作的核心價值。

Agent AI的核心：一個全新的智能體認知架構

要理解這篇論文的精髓，首先必須把握其提出的全新Agent AI范式。這遠非對現有技術棧的簡單拼湊，更是一種對未來通用人工智能（AGI）發展路徑的前瞻性思考。

論文中的架構圖，便清晰地定義了這個范式的五個核心模塊，它們共同構成了一個完整的、可交互的智能體認知閉環。

首先是環境與感知（Environment and Perception），這是智能體與世界交互的起點。

與傳統模型被動接收結構化數據不同，Agent AI主動從物理或虛擬世界中感知信息；這種感知是多模態的，涵蓋視覺、聽覺、文本、傳感器數據等。

更重要的一點是，感知模塊內嵌了任務規劃與技能觀察（Task-Planning and Skill Observation）的能力；這意味著Agent在感知環境時，并非茫然地接收一切信息，而是帶著明確的目的去理解。

第二個核心模塊是認知（Cognition）。

如果說感知是輸入，那么認知就是處理中樞，是Agent的“大腦”。論文將認知定義為一個極其復雜的系統，包含思考、意識、感知、共情等高級智能活動。

這正是大語言模型（LLM）和視覺語言模型（VLM）發揮核心作用的場域。它們為Agent提供了強大的世界知識、邏輯推理和上下文理解能力。認知模塊負責解釋感知到的信息，進行多步推理，并制定出實現目標的策略。

接下來是行動（Action），它承接認知模塊的決策，負責生成具體的操作指令。

這些指令可以是與物理世界交互的機器人控制命令（如移動、抓取），也可以是與虛擬世界交互的API調用、代碼生成或自然語言回復。行動模塊通過控制器（Controller）作用于環境，從而改變環境的狀態。

第四個核心模塊是學習（Learning）。

Agent AI并非一個靜態系統，其核心優勢在于持續學習和自我進化的能力。論文強調了多種學習機制，包括預訓練（Pretraining）、零樣本/少樣本學習（Zero-shot/Few-shot）、強化學習（RL）和模仿學習（IL）。

通過與環境的交互（即“Agent Interactive Closed-loop”），Agent從成功和失敗的經驗中學習。環境的反饋（Feedback）會回流至學習和記憶模塊，用于優化未來的決策。

最后，便是記憶（Memory）。

傳統模型的“記憶”通常局限于短暫的上下文窗口，而Agent AI的記憶模塊則是一個更持久、更結構化的系統。它存儲著知識（Knowledge）、邏輯（Logic）、推理路徑（Reasoning）和推斷（Inference）的結果。

這使得Agent能夠從過去的經驗中提取知識，形成長期記憶，從而在面對新任務時，不必從零開始，而是可以舉一反三。

這五個模塊共同構成了一個動態的、持續迭代的閉環。Agent通過感知環境，在認知核心的驅動下做出決策，通過行動改變環境，再從環境的反饋中學習和更新記憶，從而在每一次交互中，都比上一次更智能、更高效。

大模型如何驅動Agent AI？

我們剛才解讀的Agent AI新范式，可以說是這篇綜述藍圖中的一個維度。

Agent AI的宏大框架之所以在今天成為可能，其根本驅動力，源于大型基礎模型（Foundation Models），特別是LLM和VLM的成熟。它們是Agent認知能力的基石，但也帶來了新的挑戰。

LLMs（如GPT系列）和VLMs（如CLIP、LLaVA）通過在海量數據上的預訓練，內化了關于世界的大量常識知識和專業知識。這使得Agent在啟動之初就具備了強大的零樣本規劃能力。

例如，當一個機器人Agent接收到“幫我熱一下午餐”的指令時，它能利用LLM的知識，自動將這個模糊指令分解為一系列具體的子任務：“打開冰箱->找到午餐盒->把它放到微波爐里->設置時間->啟動微波爐”。

這種能力極大地降低了為每個任務編寫復雜規則的成本。

除此之外，論文敏銳地指出了大模型的一個核心問題——「幻覺」，即模型可能生成與事實不符或毫無根據的內容。

這在需要與物理世界精確交互的場景中是致命的。例如，一個機器人Agent如果“幻覺”出一個不存在的物體并試圖抓取，可能會導致任務失敗甚至設備損壞。

Agent AI范式通過“環境交互”為解決幻覺問題提供了一個關鍵的「錨點」。因為Agent的決策和行動必須在真實或模擬的環境中得到驗證。

如果模型生成的計劃在環境中不可執行（例如，試圖穿過一堵墻），環境會立即提供負反饋。這種持續的、基于物理規律的反饋，會倒逼模型將其內部的知識與外部的現實世界對齊，從而顯著減少幻覺的發生。

基礎模型同樣會繼承訓練數據中的社會偏見。一個在充滿偏見文本上訓練的Agent，其行為和語言也可能帶有歧視性。

論文強調，在設計Agent AI時，必須將包容性作為一項核心原則。這包括使用更多元化的數據進行訓練、建立偏見檢測與糾正機制，以及在人機交互中設計符合道德和尊重他人的指導方針。

當Agent（尤其是在醫療、家居等敏感領域）與用戶進行深度交互時，會收集大量個人數據。如何確保這些數據的隱私和安全，是一項重大的倫理和技術挑戰。

論文提出，需要為Agent AI建立明確的法規和監管框架，確保數據使用的透明度，并給予用戶控制其數據的權利。例如，通過提示工程（Prompt Engineering）限制模型的行為范圍，或者增加一個由人類監督的驗證層，都是確保Agent在安全可控范圍內運行的有效手段。

Agent AI的應用潛力

論文不僅提出了理論框架，還深入探討了Agent AI在三個前沿領域的巨大應用潛力，展示了其如何從理論走向現實。

首先就是游戲（Gaming）場景。

傳統的游戲NPC（非玩家角色）行為由固定的腳本驅動，模式單一、可預測，而Agent AI將徹底改變這一現狀。

例如，基于LLM的Agent可以扮演NPC，擁有自己的記憶、目標和情感。它們能與玩家進行真正有意義的對話，根據玩家的行為和游戲世界的變化動態調整自己的行為，甚至形成復雜的社會關系。斯坦福的“生成式智能體”小鎮實驗（Generative Agents）正是這一理念的早期探索。

并且，玩家可以用自然語言與游戲世界互動，比如告訴NPC“我們去森林里尋找草藥”，NPC能夠理解并協同行動。這為開放世界游戲帶來了前所未有的沉浸感和自由度。

Agent還可以作為創作者的“AI副駕駛”，根據簡單的指令或草圖，自動生成游戲關卡、道具甚至完整的3D場景，極大地提高游戲開發效率。

其次是機器人（Robotics）場景。

機器人可以說是Agent AI最直接的物理化身（Embodiment），用戶只需用日常語言下達指令（如“把桌子收拾干凈”），機器人Agent就能自主規劃并執行一系列復雜的物理操作。

論文展示了使用GPT-4V來理解人類視頻演示，并將其轉化為機器人可執行任務序列的實驗，這讓機器人編程變得如「教孩子做事」般直觀。

在模擬環境中訓練機器人成本低、效率高，但如何將學到的技能遷移到物理世界是一個核心挑戰。Agent AI通過領域隨機化（Domain Randomization）等技術，在模擬訓練中引入足夠多的變化（如光照、材質、物理參數的變化），使學到的策略對真實世界的細微差異更具魯棒性。

機器人Agent融合視覺、語言、觸覺等多種信息來理解環境。例如，它不僅“看到”一個杯子，還能通過語言指令理解這個杯子是“易碎的”，從而在抓取時采用更輕柔的力度。

最后，在醫療健康（Healthcare）中，Agent AI同樣具備巨大的應用潛力。

Agent可以作為醫療聊天機器人，初步問診、收集病史，并基于醫學知識庫為醫生提供診斷建議，特別是在醫療資源匱乏的地區，能極大地提升初級診療的覆蓋率和效率。

醫療領域的知識更新極快，任何錯誤都可能危及生命。Agent AI可以連接權威的、實時更新的醫學數據庫，在生成診斷建議時，同步進行事實核查和來源引用，這對于抑制模型幻覺、保證信息的準確性至關重要。

Agent可以幫助處理和分流大量的患者信息，監控慢性病患者的生命體征數據，并及時向醫生發出預警，實現更高效的個性化健康管理。

結語

盡管前景廣闊，但這篇綜述也清醒地認識到，Agent AI仍處于早期階段，面臨著跨越模態、領域和現實的多重鴻溝。

例如，如何讓Agent真正實現視覺、語言、聽覺、動作等模態的深度融合，而不只是淺層拼接，是未來的核心研究方向。

以及如何訓練一個能在游戲、機器人和醫療等截然不同領域都能高效工作的“通用Agent”，而不是為每個領域定制一個模型，是通往AGI的關鍵一步。

并且在評測與基準方面，如何科學地評測一個Agent的智能水平也是關鍵。為此，論文團隊提出了新的評測基準，如用于多智能體協作的“CuisineWorld”和用于視頻理解的“VideoAnalytica”。建立標準化的評測體系，對于指引領域發展、衡量技術進步至關重要。

回歸原文來看，李飛飛等人的這篇《Agent AI》綜述，遠不止是對現有研究的簡單梳理。它提出了一個統一、完整的Agent AI認知框架，闡述了大型基礎模型在其中扮演的核心角色，并且系統性地剖析了其在關鍵應用領域的機遇與挑戰。為當前略顯喧囂和碎片化的Agent研究領域，提供了一張不可或缺的“地圖”。

最后，大家可以一鍵傳送論文原文：

https://arxiv.org/abs/2401.03568

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

劃重點KeyPoints

去除噪音，劃下重點追蹤全球AI科技，記錄中國硬核崛起溝通?一把把一傘一久耳久久漆

165文章數 18關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

親子

旅游

教育

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

李飛飛的答案：大模型之后，Agent 向何處去？

宇樹科技發布四足機器人Unitree As2

武契奇遭"滅門式"暗殺陰謀:他們計劃虐殺我的孩子

武契奇遭"滅門式"暗殺陰謀:他們計劃虐殺我的孩子

蘇翊鳴總結米蘭征程：我仍是那個熱愛單板滑雪的少年

汪小菲官宣三胎出生：承諾會照顧好3個孩子

縣城消費「限時繁榮」了十天

態度原創

《死亡擱淺2》PC版推薦配置RTX 3060可FHD 60幀，Steam國區298元

如果你們生在清朝，可能都是特權階級了

上海歡樂谷舉辦“歡樂中國年”主題活動，整合多元體驗打造新春出游目的地

馬馬馬上上岸!!!TTS《大吉大利復試手冊》+復試班：紙質筆記與1v1模擬面試堂堂上線!!