網易首頁 > 網易號 > 正文申請入駐

智能體時代的強化學習：AReaL 框架與 Agent 最佳實踐

2026-03-04 16:22:15　來源: InfoQ

北京舉報

分享至

演講嘉賓｜吳翼博士

編輯｜Kitty

策劃｜QCon 全球軟件開發大會

隨著大模型與智能體（Agent）技術的快速發展，強化學習（RL）正成為提升 AI 智能體自主決策能力的關鍵引擎。然而，傳統的 RL 訓練方法面臨計算成本高、數據需求大、系統復雜度高等挑戰，限制了 Agent 的規模化落地。

本文整理自清華大學交叉信息院助理教授，博士生導師，前 OpenAI 研究員吳翼博士在 2025 年 QCon 全球軟件開發大會（上海站）的分享 “智能體時代的強化學習：AReaL 框架與 Agent 最佳實踐”。他在演講中重點介紹了針對 Agent 模型的強化學習訓練系統 AReaL 及其在 Agent 場景下的最佳實踐，并通過真實數據和可復現的代碼，展示 AReaL 如何幫助開發者和企業高效構建智能體系統，并推動 AI Agent 從實驗室走向產業應用。

內容亮點

面向 Agent 的強化學習技術突破；
獨家開源實踐；
前沿 Agent 場景落地。

預告：將于 4 月 16 - 18 召開的 QCon 北京站設計了「Agent Infra 架構設計」專題，將深入探討Agent 架構范式、Agentic-RL 技術、Agent 上下文工程、Agent 可觀測技術等等。如果你也有相關方向案例想要分享，歡迎提交至 https://jinshuju.com/f/Cu32l5。

以下是演講實錄（經 InfoQ 進行不改變原意的編輯整理）。【PPT 不公開】

大家好，我叫吳翼，是清華大學交叉信息院的助理教授。多年來，我一直在從事強化學習及智能體相關的研究。今天，我非常榮幸能夠受邀來到這里，與大家分享我們團隊的工作成果，以及強化學習在大模型時代下智能體領域的一些新進展。

今天，我想和大家分享兩個重要的觀點：

Agent 是 AGI 未來 5 年最重要的事；
強化學習是 Agent 的技術關鍵。

我希望在接下來的分享中，能夠讓大家對這兩個觀點有更深刻的理解。

1 AReaL 團隊要做什么：以 RL 打造 Agent

我們先從強化學習說起。很多人對強化學習的了解始于 AlphaGo。當時，DeepMind 利用強化學習訓練了一個圍棋智能體，擊敗了世界頂尖棋手李世石和柯潔。此后，OpenAI 在 DOTA 等游戲中也利用強化學習取得了顯著成果，擊敗了世界冠軍 OG 戰隊。這些事件讓強化學習逐漸進入大眾視野。然而，在這些早期的應用中，強化學習智能體大多集中在游戲領域。這不禁讓人思考：在大模型驅動的AGI 時代，強化學習與大模型之間究竟有什么樣的聯系？

事實上，強化學習與大模型之間的關系并非一直如此緊密。直到 2020 年至 2022 年期間，情況才發生了顯著變化。2020 年，OpenAI 推出了 GPT-3 的 API。當時的 API 與現在相比，功能上存在很大差異。例如，如果你要求它“用幾句話向一個 6 歲的孩子解釋登月”，它可能無法很好地完成任務。這是因為大模型的訓練基于“下一個詞預測”，而這種訓練方式并不適合執行復雜的指令任務。

這種問題被稱為“指令遵循問題”（instruction following problem）。簡單來說，當我們向模型發出指令時，我們希望它能夠理解并完成任務，而不是僅僅進行下一個詞的預測。在 2020 年，大模型在指令遵循方面表現不佳。但隨著時間的推移，OpenAI 不斷改進 API，使其能夠更好地理解和執行用戶指令。這一改進過程不僅提升了大模型的實用性，也使得強化學習與大模型之間的聯系更加緊密。

解決大模型指令遵循問題的方法是在 2022 年首次推出的 InstructGPT 模型，其核心是“人類反饋強化學習”（Reinforcement Learning from Human Feedback，RLHF）。當時，研究人員發現，盡管大模型具備強大的語言生成能力，但其輸出往往無法精準遵循人類指令，甚至可能生成不符合預期的內容。為了解決這一問題，研究團隊采用了 RLHF 技術，通過人工標注數據來訓練一個獎勵模型，該模型能夠判斷模型輸出是否符合人類指令。

具體而言，研究人員首先收集了大量人類標注的示例數據，這些數據包括任務輸入和期望的輸出結果。隨后，他們利用這些數據對預訓練的 GPT-3 模型進行微調，使其初步具備遵循指令的能力。在此基礎上，團隊進一步收集了模型輸出的偏好排序數據，并以此訓練獎勵模型。最終，通過強化學習算法（如 PPO）優化模型，使其能夠根據獎勵信號生成更符合人類意圖的輸出。也正是基于 RLHF 技術，OpenAI 在 2022 年年底推出了劃時代的 AI 產品 ChatGPT。

2024 年，技術進一步發展，出現了推理模型，也就是著名的 ChatGPT o1 和 DeepSeek R1 模型，其技術核心是“推理強化學習”（Reasoning RL）。這類模型在接收到任務后，會先進行一段時間的“思考”，生成大量的中間思考 token，然后再輸出最終答案。這種“思考”過程實際上是通過強化學習讓模型自主探索最優解，從而提高答案的準確性。

2025 年，AI 領域迎來了“ Agent RL ”技術，即基于強化學習的智能體模型。這類模型不僅能夠進行思考和推理，還能調用外部工具，如搜索引擎、瀏覽器等，甚至可以在虛擬環境中操作文件。例如， ChatGPT 的 Deep Research 功能允許用戶指定研究主題，AI 會調用多種工具，進行長時間的信息收集和整理，最終生成詳實的報告。此外，Minus 等產品進一步擴展了 AI 的能力，使其可以在虛擬環境中操作 PDF 文件、編輯文檔等。

讓我們來審視一下人工智能（AI）的發展趨勢。從 2022 年開始，隨著人工智能通用化時代的到來，我們見證了從推理模型到智能體模型的演變。從產品角度來看，這一過程呈現出兩個顯著的趨勢。

以 ChatGPT 為例，它能夠迅速響應用戶的簡單問題，例如詢問某個詞的中文或英文表達，幾乎在瞬間給出答案。然而，隨著技術的進步，到了推理模型時代，用戶可以向 AI 提出更復雜的任務，比如計算一道物理題。這時，AI 會花費一分鐘甚至更長時間進行思考，最終給出詳細的解題步驟。而到了智能體模型階段，AI 的能力進一步拓展。用戶可以下達更具挑戰性的指令，比如處理大量文件、批改作業等。例如，我們可以將 200 份作業交給 AI，它會在大約一小時內完成批改任務。從這個角度看，一方面，用戶與 AI 的交互方式發生了變化。在 ChatGPT 時代，用戶需要提供非常詳細且冗長的提示（Prompt），明確描述自己的需求。然而，到了智能體時代，用戶所需表達的內容變得越來越簡潔抽象。另一方面，AI 的輸出也從簡單的文本回答，逐漸轉變為能夠主動采取行動，甚至在電腦中自主完成一系列復雜任務。

基于這些趨勢，我們可以對未來進行一些展望。從交互的角度來看，我們希望未來的 AI 能夠更加便捷，用戶無需提供過多復雜的指令。從 AI 的能力角度而言，我們期待它能夠承擔更多任務，甚至實現 7×24 小時不間斷工作。例如，我們可以為 AI 提供更多的計算資源，讓它同時處理多個任務，甚至主動為用戶安排事務。理想的情況是，用戶無需明確指示，AI 就能提前完成任務。事實上，這種趨勢已經在一些產品中初現端倪。例如，OpenAI 推出的 ChatGPT Pulse ，其最大的變化在于從被動響應（Reactive）向主動推送（Proactive）的轉變。雖然目前它只是每天向用戶推送一些信息，但這種全新的主動響應模式的出現意味著 AI 可以提前為用戶提供更多形式的內容，比如報表、代碼等。從概念上講，這標志著 AI 從需要用戶明確指示轉變為能夠主動為用戶提供服務。我希望在明年的這個時候，我們能看到更多這種主動型智能體產品的出現。

回顧 AGI 產品的演變，從最初的對話框式快速響應，到具備“草稿紙”功能的推理模型，再到擁有“虛擬電腦”（Sandbox）的智能體模型，AI 的能力得到了顯著提升。它不僅可以處理復雜的輸入和調用工具，還能在虛擬環境中進行文件存儲和創作，幾乎可以完成人類能夠通過電子設備完成的所有任務。這是一個巨大的進步。

當然，我們還可以用一個更抽象的例子來說明。在中國，許多老板習慣對下屬說：“小李，你幫我把這件事搞定。”我們希望未來的 AI 也能像這樣，用戶只需簡單地說“幫我把這個搞定”，AI 就能理解并執行任務。這背后涉及許多復雜的技術挑戰。首先，人類的需求往往是模糊的，很難清晰地表達自己的意圖。其次，每個人的需求都是個性化的，這意味著 AI 需要具備高度的定制化能力。最后，AI 需要具備主動規劃的能力，因為有些任務可能需要提前準備。我們期待在未來一年中，這些領域能夠取得更多突破性進展。

回到我們團隊，一直以來，我們專注于強化學習領域的研究與應用。我們始終懷揣著一個愿景：希望通過強化學習，在智能體技術的前沿打造出卓越的智能體模型、服務和產品。這是我們團隊的核心目標，也是我們不懈追求的方向。因此，我們希望讓大家相信的第一件事是：智能體技術至關重要。

那么，一個優秀的智能體團隊應該具備哪些特點呢？在人工智能通用化時代，團隊的特質顯得尤為重要。以 OpenAI 為例，其團隊的運作模式令人印象深刻。例如，ChatGPT 的最初版本僅由少數人用一周時間開發出一個演示版本（demo），隨后迅速走紅并發展成一個完整的團隊。Deep Research 項目也是如此，幾位研究員在兩周內完成了一個初步演示，之后便引發了廣泛關注。再比如 Codex 項目，17 名成員用了 7 周時間完成了開發。這些例子充分說明了 AGI 時代的特點：迭代速度快，創新周期短。

AGI 時代，一切都以驚人的速度發展。我們難以預測哪些產品會成為爆款，但我們可以確定的是，能夠迅速適應這種快速迭代的團隊，將更有可能取得成功。Manus 項目就是一個很好的例子，它僅用了兩個月時間就開發出了一個現象級產品。這表明，一個好的團隊在組織架構上可能需要做出一些改變。我們希望團隊能夠充分整合 AI 技術，擁有完整的技術棧，而不是分散成多個獨立的小組。我們希望團隊能夠快速將任何創意轉化為原型，因為只有通過快速迭代和原型創新，才能在激烈的競爭中脫穎而出。

2 Agent 為什么需要 RL： ASearcher 的例子

這部分和大家深入探討一下技術，尤其是智能體與強化學習之間的關系。有人可能會問：“吳老師，我們都認同智能體很重要，也都在努力創造智能體，但強化學習在其中究竟扮演什么角色呢？”確實，如今市面上已經有許多智能體框架，比如字節的 CoZe、LangChain、LangGraph 等，甚至 OpenAI 也推出了自己的智能體框架。在這樣的背景下，強化學習似乎顯得有些多余，畢竟通過簡單的拖拉拽方式就能搭建出智能體的工作流程。那么，為什么我們還需要強化學習呢？

我認為，核心問題在于智能體面臨的挑戰往往非常復雜，僅靠現有的框架和規則是難以解決的。在我看來，有三個主要問題使得強化學習不可或缺。首先，智能體需要處理不確定性和沖突信息。現實世界中，沖突信息無處不在，即使在公司內部也不例外。例如，當我們搜索“ 阿里 CTO ”時，會發現阿里巴巴集團及其子公司螞蟻集團有許多位 CTO，但其中只有一位是真正的集團 CTO。這種情況下，智能體需要通過進一步的信息收集和判斷來做出準確的決策，而不是簡單地依賴預設的規則。

其次，智能體需要具備長期記憶和個性化能力。以美團外賣為例，用戶曾表示想吃清淡的食物，但用戶實際上并不喜歡吃蔬菜，而是希望吃清淡的肉類。這種個性化需求和長期記憶的積累很難通過簡單的規則來實現，因為它們需要智能體從大量的歷史記錄中挖掘出用戶的真實偏好。

最后，當面對海量的工具和模型選擇時，智能體需要具備自主決策的能力。不同的大模型各有優劣，比如 Claude 模型的上下文窗口較短且成本較高，而 Gemini 雖然上下文窗口長且成本低，但生成的代碼不夠聰明。Reddit 上曾有人分享一個有趣的案例：他發現可以通過讓 Claude 調用 Gemini 來讀取代碼倉庫，再將結果交給 Claude 在 Cursor 中編寫代碼，從而實現優勢互補。這說明，在面對眾多模型和工具時，最佳實踐可能是讓智能體通過強化學習自主探索最優的調用策略，而不是依賴人工編寫的規則。

除了這些挑戰，我們還關注在線強化學習（Online RL）這一重要趨勢。最近，Cursor 發布了一篇關于在線強化學習的帖子，雖然有些炫技的成分，但其觀點是正確的。當一款產品上線后，通過在線交互不斷迭代是未來的發展方向。然而，與推薦系統時代的數據飛輪不同，強化學習的數據要求極高且難以構造，并非所有上線的服務都能滿足條件。盡管如此，我們希望未來能有一個平臺，讓智能體模型在上線后能夠持續自我迭代、優化，并逐漸實現個性化。這無疑是一個重要的發展趨勢，但具體如何實現，還需要我們共同探索。

如何通過技術手段解決復雜任務中的不確定性、長期記憶以及工具調用等挑戰。這些問題在實際應用中顯得尤為突出，而強化學習或許能為我們提供一種統一的解決方案。我們希望通過強化學習算法，讓智能體在特定環境中自主探索，從而涌現出強大的泛化能力，以應對各種復雜的產品問題。雖然這些聽起來可能有些抽象，但我想通過一個具體的例子來說明其中的挑戰，以及為什么強化學習是必要的。

8 月份，我們 AReaL 團隊發布了一個開源項目，名為 ASearcher，這是一個搜索智能體項目。它的任務非常簡單：用戶提出一個問題，它通過網絡搜索并給出答案。然而，即使是這樣看似簡單的問題，也可能隱藏著巨大的挑戰。例如，我們曾提出這樣一個問題：“倫敦奧運會中國獲得了多少枚金牌？”乍一看，這似乎是一個很容易回答的問題，通過簡單的網絡搜索就能找到答案。但事實并非如此。

倫敦奧運會上，中國代表團最初被報道獲得了 38 枚金牌。然而，后來由于其他選手的興奮劑違規，中國隊的獎牌數發生了變化。具體來說，在女子田徑競走項目中，中國隊原本獲得了第三、第四和第五名。由于原本的金銀牌選手因興奮劑問題被剝奪獎牌資格，中國隊的切陽什姐在 11 年后遞補獲得了金牌。因此，最終的正確答案是中國隊獲得了 39 枚金牌。

這個例子說明，即使是簡單的問題，也可能涉及復雜的背景信息和動態變化。如果智能體不了解這些背景，僅依賴簡單的搜索結果，很可能會得出錯誤的結論。我們測試了幾款產品，包括 DeepSeek、 ChatGLM 和 ChatGPT 。其中，ChatGLM 和 DeepSeek 給出的答案是 38 枚金牌，而 ChatGPT 雖然發現了 39 枚金牌的線索，但最終仍認為 38 枚是更常見的答案。只有 ChatGPT 的 Agent 模式在開啟 Agent 模式后，給出了正確的答案。

這表明，如果我們要開發一個專業的搜索產品，并不簡單。如果要通過固定的工作流（Workflow）的方式來搭建 Agent 的話，我們可能需要構建一個復雜的多智能體系統，包括搜索智能體、核查智能體、知識調用智能體、驗證智能體等等非常多的模塊和。這樣的系統不僅復雜，而且可能難以維護和優化。

然而，如果我們采用強化學習的方法，情況可能會有所不同。以 ASearcher 為例，它基于一個非常簡單的模型，僅包含兩個工具：搜索和網頁點擊。通過強化學習，這個模型能夠在環境中自主探索，不斷迭代以驗證信息的準確性。在我們的測試中，ASearcher 在第五輪搜索中發現了 39 枚金牌的線索，并在經過 60 多次操作（action）后，最終確認了正確答案是 39 金。這一過程不僅展示了強化學習智能體強大的探索和推理能力。

事實上，我們發現通過強化學習訓練的 32B 模型在多個基準測試中表現優異，準確率提升了 20% 到 30%。此外，強化學習還賦予了模型更強的泛化能力，使其能夠在測試階段靈活調用不同的工具，甚至替換為更強大的模型。最終，這種強化學習驅動的模型在準確度上達到了行業領先水平，甚至超越了一些商用產品。

總結一下強化學習的優勢。它主要有兩個顯著的好處：一是能夠簡化智能體的工作流程（agent workflow），二是能夠讓人工智能涌現出復雜的多步推理能力。簡單化和涌現性，這是強化學習最為突出的貢獻。

3 Agent RL 的核心難點：AReal 團隊的努力

為了實現這些目標，我們做了許多努力。在我看來，要做好強化學習，必須在三個方面下功夫：首先是基礎設施（Infra）和算法，其次是數據，最后是環境。為什么呢？強化學習在實際應用中存在一些痛點。首先，智能體強化學習（Agent RL）的速度非常慢，稍后我會解釋原因。其次，訓練數據稀缺，因為雖然預訓練可以使用網上的數據，但強化學習所需的訓練數據無法直接從網上獲取。最后，智能體需要一個 Sandbox 環境，而構建這樣的環境需要強大的工程能力，這本身就是一個巨大的挑戰。

我們希望能夠從全棧的角度解決這些問題。先從基礎設施和算法說起。為什么強化學習的速度會很慢？我們先來看看強化學習的算法流程。強化學習大致分為三個步驟：首先是讓模型在環境中交互并生成數據，然后通過獎勵模型計算獎勵值，判斷其是否正確，最后將數據放入訓練環節進行訓練。這個流程聽起來似乎并不復雜，但如果我們跳出這個流程來看，會發現它實際上涉及三種完全不同的計算模塊。例如，預訓練模塊（SFT，Supervised Fine-Tuning）以及評分和數據清洗模塊。這些模塊的計算模式和屬性各不相同，但都被強化學習算法串聯起來，形成了一個復雜的編排問題。這與傳統的計算模式截然不同。無論是預訓練、數據庫還是推理，每一種計算方式都有固定的模式和算法。然而，強化學習的算法是動態變化的，它涵蓋了多種不同的計算模式，例如訓練卡和推理卡的計算模式不同，Sandbox 環境則運行在 CPU 上。因此，強化學習本質上是一個復雜的系統編排問題。

從技術角度來看，強化學習的復雜性既帶來了挑戰，也帶來了新的機遇。這種機遇被稱為“系統與算法協同設計”（Algorithm and System Co-design）。強化學習算法的創新很容易觸及系統瓶頸，因為強化學習涉及多個系統模塊，任何一個環節出現問題都可能成為瓶頸。為了支持更高效的強化學習算法，我們需要進行系統創新和調整。這種調整不僅涉及基礎設施，還可能帶來新的算法機會。因此，算法團隊和基礎設施團隊之間的協作至關重要。如果兩者能夠相互了解并協同工作，將大大加快創新節奏。

AReaL 在這方面做了什么？我們首先解決了速度慢的問題。在搜索智能體（Search Agent）的場景中，存在大量需要多次搜索的提示詞（Prompt），而每次搜索都需要調用搜索引擎并處理結果，這使得整個過程非常緩慢。我們做過統計，訓練時一個批次（Batch）的提示詞對應的平均搜索時間大約為 5 到 10 分鐘。這個平均時間看起來似乎并不長，但在訓練過程中，由于某些復雜的提示需要 AI 進行大量探索，同事強化學習也會鼓勵模型進行多步探索，因此一個軌跡最長的搜索時間可能會長達 1 到 2 小時。這種超長的軌跡的存在會讓整個批次數據的完成時長被拉長到 1 到 2 個小時。而如果每個批次的訓練都需要等待這么久，模型每天只能更新 24 次，讓整個訓練任務變得效率極低。此外，這種長尾效應會導致大量 CPU 和 GPU 資源的閑置，因為收集每一個批次的完整數據時，系統必須等待最慢的軌跡完成才能進行下一個批次的數據采集。

AReaL 通過系統和算法的協同設計解決了這一問題。核心思路是讓推理過程不再等待。我們采用了一種異步方式，讓一部分計算卡持續進行推理，而另一部分則負責訓練。當推理過程中需要更新參數時，系統會暫停推理，更新參數后再繼續。這種設計避免了系統資源的浪費，雖然這也會帶來一些算法上的問題，但通過適當的調整，可以在不損失效果的前提下充分利用 GPU 資源。在搜索智能體的場景中，這種方法可以實現 5 倍的速度提升。如果大家對技術細節感興趣，可以查閱我們的 AReaL 論文，或者觀看我們之前做的直播回放，我在那里詳細討論了這些問題。

第二是訓練數據的問題。在強化學習中，訓練數據完全依賴于合成數據。舉個例子，正常人提出的問題通常是簡單的，但在測試階段，我們可能會遇到一些復雜且難以處理的問題。這些復雜問題在實際場景中很少出現，即使用戶提出這樣的問題，也很難被挖掘出來。因此，我們面臨的問題是缺乏足夠復雜的訓練樣本。為了解決這一問題，我們在 ASearch 項目中開發了一種“智能體式”的合成數據方法。我們從網頁上抓取答案，因為搜索任務相對簡單，可以從答案出發，逐步構造出更復雜的問題。同時，我們還需要評估這些問題，確保問題與答案的匹配是準確的，并且要對問題的難度進行檢查。對于強化學習而言，問題的難度需要適中，既不能太難，也不能太簡單，這樣才能讓模型在訓練過程中不斷提升。通過這樣的自動化流程，我們構造了訓練數據，使模型能夠持續優化。如果大家對這一過程感興趣，我們的數據生成代碼和腳本已經開源，歡迎大家查閱。

最后簡單提一下環境的問題。環境的構建是一個復雜的話題，但今天時間有限，我們不再展開討論。不過，我們還有一個開源項目 AWorld，未來我們也會考慮開源更多與 Sandbox 相關的項目，以幫助大家更好地訓練智能體產品。

4 AReaL 團隊的里程碑回顧與分享

我們 AReal 團隊從三個角度出發，致力于提供更好的技術，幫助大家開發更優秀的智能體項目和產品。從 2021 年開始，我們便投身于這一領域。當時，我們開發了一個多智能體強化學習框架。2022 年，我們推出了第一個大規模游戲場景下的強化學習分布式訓練框架。2023 年，我們開發了當時最快的 RLHF 框架。到了 2024 年，我們啟動了 AReal 項目，專注于智能體強化學習。如今，我們發現強化學習的發展似乎回到了起點。在 2025 年的當下，強化學習與多年前的游戲場景非常相似：有一個大模型在“玩游戲”，它擁有一個“半沙盒”環境，這個環境可以是瀏覽器，也可以是電腦。它面臨的問題與當年的游戲場景相似：你有一個黑盒（即電腦），它運行緩慢，且無法修改。就像當年無法加速 DOTA 游戲一樣，技術的發展似乎經歷了一個循環。幸運的是，我們從一開始就參與其中，因此我們的系統設計較為靈活，能夠預見強化學習未來的發展方向。

最后，我想分享一些我們在技術開發過程中總結的經驗。我們一直致力于技術創新，希望走在技術前沿。但這里有兩點需要特別注意：首先，技術需要在合適的時間被感知。例如，在 2022 年之前，強化學習技術很難被大眾感知，這并非大家的錯，而是技術尚未在合適的時機展現其價值。其次，技術需要通過優秀的產品來承載。如果沒有 ChatGPT、推理強化學習或智能體模型的出現，強化學習技術可能仍然不為人知。因此，好的技術需要滿足兩個條件：一是等待合適的時機；二是需要優秀的產品來承載。否則，技術的價值將難以體現。技術本身可能沒有價值，只有通過優秀的產品才能發揮其更大的價值。因此，我常對團隊說，技術一定要產品化，所有技術同學都應該盡可能將技術轉化為產品。我們希望最終能夠開發出支持智能體和在線強化學習（Online RL）的產品。

最后，我想簡單打個廣告：我們團隊目前正在招聘，歡迎大家聯系我。也歡迎大家關注我們的開源項目、社交媒體賬號。如果有興趣的同學，請將簡歷發送給我。謝謝大家！

演講嘉賓介紹

吳翼，清華大學交叉信息院助理教授，博士生導師，前 OpenAI 研究員，AReaL 項目負責人。博士畢業于加州大學伯克利分校，研究方向為強化學習。Google Scholar 引用超過 13000 次，曾獲 NIPS 2016 best paper award，ICRA best demo award finalist， 2025 年 WAIC 云帆獎，以及入選 MIT Technology Review 2025 35 Under 35 Asia Pacific 名單。

OpenClaw 這波爆火，把“能干活的 Agent”推到大眾面前。那對研發來說意味著什么？AI Coding/SDD 怎么從個人提效走向團隊可控、可復制、可規模化？3 月 4 日晚上 8 點，我們邀請到三位來自淘寶閃購、網易和平安科技的實踐者一起聊：從 OpenClaw 熱度聊到 AI Coding/SDD 的真實落地——怎么變可控、怎么守住質量和安全、怎么跑出團隊級收益。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.