<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      智能體時代的強化學習:AReaL 框架與 Agent 最佳實踐

      0
      分享至


      演講嘉賓|吳翼 博士

      編輯|Kitty

      策劃|QCon 全球軟件開發大會

      隨著大模型與智能體(Agent)技術的快速發展,強化學習(RL)正成為提升 AI 智能體自主決策能力的關鍵引擎。然而,傳統的 RL 訓練方法面臨計算成本高、數據需求大、系統復雜度高等挑戰,限制了 Agent 的規模化落地。

      本文整理自清華大學交叉信息院助理教授,博士生導師,前 OpenAI 研究員吳翼博士在 2025 年 QCon 全球軟件開發大會(上海站)的分享 “智能體時代的強化學習:AReaL 框架與 Agent 最佳實踐”。他在演講中重點介紹了針對 Agent 模型的強化學習訓練系統 AReaL 及其在 Agent 場景下的最佳實踐,并通過真實數據和可復現的代碼,展示 AReaL 如何幫助開發者和企業高效構建智能體系統,并推動 AI Agent 從實驗室走向產業應用。

      內容亮點

      • 面向 Agent 的強化學習技術突破;

      • 獨家開源實踐;

      • 前沿 Agent 場景落地。

      預告:將于 4 月 16 - 18 召開的 QCon 北京站設計了「Agent Infra 架構設計」專題,將深入探討Agent 架構范式、Agentic-RL 技術、Agent 上下文工程、Agent 可觀測技術等等。如果你也有相關方向案例想要分享,歡迎提交至 https://jinshuju.com/f/Cu32l5。

      以下是演講實錄(經 InfoQ 進行不改變原意的編輯整理)。【PPT 不公開】

      大家好,我叫吳翼,是清華大學交叉信息院的助理教授。多年來,我一直在從事強化學習及智能體相關的研究。今天,我非常榮幸能夠受邀來到這里,與大家分享我們團隊的工作成果,以及強化學習在大模型時代下智能體領域的一些新進展。

      今天,我想和大家分享兩個重要的觀點:

      • Agent 是 AGI 未來 5 年最重要的事;

      • 強化學習是 Agent 的技術關鍵。

      我希望在接下來的分享中,能夠讓大家對這兩個觀點有更深刻的理解。

      1 AReaL 團隊要做什么:以 RL 打造 Agent

      我們先從強化學習說起。很多人對強化學習的了解始于 AlphaGo。當時,DeepMind 利用強化學習訓練了一個圍棋智能體,擊敗了世界頂尖棋手李世石和柯潔。此后,OpenAI 在 DOTA 等游戲中也利用強化學習取得了顯著成果,擊敗了世界冠軍 OG 戰隊。這些事件讓強化學習逐漸進入大眾視野。然而,在這些早期的應用中,強化學習智能體大多集中在游戲領域。這不禁讓人思考:在大模型驅動的AGI 時代,強化學習與大模型之間究竟有什么樣的聯系?

      事實上,強化學習與大模型之間的關系并非一直如此緊密。直到 2020 年至 2022 年期間,情況才發生了顯著變化。2020 年,OpenAI 推出了 GPT-3 的 API。當時的 API 與現在相比,功能上存在很大差異。例如,如果你要求它“用幾句話向一個 6 歲的孩子解釋登月”,它可能無法很好地完成任務。這是因為大模型的訓練基于“下一個詞預測”,而這種訓練方式并不適合執行復雜的指令任務。

      這種問題被稱為“指令遵循問題”(instruction following problem)。簡單來說,當我們向模型發出指令時,我們希望它能夠理解并完成任務,而不是僅僅進行下一個詞的預測。在 2020 年,大模型在指令遵循方面表現不佳。但隨著時間的推移,OpenAI 不斷改進 API,使其能夠更好地理解和執行用戶指令。這一改進過程不僅提升了大模型的實用性,也使得強化學習與大模型之間的聯系更加緊密。

      解決大模型指令遵循問題的方法是在 2022 年首次推出的 InstructGPT 模型,其核心是“人類反饋強化學習”(Reinforcement Learning from Human Feedback,RLHF)。當時,研究人員發現,盡管大模型具備強大的語言生成能力,但其輸出往往無法精準遵循人類指令,甚至可能生成不符合預期的內容。為了解決這一問題,研究團隊采用了 RLHF 技術,通過人工標注數據來訓練一個獎勵模型,該模型能夠判斷模型輸出是否符合人類指令。

      具體而言,研究人員首先收集了大量人類標注的示例數據,這些數據包括任務輸入和期望的輸出結果。隨后,他們利用這些數據對預訓練的 GPT-3 模型進行微調,使其初步具備遵循指令的能力。在此基礎上,團隊進一步收集了模型輸出的偏好排序數據,并以此訓練獎勵模型。最終,通過強化學習算法(如 PPO)優化模型,使其能夠根據獎勵信號生成更符合人類意圖的輸出。也正是基于 RLHF 技術,OpenAI 在 2022 年年底推出了劃時代的 AI 產品 ChatGPT。

      2024 年,技術進一步發展,出現了推理模型,也就是著名的 ChatGPT o1 和 DeepSeek R1 模型,其技術核心是“推理強化學習”(Reasoning RL)。這類模型在接收到任務后,會先進行一段時間的“思考”,生成大量的中間思考 token,然后再輸出最終答案。這種“思考”過程實際上是通過強化學習讓模型自主探索最優解,從而提高答案的準確性。

      2025 年,AI 領域迎來了“ Agent RL ”技術,即基于強化學習的智能體模型。這類模型不僅能夠進行思考和推理,還能調用外部工具,如搜索引擎、瀏覽器等,甚至可以在虛擬環境中操作文件。例如, ChatGPT 的 Deep Research 功能允許用戶指定研究主題,AI 會調用多種工具,進行長時間的信息收集和整理,最終生成詳實的報告。此外,Minus 等產品進一步擴展了 AI 的能力,使其可以在虛擬環境中操作 PDF 文件、編輯文檔等。

      讓我們來審視一下人工智能(AI)的發展趨勢。從 2022 年開始,隨著人工智能通用化時代的到來,我們見證了從推理模型到智能體模型的演變。從產品角度來看,這一過程呈現出兩個顯著的趨勢。

      以 ChatGPT 為例,它能夠迅速響應用戶的簡單問題,例如詢問某個詞的中文或英文表達,幾乎在瞬間給出答案。然而,隨著技術的進步,到了推理模型時代,用戶可以向 AI 提出更復雜的任務,比如計算一道物理題。這時,AI 會花費一分鐘甚至更長時間進行思考,最終給出詳細的解題步驟。而到了智能體模型階段,AI 的能力進一步拓展。用戶可以下達更具挑戰性的指令,比如處理大量文件、批改作業等。例如,我們可以將 200 份作業交給 AI,它會在大約一小時內完成批改任務。從這個角度看,一方面,用戶與 AI 的交互方式發生了變化。在 ChatGPT 時代,用戶需要提供非常詳細且冗長的提示(Prompt),明確描述自己的需求。然而,到了智能體時代,用戶所需表達的內容變得越來越簡潔抽象。另一方面,AI 的輸出也從簡單的文本回答,逐漸轉變為能夠主動采取行動,甚至在電腦中自主完成一系列復雜任務。

      基于這些趨勢,我們可以對未來進行一些展望。從交互的角度來看,我們希望未來的 AI 能夠更加便捷,用戶無需提供過多復雜的指令。從 AI 的能力角度而言,我們期待它能夠承擔更多任務,甚至實現 7×24 小時不間斷工作。例如,我們可以為 AI 提供更多的計算資源,讓它同時處理多個任務,甚至主動為用戶安排事務。理想的情況是,用戶無需明確指示,AI 就能提前完成任務。事實上,這種趨勢已經在一些產品中初現端倪。例如,OpenAI 推出的 ChatGPT Pulse ,其最大的變化在于從被動響應(Reactive)向主動推送(Proactive)的轉變。雖然目前它只是每天向用戶推送一些信息,但這種全新的主動響應模式的出現意味著 AI 可以提前為用戶提供更多形式的內容,比如報表、代碼等。從概念上講,這標志著 AI 從需要用戶明確指示轉變為能夠主動為用戶提供服務。我希望在明年的這個時候,我們能看到更多這種主動型智能體產品的出現。

      回顧 AGI 產品的演變,從最初的對話框式快速響應,到具備“草稿紙”功能的推理模型,再到擁有“虛擬電腦”(Sandbox)的智能體模型,AI 的能力得到了顯著提升。它不僅可以處理復雜的輸入和調用工具,還能在虛擬環境中進行文件存儲和創作,幾乎可以完成人類能夠通過電子設備完成的所有任務。這是一個巨大的進步。

      當然,我們還可以用一個更抽象的例子來說明。在中國,許多老板習慣對下屬說:“小李,你幫我把這件事搞定。”我們希望未來的 AI 也能像這樣,用戶只需簡單地說“幫我把這個搞定”,AI 就能理解并執行任務。這背后涉及許多復雜的技術挑戰。首先,人類的需求往往是模糊的,很難清晰地表達自己的意圖。其次,每個人的需求都是個性化的,這意味著 AI 需要具備高度的定制化能力。最后,AI 需要具備主動規劃的能力,因為有些任務可能需要提前準備。我們期待在未來一年中,這些領域能夠取得更多突破性進展。

      回到我們團隊,一直以來,我們專注于強化學習領域的研究與應用。我們始終懷揣著一個愿景:希望通過強化學習,在智能體技術的前沿打造出卓越的智能體模型、服務和產品。這是我們團隊的核心目標,也是我們不懈追求的方向。因此,我們希望讓大家相信的第一件事是:智能體技術至關重要。

      那么,一個優秀的智能體團隊應該具備哪些特點呢?在人工智能通用化時代,團隊的特質顯得尤為重要。以 OpenAI 為例,其團隊的運作模式令人印象深刻。例如,ChatGPT 的最初版本僅由少數人用一周時間開發出一個演示版本(demo),隨后迅速走紅并發展成一個完整的團隊。Deep Research 項目也是如此,幾位研究員在兩周內完成了一個初步演示,之后便引發了廣泛關注。再比如 Codex 項目,17 名成員用了 7 周時間完成了開發。這些例子充分說明了 AGI 時代的特點:迭代速度快,創新周期短。

      AGI 時代,一切都以驚人的速度發展。我們難以預測哪些產品會成為爆款,但我們可以確定的是,能夠迅速適應這種快速迭代的團隊,將更有可能取得成功。Manus 項目就是一個很好的例子,它僅用了兩個月時間就開發出了一個現象級產品。這表明,一個好的團隊在組織架構上可能需要做出一些改變。我們希望團隊能夠充分整合 AI 技術,擁有完整的技術棧,而不是分散成多個獨立的小組。我們希望團隊能夠快速將任何創意轉化為原型,因為只有通過快速迭代和原型創新,才能在激烈的競爭中脫穎而出。

      2 Agent 為什么需要 RL: ASearcher 的例子

      這部分和大家深入探討一下技術,尤其是智能體與強化學習之間的關系。有人可能會問:“吳老師,我們都認同智能體很重要,也都在努力創造智能體,但強化學習在其中究竟扮演什么角色呢?”確實,如今市面上已經有許多智能體框架,比如字節的 CoZe、LangChain、LangGraph 等,甚至 OpenAI 也推出了自己的智能體框架。在這樣的背景下,強化學習似乎顯得有些多余,畢竟通過簡單的拖拉拽方式就能搭建出智能體的工作流程。那么,為什么我們還需要強化學習呢?

      我認為,核心問題在于智能體面臨的挑戰往往非常復雜,僅靠現有的框架和規則是難以解決的。在我看來,有三個主要問題使得強化學習不可或缺。首先,智能體需要處理不確定性和沖突信息。現實世界中,沖突信息無處不在,即使在公司內部也不例外。例如,當我們搜索“ 阿里 CTO ”時,會發現阿里巴巴集團及其子公司螞蟻集團有許多位 CTO,但其中只有一位是真正的集團 CTO。這種情況下,智能體需要通過進一步的信息收集和判斷來做出準確的決策,而不是簡單地依賴預設的規則。

      其次,智能體需要具備長期記憶和個性化能力。以美團外賣為例,用戶曾表示想吃清淡的食物,但用戶實際上并不喜歡吃蔬菜,而是希望吃清淡的肉類。這種個性化需求和長期記憶的積累很難通過簡單的規則來實現,因為它們需要智能體從大量的歷史記錄中挖掘出用戶的真實偏好。

      最后,當面對海量的工具和模型選擇時,智能體需要具備自主決策的能力。不同的大模型各有優劣,比如 Claude 模型 的上下文窗口較短且成本較高,而 Gemini 雖然上下文窗口長且成本低,但生成的代碼不夠聰明。Reddit 上曾有人分享一個有趣的案例:他發現可以通過讓 Claude 調用 Gemini 來讀取代碼倉庫,再將結果交給 Claude 在 Cursor 中編寫代碼,從而實現優勢互補。這說明,在面對眾多模型和工具時,最佳實踐可能是讓智能體通過強化學習自主探索最優的調用策略,而不是依賴人工編寫的規則。

      除了這些挑戰,我們還關注在線強化學習(Online RL)這一重要趨勢。最近,Cursor 發布了一篇關于在線強化學習的帖子,雖然有些炫技的成分,但其觀點是正確的。當一款產品上線后,通過在線交互不斷迭代是未來的發展方向。然而,與推薦系統時代的數據飛輪不同,強化學習的數據要求極高且難以構造,并非所有上線的服務都能滿足條件。盡管如此,我們希望未來能有一個平臺,讓智能體模型在上線后能夠持續自我迭代、優化,并逐漸實現個性化。這無疑是一個重要的發展趨勢,但具體如何實現,還需要我們共同探索。

      如何通過技術手段解決復雜任務中的不確定性、長期記憶以及工具調用等挑戰。這些問題在實際應用中顯得尤為突出,而強化學習或許能為我們提供一種統一的解決方案。我們希望通過強化學習算法,讓智能體在特定環境中自主探索,從而涌現出強大的泛化能力,以應對各種復雜的產品問題。雖然這些聽起來可能有些抽象,但我想通過一個具體的例子來說明其中的挑戰,以及為什么強化學習是必要的。

      8 月份,我們 AReaL 團隊發布了一個開源項目,名為 ASearcher,這是一個搜索智能體項目。它的任務非常簡單:用戶提出一個問題,它通過網絡搜索并給出答案。然而,即使是這樣看似簡單的問題,也可能隱藏著巨大的挑戰。例如,我們曾提出這樣一個問題:“倫敦奧運會中國獲得了多少枚金牌?”乍一看,這似乎是一個很容易回答的問題,通過簡單的網絡搜索就能找到答案。但事實并非如此。

      倫敦奧運會上,中國代表團最初被報道獲得了 38 枚金牌。然而,后來由于其他選手的興奮劑違規,中國隊的獎牌數發生了變化。具體來說,在女子田徑競走項目中,中國隊原本獲得了第三、第四和第五名。由于原本的金銀牌選手因興奮劑問題被剝奪獎牌資格,中國隊的切陽什姐在 11 年后遞補獲得了金牌。因此,最終的正確答案是中國隊獲得了 39 枚金牌。

      這個例子說明,即使是簡單的問題,也可能涉及復雜的背景信息和動態變化。如果智能體不了解這些背景,僅依賴簡單的搜索結果,很可能會得出錯誤的結論。我們測試了幾款產品,包括 DeepSeek、 ChatGLM 和 ChatGPT 。其中,ChatGLM 和 DeepSeek 給出的答案是 38 枚金牌,而 ChatGPT 雖然發現了 39 枚金牌的線索,但最終仍認為 38 枚是更常見的答案。只有 ChatGPT 的 Agent 模式在開啟 Agent 模式后,給出了正確的答案。

      這表明,如果我們要開發一個專業的搜索產品,并不簡單。如果要通過固定的工作流(Workflow)的方式來搭建 Agent 的話,我們可能需要構建一個復雜的多智能體系統,包括搜索智能體、核查智能體、知識調用智能體、驗證智能體等等非常多的模塊和。這樣的系統不僅復雜,而且可能難以維護和優化。

      然而,如果我們采用強化學習的方法,情況可能會有所不同。以 ASearcher 為例,它基于一個非常簡單的模型,僅包含兩個工具:搜索和網頁點擊。通過強化學習,這個模型能夠在環境中自主探索,不斷迭代以驗證信息的準確性。在我們的測試中,ASearcher 在第五輪搜索中發現了 39 枚金牌的線索,并在經過 60 多次操作(action)后,最終確認了正確答案是 39 金。這一過程不僅展示了強化學習智能體強大的探索和推理能力。

      事實上,我們發現通過強化學習訓練的 32B 模型在多個基準測試中表現優異,準確率提升了 20% 到 30%。此外,強化學習還賦予了模型更強的泛化能力,使其能夠在測試階段靈活調用不同的工具,甚至替換為更強大的模型。最終,這種強化學習驅動的模型在準確度上達到了行業領先水平,甚至超越了一些商用產品。

      總結一下強化學習的優勢。它主要有兩個顯著的好處:一是能夠簡化智能體的工作流程(agent workflow),二是能夠讓人工智能涌現出復雜的多步推理能力。簡單化和涌現性,這是強化學習最為突出的貢獻。

      3 Agent RL 的核心難點:AReal 團隊的努力

      為了實現這些目標,我們做了許多努力。在我看來,要做好強化學習,必須在三個方面下功夫:首先是基礎設施(Infra)和算法,其次是數據,最后是環境。為什么呢?強化學習在實際應用中存在一些痛點。首先,智能體強化學習(Agent RL)的速度非常慢,稍后我會解釋原因。其次,訓練數據稀缺,因為雖然預訓練可以使用網上的數據,但強化學習所需的訓練數據無法直接從網上獲取。最后,智能體需要一個 Sandbox 環境,而構建這樣的環境需要強大的工程能力,這本身就是一個巨大的挑戰。

      我們希望能夠從全棧的角度解決這些問題。先從基礎設施和算法說起。為什么強化學習的速度會很慢?我們先來看看強化學習的算法流程。強化學習大致分為三個步驟:首先是讓模型在環境中交互并生成數據,然后通過獎勵模型計算獎勵值,判斷其是否正確,最后將數據放入訓練環節進行訓練。這個流程聽起來似乎并不復雜,但如果我們跳出這個流程來看,會發現它實際上涉及三種完全不同的計算模塊。例如,預訓練模塊(SFT,Supervised Fine-Tuning)以及評分和數據清洗模塊。這些模塊的計算模式和屬性各不相同,但都被強化學習算法串聯起來,形成了一個復雜的編排問題。這與傳統的計算模式截然不同。無論是預訓練、數據庫還是推理,每一種計算方式都有固定的模式和算法。然而,強化學習的算法是動態變化的,它涵蓋了多種不同的計算模式,例如訓練卡和推理卡的計算模式不同,Sandbox 環境則運行在 CPU 上。因此,強化學習本質上是一個復雜的系統編排問題。

      從技術角度來看,強化學習的復雜性既帶來了挑戰,也帶來了新的機遇。這種機遇被稱為“系統與算法協同設計”(Algorithm and System Co-design)。強化學習算法的創新很容易觸及系統瓶頸,因為強化學習涉及多個系統模塊,任何一個環節出現問題都可能成為瓶頸。為了支持更高效的強化學習算法,我們需要進行系統創新和調整。這種調整不僅涉及基礎設施,還可能帶來新的算法機會。因此,算法團隊和基礎設施團隊之間的協作至關重要。如果兩者能夠相互了解并協同工作,將大大加快創新節奏。

      AReaL 在這方面做了什么?我們首先解決了速度慢的問題。在搜索智能體(Search Agent)的場景中,存在大量需要多次搜索的提示詞(Prompt),而每次搜索都需要調用搜索引擎并處理結果,這使得整個過程非常緩慢。我們做過統計,訓練時一個批次(Batch)的提示詞對應的平均搜索時間大約為 5 到 10 分鐘。這個平均時間看起來似乎并不長,但在訓練過程中,由于某些復雜的提示需要 AI 進行大量探索,同事強化學習也會鼓勵模型進行多步探索,因此一個軌跡最長的搜索時間可能會長達 1 到 2 小時。這種超長的軌跡的存在會讓整個批次數據的完成時長被拉長到 1 到 2 個小時。而如果每個批次的訓練都需要等待這么久,模型每天只能更新 24 次,讓整個訓練任務變得效率極低。此外,這種長尾效應會導致大量 CPU 和 GPU 資源的閑置,因為收集每一個批次的完整數據時,系統必須等待最慢的軌跡完成才能進行下一個批次的數據采集。

      AReaL 通過系統和算法的協同設計解決了這一問題。核心思路是讓推理過程不再等待。我們采用了一種異步方式,讓一部分計算卡持續進行推理,而另一部分則負責訓練。當推理過程中需要更新參數時,系統會暫停推理,更新參數后再繼續。這種設計避免了系統資源的浪費,雖然這也會帶來一些算法上的問題,但通過適當的調整,可以在不損失效果的前提下充分利用 GPU 資源。在搜索智能體的場景中,這種方法可以實現 5 倍的速度提升。如果大家對技術細節感興趣,可以查閱我們的 AReaL 論文,或者觀看我們之前做的直播回放,我在那里詳細討論了這些問題。

      第二是訓練數據的問題。在強化學習中,訓練數據完全依賴于合成數據。舉個例子,正常人提出的問題通常是簡單的,但在測試階段,我們可能會遇到一些復雜且難以處理的問題。這些復雜問題在實際場景中很少出現,即使用戶提出這樣的問題,也很難被挖掘出來。因此,我們面臨的問題是缺乏足夠復雜的訓練樣本。為了解決這一問題,我們在 ASearch 項目中開發了一種“智能體式”的合成數據方法。我們從網頁上抓取答案,因為搜索任務相對簡單,可以從答案出發,逐步構造出更復雜的問題。同時,我們還需要評估這些問題,確保問題與答案的匹配是準確的,并且要對問題的難度進行檢查。對于強化學習而言,問題的難度需要適中,既不能太難,也不能太簡單,這樣才能讓模型在訓練過程中不斷提升。通過這樣的自動化流程,我們構造了訓練數據,使模型能夠持續優化。如果大家對這一過程感興趣,我們的數據生成代碼和腳本已經開源,歡迎大家查閱。

      最后簡單提一下環境的問題。環境的構建是一個復雜的話題,但今天時間有限,我們不再展開討論。不過,我們還有一個開源項目 AWorld,未來我們也會考慮開源更多與 Sandbox 相關的項目,以幫助大家更好地訓練智能體產品。

      4 AReaL 團隊的里程碑回顧與分享

      我們 AReal 團隊從三個角度出發,致力于提供更好的技術,幫助大家開發更優秀的智能體項目和產品。從 2021 年開始,我們便投身于這一領域。當時,我們開發了一個多智能體強化學習框架。2022 年,我們推出了第一個大規模游戲場景下的強化學習分布式訓練框架。2023 年,我們開發了當時最快的 RLHF 框架。到了 2024 年,我們啟動了 AReal 項目,專注于智能體強化學習。如今,我們發現強化學習的發展似乎回到了起點。在 2025 年的當下,強化學習與多年前的游戲場景非常相似:有一個大模型在“玩游戲”,它擁有一個“半沙盒”環境,這個環境可以是瀏覽器,也可以是電腦。它面臨的問題與當年的游戲場景相似:你有一個黑盒(即電腦),它運行緩慢,且無法修改。就像當年無法加速 DOTA 游戲一樣,技術的發展似乎經歷了一個循環。幸運的是,我們從一開始就參與其中,因此我們的系統設計較為靈活,能夠預見強化學習未來的發展方向。

      最后,我想分享一些我們在技術開發過程中總結的經驗。我們一直致力于技術創新,希望走在技術前沿。但這里有兩點需要特別注意:首先,技術需要在合適的時間被感知。例如,在 2022 年之前,強化學習技術很難被大眾感知,這并非大家的錯,而是技術尚未在合適的時機展現其價值。其次,技術需要通過優秀的產品來承載。如果沒有 ChatGPT、推理強化學習或智能體模型的出現,強化學習技術可能仍然不為人知。因此,好的技術需要滿足兩個條件:一是等待合適的時機;二是需要優秀的產品來承載。否則,技術的價值將難以體現。技術本身可能沒有價值,只有通過優秀的產品才能發揮其更大的價值。因此,我常對團隊說,技術一定要產品化,所有技術同學都應該盡可能將技術轉化為產品。我們希望最終能夠開發出支持智能體和在線強化學習(Online RL)的產品。

      最后,我想簡單打個廣告:我們團隊目前正在招聘,歡迎大家聯系我。也歡迎大家關注我們的開源項目、社交媒體賬號。如果有興趣的同學,請將簡歷發送給我。謝謝大家!

      演講嘉賓介紹

      吳翼,清華大學交叉信息院助理教授,博士生導師,前 OpenAI 研究員,AReaL 項目負責人。博士畢業于加州大學伯克利分校,研究方向為強化學習。Google Scholar 引用超過 13000 次,曾獲 NIPS 2016 best paper award,ICRA best demo award finalist, 2025 年 WAIC 云帆獎,以及入選 MIT Technology Review 2025 35 Under 35 Asia Pacific 名單。

      OpenClaw 這波爆火,把“能干活的 Agent”推到大眾面前。那對研發來說意味著什么?AI Coding/SDD 怎么從個人提效走向團隊可控、可復制、可規模化?3 月 4 日晚上 8 點,我們邀請到三位來自淘寶閃購、網易和平安科技的實踐者一起聊:從 OpenClaw 熱度聊到 AI Coding/SDD 的真實落地——怎么變可控、怎么守住質量和安全、怎么跑出團隊級收益。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      上海德云社開業首日,楊議老毛病又犯,郭麒麟選擇明智

      上海德云社開業首日,楊議老毛病又犯,郭麒麟選擇明智

      老屬科普
      2026-03-21 20:36:16
      1-2!英超冷門來襲:10.2億豪門3輪1分 頭號神鋒開場傷退淚灑賽場

      1-2!英超冷門來襲:10.2億豪門3輪1分 頭號神鋒開場傷退淚灑賽場

      狍子歪解體壇
      2026-03-21 22:43:52
      伊朗軍方消息人士:若美國“侵略”哈爾克島將面臨“前所未有的反擊”

      伊朗軍方消息人士:若美國“侵略”哈爾克島將面臨“前所未有的反擊”

      澎湃新聞
      2026-03-22 00:24:02
      伊朗,突然大漲!

      伊朗,突然大漲!

      中國基金報
      2026-03-22 00:10:44
      重溫1999:西方媒體報道的炸館“另一面”,17名軍事顧問遇難?

      重溫1999:西方媒體報道的炸館“另一面”,17名軍事顧問遇難?

      干史人
      2026-02-27 11:00:05
      女足亞洲杯日本1-0澳大利亞奪冠,浜野舞香世界波制勝

      女足亞洲杯日本1-0澳大利亞奪冠,浜野舞香世界波制勝

      懂球帝
      2026-03-21 18:57:16
      最新 | 中國道教協會嚴正聲明!

      最新 | 中國道教協會嚴正聲明!

      天津廣播
      2026-03-21 13:50:28
      殲20總師被除名:長期領導軍工央企,最近照流出,事發全過程披露

      殲20總師被除名:長期領導軍工央企,最近照流出,事發全過程披露

      博士觀察
      2026-03-20 21:41:54
      太難了!我是最早一批回家的人,網友哭訴在浙江十幾天沒找到工作

      太難了!我是最早一批回家的人,網友哭訴在浙江十幾天沒找到工作

      火山詩話
      2026-03-21 11:27:47
      轟炸敘利亞軍事基地,以色列捅了馬蜂窩,阿拉伯國家齊發聲譴責

      轟炸敘利亞軍事基地,以色列捅了馬蜂窩,阿拉伯國家齊發聲譴責

      咣當地球
      2026-03-22 03:38:42
      認清一個人最快的方式:看面相

      認清一個人最快的方式:看面相

      洞讀君
      2026-03-21 21:05:03
      羅塞尼爾:我們一直在輕易丟球,這個責任由我來承擔

      羅塞尼爾:我們一直在輕易丟球,這個責任由我來承擔

      懂球帝
      2026-03-22 04:39:04
      造化弄人!三年光陰流轉,巴薩中場竟上演“高攀不起”的命運反轉

      造化弄人!三年光陰流轉,巴薩中場竟上演“高攀不起”的命運反轉

      田先生籃球
      2026-03-21 19:05:09
      “這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

      “這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

      妍妍教育日記
      2026-03-21 10:05:03
      盧比奧反對撤銷制裁拒訪中國,中美關系迎來新局面

      盧比奧反對撤銷制裁拒訪中國,中美關系迎來新局面

      阿晪美食
      2026-03-20 16:59:12
      一個沒寫過代碼的工程師,用ClaudeCode干掉一個估算團隊的工作量

      一個沒寫過代碼的工程師,用ClaudeCode干掉一個估算團隊的工作量

      DeepTech深科技
      2026-03-19 18:03:20
      剛放狠話就出大事?特朗普炒作臺海問題,美國立刻迎來壞消息

      剛放狠話就出大事?特朗普炒作臺海問題,美國立刻迎來壞消息

      蹲坑看世界
      2026-03-22 03:04:37
      徹底炸鍋!伊朗馬里萬市民點火封路,硬剛革命衛隊與巴斯基民兵

      徹底炸鍋!伊朗馬里萬市民點火封路,硬剛革命衛隊與巴斯基民兵

      老馬拉車莫少裝
      2026-03-21 14:08:22
      日本沒想到,美國也沒想到,現在的中國安徽省,已變成全球焦點

      日本沒想到,美國也沒想到,現在的中國安徽省,已變成全球焦點

      蜉蝣說
      2026-03-21 19:32:36
      澤連斯基坐不住了,急著重啟談判?俄方潑冷水:只要是你就不可能

      澤連斯基坐不住了,急著重啟談判?俄方潑冷水:只要是你就不可能

      補懂事的孩紙
      2026-03-22 03:45:12
      2026-03-22 05:12:49
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12188文章數 51814關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩寧終于涼了?出軌風波影響惡劣

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      旅游
      手機
      教育
      公開課
      軍事航空

      旅游要聞

      【花Young貴陽】春日限定!十里河灘海棠花盛開引客來

      手機要聞

      終端市場集體喊“漲” 手機面板持續走“跌”

      教育要聞

      南師附中舉行2026年31公里步行者行動

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:正考慮逐步降級對伊朗的軍事行動

      無障礙瀏覽 進入關懷版