![]()
演講嘉賓|吳翼 博士
編輯|Kitty
策劃|QCon 全球軟件開發大會
隨著大模型與智能體(Agent)技術的快速發展,強化學習(RL)正成為提升 AI 智能體自主決策能力的關鍵引擎。然而,傳統的 RL 訓練方法面臨計算成本高、數據需求大、系統復雜度高等挑戰,限制了 Agent 的規模化落地。
本文整理自清華大學交叉信息院助理教授,博士生導師,前 OpenAI 研究員吳翼博士在 2025 年 QCon 全球軟件開發大會(上海站)的分享 “智能體時代的強化學習:AReaL 框架與 Agent 最佳實踐”。他在演講中重點介紹了針對 Agent 模型的強化學習訓練系統 AReaL 及其在 Agent 場景下的最佳實踐,并通過真實數據和可復現的代碼,展示 AReaL 如何幫助開發者和企業高效構建智能體系統,并推動 AI Agent 從實驗室走向產業應用。
內容亮點
面向 Agent 的強化學習技術突破;
獨家開源實踐;
前沿 Agent 場景落地。
預告:將于 4 月 16 - 18 召開的 QCon 北京站設計了「Agent Infra 架構設計」專題,將深入探討Agent 架構范式、Agentic-RL 技術、Agent 上下文工程、Agent 可觀測技術等等。如果你也有相關方向案例想要分享,歡迎提交至 https://jinshuju.com/f/Cu32l5。
以下是演講實錄(經 InfoQ 進行不改變原意的編輯整理)。【PPT 不公開】
大家好,我叫吳翼,是清華大學交叉信息院的助理教授。多年來,我一直在從事強化學習及智能體相關的研究。今天,我非常榮幸能夠受邀來到這里,與大家分享我們團隊的工作成果,以及強化學習在大模型時代下智能體領域的一些新進展。
今天,我想和大家分享兩個重要的觀點:
Agent 是 AGI 未來 5 年最重要的事;
強化學習是 Agent 的技術關鍵。
我希望在接下來的分享中,能夠讓大家對這兩個觀點有更深刻的理解。
1 AReaL 團隊要做什么:以 RL 打造 Agent
我們先從強化學習說起。很多人對強化學習的了解始于 AlphaGo。當時,DeepMind 利用強化學習訓練了一個圍棋智能體,擊敗了世界頂尖棋手李世石和柯潔。此后,OpenAI 在 DOTA 等游戲中也利用強化學習取得了顯著成果,擊敗了世界冠軍 OG 戰隊。這些事件讓強化學習逐漸進入大眾視野。然而,在這些早期的應用中,強化學習智能體大多集中在游戲領域。這不禁讓人思考:在大模型驅動的AGI 時代,強化學習與大模型之間究竟有什么樣的聯系?
事實上,強化學習與大模型之間的關系并非一直如此緊密。直到 2020 年至 2022 年期間,情況才發生了顯著變化。2020 年,OpenAI 推出了 GPT-3 的 API。當時的 API 與現在相比,功能上存在很大差異。例如,如果你要求它“用幾句話向一個 6 歲的孩子解釋登月”,它可能無法很好地完成任務。這是因為大模型的訓練基于“下一個詞預測”,而這種訓練方式并不適合執行復雜的指令任務。
這種問題被稱為“指令遵循問題”(instruction following problem)。簡單來說,當我們向模型發出指令時,我們希望它能夠理解并完成任務,而不是僅僅進行下一個詞的預測。在 2020 年,大模型在指令遵循方面表現不佳。但隨著時間的推移,OpenAI 不斷改進 API,使其能夠更好地理解和執行用戶指令。這一改進過程不僅提升了大模型的實用性,也使得強化學習與大模型之間的聯系更加緊密。
解決大模型指令遵循問題的方法是在 2022 年首次推出的 InstructGPT 模型,其核心是“人類反饋強化學習”(Reinforcement Learning from Human Feedback,RLHF)。當時,研究人員發現,盡管大模型具備強大的語言生成能力,但其輸出往往無法精準遵循人類指令,甚至可能生成不符合預期的內容。為了解決這一問題,研究團隊采用了 RLHF 技術,通過人工標注數據來訓練一個獎勵模型,該模型能夠判斷模型輸出是否符合人類指令。
具體而言,研究人員首先收集了大量人類標注的示例數據,這些數據包括任務輸入和期望的輸出結果。隨后,他們利用這些數據對預訓練的 GPT-3 模型進行微調,使其初步具備遵循指令的能力。在此基礎上,團隊進一步收集了模型輸出的偏好排序數據,并以此訓練獎勵模型。最終,通過強化學習算法(如 PPO)優化模型,使其能夠根據獎勵信號生成更符合人類意圖的輸出。也正是基于 RLHF 技術,OpenAI 在 2022 年年底推出了劃時代的 AI 產品 ChatGPT。
2024 年,技術進一步發展,出現了推理模型,也就是著名的 ChatGPT o1 和 DeepSeek R1 模型,其技術核心是“推理強化學習”(Reasoning RL)。這類模型在接收到任務后,會先進行一段時間的“思考”,生成大量的中間思考 token,然后再輸出最終答案。這種“思考”過程實際上是通過強化學習讓模型自主探索最優解,從而提高答案的準確性。
2025 年,AI 領域迎來了“ Agent RL ”技術,即基于強化學習的智能體模型。這類模型不僅能夠進行思考和推理,還能調用外部工具,如搜索引擎、瀏覽器等,甚至可以在虛擬環境中操作文件。例如, ChatGPT 的 Deep Research 功能允許用戶指定研究主題,AI 會調用多種工具,進行長時間的信息收集和整理,最終生成詳實的報告。此外,Minus 等產品進一步擴展了 AI 的能力,使其可以在虛擬環境中操作 PDF 文件、編輯文檔等。
讓我們來審視一下人工智能(AI)的發展趨勢。從 2022 年開始,隨著人工智能通用化時代的到來,我們見證了從推理模型到智能體模型的演變。從產品角度來看,這一過程呈現出兩個顯著的趨勢。
以 ChatGPT 為例,它能夠迅速響應用戶的簡單問題,例如詢問某個詞的中文或英文表達,幾乎在瞬間給出答案。然而,隨著技術的進步,到了推理模型時代,用戶可以向 AI 提出更復雜的任務,比如計算一道物理題。這時,AI 會花費一分鐘甚至更長時間進行思考,最終給出詳細的解題步驟。而到了智能體模型階段,AI 的能力進一步拓展。用戶可以下達更具挑戰性的指令,比如處理大量文件、批改作業等。例如,我們可以將 200 份作業交給 AI,它會在大約一小時內完成批改任務。從這個角度看,一方面,用戶與 AI 的交互方式發生了變化。在 ChatGPT 時代,用戶需要提供非常詳細且冗長的提示(Prompt),明確描述自己的需求。然而,到了智能體時代,用戶所需表達的內容變得越來越簡潔抽象。另一方面,AI 的輸出也從簡單的文本回答,逐漸轉變為能夠主動采取行動,甚至在電腦中自主完成一系列復雜任務。
基于這些趨勢,我們可以對未來進行一些展望。從交互的角度來看,我們希望未來的 AI 能夠更加便捷,用戶無需提供過多復雜的指令。從 AI 的能力角度而言,我們期待它能夠承擔更多任務,甚至實現 7×24 小時不間斷工作。例如,我們可以為 AI 提供更多的計算資源,讓它同時處理多個任務,甚至主動為用戶安排事務。理想的情況是,用戶無需明確指示,AI 就能提前完成任務。事實上,這種趨勢已經在一些產品中初現端倪。例如,OpenAI 推出的 ChatGPT Pulse ,其最大的變化在于從被動響應(Reactive)向主動推送(Proactive)的轉變。雖然目前它只是每天向用戶推送一些信息,但這種全新的主動響應模式的出現意味著 AI 可以提前為用戶提供更多形式的內容,比如報表、代碼等。從概念上講,這標志著 AI 從需要用戶明確指示轉變為能夠主動為用戶提供服務。我希望在明年的這個時候,我們能看到更多這種主動型智能體產品的出現。
回顧 AGI 產品的演變,從最初的對話框式快速響應,到具備“草稿紙”功能的推理模型,再到擁有“虛擬電腦”(Sandbox)的智能體模型,AI 的能力得到了顯著提升。它不僅可以處理復雜的輸入和調用工具,還能在虛擬環境中進行文件存儲和創作,幾乎可以完成人類能夠通過電子設備完成的所有任務。這是一個巨大的進步。
當然,我們還可以用一個更抽象的例子來說明。在中國,許多老板習慣對下屬說:“小李,你幫我把這件事搞定。”我們希望未來的 AI 也能像這樣,用戶只需簡單地說“幫我把這個搞定”,AI 就能理解并執行任務。這背后涉及許多復雜的技術挑戰。首先,人類的需求往往是模糊的,很難清晰地表達自己的意圖。其次,每個人的需求都是個性化的,這意味著 AI 需要具備高度的定制化能力。最后,AI 需要具備主動規劃的能力,因為有些任務可能需要提前準備。我們期待在未來一年中,這些領域能夠取得更多突破性進展。
回到我們團隊,一直以來,我們專注于強化學習領域的研究與應用。我們始終懷揣著一個愿景:希望通過強化學習,在智能體技術的前沿打造出卓越的智能體模型、服務和產品。這是我們團隊的核心目標,也是我們不懈追求的方向。因此,我們希望讓大家相信的第一件事是:智能體技術至關重要。
那么,一個優秀的智能體團隊應該具備哪些特點呢?在人工智能通用化時代,團隊的特質顯得尤為重要。以 OpenAI 為例,其團隊的運作模式令人印象深刻。例如,ChatGPT 的最初版本僅由少數人用一周時間開發出一個演示版本(demo),隨后迅速走紅并發展成一個完整的團隊。Deep Research 項目也是如此,幾位研究員在兩周內完成了一個初步演示,之后便引發了廣泛關注。再比如 Codex 項目,17 名成員用了 7 周時間完成了開發。這些例子充分說明了 AGI 時代的特點:迭代速度快,創新周期短。
AGI 時代,一切都以驚人的速度發展。我們難以預測哪些產品會成為爆款,但我們可以確定的是,能夠迅速適應這種快速迭代的團隊,將更有可能取得成功。Manus 項目就是一個很好的例子,它僅用了兩個月時間就開發出了一個現象級產品。這表明,一個好的團隊在組織架構上可能需要做出一些改變。我們希望團隊能夠充分整合 AI 技術,擁有完整的技術棧,而不是分散成多個獨立的小組。我們希望團隊能夠快速將任何創意轉化為原型,因為只有通過快速迭代和原型創新,才能在激烈的競爭中脫穎而出。
2 Agent 為什么需要 RL: ASearcher 的例子
這部分和大家深入探討一下技術,尤其是智能體與強化學習之間的關系。有人可能會問:“吳老師,我們都認同智能體很重要,也都在努力創造智能體,但強化學習在其中究竟扮演什么角色呢?”確實,如今市面上已經有許多智能體框架,比如字節的 CoZe、LangChain、LangGraph 等,甚至 OpenAI 也推出了自己的智能體框架。在這樣的背景下,強化學習似乎顯得有些多余,畢竟通過簡單的拖拉拽方式就能搭建出智能體的工作流程。那么,為什么我們還需要強化學習呢?
我認為,核心問題在于智能體面臨的挑戰往往非常復雜,僅靠現有的框架和規則是難以解決的。在我看來,有三個主要問題使得強化學習不可或缺。首先,智能體需要處理不確定性和沖突信息。現實世界中,沖突信息無處不在,即使在公司內部也不例外。例如,當我們搜索“ 阿里 CTO ”時,會發現阿里巴巴集團及其子公司螞蟻集團有許多位 CTO,但其中只有一位是真正的集團 CTO。這種情況下,智能體需要通過進一步的信息收集和判斷來做出準確的決策,而不是簡單地依賴預設的規則。
其次,智能體需要具備長期記憶和個性化能力。以美團外賣為例,用戶曾表示想吃清淡的食物,但用戶實際上并不喜歡吃蔬菜,而是希望吃清淡的肉類。這種個性化需求和長期記憶的積累很難通過簡單的規則來實現,因為它們需要智能體從大量的歷史記錄中挖掘出用戶的真實偏好。
最后,當面對海量的工具和模型選擇時,智能體需要具備自主決策的能力。不同的大模型各有優劣,比如 Claude 模型 的上下文窗口較短且成本較高,而 Gemini 雖然上下文窗口長且成本低,但生成的代碼不夠聰明。Reddit 上曾有人分享一個有趣的案例:他發現可以通過讓 Claude 調用 Gemini 來讀取代碼倉庫,再將結果交給 Claude 在 Cursor 中編寫代碼,從而實現優勢互補。這說明,在面對眾多模型和工具時,最佳實踐可能是讓智能體通過強化學習自主探索最優的調用策略,而不是依賴人工編寫的規則。
除了這些挑戰,我們還關注在線強化學習(Online RL)這一重要趨勢。最近,Cursor 發布了一篇關于在線強化學習的帖子,雖然有些炫技的成分,但其觀點是正確的。當一款產品上線后,通過在線交互不斷迭代是未來的發展方向。然而,與推薦系統時代的數據飛輪不同,強化學習的數據要求極高且難以構造,并非所有上線的服務都能滿足條件。盡管如此,我們希望未來能有一個平臺,讓智能體模型在上線后能夠持續自我迭代、優化,并逐漸實現個性化。這無疑是一個重要的發展趨勢,但具體如何實現,還需要我們共同探索。
如何通過技術手段解決復雜任務中的不確定性、長期記憶以及工具調用等挑戰。這些問題在實際應用中顯得尤為突出,而強化學習或許能為我們提供一種統一的解決方案。我們希望通過強化學習算法,讓智能體在特定環境中自主探索,從而涌現出強大的泛化能力,以應對各種復雜的產品問題。雖然這些聽起來可能有些抽象,但我想通過一個具體的例子來說明其中的挑戰,以及為什么強化學習是必要的。
8 月份,我們 AReaL 團隊發布了一個開源項目,名為 ASearcher,這是一個搜索智能體項目。它的任務非常簡單:用戶提出一個問題,它通過網絡搜索并給出答案。然而,即使是這樣看似簡單的問題,也可能隱藏著巨大的挑戰。例如,我們曾提出這樣一個問題:“倫敦奧運會中國獲得了多少枚金牌?”乍一看,這似乎是一個很容易回答的問題,通過簡單的網絡搜索就能找到答案。但事實并非如此。
倫敦奧運會上,中國代表團最初被報道獲得了 38 枚金牌。然而,后來由于其他選手的興奮劑違規,中國隊的獎牌數發生了變化。具體來說,在女子田徑競走項目中,中國隊原本獲得了第三、第四和第五名。由于原本的金銀牌選手因興奮劑問題被剝奪獎牌資格,中國隊的切陽什姐在 11 年后遞補獲得了金牌。因此,最終的正確答案是中國隊獲得了 39 枚金牌。
這個例子說明,即使是簡單的問題,也可能涉及復雜的背景信息和動態變化。如果智能體不了解這些背景,僅依賴簡單的搜索結果,很可能會得出錯誤的結論。我們測試了幾款產品,包括 DeepSeek、 ChatGLM 和 ChatGPT 。其中,ChatGLM 和 DeepSeek 給出的答案是 38 枚金牌,而 ChatGPT 雖然發現了 39 枚金牌的線索,但最終仍認為 38 枚是更常見的答案。只有 ChatGPT 的 Agent 模式在開啟 Agent 模式后,給出了正確的答案。
這表明,如果我們要開發一個專業的搜索產品,并不簡單。如果要通過固定的工作流(Workflow)的方式來搭建 Agent 的話,我們可能需要構建一個復雜的多智能體系統,包括搜索智能體、核查智能體、知識調用智能體、驗證智能體等等非常多的模塊和。這樣的系統不僅復雜,而且可能難以維護和優化。
然而,如果我們采用強化學習的方法,情況可能會有所不同。以 ASearcher 為例,它基于一個非常簡單的模型,僅包含兩個工具:搜索和網頁點擊。通過強化學習,這個模型能夠在環境中自主探索,不斷迭代以驗證信息的準確性。在我們的測試中,ASearcher 在第五輪搜索中發現了 39 枚金牌的線索,并在經過 60 多次操作(action)后,最終確認了正確答案是 39 金。這一過程不僅展示了強化學習智能體強大的探索和推理能力。
事實上,我們發現通過強化學習訓練的 32B 模型在多個基準測試中表現優異,準確率提升了 20% 到 30%。此外,強化學習還賦予了模型更強的泛化能力,使其能夠在測試階段靈活調用不同的工具,甚至替換為更強大的模型。最終,這種強化學習驅動的模型在準確度上達到了行業領先水平,甚至超越了一些商用產品。
總結一下強化學習的優勢。它主要有兩個顯著的好處:一是能夠簡化智能體的工作流程(agent workflow),二是能夠讓人工智能涌現出復雜的多步推理能力。簡單化和涌現性,這是強化學習最為突出的貢獻。
3 Agent RL 的核心難點:AReal 團隊的努力
為了實現這些目標,我們做了許多努力。在我看來,要做好強化學習,必須在三個方面下功夫:首先是基礎設施(Infra)和算法,其次是數據,最后是環境。為什么呢?強化學習在實際應用中存在一些痛點。首先,智能體強化學習(Agent RL)的速度非常慢,稍后我會解釋原因。其次,訓練數據稀缺,因為雖然預訓練可以使用網上的數據,但強化學習所需的訓練數據無法直接從網上獲取。最后,智能體需要一個 Sandbox 環境,而構建這樣的環境需要強大的工程能力,這本身就是一個巨大的挑戰。
我們希望能夠從全棧的角度解決這些問題。先從基礎設施和算法說起。為什么強化學習的速度會很慢?我們先來看看強化學習的算法流程。強化學習大致分為三個步驟:首先是讓模型在環境中交互并生成數據,然后通過獎勵模型計算獎勵值,判斷其是否正確,最后將數據放入訓練環節進行訓練。這個流程聽起來似乎并不復雜,但如果我們跳出這個流程來看,會發現它實際上涉及三種完全不同的計算模塊。例如,預訓練模塊(SFT,Supervised Fine-Tuning)以及評分和數據清洗模塊。這些模塊的計算模式和屬性各不相同,但都被強化學習算法串聯起來,形成了一個復雜的編排問題。這與傳統的計算模式截然不同。無論是預訓練、數據庫還是推理,每一種計算方式都有固定的模式和算法。然而,強化學習的算法是動態變化的,它涵蓋了多種不同的計算模式,例如訓練卡和推理卡的計算模式不同,Sandbox 環境則運行在 CPU 上。因此,強化學習本質上是一個復雜的系統編排問題。
從技術角度來看,強化學習的復雜性既帶來了挑戰,也帶來了新的機遇。這種機遇被稱為“系統與算法協同設計”(Algorithm and System Co-design)。強化學習算法的創新很容易觸及系統瓶頸,因為強化學習涉及多個系統模塊,任何一個環節出現問題都可能成為瓶頸。為了支持更高效的強化學習算法,我們需要進行系統創新和調整。這種調整不僅涉及基礎設施,還可能帶來新的算法機會。因此,算法團隊和基礎設施團隊之間的協作至關重要。如果兩者能夠相互了解并協同工作,將大大加快創新節奏。
AReaL 在這方面做了什么?我們首先解決了速度慢的問題。在搜索智能體(Search Agent)的場景中,存在大量需要多次搜索的提示詞(Prompt),而每次搜索都需要調用搜索引擎并處理結果,這使得整個過程非常緩慢。我們做過統計,訓練時一個批次(Batch)的提示詞對應的平均搜索時間大約為 5 到 10 分鐘。這個平均時間看起來似乎并不長,但在訓練過程中,由于某些復雜的提示需要 AI 進行大量探索,同事強化學習也會鼓勵模型進行多步探索,因此一個軌跡最長的搜索時間可能會長達 1 到 2 小時。這種超長的軌跡的存在會讓整個批次數據的完成時長被拉長到 1 到 2 個小時。而如果每個批次的訓練都需要等待這么久,模型每天只能更新 24 次,讓整個訓練任務變得效率極低。此外,這種長尾效應會導致大量 CPU 和 GPU 資源的閑置,因為收集每一個批次的完整數據時,系統必須等待最慢的軌跡完成才能進行下一個批次的數據采集。
AReaL 通過系統和算法的協同設計解決了這一問題。核心思路是讓推理過程不再等待。我們采用了一種異步方式,讓一部分計算卡持續進行推理,而另一部分則負責訓練。當推理過程中需要更新參數時,系統會暫停推理,更新參數后再繼續。這種設計避免了系統資源的浪費,雖然這也會帶來一些算法上的問題,但通過適當的調整,可以在不損失效果的前提下充分利用 GPU 資源。在搜索智能體的場景中,這種方法可以實現 5 倍的速度提升。如果大家對技術細節感興趣,可以查閱我們的 AReaL 論文,或者觀看我們之前做的直播回放,我在那里詳細討論了這些問題。
第二是訓練數據的問題。在強化學習中,訓練數據完全依賴于合成數據。舉個例子,正常人提出的問題通常是簡單的,但在測試階段,我們可能會遇到一些復雜且難以處理的問題。這些復雜問題在實際場景中很少出現,即使用戶提出這樣的問題,也很難被挖掘出來。因此,我們面臨的問題是缺乏足夠復雜的訓練樣本。為了解決這一問題,我們在 ASearch 項目中開發了一種“智能體式”的合成數據方法。我們從網頁上抓取答案,因為搜索任務相對簡單,可以從答案出發,逐步構造出更復雜的問題。同時,我們還需要評估這些問題,確保問題與答案的匹配是準確的,并且要對問題的難度進行檢查。對于強化學習而言,問題的難度需要適中,既不能太難,也不能太簡單,這樣才能讓模型在訓練過程中不斷提升。通過這樣的自動化流程,我們構造了訓練數據,使模型能夠持續優化。如果大家對這一過程感興趣,我們的數據生成代碼和腳本已經開源,歡迎大家查閱。
最后簡單提一下環境的問題。環境的構建是一個復雜的話題,但今天時間有限,我們不再展開討論。不過,我們還有一個開源項目 AWorld,未來我們也會考慮開源更多與 Sandbox 相關的項目,以幫助大家更好地訓練智能體產品。
4 AReaL 團隊的里程碑回顧與分享
我們 AReal 團隊從三個角度出發,致力于提供更好的技術,幫助大家開發更優秀的智能體項目和產品。從 2021 年開始,我們便投身于這一領域。當時,我們開發了一個多智能體強化學習框架。2022 年,我們推出了第一個大規模游戲場景下的強化學習分布式訓練框架。2023 年,我們開發了當時最快的 RLHF 框架。到了 2024 年,我們啟動了 AReal 項目,專注于智能體強化學習。如今,我們發現強化學習的發展似乎回到了起點。在 2025 年的當下,強化學習與多年前的游戲場景非常相似:有一個大模型在“玩游戲”,它擁有一個“半沙盒”環境,這個環境可以是瀏覽器,也可以是電腦。它面臨的問題與當年的游戲場景相似:你有一個黑盒(即電腦),它運行緩慢,且無法修改。就像當年無法加速 DOTA 游戲一樣,技術的發展似乎經歷了一個循環。幸運的是,我們從一開始就參與其中,因此我們的系統設計較為靈活,能夠預見強化學習未來的發展方向。
最后,我想分享一些我們在技術開發過程中總結的經驗。我們一直致力于技術創新,希望走在技術前沿。但這里有兩點需要特別注意:首先,技術需要在合適的時間被感知。例如,在 2022 年之前,強化學習技術很難被大眾感知,這并非大家的錯,而是技術尚未在合適的時機展現其價值。其次,技術需要通過優秀的產品來承載。如果沒有 ChatGPT、推理強化學習或智能體模型的出現,強化學習技術可能仍然不為人知。因此,好的技術需要滿足兩個條件:一是等待合適的時機;二是需要優秀的產品來承載。否則,技術的價值將難以體現。技術本身可能沒有價值,只有通過優秀的產品才能發揮其更大的價值。因此,我常對團隊說,技術一定要產品化,所有技術同學都應該盡可能將技術轉化為產品。我們希望最終能夠開發出支持智能體和在線強化學習(Online RL)的產品。
最后,我想簡單打個廣告:我們團隊目前正在招聘,歡迎大家聯系我。也歡迎大家關注我們的開源項目、社交媒體賬號。如果有興趣的同學,請將簡歷發送給我。謝謝大家!
演講嘉賓介紹
吳翼,清華大學交叉信息院助理教授,博士生導師,前 OpenAI 研究員,AReaL 項目負責人。博士畢業于加州大學伯克利分校,研究方向為強化學習。Google Scholar 引用超過 13000 次,曾獲 NIPS 2016 best paper award,ICRA best demo award finalist, 2025 年 WAIC 云帆獎,以及入選 MIT Technology Review 2025 35 Under 35 Asia Pacific 名單。
OpenClaw 這波爆火,把“能干活的 Agent”推到大眾面前。那對研發來說意味著什么?AI Coding/SDD 怎么從個人提效走向團隊可控、可復制、可規模化?3 月 4 日晚上 8 點,我們邀請到三位來自淘寶閃購、網易和平安科技的實踐者一起聊:從 OpenClaw 熱度聊到 AI Coding/SDD 的真實落地——怎么變可控、怎么守住質量和安全、怎么跑出團隊級收益。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.