網易首頁 > 網易號 > 正文申請入駐

一個強化學習信仰者的十年｜甲子光年

2025-12-30 13:05:27　來源: 甲子光年

北京舉報

分享至

從斯坦福到Meta再到Pokee AI，一個強化學習信仰者在非共識中的長期下注。

作者｜蘇霍伊

編輯｜王博

在強化學習（Reinforcement Learning，簡稱RL）的世界里，每一個智能體（Agent）都遵循同一條冷靜而殘酷的準則：在不確定的環境中，最大化長期的期望回報。

朱哲清的目標亦如此。

過去十年，他幾乎把全部精力押在一個重要但并不太討巧的問題上：如何讓機器更聰明地學習。從斯坦福大學博士到Meta AI應用強化學習團隊負責人，再到創立Pokee AI，朱哲清的每次選擇，都是緩慢而堅定的策略更新——不追逐短期回報，只向著“第一性原理”逼近。

這個過程可以概括為四個字：逆勢押注。

當大模型以預訓練和參數規模卷走幾乎全部行業注意力時，朱哲清選擇繼續留在強化學習這條更冷、更慢、也更難被證明正確的路上。這條路并不缺高光時刻：AlphaGo曾讓強化學習站上舞臺中央；但更多時候，它面對的是長期被忽視的低谷：仿真環境的天花板、真實世界不可承受的試錯成本，以及一次次“這條路行不通”的質疑。

朱哲清很清楚，強化學習的真正瓶頸，除了算法本身，更在于環境。

真實世界太慢、太貴，也太不可控。一次策略試錯，可能帶來業務指標波動、真實用戶流失甚至系統級事故。這也令強化學習長期被困在尷尬的兩級：一端是游戲和模擬器這樣“過于干凈”的世界，另一端則是工業系統中被層層約束、難以探索的局部優化。強化學習不缺方法，缺的是既足夠復雜、又允許反復失敗的練兵場。它需要足夠復雜，包含人類語言、知識、工具調用和長程依賴；同時又很安全，讓agent能在里面失敗成百上千次而不用付出現實代價。

直到InstructGPT出現。

這是OpenAI在2022年提出的一種大模型后訓練范式，它首次用“人類語言反饋（RLHF）”構造了一個近似真實世界的環境，為強化學習提供了可規模化和驗證的獎勵機制（Verifiable Reward）。

只是讓業界真正接受強化學習，仍需時間。

2024年10月，朱哲清離開Meta創辦Pokee AI。他希望用強化學習，構建具備“卓越推理、規劃與工具調用能力的新一代AI Agent”。當時許多投資人都認為這條路不“make sense”。在Scaling Law（規模定律）橫掃一切的時期，去做極其不穩定、昂貴且難以控的RL Agent，聽起來像是技術派的“天方夜譚” 。

但事情的改變也在悄然發生。

2025年3月，強化學習領域的奠基者之一理查德·薩頓（Richard Sutton）獲得圖靈獎。這是計算機科學最高榮譽第一次如此明確地授予一位強化學習代表人物。對外界而言，這是一項個人成就，但在強化學習研究者看來，它更像一次遲到的正名。

另一條來自工程實踐的證據開始浮現。今年年初，以DeepSeek-R1為代表的一批新一代推理模型，在公開技術報告和訓練策略中，反復強調了強化學習在“復雜推理”“長程規劃”中的關鍵作用。強化學習不再試圖取代大模型，而是開始與大模型形成一種結構性的互補關系。

2025年7月，Pokee AI完成1200萬美元的種子輪融資。“幾乎之前拒絕我的投資人都找回來了。”朱哲清告訴「甲子光年」。

他說這句話時并沒有帶情緒，而是十分冷靜，畢竟這種“非共識”的處境，朱哲清已經自處了十年。他也始終像他所研究的強化學習一樣：在充滿噪音的環境中，執拗地尋找著通往AGI的最優路徑。

Pokee AI創始人、Meta應用強化學習部門前負責人朱哲清，圖片來源：2025甲子引力年終盛典

1.“Agent應像嬰兒一樣學習”

監督學習（Supervised Learning）更像是“照著答案學”的機制：每次輸入，都配有明確的正確答案。而強化學習是主動學習，它在與環境的交互中，通過獎懲機制逐步形成決策。

“理查德·薩頓（Richard Sutton）的觀點是，嬰兒不存在真正意義上的“模仿學習”，實際上更接近目標驅動的探索過程：他們為了抓到玩具環境中不斷嘗試各種動作，期間跌倒了帶來負反饋，抓到了帶來正反饋。”朱哲清說。薩頓是加拿大計算機科學家，也是強化學習的奠基者之一，他在2025年獲得了圖靈獎。

強化學習開始走進大眾視野是在2016年，AlphaGo擊敗了韓國職業九段棋手李世石，也擊中了當時還是大二學生的朱哲清。

AlphaGo VS 李世石，圖片來源：谷歌直播截圖

他意識到，只學人類棋譜（監督學習）是“不可能達到AlphaGo的智能高度的”。“一定得去和世界主動交互，通過探索和獎懲，才能學到那些人類沒見過的、超越人類能力的AI知識”。這種判斷下，朱哲清也確定了科研方向，即使當時強化學習因為部署成本高、收益不確定一直被視為“科研玩具”。

雖有心理準備，但現實的“冷水”還是給了這個熱忱青年超乎想象的“一棒”。

2017年7月，提前完成本科學業的朱哲清加入了Facebook（現稱Meta）。三年后，公司的應用強化學習組正處于“中道崩殂”的邊緣。這個橫跨各部門、擁有20人規模的組，接了將近30個項目，因為幾乎沒有什么落地，業務數據各個方面都“很糟糕”。人才流失，經費被持續削減。當朱哲清主動請纓接手這個組時，已是一個只剩3個組員、Director幾乎要將其徹底砍掉的存在。

“如果那個組發展得好，也輪不到我去帶。” 話雖這么說，但朱哲清還是以一種實戰派的清醒接受了這個“救火隊員”般的角色。他很清楚，在一個極致看重營收數據（Revenue）和用戶影響力的商業巨頭，強化學習不能再躲在學術論文后面談理想，它必須用利潤說話。

朱哲清接手后的第一件事，就是做“減法”。他砍掉絕大多數虛無縹緲的項目，將全部精力鎖死在兩三個核心落地點上。

同時他也主導招聘了不少從微軟研究院和大學出來科研人員，“他們的學術背景很扎實。”朱哲清說。但為了爭取一次A/B測試，這群研究員不得不花精力幫產品組干那些最基礎的、工程化的代碼雜活，甚至把別人的活也干了，“模型才得以真正落地”。

在被“邊緣化”的處境中，他和團隊主導了生產級強化學習平臺Pearl。此前Meta龐大的廣告系統預算調控依賴于傳統的PID控制器（比例-積分-微分控制），這套算法雖穩定且可預測，但其在極其復雜的動態博弈環境中的靈活性卻差強人意。

為了破局，朱哲清沒有選擇激進地全盤替換，轉而引入了類似Meta Policy（元策略）的框架。即保留可解釋性強的控制器結構，但將其中的關鍵參數（Multiplier）交由強化學習訓練。“我們不希望看到模型決策的改變給用戶預算帶來震蕩，這在商業上是災難性的。”他解釋道。通過“受控結構”內的參數學習，強化學習展示出不錯的泛化能力。新模型先在模擬環境中完成驗證，隨后在真實環境測試中帶來轉化指標的明顯提升。

這場“翻身仗”打得漂亮。

朱哲清用硬性業務指標，為強化學習在贏得了一張入場券。他形容在Meta內部推廣強化學習更像是在做一單“企業級銷售”：先拿下一個關鍵客戶，才能打開局面。廣告預算正是這樣一個場景，在保證支出平衡的前提下，強化學習的轉化效果優于原先的PID方法。有了這個業績，其他大客戶就全跟上來了。他半開玩笑地對「甲子光年」說：“至少其他部門愿意聽我講強化學習到底能干什么了。”

在Meta組里取得商業提升的同時，朱哲清在斯坦福大學的博士生涯卻進入了“自我修正期” 。他發現自己在產業“把事情做成”的能力，并不等于已經搭成思維框架：很多系統之所以有效，是因為假設還未被真正“戳破”。

在博士階段，朱哲清反復思考強化學習的底層前提：Big World Hypothesis（大世界假設）。薩頓曾提出一個重要判斷：真實世界是開放且不可窮舉的。任何僅依賴靜態數據進行訓練的學習方法，都不可避免地面臨結構性的能力上限。

與此同時，ChatGPT的出現讓這種矛盾更加尖銳。一個不可回避的事實就擺在強化學習研究人員的面前：如果一個模型僅靠預訓練就能覆蓋絕大多數經驗分布，那強化學習一直強調的探索和在線交互，還有沒有意義？

朱哲清從Meta的廣告業務中觀察到：即使這類系統擁有近乎無限的真實數據，但當他們試圖用這些數據訓練模型去做三步、四步以上的長鏈條預測（Multi-step prediction）時，結果往往是災難性的：一旦推薦系統的策略發生微調，預訓練模型僅憑靜態數據對未來路徑的判斷就會完全失效。

“無論數據集多牛、規模多大，人類總能通過不同的拆解和重組，構建出偏離原始分布的新組合（Compositional Structure）。”朱哲清說，“舉例而言，即使模型見過句子A和句子B，但當你把A的前半段和B的后半段拼在一起，這種新結構帶來的反饋是‘背誦數據’的模型無法預判的。”

他的邏輯也因此實現了自洽。大模型的盡頭比更多參數更重要的是“適應能力”（Adaptability）。“目前的語言模型只是在單向輸出，缺乏與環境交互反饋的過程，想在模型“吃不進去”的偏離分布數據面前做對決策，核心路徑就是強化學習。”

2.“ 99%的MCP接口只賺了吆喝”

這也是朱哲清創立Pokee AI的底層邏輯。

2024年下半年，AI創業潮正值喧囂。當時的主流觀點是：只要模型足夠大，推理能力會自動解決，不需要專門的工具調用模型。這一共識讓他做“RL Agent”的想法顯得格格不入。

由于算力資源有限，朱哲清在融資初期只能拿出一個用自己的NVIDIA RTX 4090顯卡跑出來的模型Demo。Demo雖有初步調用工具的能力，但當時Scaling Law風頭正勁，因此投資方的質疑也來得很直接：如果模型足夠大，“純靠scaling law讓它自己學”就做到像人一樣直接打開電腦上的谷歌地圖、讀取畫面并完成導航這類的任務。為什么還需要另一套專門做工具調用的強化學習架構？

對此朱哲清的回應始終明確。他的理解是與其不斷擴大模型去承載越來越多的信息，不如通過工具調用主動縮減模型需要理解和處理的復雜度。其在效率和可控性上都是一條更現實的路徑，跳出了對模型規模無限增長的“迷信”。

這種“非共識”直到2025年年初DeepSeek發布后才被認可。

在市場情緒重新轉向之后，投資人們再次找上了朱哲清。但他的反應很淡定。相比“如何把強化學習用得更好”，他開始把更多精力放在另一個問題上：Agent的整體架構是否還需要沿用過去的拆分方式。

朱哲清開始在Pokee AI內部推行一體化模型（Integrated Model），“我們內部在做實驗時發現，一體化的模型其實效果更好。讓我開始質疑行業內盛行的RAG（檢索增強生成）路徑。”

他認為，RAG這種將長文本切割、向量化再檢索的范式，本質上是對模型長上下文能力不足的“臨時性妥協”。具體體現在當信息被切碎并轉化成Embedding（嵌入向量）時，會產生大約20%到 30%的信息損耗（Information Loss）。

隨著模型長上下文能力的爆發，Agent不再需要通過“數據切割”來規避記憶限制。“如果上下文窗口已經足夠長，能一次性放下這些內容，為什么還要先把它們切碎？” 相比于RAG帶來的不可逆損耗，朱哲清更傾向于讓Agent直接在完整上下文中進行推理和決策。

但從判斷到落地，從架構選擇到真正把系統跑起來，路徑并不平坦。他開玩笑說，在Pokee AI的創業過程中，自己踩過的坑比獲得的融資還要多。

最典型的一個坑就是關于MCP（Model Context Protocol）。MCP是一種面向大模型和Agent的上下文與工具接入協議，由Anthropic在2024年提出。簡單來說，MCP就像是為AI打造的 “USB接口”。

MCP圖解，圖片來源：modelcontextprotocol.io

Pokee AI團隊也一度對MCP寄予厚望。

“雖然MCP協議現在看似火熱，號稱建立了統一標準且連接了無數工具，但在真實落地中，開源社區里99%的MCP工具都是不可用的。”朱哲清回憶道，“很多可能就是為了賺一波吆喝，放個接口出來，之后就沒人維護了。”

在他看來，問題不在MCP本身，是整個工具生態的底層假設出了偏差。當前大多數工具是為人而非為AI設計的，這種錯位讓模型調用工具時頻繁出現幻覺。

現有API中充斥著大量對模型“不友好”的ID，如User ID、Transaction ID等。這些標識在系統層面是有效的，但對模型而言并不攜帶語義信息，只是一串無法理解的符號。模型在調用工具時，只能依靠“瞎猜”。這種由于語義斷裂造成的執行失效，也讓朱哲清察覺到目前Agent難以落地的根源在于缺乏AI原生工具（AI Native Tools），“我們正在試圖用一套完全為人類設計的‘舊時代工具’，去喂養一個需要結構化語義輸入的‘新時代 AI’。”

他更傾向于對現有工具進行二次封裝，將其轉化為對模型更友好的形式，并結合強化學習，讓Agent在任務過程中進行端到端的規劃，“Pokee AI要做的是讓AI在具體任務中，自己探索出最優的工具組合。”

在朱哲清的設想中，未來的Agent無需依賴用戶手動輸入賬號密碼、登錄各類網站，它將作為一種攜帶用戶“數字指紋”的身份代理，在協議層完成交互。

3.“架構是架構，算法是算法”

這種對工具生態“翻修”的做法，讓朱哲清在2024年的喧囂中略顯孤獨。

直到今年的RLC （Reinforcement Learning Conference，強化學習會議）期間，他又見到了理查德·薩頓。

阿爾伯塔大學計算機科學系教授、圖靈獎得主理查德·薩頓（Richard Sutton），圖片來源：Richard Sutton個人網站

“薩頓是最不信LLM和現在這套AI路徑的人。”朱哲清笑著回憶。在薩頓看來，現在的Transformer架構和自回歸（Auto-regressive）訓練方式充滿了缺陷，因為它們無法進行真正的“長期持續學習（Continual Learning）”。

當全行業都在為強化學習拯救了大模型而歡呼時，身為“開山人”的薩頓卻認為，這種把強化學習當作預訓練模型“補丁”的做法，從一開始就結束了智能的本質。他甚至認為“預訓練（Pre-training）就不存在該”，智能應該在“與環境的博弈中實時誕生”。

朱哲清則選擇了一條更“彈性”的路線：他保留Transformer的基礎架構，因為預訓練模型提供了人類行文的基礎“模板”；但這層“皮膚”之下的“骨架”——決策與環境適應的能力，則在后訓練（Post-training）階段通過強化學習逐步構建。“架構是架構，算法是算法。”他這樣區分兩者的角色。

這也為什么Pokee AI走的是“混合路線（Hybrid Path）”。朱哲清不打算從零訓練一個沒有常識的強化學習模型，他要做的，是在大模型的框架內，引入強化學習引擎，讓Agent具備在未知工具、未知工作流中“邊做邊學”的能力。

這很符合朱哲清的職業慣性，他似乎總是在走一條“難而正確”的路。這種執拗甚至延伸到了他的管理風格中，在Meta招人時，朱哲清會專門問應聘者一個問題：“你對強化學習路徑有無法動搖的信仰嗎？”因為他知道，走這條路需要“能在黑暗中走很遠的人”，途中會遇到無數次的A/B Test失敗和推倒重來，“沒有信仰是撐不下去” 。

在朱哲清眼中，Pokee AI不只是一家追求商業成功的公司，更是用來驗證他“智能終極理想”的實驗室。

“如果哪天有人告訴我強化學習不是通向AGI的那條路，”他停頓了一下，“我對人類是如何進化到現在的都會產生巨大的懷疑。”

與「甲子光年」的對話結束后，朱哲清又回到了他的代碼和模型中。他依然是那個17歲時就開始思考“智能本質”的少年，在一個充滿了“暴力美學”和算力競賽的時代里，堅持著關于獎懲、探索與進化的信念。

（封面圖來源：AI生成）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.