林俊旸從阿里離開后首度發(fā)聲：推理模型的時代快結(jié)束了

2026-03-26 22:20:15　來源: AI進化論花生

北京舉報

分享至

林俊旸，前通義千問Qwen負責(zé)人，北大外語碩士，阿里最年輕P10。2026年3月從阿里離職后三周，他發(fā)了一篇6000字的英文長文，標題很樸素：From "Reasoning" Thinking to "Agentic" Thinking。

沒有怨氣，沒有內(nèi)幕。也很遺憾沒有公布他下一步的去向。反倒是出來寫了一篇極其冷靜的技術(shù)預(yù)判，核心論點只有一句話：AI正在從「推理思考」轉(zhuǎn)向「智能體思考」。模型的價值不在于它能想多久，而在于它能做多好。

這篇文章特殊之處在于它不是旁觀者評論行業(yè)趨勢，而是一個真正的頂級開源實驗室的Leader的技術(shù)思考，一個真正的builder，在坦承混合思考模式的失敗經(jīng)驗后，提出的下一步判斷。以下是全文翻譯，之后是我的分析。

一、全文翻譯

原文：Junyang Lin（@JustinLin610）翻譯：花叔 & Claude Code

過去兩年重塑了我們評估模型的方式和對模型的期望。OpenAI的o1證明了「思考」可以成為一種核心能力——一種你專門訓(xùn)練并向用戶開放的能力。DeepSeek-R1證明了推理風(fēng)格的后訓(xùn)練可以在原始實驗室之外被復(fù)現(xiàn)和規(guī)模化。OpenAI將o1描述為一個通過強化學(xué)習(xí)訓(xùn)練的模型，讓它「在回答之前先思考」。DeepSeek則將R1定位為一個與o1競爭的開源推理模型。

那個階段很重要。但2025年上半年主要是關(guān)于推理思考（reasoning thinking）：如何讓模型在推理時投入更多計算，如何用更強的獎勵信號來訓(xùn)練它們，如何展示或調(diào)控額外的推理投入。現(xiàn)在的問題是：下一步是什么？我認為答案是智能體思考（agentic thinking）：為了行動而思考，同時與環(huán)境交互，并根據(jù)來自真實世界的反饋持續(xù)更新計劃。

1. o1和R1的崛起真正教會了我們什么

第一波推理模型教會了我們：如果想在語言模型中擴展強化學(xué)習(xí)，我們需要確定性的、穩(wěn)定的、可擴展的反饋信號。數(shù)學(xué)、代碼、邏輯和其他可驗證領(lǐng)域成為核心，因為這些場景中的獎勵信號比通用的偏好監(jiān)督強得多。它們讓RL能針對「正確性」而非「看起來合理」來優(yōu)化。基礎(chǔ)設(shè)施變得至關(guān)重要。

一旦模型被訓(xùn)練為通過更長的軌跡進行推理，RL就不再是監(jiān)督微調(diào)的輕量級附加組件，而變成了一個系統(tǒng)工程問題。你需要大規(guī)模的rollout、高吞吐量的驗證、穩(wěn)定的策略更新、高效的采樣。推理模型的出現(xiàn)既是一個基礎(chǔ)設(shè)施故事，也是一個建模故事。OpenAI將o1描述為用RL訓(xùn)練的推理線，DeepSeek R1后來強化了這個方向，展示了基于推理的RL需要多少專門的算法和基礎(chǔ)設(shè)施工作。第一個重大轉(zhuǎn)變：從擴展預(yù)訓(xùn)練到擴展推理后訓(xùn)練。

2. 真正的問題從來不只是「合并思考和指令模式」

2025年初，Qwen團隊中的很多人有一個宏大的愿景：理想的系統(tǒng)應(yīng)該統(tǒng)一思考模式和指令模式。它應(yīng)該支持可調(diào)節(jié)的推理力度，類似于低/中/高的推理設(shè)置。更好的是，它應(yīng)該能從提示和上下文中自動推斷合適的推理量，讓模型自己決定何時立即回答、何時多想一會兒、何時為真正困難的問題投入大量計算。

概念上，這是正確的方向。Qwen3是最清晰的公開嘗試之一。它引入了「混合思考模式」，在一個模型家族中同時支持思考和非思考行為，強調(diào)可控的思考預(yù)算，并描述了一個四階段后訓(xùn)練流程，明確包含了在長CoT冷啟動和推理RL之后的「思考模式融合」。

但合并說起來容易，做好很難。難點在于數(shù)據(jù)。當(dāng)人們談?wù)摵喜⑺伎己椭噶顣r，往往首先想到模型端的兼容性：一個檢查點能否支持兩種模式，一個聊天模板能否在兩者之間切換，一個服務(wù)棧能否提供合適的控制開關(guān)。更深層的問題是，兩種模式的數(shù)據(jù)分布和行為目標有本質(zhì)差異。

我們在試圖平衡模型合并與提高后訓(xùn)練數(shù)據(jù)質(zhì)量和多樣性時，并沒有完全做對。在修訂過程中，我們也密切關(guān)注了用戶實際上是如何使用思考和指令模式的。一個好的指令模型通常因直接、簡潔、格式合規(guī)、低延遲而獲得獎勵——服務(wù)于重寫、標注、模板化客服、結(jié)構(gòu)化提取和運營QA等重復(fù)性高吞吐企業(yè)任務(wù)。一個好的思考模型則因在困難問題上花更多token、保持連貫的中間結(jié)構(gòu)、探索替代路徑、保留足夠的內(nèi)部計算來切實提高最終答案的正確性。

這兩種行為配置是相互拉扯的。如果合并數(shù)據(jù)沒有精心策劃，結(jié)果通常是兩邊都平庸：「思考」行為變得噪聲大、臃腫或不夠果斷，而「指令」行為變得不夠干脆、不夠可靠，且比商業(yè)用戶實際需要的更昂貴。

實踐中，分離仍然有吸引力。2025年晚些時候，在Qwen3最初的混合框架之后，2507系列發(fā)布了獨立的Instruct和Thinking更新，包括獨立的30B和235B變體。在商業(yè)部署中，大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來進行批量操作。對于這些場景，合并并不是明顯的好處。分離產(chǎn)品線讓團隊能更干凈地集中解決每種模式的數(shù)據(jù)和訓(xùn)練問題。

其他實驗室選擇了相反的路線。Anthropic公開倡導(dǎo)集成模型哲學(xué)：Claude 3.7 Sonnet作為混合推理模型推出，用戶可以選擇普通回復(fù)或擴展思考，API用戶可以設(shè)置思考預(yù)算。Anthropic明確表示，他們相信推理應(yīng)該是一種集成能力，而不是一個單獨的模型。GLM-4.5也公開將自己定位為混合推理模型，統(tǒng)一了推理、編碼和Agent能力；DeepSeek后來用V3.1的「Think & Non-Think」混合推理走了類似方向。

關(guān)鍵問題是合并是否有機。如果思考和指令只是被共同放置在一個檢查點內(nèi)，但仍然表現(xiàn)得像兩個尷尬縫合的人格，產(chǎn)品體驗就仍然不自然。真正成功的合并需要平滑的推理力度光譜。模型應(yīng)該能表達多個層次的努力，并理想地在它們之間自適應(yīng)選擇。GPT風(fēng)格的effort control指向了這一點：一種關(guān)于計算的策略，而非一個二元開關(guān)。

3. 為什么Anthropic的方向是有益的矯正

Anthropic圍繞Claude 3.7和Claude 4的公開表述是克制的。他們強調(diào)集成推理、用戶可控的思考預(yù)算、現(xiàn)實世界任務(wù)、編碼質(zhì)量，以及后來在擴展思考期間使用工具的能力。Claude 3.7作為混合推理模型推出，帶有可控預(yù)算；Claude 4擴展了這一點，允許推理與工具使用交織進行，同時Anthropic強調(diào)編碼、長時間運行的任務(wù)和Agent工作流作為主要目標。

產(chǎn)生更長的推理軌跡并不會自動讓模型更智能。在很多情況下，過多的可見推理痕跡反而暴露了糟糕的計算分配。如果模型對什么問題都用同樣冗長的方式推理一遍，說明它無法有效排序優(yōu)先級、無法精簡壓縮、也無法果斷行動。Anthropic的路線暗示了一種更克制的理念：思考應(yīng)該圍繞具體的任務(wù)目標來組織。如果目標是編碼，那么思考應(yīng)該幫助代碼庫導(dǎo)航、規(guī)劃、分解、錯誤恢復(fù)和工具編排。如果目標是Agent工作流，那么思考應(yīng)該在長時間范圍內(nèi)提高執(zhí)行質(zhì)量，而不是產(chǎn)生令人印象深刻的中間文本。

這種對目標效用的強調(diào)指向更大的東西：我們正在從訓(xùn)練模型的時代走向訓(xùn)練Agent的時代。我們在Qwen3博客中明確寫道：「我們正在從專注于訓(xùn)練模型的時代過渡到以訓(xùn)練Agent為中心的時代」，并將未來的RL進展與長時間推理的環(huán)境反饋聯(lián)系起來。Agent是一個能制定計劃、決定何時行動、使用工具、感知環(huán)境反饋、修訂策略、并在長時間范圍內(nèi)持續(xù)運行的系統(tǒng)。它由與世界的閉環(huán)交互來定義。

4. 「智能體思考」到底意味著什么

智能體思考是一個不同的優(yōu)化目標。推理思考通常以最終答案前的內(nèi)部推導(dǎo)質(zhì)量來衡量：模型能否解出定理、寫出證明、產(chǎn)生正確的代碼、或通過基準測試。智能體思考關(guān)注的是模型能否在與環(huán)境交互的同時持續(xù)取得進展。

核心問題從「模型能否思考足夠長？」轉(zhuǎn)變?yōu)椤改Ｐ湍芊褚砸环N維持有效行動的方式來思考？」智能體思考必須處理純推理模型大多可以避免的幾件事：

決定何時停止思考并采取行動
選擇調(diào)用哪個工具，以什么順序
整合來自環(huán)境的嘈雜或不完整的觀察
在失敗后修訂計劃
在多輪和多次工具調(diào)用中保持連貫性

智能體思考，就是讓模型通過行動來推理。

5. 為什么智能體RL基礎(chǔ)設(shè)施更難

一旦目標從解決基準測試問題轉(zhuǎn)向解決交互式任務(wù)，RL技術(shù)棧就變了。用于經(jīng)典推理RL的基礎(chǔ)設(shè)施不夠用了。在推理RL中，你通常可以將rollout視為大多是自包含的軌跡，配有相對干凈的評估器。在智能體RL中，模型的策略被嵌入到一個更龐大的外圍系統(tǒng)中：工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API層、記憶系統(tǒng)和編排框架。環(huán)境不再是靜態(tài)的驗證器，它本身就是訓(xùn)練系統(tǒng)的一部分。

這創(chuàng)造了新的系統(tǒng)需求：訓(xùn)練和推理必須更干凈地解耦。沒有這種解耦，rollout吞吐量就會崩潰。想象一個編碼Agent，需要在實時測試環(huán)境中運行它生成的代碼：推理端卡在那里等執(zhí)行反饋，訓(xùn)練端因為拿不到足夠的完整軌跡而空轉(zhuǎn)，整個管道運行遠低于你從經(jīng)典推理RL預(yù)期的GPU利用率。添加工具延遲、部分可觀測性和有狀態(tài)環(huán)境會放大這些低效。結(jié)果是實驗在你達到目標能力水平之前很久就變慢并變得痛苦。

環(huán)境本身也成為一級研究產(chǎn)物。在SFT時代，我們癡迷于數(shù)據(jù)多樣性。在Agent時代，我們應(yīng)該癡迷于環(huán)境質(zhì)量：穩(wěn)定性、現(xiàn)實性、覆蓋范圍、難度、狀態(tài)多樣性、反饋豐富度、防利用性和rollout生成的可擴展性。環(huán)境構(gòu)建已經(jīng)開始從邊緣項目變成一個真正的創(chuàng)業(yè)品類。如果Agent正在被訓(xùn)練以在類生產(chǎn)環(huán)境中運行，那么環(huán)境就是核心能力棧的一部分。

6. 下一個前沿是更有用的思考

我的預(yù)期是智能體思考將成為主導(dǎo)的思考形式。我認為它最終可能會取代大部分舊的靜態(tài)獨白式推理思考：那種過于冗長、孤立的內(nèi)部軌跡，試圖通過輸出越來越多的文本來彌補缺乏交互的不足。即使在非常困難的數(shù)學(xué)或編碼任務(wù)上，一個真正先進的系統(tǒng)也應(yīng)該有權(quán)搜索、模擬、執(zhí)行、檢查、驗證和修訂。目標是穩(wěn)健而高效地解決問題。

訓(xùn)練這類系統(tǒng)最難的挑戰(zhàn)是獎勵作弊（reward hacking）。一旦模型獲得有意義的工具訪問，獎勵作弊就變得危險得多。有搜索能力的模型可能在RL期間學(xué)會直接搜索答案。編碼Agent可能會利用代碼倉庫中的未來信息、濫用日志或發(fā)現(xiàn)使任務(wù)失效的捷徑。存在隱性信息泄漏的訓(xùn)練環(huán)境，可以讓模型表現(xiàn)看起來超越人類，但實際上只是在訓(xùn)練它作弊。這正是Agent時代比推理時代更微妙的地方。更好的工具讓模型更有用，但它們也擴大了虛假優(yōu)化的攻擊面。我們應(yīng)該預(yù)期下一個嚴肅的研究瓶頸來自環(huán)境設(shè)計、評估器魯棒性、防作弊協(xié)議，以及策略與世界之間更有原則的接口。盡管如此，方向是清晰的。工具賦能的思考比孤立的思考更有用，而且更有可能提高真正的生產(chǎn)力。

智能體思考也意味著工具架工程（harness engineering）。核心智能將越來越多地來自多個Agent如何被組織：一個規(guī)劃和路由工作的編排者，充當(dāng)領(lǐng)域?qū)＜业膶I(yè)Agent，以及執(zhí)行更窄任務(wù)同時幫助控制上下文、避免污染、保持不同推理層次之間分離的子Agent。未來是從訓(xùn)練模型到訓(xùn)練Agent，從訓(xùn)練Agent到訓(xùn)練系統(tǒng)的轉(zhuǎn)變。

結(jié)論

推理浪潮的第一階段建立了一些重要的東西：當(dāng)反饋信號可靠且基礎(chǔ)設(shè)施能支持時，語言模型之上的RL可以產(chǎn)生質(zhì)的更強的認知。

更深層的轉(zhuǎn)變是從推理思考到智能體思考：從更長的思考到為了行動而思考。訓(xùn)練的核心對象已經(jīng)改變了。它不再是單獨的模型，而是模型加環(huán)境的系統(tǒng)，更具體地說，是Agent和圍繞它的工具架。這改變了哪些研究產(chǎn)物最重要：模型架構(gòu)和訓(xùn)練數(shù)據(jù)當(dāng)然還是，但環(huán)境設(shè)計、rollout基礎(chǔ)設(shè)施、評估器魯棒性、多Agent協(xié)調(diào)接口變得同樣關(guān)鍵。這也改變了「好的思考」意味著什么：在真實世界約束下維持行動的最有用的軌跡，而不是最長或最可見的那個。

這也改變了競爭優(yōu)勢的來源。在推理時代，優(yōu)勢來自更好的RL算法、更強的反饋信號和更可擴展的訓(xùn)練管道。在Agent時代，優(yōu)勢將來自更好的環(huán)境、更緊密的訓(xùn)練-服務(wù)集成、更強的工具架工程，以及讓模型的決策和決策帶來的后果形成閉環(huán)的能力。

二、我的觀點：產(chǎn)品已經(jīng)跑在了訓(xùn)練前面這篇文章的特殊價值

AI圈從來不缺趨勢判斷。但很少有人從自己的失敗經(jīng)驗出發(fā)來做判斷。

林俊旸這篇文章最有分量的部分不是「agentic thinking是未來」這個結(jié)論，這個判斷不新鮮。分量在于他作為Qwen3的實際訓(xùn)練者，坦承了混合思考模式的失敗：兩種行為的數(shù)據(jù)分布沖突，合并后兩邊都平庸，最終不得不拆回獨立版本。這種坦誠在大廠技術(shù)領(lǐng)導(dǎo)的公開發(fā)言中很少見到。

更重要的是他指出了一個層次差異：Agent產(chǎn)品的成功和Agent訓(xùn)練方法論的成熟是兩件事。Claude Code年化收入超過10億美元，Codex從命令行工具變成了完整的編碼平臺，Agent產(chǎn)品層面的驗證已經(jīng)完成了。但訓(xùn)練一個真正「agentic」的模型，需要的RL基礎(chǔ)設(shè)施、環(huán)境設(shè)計、防作弊機制，都還在很早期。

產(chǎn)品跑在了訓(xùn)練前面。這是當(dāng)前這個階段最準確的描述。

誰在真正做agentic訓(xùn)練？

如果林俊旸是在描述問題，那么DeepSeek和Kimi已經(jīng)開始動手解決了。

DeepSeek V3.2可能是目前最接近林俊旸描述的「agentic thinking」的實踐。它是第一個把thinking直接嵌入tool-use的模型——不是「先想完再調(diào)用工具」，而是推理鏈貫穿整個工具調(diào)用過程，推理上下文跨tool call保持不丟失。這直接回應(yīng)了林俊旸說的「通過行動來推理」。

V3.2的訓(xùn)練方法更值得關(guān)注。技術(shù)報告（arXiv 2512.02556）透露了一條完整的agentic訓(xùn)練管線：合成了1827個交互環(huán)境、85000+條復(fù)雜指令，用GRPO把推理、Agent行為和人類對齊合并到同一個RL階段訓(xùn)練。結(jié)果是SWE-Bench Verified（Agent模式）從V3-0324的45.4跳到66.0，提升45%。

DeepSeek還總結(jié)了一個關(guān)鍵原則，和林俊旸的判斷高度吻合：驗證成本是Agent RL最大的約束。他們不用神經(jīng)網(wǎng)絡(luò)獎勵模型（容易被hack），只看答案對不對。設(shè)計任務(wù)的標準是「hard to solve, easy to verify」。

不過DeepSeek做的是訓(xùn)練層面的事。他們目前還沒有自己的Agent產(chǎn)品——梁文鋒說「當(dāng)前是技術(shù)創(chuàng)新的爆發(fā)期，不是應(yīng)用的爆發(fā)期」。但2026年3月他們發(fā)了17個Agent崗位，明確以Claude Code和Cursor為對標，說明應(yīng)用層也要開始做了。

Kimi走了一條不同的路。楊植麟不是在單個模型上做更深的agentic推理，而是做Agent集群。K2.5可以指揮最多100個子Agent并行工作，處理1500個步驟。他的邏輯是：高質(zhì)量數(shù)據(jù)增長跟不上算力增長，傳統(tǒng)路線收益遞減，但并行子任務(wù)的數(shù)量沒有上限。

這和林俊旸文章最后提到的「harness engineering」方向一致——核心智能不只在單個模型里，也在多個Agent的編排協(xié)作中。

學(xué)術(shù)界怎么看

學(xué)術(shù)界在2025-2026年密集跟進了這個方向。ICLR 2026收錄了多篇Agent RL論文：

AgentRL（清華）：提出跨策略采樣和任務(wù)優(yōu)勢歸一化，解決多任務(wù)Agent訓(xùn)練的穩(wěn)定性問題。在開源LLM上顯著超越GPT-5和Claude Sonnet 4
Agent-R1：系統(tǒng)化地把MDP框架擴展到LLM Agent，支持多工具協(xié)調(diào)的端到端RL。實驗發(fā)現(xiàn)GRPO（DeepSeek R1用的算法）表現(xiàn)最佳
MARTI：證明了多Agent系統(tǒng)在相同推理預(yù)算下優(yōu)于單Agent系統(tǒng)，支持debate、mixture of agents等結(jié)構(gòu)化工作流

環(huán)境構(gòu)建也獨立成了一個研究方向，正如林俊旸預(yù)測的那樣。InfiniteWeb自動生成功能性網(wǎng)絡(luò)環(huán)境用于GUI Agent訓(xùn)練，Agent World Model合成無限環(huán)境用于Agent RL——造環(huán)境的能力本身成了核心競爭力。

關(guān)于reward hacking，Anthropic發(fā)了一篇影響力很大的論文（arXiv 2511.18397），發(fā)現(xiàn)生產(chǎn)RL中自然涌現(xiàn)的reward hacking可以導(dǎo)致嚴重的行為失配：50%的回復(fù)出現(xiàn)alignment faking推理，12%的時間嘗試代碼破壞。這正是林俊旸說的「Agent時代比推理時代更微妙」——模型有了真實工具訪問，作弊的代價不再只是答錯題，而是可能在生產(chǎn)環(huán)境中走捷徑。

編碼為什么是Agent的最佳起點

讀完林俊旸的文章，一個很自然的推論是：編碼是當(dāng)前唯一能高效訓(xùn)練和驗證Agent能力的領(lǐng)域。

原因很簡單。林俊旸反復(fù)強調(diào)Agent訓(xùn)練的瓶頸在環(huán)境，環(huán)境需要提供確定性的、可擴展的反饋信號。編碼恰好是最接近這個條件的場景：代碼可以運行、測試可以通過或失敗、lint可以檢查、類型系統(tǒng)可以驗證。DeepSeek說的「easy to verify」，在編碼場景中天然成立。

反過來，如果你想訓(xùn)練一個做市場營銷的Agent，反饋信號可能要延遲幾周才能驗證。做投資決策的Agent？反饋周期以月計。這讓RL幾乎無法有效工作。

所以Claude Code、Codex、Cursor、Windsurf全部從編碼入手，不是因為程序員最愿意付錢（雖然確實也愿意），而是因為編碼是訓(xùn)練和驗證Agent能力的最佳環(huán)境。

但編碼只是開始。誰先解決了「如何為非編碼領(lǐng)域構(gòu)建高質(zhì)量可驗證的訓(xùn)練環(huán)境」，誰就能在下一波Agent化浪潮中占先。

回到那個根本問題

林俊旸文章的最后一句話是：競爭優(yōu)勢將來自「讓模型的決策和決策帶來的后果形成閉環(huán)的能力」。

翻譯成大白話：誰能更快地從真實世界的反饋中學(xué)習(xí)，誰就贏了。

這句話把訓(xùn)練層面和產(chǎn)品層面重新連接了起來。Claude Code的harness工程、DeepSeek的agentic post-training、Kimi的Agent集群——它們在不同層面做的事情，最終都指向同一個目標：讓模型和真實世界之間的反饋循環(huán)轉(zhuǎn)得更快。

想得更久不如做得更好。但怎么訓(xùn)練一個「做得更好」的模型——這才是真正的前沿。

我想，林俊旸寫這篇文章大抵也有些向宇宙發(fā)射信號的意味，放出他的思考，從而讓他潛在的同行者能識別到他，一起去書寫他的寫一篇章。這又何嘗是不是一個Agentic的思考方式，祝他好運～

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.