網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

林俊旸離職后首次發(fā)聲！復(fù)盤千問的彎路，指出AI的新路

2026-03-27 14:11:42　來源: 量子位

北京舉報

分享至

夢晨發(fā)自凹非寺
量子位 | 公眾號 QbitAI

林俊旸，離職阿里千問后首次發(fā)聲。

他沒有回應(yīng)離職風(fēng)波或宣告去向，而是發(fā)長文探討從“推理模型時代的思考”到“智能體時代的思考”的轉(zhuǎn)變。

整篇文章談的是技術(shù)和AI的未來方向，但字里行間對千問技術(shù)路線的反思藏不住。

他在文中坦白承認(rèn)“我們沒有全做對”（We did not get everything right），

千問團(tuán)隊曾有一個雄心勃勃的構(gòu)想：把thinking和instruct兩種模式合并到一個模型里。

Qwen3就是這個方向上“最清晰的公開嘗試之一”，它引入了混合思維模式。

但在今天的林俊旸仍不夠滿意，他覺得最終thinking變得啰嗦且猶豫不決，instruct變得不夠干脆、不夠可靠，還更貴了。

在他看來，真正成功的合并，不是把兩種人格硬塞進(jìn)一個checkpoint，而是讓模型擁有一個連續(xù)的推理努力光譜。

面對未來，他還給出這樣的判斷：過去兩年Reasoning Thinking時代的使命已經(jīng)完成了。

OpenAI的o1和DeepSeek-R1證明了推理能力可以被訓(xùn)練和復(fù)現(xiàn)，這教會了整個行業(yè)一個關(guān)鍵認(rèn)知：

要在語言模型上做強(qiáng)化學(xué)習(xí)，需要確定性強(qiáng)、可規(guī)模化的反饋信號。

2025年上半年開始，大家?guī)缀醵荚谘芯客患拢涸趺醋屇Ｐ突ǜ嗤评頃r間、怎么訓(xùn)練更強(qiáng)的獎勵、怎么控制推理的力度。

現(xiàn)在最關(guān)鍵的問題是，下一步是什么？

林俊旸的答案是Agentic Thinking，智能體式思維，在與環(huán)境的交互中不斷修正計劃。

他列出了Agentic Thinking和Reasoning Thinking的關(guān)鍵區(qū)別：

判斷何時停止思考、開始行動。推理模型輸出完答案就結(jié)束了，智能體要在思考和行動之間不斷切換。
選擇調(diào)用哪個工具、以什么順序。不是簡單的function call，是動態(tài)規(guī)劃問題。
消化來自環(huán)境的噪聲和部分觀測。真實世界不會給你完美反饋。
失敗后修正計劃，而不是推倒重來。
跨越多輪對話和多次工具調(diào)用保持連貫。

他用一句話做出總結(jié)：

從“想更久”到“為了行動而想”。

在林俊旸看來，未來的競爭力不只來自更好的模型，還來自更好的環(huán)境設(shè)計、更強(qiáng)的harness工程、以及多個智能體之間的編排。

從訓(xùn)練模型，到訓(xùn)練智能體，再到訓(xùn)練系統(tǒng)。

（以下為林俊旸原文翻譯。）

從“推理式思考”到“智能體式思考”

過去兩年，重新定義了我們評估模型的方式和我們對模型的期待。

OpenAI的o1表明，“思考”可以成為一種一等公民級別的能力——一種你專門去訓(xùn)練、并向用戶開放的能力。

DeepSeek-R1，證明了推理式后訓(xùn)練可以在原始實驗室之外被復(fù)現(xiàn)和規(guī)模化。

OpenAI將o1描述為通過強(qiáng)化學(xué)習(xí)訓(xùn)練出“先想后答”能力的模型，DeepSeek則將R1定位為與o1具有競爭力的開源推理模型。

那個階段很重要。

但2025年上半年，行業(yè)把大部分精力花在了推理式思考上：怎么讓模型在推理時花更多算力，怎么用更強(qiáng)的獎勵來訓(xùn)練，怎么暴露或控制這些額外的推理力度。

現(xiàn)在的問題是：下一步是什么？

我認(rèn)為答案是智能體思考（agentic thinking）——為了行動而思考，在與環(huán)境的交互中思考，并根據(jù)來自真實世界的反饋持續(xù)更新計劃。

1. o1和R1的崛起真正教會了我們什么

第一波推理模型教會了我們：

如果想在語言模型上規(guī)模化強(qiáng)化學(xué)習(xí)，我們需要確定性強(qiáng)、穩(wěn)定且可擴(kuò)展的反饋信號。

數(shù)學(xué)、代碼、邏輯以及其他可驗證領(lǐng)域變得至關(guān)重要，因為這些場景中的獎勵信號遠(yuǎn)強(qiáng)于通用的偏好監(jiān)督。

它們讓RL能夠針對正確性進(jìn)行優(yōu)化，而非僅追求“看起來合理”。基礎(chǔ)設(shè)施變得至關(guān)重要。

一旦模型被訓(xùn)練出在更長軌跡上進(jìn)行推理的能力，RL就不再是監(jiān)督微調(diào)（SFT）的輕量附加模塊，它變成了一個系統(tǒng)工程問題。

你需要大規(guī)模的軌跡采樣（rollout）、高吞吐量的驗證、穩(wěn)定的策略更新、高效的采樣。

推理模型的崛起，既是一個建模的故事，也同樣是一個基礎(chǔ)設(shè)施的故事。

OpenAI將o1描述為一條用RL訓(xùn)練的推理產(chǎn)品線，DeepSeek R1隨后進(jìn)一步驗證了這個方向——它展示了基于推理的RL需要多么專門化的算法和基礎(chǔ)設(shè)施工作。

第一次重大轉(zhuǎn)變：從擴(kuò)展預(yù)訓(xùn)練，到擴(kuò)展面向推理的后訓(xùn)練。

2. 真正的問題從來不只是“合并思考和指令”

2025年初，千問團(tuán)隊中的我們很多人心中都有一幅宏大的藍(lán)圖。

理想的系統(tǒng)應(yīng)當(dāng)統(tǒng)一思考模式和指令模式。它應(yīng)支持可調(diào)節(jié)的推理力度，類似低/中/高推理檔位的設(shè)定。

更理想的狀態(tài)是，它能從提示和上下文中自動推斷合適的推理量——讓模型自行決定何時直接回答、何時多想一會兒、何時在真正困難的問題上投入大量計算。

從概念上看，這個方向是對的。Qwen3是這個方向上最清晰的公開嘗試之一。

它引入了“混合思維模式”，在一個模型家族中同時支持思考和非思考行為，強(qiáng)調(diào)可控的思維預(yù)算，并設(shè)計了一條四階段后訓(xùn)練流水線——在長CoT冷啟動和推理RL之后，明確包含了“思維模式融合”這一步。

但合并說起來容易做好難，真正的難點是數(shù)據(jù)。

人們談到合并思考和指令時，往往首先想到的是模型側(cè)的兼容性：一個checkpoint能不能同時支持兩種模式，一個對話模板能不能在它們之間切換，一套推理服務(wù)架構(gòu)能不能暴露正確的開關(guān)。

更深層的問題是，兩種模式的數(shù)據(jù)分布和行為目標(biāo)有本質(zhì)差異。

在試圖平衡模型合并與提升后訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性時，我們沒有全做對。

在迭代過程中，我們也密切關(guān)注了用戶實際使用思考和指令模式的方式。一個強(qiáng)指令模型通常因簡潔直接、格式規(guī)范、低延遲而受到獎勵——尤其是在改寫、標(biāo)注、模板化支持、結(jié)構(gòu)化提取、運(yùn)營QA等重復(fù)性高、批量大的企業(yè)任務(wù)上。

一個強(qiáng)思考模型則因在難題上花更多token、保持連貫的中間推理結(jié)構(gòu)、探索替代路徑、并保留足夠的內(nèi)部計算以切實提升最終正確率而受到獎勵。

這兩種行為模式互相拉扯。

如果合并數(shù)據(jù)未經(jīng)精心策劃，結(jié)果通常兩邊都做得平庸：“思考”行為變得嘈雜、臃腫或不夠果斷，“指令”行為則變得不夠干脆、不夠可靠，而且比商業(yè)用戶實際需要的更貴。

在實踐中，將兩者分離仍然更有吸引力。

2025年下半年，在Qwen3最初的混合框架之后，2507版本發(fā)布了獨(dú)立的Instruct和Thinking更新，包括分開的30B和235B版本。

在商業(yè)部署中，大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來進(jìn)行批量操作。對這些場景來說，合并的好處并不明顯。分離產(chǎn)品線讓團(tuán)隊可以更專注地解決每種模式各自的數(shù)據(jù)和訓(xùn)練問題。

其他實驗室選擇了相反的路線。

Anthropic公開主張整合模型的理念：Claude 3.7 Sonnet作為混合推理模型推出，用戶可以選擇普通回復(fù)或擴(kuò)展思考，API用戶可以設(shè)置思維預(yù)算。Anthropic明確表示，他們認(rèn)為推理應(yīng)該是一種整合的能力，而非獨(dú)立的模型。

GLM-4.5也公開將自身定位為同時具備思考和非思考模式的混合推理模型，統(tǒng)一了推理、編程和智能體能力。

DeepSeek后來也在V3.1的“Think & Non-Think”混合推理中走向了類似方向。

關(guān)鍵問題是，這種合并是否是有機(jī)的。

如果思考和指令只是被塞進(jìn)同一個checkpoint，卻仍然像兩個別扭拼接的人格那樣運(yùn)作，產(chǎn)品體驗仍然是不自然的。

真正成功的合并，需要的是一個流暢的推理力度連續(xù)光譜。模型應(yīng)該能表達(dá)多個層級的推理力度，理想情況下還能自適應(yīng)地做出選擇。

GPT式的力度控制指向了這個方向：一種關(guān)于算力分配的策略，而非一個非此即彼的開關(guān)。

3. 為什么Anthropic的方向是一次有用的糾偏

Anthropic圍繞Claude 3.7和Claude 4的公開表述是克制的。

他們強(qiáng)調(diào)整合推理、用戶可控的思維預(yù)算、真實世界任務(wù)、編程質(zhì)量，以及后來在擴(kuò)展思考過程中使用工具的能力。Claude 3.7被呈現(xiàn)為一個具有可控預(yù)算的混合推理模型；Claude 4在此基礎(chǔ)上更進(jìn)一步，允許推理與工具使用交替進(jìn)行，同時Anthropic將編程、長時間運(yùn)行的任務(wù)和智能體工作流強(qiáng)調(diào)為首要目標(biāo)。

產(chǎn)出更長的推理軌跡并不會自動讓模型更聰明。

在很多情況下，過多的可見推理恰恰是算力分配低效的信號。如果模型試圖用同樣啰嗦的方式對所有事情進(jìn)行推理，它可能是在失敗地確定優(yōu)先級、失敗地壓縮信息，或者失敗地采取行動。

Anthropic的發(fā)展軌跡暗示了一種更有紀(jì)律的視角：思考應(yīng)當(dāng)由目標(biāo)工作負(fù)載來塑造。

如果目標(biāo)是編程，那么思考應(yīng)當(dāng)幫助代碼庫導(dǎo)航、規(guī)劃、分解、錯誤恢復(fù)和工具編排。如果目標(biāo)是智能體工作流，那么思考應(yīng)當(dāng)提升長周期內(nèi)的執(zhí)行質(zhì)量，而非產(chǎn)出華麗的中間文字。

這種對目標(biāo)化效用的強(qiáng)調(diào)，指向了更大的圖景：

我們正在從訓(xùn)練模型的時代走向訓(xùn)練智能體的時代。

我們在Qwen3博客中明確寫下了這一點——“我們正在從專注于訓(xùn)練模型的時代，走向以訓(xùn)練智能體為核心的時代”，并將未來的RL進(jìn)展與面向長周期推理的環(huán)境反饋聯(lián)系在一起。

一個智能體是一個能夠制定計劃、決定何時行動、使用工具、感知環(huán)境反饋、修正策略、并在長周期內(nèi)持續(xù)運(yùn)行的系統(tǒng)。它的定義特征是與世界的閉環(huán)交互。

4. “智能體式思考”到底意味著什么

智能體式思考是一個不同的優(yōu)化目標(biāo)。

推理式思考通常以最終答案之前的內(nèi)部推理質(zhì)量來衡量：模型能不能解出定理、寫出證明、生成正確代碼、通過基準(zhǔn)測試。智能體式思考則關(guān)注的是：模型能不能在與環(huán)境交互的過程中持續(xù)取得進(jìn)展。

核心問題從“模型能不能想得足夠久？”轉(zhuǎn)變?yōu)椤澳Ｐ湍懿荒芤砸环N維持有效行動的方式來思考？”智能體式思考必須處理幾件純推理模型大多可以回避的事：

決定何時停止思考、采取行動
選擇調(diào)用哪個工具、以什么順序
消化來自環(huán)境的噪聲或部分觀測
失敗后修正計劃
跨越多輪交互和多次工具調(diào)用保持連貫

智能體式思考，是通過行動來進(jìn)行推理的模型。

5. 為什么智能體RL的基礎(chǔ)設(shè)施更難

一旦優(yōu)化目標(biāo)從解決基準(zhǔn)測試問題轉(zhuǎn)向解決交互式任務(wù)，RL技術(shù)棧就要跟著變，經(jīng)典推理RL的基礎(chǔ)設(shè)施不夠用了。

在推理RL中，你通常可以將采樣軌跡視為基本自包含的序列，配以相對干凈的評估器。

在智能體RL中，策略被嵌入到一個更大的編排框架（harness）中：工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API層、記憶系統(tǒng)和調(diào)度框架。

環(huán)境不再是一個靜態(tài)的驗證器，它本身就是訓(xùn)練系統(tǒng)的一部分。

這帶來了一個新的系統(tǒng)需求：訓(xùn)練和推理必須更徹底地解耦。

沒有這種解耦，采樣吞吐量就會崩潰。

想象一個編程智能體需要在實時測試框架上執(zhí)行生成的代碼：推理側(cè)因等待執(zhí)行反饋而停滯，訓(xùn)練側(cè)因缺少已完成軌跡而“饑餓”，整個流水線的GPU利用率遠(yuǎn)低于你對經(jīng)典推理RL的預(yù)期。

加上工具延遲、部分可觀測性和有狀態(tài)環(huán)境，這些低效會被進(jìn)一步放大。結(jié)果就是，在你達(dá)到目標(biāo)能力水平之前很久，實驗就已經(jīng)慢得令人痛苦了。

環(huán)境本身也變成了一等公民級別的研究對象。

在SFT時代，我們癡迷于數(shù)據(jù)多樣性。在智能體時代，我們應(yīng)該癡迷于環(huán)境質(zhì)量：穩(wěn)定性、真實性、覆蓋度、難度、狀態(tài)多樣性、反饋豐富度、防作弊能力，以及軌跡生成的可擴(kuò)展性。

構(gòu)建環(huán)境已經(jīng)開始變成一個真正的創(chuàng)業(yè)賽道，而非副業(yè)。如果智能體是為了在類生產(chǎn)環(huán)境中運(yùn)行而訓(xùn)練的，那么環(huán)境就是核心能力棧的一部分。

6. 下一個前沿是更可用的思考

我的預(yù)期是，智能體式思考將成為主流的思維形式。

我認(rèn)為它最終可能取代大部分舊式的“靜態(tài)獨(dú)白”推理式思考——那些過長的、孤立的內(nèi)部推理軌跡，試圖通過輸出越來越多的文字來彌補(bǔ)缺乏交互的不足。

即使面對非常困難的數(shù)學(xué)或編程任務(wù)，一個真正先進(jìn)的系統(tǒng)也應(yīng)該有權(quán)去搜索、模擬、執(zhí)行、檢查、驗證和修正。目標(biāo)是穩(wěn)健且高效地解決問題。

訓(xùn)練此類系統(tǒng)最大的挑戰(zhàn)是reward hacking（獎勵作弊）。

一旦模型獲得了有意義的工具訪問權(quán)限，reward hacking就變得危險得多。

一個能搜索的模型可能學(xué)會在RL訓(xùn)練中直接搜索答案。一個編程智能體可能利用代碼倉庫中的未來信息、濫用日志，或發(fā)現(xiàn)讓任務(wù)失效的捷徑。一個有隱藏泄漏的環(huán)境可能讓策略看起來超越人類水平，實際上卻是在訓(xùn)練它作弊。

這就是智能體時代變得比推理時代微妙得多的地方。

更好的工具讓模型更有用，但也擴(kuò)大了虛假優(yōu)化的攻擊面。

我們應(yīng)該預(yù)期，下一批嚴(yán)肅的研究瓶頸將來自環(huán)境設(shè)計、評估器魯棒性、防作弊協(xié)議，以及策略與世界之間更有原則的接口。盡管如此，方向是明確的。工具賦能的思維就是比孤立的思維更有用，也更有可能真正提升生產(chǎn)力。

智能體式思考還意味著編排工程（harness engineering）的興起。核心智能將越來越多地來自多個智能體的組織方式：

一個負(fù)責(zé)規(guī)劃和分發(fā)任務(wù)的編排者，多個像領(lǐng)域?qū)＜乙粯有袆拥膶I(yè)智能體，以及執(zhí)行更窄任務(wù)的子智能體——它們幫助控制上下文、避免信息污染、并維護(hù)不同層級推理之間的隔離。

未來的方向是：從訓(xùn)練模型到訓(xùn)練智能體，從訓(xùn)練智能體到訓(xùn)練系統(tǒng)。

結(jié)語

推理浪潮的第一階段確立了一件重要的事：

當(dāng)反饋信號可靠且基礎(chǔ)設(shè)施能夠支撐時，語言模型之上的RL可以產(chǎn)出質(zhì)的飛躍式的認(rèn)知能力。

更深層的轉(zhuǎn)變是從推理式思考到智能體式思考：

從想得更久，到為了行動而想。訓(xùn)練的核心對象已經(jīng)改變了——它變成了模型+環(huán)境的系統(tǒng)，或者更具體地說，是智能體和圍繞它的編排框架。

這改變了哪些研究要素最重要：

模型架構(gòu)和訓(xùn)練數(shù)據(jù)當(dāng)然仍然重要，但環(huán)境設(shè)計、軌跡采樣基礎(chǔ)設(shè)施、評估器魯棒性、以及多智能體之間的協(xié)調(diào)接口同樣關(guān)鍵。

這也改變了“好的思考”的定義：

最有用的軌跡，是能在真實世界約束下維持有效行動的那個——而非最長或最醒目的那個。

這也改變了競爭優(yōu)勢的來源：

在推理時代，優(yōu)勢來自更好的RL算法、更強(qiáng)的反饋信號和更可擴(kuò)展的訓(xùn)練流水線。

在智能體時代，優(yōu)勢將來自更好的環(huán)境、更緊密的訓(xùn)練-推理耦合、更強(qiáng)的編排工程，以及在模型的決策與這些決策產(chǎn)生的后果之間實現(xiàn)閉環(huán)的能力。

原文地址：
https://x.com/JustinLin610/status/2037116325210829168?s=20

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.