夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
林俊旸,離職阿里千問后首次發(fā)聲。
他沒有回應(yīng)離職風(fēng)波或宣告去向,而是發(fā)長文探討從“推理模型時代的思考”到“智能體時代的思考”的轉(zhuǎn)變。
![]()
整篇文章談的是技術(shù)和AI的未來方向,但字里行間對千問技術(shù)路線的反思藏不住。
他在文中坦白承認(rèn)“我們沒有全做對”(We did not get everything right),
![]()
千問團(tuán)隊曾有一個雄心勃勃的構(gòu)想:把thinking和instruct兩種模式合并到一個模型里。
Qwen3就是這個方向上“最清晰的公開嘗試之一”,它引入了混合思維模式。
但在今天的林俊旸仍不夠滿意,他覺得最終thinking變得啰嗦且猶豫不決,instruct變得不夠干脆、不夠可靠,還更貴了。
在他看來,真正成功的合并,不是把兩種人格硬塞進(jìn)一個checkpoint,而是讓模型擁有一個連續(xù)的推理努力光譜。
![]()
面對未來,他還給出這樣的判斷:過去兩年Reasoning Thinking時代的使命已經(jīng)完成了。
OpenAI的o1和DeepSeek-R1證明了推理能力可以被訓(xùn)練和復(fù)現(xiàn),這教會了整個行業(yè)一個關(guān)鍵認(rèn)知:
- 要在語言模型上做強(qiáng)化學(xué)習(xí),需要確定性強(qiáng)、可規(guī)模化的反饋信號。
2025年上半年開始,大家?guī)缀醵荚谘芯客患拢涸趺醋屇P突ǜ嗤评頃r間、怎么訓(xùn)練更強(qiáng)的獎勵、怎么控制推理的力度。
現(xiàn)在最關(guān)鍵的問題是,下一步是什么?
林俊旸的答案是Agentic Thinking,智能體式思維,在與環(huán)境的交互中不斷修正計劃。
他列出了Agentic Thinking和Reasoning Thinking的關(guān)鍵區(qū)別:
- 判斷何時停止思考、開始行動。推理模型輸出完答案就結(jié)束了,智能體要在思考和行動之間不斷切換。
- 選擇調(diào)用哪個工具、以什么順序。不是簡單的function call,是動態(tài)規(guī)劃問題。
- 消化來自環(huán)境的噪聲和部分觀測。真實世界不會給你完美反饋。
- 失敗后修正計劃,而不是推倒重來。
- 跨越多輪對話和多次工具調(diào)用保持連貫。
他用一句話做出總結(jié):
- 從“想更久”到“為了行動而想”。
在林俊旸看來,未來的競爭力不只來自更好的模型,還來自更好的環(huán)境設(shè)計、更強(qiáng)的harness工程、以及多個智能體之間的編排。
從訓(xùn)練模型,到訓(xùn)練智能體,再到訓(xùn)練系統(tǒng)。
(以下為林俊旸原文翻譯。)
從“推理式思考”到“智能體式思考”
過去兩年,重新定義了我們評估模型的方式和我們對模型的期待。
OpenAI的o1表明,“思考”可以成為一種一等公民級別的能力——一種你專門去訓(xùn)練、并向用戶開放的能力。
DeepSeek-R1,證明了推理式后訓(xùn)練可以在原始實驗室之外被復(fù)現(xiàn)和規(guī)模化。
OpenAI將o1描述為通過強(qiáng)化學(xué)習(xí)訓(xùn)練出“先想后答”能力的模型,DeepSeek則將R1定位為與o1具有競爭力的開源推理模型。
![]()
那個階段很重要。
但2025年上半年,行業(yè)把大部分精力花在了推理式思考上:怎么讓模型在推理時花更多算力,怎么用更強(qiáng)的獎勵來訓(xùn)練,怎么暴露或控制這些額外的推理力度。
現(xiàn)在的問題是:下一步是什么?
我認(rèn)為答案是智能體思考(agentic thinking)——為了行動而思考,在與環(huán)境的交互中思考,并根據(jù)來自真實世界的反饋持續(xù)更新計劃。
1. o1和R1的崛起真正教會了我們什么
第一波推理模型教會了我們:
如果想在語言模型上規(guī)模化強(qiáng)化學(xué)習(xí),我們需要確定性強(qiáng)、穩(wěn)定且可擴(kuò)展的反饋信號。
數(shù)學(xué)、代碼、邏輯以及其他可驗證領(lǐng)域變得至關(guān)重要,因為這些場景中的獎勵信號遠(yuǎn)強(qiáng)于通用的偏好監(jiān)督。
它們讓RL能夠針對正確性進(jìn)行優(yōu)化,而非僅追求“看起來合理”。基礎(chǔ)設(shè)施變得至關(guān)重要。
一旦模型被訓(xùn)練出在更長軌跡上進(jìn)行推理的能力,RL就不再是監(jiān)督微調(diào)(SFT)的輕量附加模塊,它變成了一個系統(tǒng)工程問題。
你需要大規(guī)模的軌跡采樣(rollout)、高吞吐量的驗證、穩(wěn)定的策略更新、高效的采樣。
推理模型的崛起,既是一個建模的故事,也同樣是一個基礎(chǔ)設(shè)施的故事。
OpenAI將o1描述為一條用RL訓(xùn)練的推理產(chǎn)品線,DeepSeek R1隨后進(jìn)一步驗證了這個方向——它展示了基于推理的RL需要多么專門化的算法和基礎(chǔ)設(shè)施工作。
第一次重大轉(zhuǎn)變:從擴(kuò)展預(yù)訓(xùn)練,到擴(kuò)展面向推理的后訓(xùn)練。
2. 真正的問題從來不只是“合并思考和指令”
2025年初,千問團(tuán)隊中的我們很多人心中都有一幅宏大的藍(lán)圖。
理想的系統(tǒng)應(yīng)當(dāng)統(tǒng)一思考模式和指令模式。它應(yīng)支持可調(diào)節(jié)的推理力度,類似低/中/高推理檔位的設(shè)定。
更理想的狀態(tài)是,它能從提示和上下文中自動推斷合適的推理量——讓模型自行決定何時直接回答、何時多想一會兒、何時在真正困難的問題上投入大量計算。
從概念上看,這個方向是對的。Qwen3是這個方向上最清晰的公開嘗試之一。
它引入了“混合思維模式”,在一個模型家族中同時支持思考和非思考行為,強(qiáng)調(diào)可控的思維預(yù)算,并設(shè)計了一條四階段后訓(xùn)練流水線——在長CoT冷啟動和推理RL之后,明確包含了“思維模式融合”這一步。
![]()
但合并說起來容易做好難,真正的難點是數(shù)據(jù)。
人們談到合并思考和指令時,往往首先想到的是模型側(cè)的兼容性:一個checkpoint能不能同時支持兩種模式,一個對話模板能不能在它們之間切換,一套推理服務(wù)架構(gòu)能不能暴露正確的開關(guān)。
更深層的問題是,兩種模式的數(shù)據(jù)分布和行為目標(biāo)有本質(zhì)差異。
在試圖平衡模型合并與提升后訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性時,我們沒有全做對。
在迭代過程中,我們也密切關(guān)注了用戶實際使用思考和指令模式的方式。一個強(qiáng)指令模型通常因簡潔直接、格式規(guī)范、低延遲而受到獎勵——尤其是在改寫、標(biāo)注、模板化支持、結(jié)構(gòu)化提取、運(yùn)營QA等重復(fù)性高、批量大的企業(yè)任務(wù)上。
一個強(qiáng)思考模型則因在難題上花更多token、保持連貫的中間推理結(jié)構(gòu)、探索替代路徑、并保留足夠的內(nèi)部計算以切實提升最終正確率而受到獎勵。
這兩種行為模式互相拉扯。
如果合并數(shù)據(jù)未經(jīng)精心策劃,結(jié)果通常兩邊都做得平庸:“思考”行為變得嘈雜、臃腫或不夠果斷,“指令”行為則變得不夠干脆、不夠可靠,而且比商業(yè)用戶實際需要的更貴。
在實踐中,將兩者分離仍然更有吸引力。
2025年下半年,在Qwen3最初的混合框架之后,2507版本發(fā)布了獨(dú)立的Instruct和Thinking更新,包括分開的30B和235B版本。
在商業(yè)部署中,大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來進(jìn)行批量操作。對這些場景來說,合并的好處并不明顯。分離產(chǎn)品線讓團(tuán)隊可以更專注地解決每種模式各自的數(shù)據(jù)和訓(xùn)練問題。
其他實驗室選擇了相反的路線。
Anthropic公開主張整合模型的理念:Claude 3.7 Sonnet作為混合推理模型推出,用戶可以選擇普通回復(fù)或擴(kuò)展思考,API用戶可以設(shè)置思維預(yù)算。Anthropic明確表示,他們認(rèn)為推理應(yīng)該是一種整合的能力,而非獨(dú)立的模型。
GLM-4.5也公開將自身定位為同時具備思考和非思考模式的混合推理模型,統(tǒng)一了推理、編程和智能體能力。
DeepSeek后來也在V3.1的“Think & Non-Think”混合推理中走向了類似方向。
關(guān)鍵問題是,這種合并是否是有機(jī)的。
如果思考和指令只是被塞進(jìn)同一個checkpoint,卻仍然像兩個別扭拼接的人格那樣運(yùn)作,產(chǎn)品體驗仍然是不自然的。
真正成功的合并,需要的是一個流暢的推理力度連續(xù)光譜。模型應(yīng)該能表達(dá)多個層級的推理力度,理想情況下還能自適應(yīng)地做出選擇。
GPT式的力度控制指向了這個方向:一種關(guān)于算力分配的策略,而非一個非此即彼的開關(guān)。
3. 為什么Anthropic的方向是一次有用的糾偏
Anthropic圍繞Claude 3.7和Claude 4的公開表述是克制的。
他們強(qiáng)調(diào)整合推理、用戶可控的思維預(yù)算、真實世界任務(wù)、編程質(zhì)量,以及后來在擴(kuò)展思考過程中使用工具的能力。Claude 3.7被呈現(xiàn)為一個具有可控預(yù)算的混合推理模型;Claude 4在此基礎(chǔ)上更進(jìn)一步,允許推理與工具使用交替進(jìn)行,同時Anthropic將編程、長時間運(yùn)行的任務(wù)和智能體工作流強(qiáng)調(diào)為首要目標(biāo)。
產(chǎn)出更長的推理軌跡并不會自動讓模型更聰明。
在很多情況下,過多的可見推理恰恰是算力分配低效的信號。如果模型試圖用同樣啰嗦的方式對所有事情進(jìn)行推理,它可能是在失敗地確定優(yōu)先級、失敗地壓縮信息,或者失敗地采取行動。
Anthropic的發(fā)展軌跡暗示了一種更有紀(jì)律的視角:思考應(yīng)當(dāng)由目標(biāo)工作負(fù)載來塑造。
如果目標(biāo)是編程,那么思考應(yīng)當(dāng)幫助代碼庫導(dǎo)航、規(guī)劃、分解、錯誤恢復(fù)和工具編排。如果目標(biāo)是智能體工作流,那么思考應(yīng)當(dāng)提升長周期內(nèi)的執(zhí)行質(zhì)量,而非產(chǎn)出華麗的中間文字。
這種對目標(biāo)化效用的強(qiáng)調(diào),指向了更大的圖景:
我們正在從訓(xùn)練模型的時代走向訓(xùn)練智能體的時代。
我們在Qwen3博客中明確寫下了這一點——“我們正在從專注于訓(xùn)練模型的時代,走向以訓(xùn)練智能體為核心的時代”,并將未來的RL進(jìn)展與面向長周期推理的環(huán)境反饋聯(lián)系在一起。
![]()
一個智能體是一個能夠制定計劃、決定何時行動、使用工具、感知環(huán)境反饋、修正策略、并在長周期內(nèi)持續(xù)運(yùn)行的系統(tǒng)。它的定義特征是與世界的閉環(huán)交互。
4. “智能體式思考”到底意味著什么
智能體式思考是一個不同的優(yōu)化目標(biāo)。
推理式思考通常以最終答案之前的內(nèi)部推理質(zhì)量來衡量:模型能不能解出定理、寫出證明、生成正確代碼、通過基準(zhǔn)測試。智能體式思考則關(guān)注的是:模型能不能在與環(huán)境交互的過程中持續(xù)取得進(jìn)展。
核心問題從“模型能不能想得足夠久?”轉(zhuǎn)變?yōu)椤澳P湍懿荒芤砸环N維持有效行動的方式來思考?”智能體式思考必須處理幾件純推理模型大多可以回避的事:
- 決定何時停止思考、采取行動
- 選擇調(diào)用哪個工具、以什么順序
- 消化來自環(huán)境的噪聲或部分觀測
- 失敗后修正計劃
- 跨越多輪交互和多次工具調(diào)用保持連貫
智能體式思考,是通過行動來進(jìn)行推理的模型。
5. 為什么智能體RL的基礎(chǔ)設(shè)施更難
一旦優(yōu)化目標(biāo)從解決基準(zhǔn)測試問題轉(zhuǎn)向解決交互式任務(wù),RL技術(shù)棧就要跟著變,經(jīng)典推理RL的基礎(chǔ)設(shè)施不夠用了。
在推理RL中,你通常可以將采樣軌跡視為基本自包含的序列,配以相對干凈的評估器。
在智能體RL中,策略被嵌入到一個更大的編排框架(harness)中:工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API層、記憶系統(tǒng)和調(diào)度框架。
環(huán)境不再是一個靜態(tài)的驗證器,它本身就是訓(xùn)練系統(tǒng)的一部分。
這帶來了一個新的系統(tǒng)需求:訓(xùn)練和推理必須更徹底地解耦。
沒有這種解耦,采樣吞吐量就會崩潰。
想象一個編程智能體需要在實時測試框架上執(zhí)行生成的代碼:推理側(cè)因等待執(zhí)行反饋而停滯,訓(xùn)練側(cè)因缺少已完成軌跡而“饑餓”,整個流水線的GPU利用率遠(yuǎn)低于你對經(jīng)典推理RL的預(yù)期。
加上工具延遲、部分可觀測性和有狀態(tài)環(huán)境,這些低效會被進(jìn)一步放大。結(jié)果就是,在你達(dá)到目標(biāo)能力水平之前很久,實驗就已經(jīng)慢得令人痛苦了。
環(huán)境本身也變成了一等公民級別的研究對象。
在SFT時代,我們癡迷于數(shù)據(jù)多樣性。在智能體時代,我們應(yīng)該癡迷于環(huán)境質(zhì)量:穩(wěn)定性、真實性、覆蓋度、難度、狀態(tài)多樣性、反饋豐富度、防作弊能力,以及軌跡生成的可擴(kuò)展性。
構(gòu)建環(huán)境已經(jīng)開始變成一個真正的創(chuàng)業(yè)賽道,而非副業(yè)。如果智能體是為了在類生產(chǎn)環(huán)境中運(yùn)行而訓(xùn)練的,那么環(huán)境就是核心能力棧的一部分。
6. 下一個前沿是更可用的思考
我的預(yù)期是,智能體式思考將成為主流的思維形式。
我認(rèn)為它最終可能取代大部分舊式的“靜態(tài)獨(dú)白”推理式思考——那些過長的、孤立的內(nèi)部推理軌跡,試圖通過輸出越來越多的文字來彌補(bǔ)缺乏交互的不足。
即使面對非常困難的數(shù)學(xué)或編程任務(wù),一個真正先進(jìn)的系統(tǒng)也應(yīng)該有權(quán)去搜索、模擬、執(zhí)行、檢查、驗證和修正。目標(biāo)是穩(wěn)健且高效地解決問題。
訓(xùn)練此類系統(tǒng)最大的挑戰(zhàn)是reward hacking(獎勵作弊)。
一旦模型獲得了有意義的工具訪問權(quán)限,reward hacking就變得危險得多。
一個能搜索的模型可能學(xué)會在RL訓(xùn)練中直接搜索答案。一個編程智能體可能利用代碼倉庫中的未來信息、濫用日志,或發(fā)現(xiàn)讓任務(wù)失效的捷徑。一個有隱藏泄漏的環(huán)境可能讓策略看起來超越人類水平,實際上卻是在訓(xùn)練它作弊。
這就是智能體時代變得比推理時代微妙得多的地方。
更好的工具讓模型更有用,但也擴(kuò)大了虛假優(yōu)化的攻擊面。
我們應(yīng)該預(yù)期,下一批嚴(yán)肅的研究瓶頸將來自環(huán)境設(shè)計、評估器魯棒性、防作弊協(xié)議,以及策略與世界之間更有原則的接口。盡管如此,方向是明確的。工具賦能的思維就是比孤立的思維更有用,也更有可能真正提升生產(chǎn)力。
智能體式思考還意味著編排工程(harness engineering)的興起。核心智能將越來越多地來自多個智能體的組織方式:
一個負(fù)責(zé)規(guī)劃和分發(fā)任務(wù)的編排者,多個像領(lǐng)域?qū)<乙粯有袆拥膶I(yè)智能體,以及執(zhí)行更窄任務(wù)的子智能體——它們幫助控制上下文、避免信息污染、并維護(hù)不同層級推理之間的隔離。
未來的方向是:從訓(xùn)練模型到訓(xùn)練智能體,從訓(xùn)練智能體到訓(xùn)練系統(tǒng)。
結(jié)語
推理浪潮的第一階段確立了一件重要的事:
當(dāng)反饋信號可靠且基礎(chǔ)設(shè)施能夠支撐時,語言模型之上的RL可以產(chǎn)出質(zhì)的飛躍式的認(rèn)知能力。
更深層的轉(zhuǎn)變是從推理式思考到智能體式思考:
從想得更久,到為了行動而想。訓(xùn)練的核心對象已經(jīng)改變了——它變成了模型+環(huán)境的系統(tǒng),或者更具體地說,是智能體和圍繞它的編排框架。
這改變了哪些研究要素最重要:
模型架構(gòu)和訓(xùn)練數(shù)據(jù)當(dāng)然仍然重要,但環(huán)境設(shè)計、軌跡采樣基礎(chǔ)設(shè)施、評估器魯棒性、以及多智能體之間的協(xié)調(diào)接口同樣關(guān)鍵。
這也改變了“好的思考”的定義:
最有用的軌跡,是能在真實世界約束下維持有效行動的那個——而非最長或最醒目的那個。
這也改變了競爭優(yōu)勢的來源:
在推理時代,優(yōu)勢來自更好的RL算法、更強(qiáng)的反饋信號和更可擴(kuò)展的訓(xùn)練流水線。
在智能體時代,優(yōu)勢將來自更好的環(huán)境、更緊密的訓(xùn)練-推理耦合、更強(qiáng)的編排工程,以及在模型的決策與這些決策產(chǎn)生的后果之間實現(xiàn)閉環(huán)的能力。
原文地址:
https://x.com/JustinLin610/status/2037116325210829168?s=20
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.