林俊旸離職后首發(fā)文：我們?yōu)槭裁礇]把“思考+指令”合并好？

2026-03-27 11:17:16　來源: 智東西

北京舉報

分享至

智東西
編譯｜李水青
編輯｜心緣

智東西3月27日報道，昨日晚間，前阿里千問大模型負責人林俊旸（Junyang Lin）在社交平臺X上發(fā)表了《從“推理式思考”到“智能體式思考”（From “Reasoning” Thinking to “Agentic” Thinking）》的長文，引起AI技術(shù)產(chǎn)業(yè)圈關注。

這是繼掀起阿里離職風波后，他首次在X平臺正式發(fā)文。在文中，他主要闡述了AI技術(shù)和產(chǎn)業(yè)發(fā)展的脈絡，也不免透露出對千問大模型技術(shù)路線的反思。文章主要核心觀點如下：

1、我們正從訓練模型的時代轉(zhuǎn)向訓練智能體的時代。智能體式思考是指為了行動而思考，在與環(huán)境交互中持續(xù)更新計劃。

2、o1和R1的崛起教會了我們：從擴展預訓練轉(zhuǎn)向擴展推理后訓練，強化學習已成為系統(tǒng)工程，基礎設施與可驗證反饋是關鍵。

3、Qwen團隊曾認為理想的系統(tǒng)應該統(tǒng)一思考模式和指令模式，但合并思考和指令，說起來容易，做起來難得多。難點在于數(shù)據(jù)。

4、當試圖在模型合并與提升后訓練數(shù)據(jù)的質(zhì)量和多樣性之間尋找平衡時，我們并未把所有事情都做對。

5、環(huán)境本身正在成為一流的研究對象。在智能體時代，我們應該專注于環(huán)境的質(zhì)量，而非僅僅關注數(shù)據(jù)多樣性。

6、更好的工具讓模型更有用，但也放大了獎勵破解的攻擊面。

7、未來競爭優(yōu)勢將從更好的算法，轉(zhuǎn)向更好的環(huán)境、更緊密的訓練-服務集成，以及更強的框架工程。

林俊旸發(fā)文的原文內(nèi)容編譯如下：

過去兩年重塑了我們評估模型的方式以及對模型的期望。OpenAI的o1表明，“思考”可以成為一種一流的能力，是你可以為此進行訓練并向用戶展示的東西。DeepSeek-R1證明了基于推理的后訓練可以在原始實驗室之外被復現(xiàn)和擴展。OpenAI將o1描述為一個通過強化學習訓練出來的、“在回答前先思考”的模型。DeepSeek則將R1定位為一個能與o1競爭的開放推理模型。

那個階段很重要。但2025年上半年主要關注的還是推理思考：如何讓模型投入更多推理時計算，如何用更強的獎勵信號訓練它們，以及如何展現(xiàn)或控制這種額外的推理努力。現(xiàn)在的問題是，接下來是什么。我相信答案是智能體式思考：為了行動而思考，在與環(huán)境交互的同時，根據(jù)來自世界的反饋持續(xù)更新計劃。

一、o1和R1的崛起實際教會了我們什么

第一波推理模型教會我們，如果想在語言模型中擴展強化學習，我們需要確定性的、穩(wěn)定的、可擴展的反饋信號。數(shù)學、代碼、邏輯和其他可驗證的領域變得核心，因為這些場景下的獎勵信號遠比通用的偏好監(jiān)督更強。它們讓強化學習能夠針對正確性而非合理性進行優(yōu)化。基礎設施變得至關重要。

一旦一個模型經(jīng)過訓練，能夠通過更長的軌跡進行推理，強化學習就不再是監(jiān)督微調(diào)之上一個輕量級的附加項。它變成了一個系統(tǒng)工程問題。你需要大規(guī)模的軌跡生成、高吞吐量的驗證、穩(wěn)定的策略更新、高效的采樣。推理模型的出現(xiàn)，既是一個建模的故事，也是一個基礎設施的故事。OpenAI將o1描述為一個通過強化學習訓練的推理模型系列，而DeepSeek R1后來通過展示基于推理的強化學習需要多么專注的算法和基礎設施工作，進一步強化了這一方向。第一個重大轉(zhuǎn)變是：從擴展預訓練轉(zhuǎn)向擴展用于推理的后訓練。

二、真正的問題從來不僅僅是“合并思考與指令”

2025年初，我們Qwen團隊的許多人都抱有一個雄心勃勃的設想。理想的系統(tǒng)應該統(tǒng)一思考模式和指令模式。它應該支持可調(diào)節(jié)的推理努力程度，類似于低/中/高推理設置的理念。更進一步，它應該能從提示詞和上下文中自動推斷出合適的推理量，這樣模型就能決定何時立即回答，何時思考更久，何時在真正困難的問題上投入更多的計算資源。

從概念上講，這是正確的方向。Qwen3是最明確的公開嘗試之一。它引入了“混合思考模式”，在一個模型家族中同時支持思考和非思考行為，強調(diào)可控的思考預算，并描述了一個四階段的后訓練流程，其中明確包含了在長思維鏈冷啟動和推理強化學習之后的“思考模式融合”。

但是，合并說起來容易，做好卻難得多。難點在于數(shù)據(jù)。當人們談論合并思考與指令時，他們通常首先考慮模型端的兼容性：一個檢查點能否同時支持兩種模式，一個對話模板能否在兩者間切換，一個服務堆棧能否暴露正確的開關。更深層的問題在于，這兩種模式的數(shù)據(jù)分布和行為目標是截然不同的。

在嘗試平衡模型合并與提升后訓練數(shù)據(jù)的質(zhì)量和多樣性時，我們并未把所有事情都做對。在那個修訂過程中，我們也密切關注用戶實際如何使用思考模式和指令模式。一個強大的指令模型通常因其直接、簡潔、符合格式要求、低延遲地處理重復性、高并發(fā)的企業(yè)任務（如重寫、標注、模板化支持、結(jié)構(gòu)化提取和運營問答）而獲得好評。一個強大的思考模型則因其在難題上投入更多詞元、保持連貫的中間結(jié)構(gòu)、探索替代路徑、以及保留足夠的內(nèi)部計算以切實提升最終正確性而獲得好評。

這兩種行為模式是相互沖突的。如果合并的數(shù)據(jù)沒有得到精心策劃，結(jié)果通常是在兩方面都表現(xiàn)平庸：“思考”行為變得嘈雜、臃腫或缺乏決斷力，而“指令”行為則變得不那么清晰、不那么可靠，并且比商業(yè)用戶實際想要的成本更高。

在實踐中，保持分離仍然很有吸引力。2025年下半年，在Qwen3最初的混合框架之后，2507系列發(fā)布了獨立的指令模型和思考模型更新，包括單獨的30B和235B變體。在商業(yè)部署中，大量客戶仍然希望為批處理任務提供高吞吐量、低成本、高可控性的指令行為。對于這些場景，合并顯然不是一項優(yōu)勢。分離不同模型系列使得團隊能夠更專注地解決每種模式的數(shù)據(jù)和訓練問題。

其他實驗室選擇了相反的道路。Anthropic公開主張一種集成模型理念：Claude 3.7 Sonnet作為一個混合推理模型推出，用戶可以選擇普通響應或擴展思考，API用戶可以設置思考預算。Anthropic明確表示，他們認為推理應該是一種集成能力，而不是一個獨立的模型。GLM-4.5也公開定位為一個混合推理模型，兼具思考和非思考模式，統(tǒng)一了推理、編碼和智能體能力；DeepSeek后來也通過V3.1的“思考與非思考”混合推理向類似方向發(fā)展。

關鍵問題在于合并是否是自然的。如果思考和指令僅僅是共存在一個檢查點內(nèi)，但行為上仍然像兩個生硬拼接的人格，那么產(chǎn)品體驗就會不自然。一個真正成功的合并需要一個平滑的推理努力程度譜系。模型應該能夠展現(xiàn)不同層級的努力，并且最好能夠自適應地選擇。GPT風格的努力程度控制正指向這一點：一種關于計算資源的策略，而非一個二元開關。

三、為什么Anthropic的方向是一個有用的修正

Anthropic圍繞Claude 3.7和Claude 4的公開表述是克制的。他們強調(diào)了集成推理、用戶可控的思考預算、現(xiàn)實世界任務、編碼質(zhì)量，以及后來在擴展思考期間使用工具的能力。Claude 3.7被呈現(xiàn)為一個具有可控預算的混合推理模型；Claude 4在此基礎上擴展，允許推理與工具使用交錯進行，同時Anthropic強調(diào)編碼、長時間運行任務和智能體工作流是主要目標。

產(chǎn)生更長的推理軌跡并不會自動讓模型變得更智能。在許多情況下，過多的可見推理信號表明分配策略不佳。如果模型試圖以同樣的冗長方式對所有事情進行推理，它可能無法進行優(yōu)先級排序，無法進行信息壓縮，或者無法采取行動。Anthropic的路線圖暗示了一種更嚴謹?shù)挠^點：思考應該由目標工作負載來塑造。如果目標是編碼，那么思考應該有助于代碼庫導航、規(guī)劃、分解、錯誤恢復和工具編排。如果目標是智能體工作流，那么思考應該提升長時間跨度的執(zhí)行質(zhì)量，而不是產(chǎn)生令人印象深刻的中間文本。

這種對針對性實用性的強調(diào)指向了更大的圖景：我們正從訓練模型的時代邁向訓練智能體的時代。我們在Qwen3的博客中明確指出了這一點，寫道“我們正從以訓練模型為中心的時代過渡到以訓練智能體為中心的時代”，并將未來的強化學習進展與環(huán)境反饋（用于長時程推理）聯(lián)系起來。智能體是一個能夠制定計劃、決定何時行動、使用工具、感知環(huán)境反饋、修正策略并在長時間跨度內(nèi)持續(xù)運行的系統(tǒng)。它的定義是與世界的閉環(huán)交互。

四、 “智能體式思考”的真正含義

智能體式思考是一個不同的優(yōu)化目標。推理思考通常通過最終答案之前內(nèi)部思考過程的質(zhì)量來評判：模型能否解出定理、寫出證明、生成正確的代碼或通過基準測試。智能體式思考關注的是模型在與環(huán)境交互時能否持續(xù)取得進展。

核心問題從“模型能思考足夠久嗎？”轉(zhuǎn)變?yōu)椤澳Ｐ湍芤跃S持有效行動的方式進行思考嗎？”智能體式思考必須處理幾個純粹推理模型大多可以避免的問題：
– 決定何時停止思考并采取行動
– 選擇調(diào)用哪個工具以及以何種順序調(diào)用
– 整合來自環(huán)境的有噪聲或部分觀測信息
– 在失敗后修正計劃
– 在多次交互和多次工具調(diào)用中保持連貫性

智能體式思考是一個通過行動進行推理的模型。

五、為什么智能體強化學習基礎設施更難

一旦目標從解決基準問題轉(zhuǎn)變?yōu)榻鉀Q交互式任務，強化學習技術(shù)棧就發(fā)生了變化。用于經(jīng)典推理強化學習的基礎設施是不夠的。在推理強化學習中，你通常可以將軌跡生成為大部分自包含的、帶有相對清晰評估器的過程。在智能體強化學習中，策略被嵌入到一個更大的框架中：工具服務器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙盒、API層、內(nèi)存系統(tǒng)和編排框架。環(huán)境不再是一個靜態(tài)的驗證器；它是訓練系統(tǒng)的一部分。

這帶來了一個新的系統(tǒng)要求：訓練和推理必須更清晰地解耦。沒有這種解耦，軌跡生成的吞吐量就會崩潰。考慮一個必須針對實時測試框架執(zhí)行生成代碼的編碼智能體：推理端在等待執(zhí)行反饋時停滯，訓練端因缺少完成的軌跡而饑餓，整個流程的GPU利用率遠低于你在經(jīng)典推理強化學習中預期的水平。添加工具延遲、部分可觀測性和有狀態(tài)的環(huán)境會加劇這些低效問題。結(jié)果是，實驗速度變慢，并且在達到你目標能力水平之前很久就會變得令人痛苦。

環(huán)境本身也成為一個一流的研究對象。在監(jiān)督微調(diào)時代，我們癡迷于數(shù)據(jù)的多樣性。在智能體時代，我們應該癡迷于環(huán)境的質(zhì)量：穩(wěn)定性、真實性、覆蓋率、難度、狀態(tài)的多樣性、反饋的豐富性、抗利用性以及軌跡生成的擴展性。環(huán)境構(gòu)建已開始成為一個真正的創(chuàng)業(yè)類別，而不僅僅是副項目。如果智能體被訓練來在生產(chǎn)環(huán)境中運行，那么環(huán)境就是核心能力棧的一部分。

六、下一個前沿是更實用的思考

我的預期是，智能體式思考將成為思考的主導形式。我認為它最終可能會取代許多舊的靜態(tài)獨白式的推理思考：那種試圖通過生成越來越多的文本來彌補缺乏交互的、過長的、孤立的內(nèi)部軌跡。即使在非常困難的數(shù)學或編碼任務上，一個真正先進的系統(tǒng)也應該有權(quán)進行搜索、模擬、執(zhí)行、檢查、驗證和修正。目標是穩(wěn)健且高效地解決問題。

訓練此類系統(tǒng)最難的挑戰(zhàn)是獎勵破解。一旦模型獲得了有意義的工具訪問權(quán)限，獎勵破解就會變得危險得多。一個擁有搜索能力的模型可能會學會在強化學習期間直接查找答案。一個編碼智能體可能會利用代碼倉庫中的未來信息、濫用日志，或者發(fā)現(xiàn)使任務無效的捷徑。一個存在隱藏漏洞的環(huán)境可能會讓策略看起來表現(xiàn)超群，而實際上卻在訓練它作弊。這正是智能體時代比推理時代更微妙的地方。更好的工具讓模型更有用，但它們也擴大了虛假優(yōu)化的攻擊面。我們應該預料到，下一個嚴峻的研究瓶頸將來自環(huán)境設計、評估器的魯棒性、反作弊協(xié)議，以及策略與世界之間更規(guī)范的接口。盡管如此，方向是明確的。啟用工具的思考比孤立的思考有用得多，并且更有可能真正提高生產(chǎn)力。

智能體式思考也意味著框架工程。核心智能將越來越多地來自多個智能體的組織方式：一個負責規(guī)劃和分派工作的編排器，充當領域?qū)＜业膶Ｓ弥悄荏w，以及執(zhí)行更狹窄任務、同時幫助控制上下文、避免污染并保持不同推理層級之間分離的子智能體。未來是從訓練模型轉(zhuǎn)向訓練智能體，再從訓練智能體轉(zhuǎn)向訓練系統(tǒng)。

七、結(jié)論

推理浪潮的第一階段確立了一件重要的事：當反饋信號可靠且基礎設施能夠支撐時，在語言模型之上進行強化學習可以產(chǎn)生質(zhì)量上更強的認知能力。

更深層的轉(zhuǎn)變是從推理思考轉(zhuǎn)向智能體式思考：從思考更久轉(zhuǎn)向為了行動而思考。訓練的核心對象已經(jīng)改變。它是“模型加環(huán)境”的系統(tǒng)，或者更具體地說，是智能體及其周圍的框架。這改變了哪些研究要素最為重要：模型架構(gòu)和訓練數(shù)據(jù)，當然，但也包括環(huán)境設計、軌跡生成基礎設施、評估器的魯棒性，以及多個智能體協(xié)調(diào)的接口。這改變了“好的思考”的含義：在現(xiàn)實世界約束下維持行動最有用的軌跡，而不是最長或最顯眼的軌跡。

這也改變了競爭優(yōu)勢的來源。在推理時代，優(yōu)勢來自更好的強化學習算法、更強的反饋信號和更具擴展性的訓練流程。在智能體時代，優(yōu)勢將來自更好的環(huán)境、更緊密的訓練-服務集成、更強的框架工程，以及能夠在模型的決策與其產(chǎn)生的后果之間形成閉環(huán)的能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.