![]()
機器之心編輯部
本周四晚,前阿里千問大模型負責人林俊旸(Junyang Lin)在離職阿里千問后的首度公開發聲,立刻在 AI 科技圈引發了關注。
自三周前自宣離開后,林俊旸這次并沒有談論個人的職業規劃或離職內幕,而是發表了一篇題為《From "Reasoning" Thinking to "Agentic" Thinking》(從「推理式思考」到「智能體式思考」)的長文。
![]()
這篇文章深度復盤了過去兩年大模型行業的演進,特別是千問團隊在研發 Qwen3 時走過的彎路,并前瞻性地指出了 AI 大模型未來的絕對主線。
以下是全文內容:
過去兩年重塑了我們評估(大語言)模型的方式以及我們對模型的期望。OpenAI 的 o1 表明,「思考」可以成為一項核心能力,可以進行訓練并向用戶展示。DeepSeek-R1 證明了推理式的后訓練可以在原始實驗室之外復現和擴展。OpenAI 將 o1 描述為一個使用強化學習訓練的模型,其特點是「先思考后回答」。DeepSeek 將 R1 定位為一個與 o1 競爭的開放式推理模型。
這一階段至關重要。2025 年上半年我們主要關注的是推理思維:如何讓模型花費更多時間進行推理計算,如何用更強的獎勵來訓練它們,以及如何展示或控制這些額外的推理工作。現在的問題是,接下來會發生什么?我認為答案是智能體思維:在與環境交互的同時進行思考以采取行動,并根據來自世界的反饋不斷更新計劃。
1. o1 和 R1 的崛起究竟教會了我們什么
第一波推理模型告訴我們,如果想要在語言模型中擴展強化學習,我們需要確定性、穩定性和可擴展性的反饋信號。數學、代碼、邏輯和其他可驗證領域變得至關重要,因為在這些場景下,獎勵遠比通用的偏好監督更有力。它們使得強化學習能夠優化正確性而非合理性。基礎設施變得至關重要。
一旦模型被訓練成能夠推理更長的軌跡,強化學習就不再是監督式微調的輕量級附加組件,而變成了一個系統問題。我們需要大規模部署、高吞吐量驗證、穩定的策略更新和高效的采樣。推理模型的出現既是一個基礎設施的故事,也是一個建模的故事。OpenAI 將 o1 描述為一條用強化學習訓練的推理線,而 DeepSeek R1 后來通過展示基于推理的強化學習需要多少專門的算法和基礎設施工作,進一步強化了這一方向。第一個重大轉變:從擴展預訓練規模到擴展后訓練規模以進行推理。
2. 真正的問題絕非僅僅是「融合思考與指令」
2025 年初,Qwen 團隊的許多成員心中都勾勒出了一幅宏大的愿景。我們理想中的系統,應當能夠將「思考模式」與「指令模式」合二為一。它應支持可調節的推理強度 —— 其理念類似于推理設置中的「低 / 中 / 高」檔位。更理想的是,系統能根據用戶提示詞(Prompt)及上下文語境自動推斷出恰當的推理強度:從而讓模型自行決定何時應即刻作答、何時需稍作深思,以及何時應投入海量算力去攻克那些真正棘手的難題。
從概念層面來看,這無疑是正確的方向。Qwen3 便是這一理念在公開領域最鮮明的一次嘗試。它引入了「混合思考模式」:在同一系列模型中同時支持「思考型」與「非思考型」兩種行為模式;它強調對「思考預算」的可控性;此外,它還詳述了一個四階段的后訓練(Post-training)流程 —— 在該流程中,「思考模式融合」被明確安排在「長鏈式思維(Long-CoT)冷啟動」與「基于推理的強化學習(Reasoning RL)」之后執行。
然而,「融合」二字說來容易,要真正將其完美落地卻難如登天。癥結所在,其實是「數據」。當人們探討如何融合思考與指令模式時,腦海中往往首先浮現的是模型層面的兼容性問題:能否僅憑一個模型檢查點(Checkpoint)便同時支持這兩種模式?能否通過一套聊天模板在兩者之間自如切換?能否通過一套服務部署架構(Serving Stack)提供恰當的模式切換開關?然而,問題的深層本質在于:這兩種模式所依賴的數據分布及其所追求的行為目標,在根本上是截然不同的。
在試圖兼顧「模型融合」與「提升后訓練數據質量及多樣性」這兩大目標時,我們并未做到面面俱到。在這一迭代修正的過程中,我們始終密切關注著用戶在實際場景中究竟是如何使用「思考模式」與「指令模式」的。對于一款優秀的「指令型」模型而言,其價值往往體現在:回答直截了當、言簡意賅、嚴格遵循格式規范;且在處理諸如文本重寫、數據標注、模板化輔助、結構化信息提取以及操作性問答(Operational QA)等高頻、重復性的企業級任務時,能夠保持極低的時延。
反觀優秀的「思考型」模型,其價值則體現在:愿意為解決疑難問題投入更多的 Token 資源;能夠維持連貫且富有邏輯的中間推理結構;敢于探索多元化的解題路徑;并能預留充足的內部計算資源,從而切實提升最終答案的準確率。
這兩種行為模式之間存在著內在的張力與沖突。如果用于融合訓練的數據未經精細化的篩選與編排,其結果往往是兩頭皆空、表現平庸:其「思考型」行為會變得冗雜、臃腫,甚至顯得優柔寡斷;而其「指令型」行為則會變得不再干脆利落、可靠性下降,且其運行成本也遠高于商業用戶所期望的合理范疇。
在實際應用層面,將兩者保持「分離」的狀態,依然是更具吸引力的選擇。 2025 年晚些時候,繼 Qwen3 最初采用混合架構之后,2507 系列推出了針對指令(Instruct)和思維(Thinking)功能的獨立更新,其中包括單獨的 30B 和 235B 變體。在商業部署中,大量客戶仍希望在進行批量操作時,能獲得高吞吐量、低成本且高度可控的指令響應行為。對于此類場景,將兩者合并帶來的益處并不顯著。將產品線拆分開來,使得各團隊能夠更純粹地專注于解決每種模式各自面臨的數據與訓練難題。
其他實驗室則選擇了截然不同的路徑。Anthropic 公開倡導一種「集成式模型」的理念:Claude 3.7 Sonnet 作為一款混合推理模型問世,用戶既可以選擇獲取常規響應,也可以選擇啟用「擴展思維」模式;API 用戶甚至可以為模型設定具體的「思維預算」。
Anthropic 明確表示,他們堅信推理能力應當作為模型的一項內在集成能力而存在,而非被拆分為獨立的模型。GLM-4.5 也公開將自身定位為一款混合推理模型,同時支持思維模式與非思維模式,并實現了推理、編程及智能體(Agent)能力的統一;隨后,DeepSeek 也在 V3.1 版本中采取了類似的策略,推出了「思維與非思維」(Think & Non-Think)混合推理功能。
問題的關鍵在于:這種合并究竟是否真正做到了有機統一?如果思維功能與指令響應功能僅僅是物理上共存于同一個模型檢查點(checkpoint)之中,但在實際表現上依然像是兩種生硬拼湊而成的「人格」,那么最終的產品體驗仍將顯得極不自然。真正成功的合并,要求模型能夠呈現出一個平滑且連續的推理「強度」譜系。模型應當具備表達多種不同推理強度層級的能力,且理想情況下,應能根據具體情境自適應地在這些層級之間進行選擇。GPT 系列模型所采用的推理強度控制機制,正是指向了這一方向:它并非簡單的二元開關,而是一套基于計算資源調度的策略體系。
3. Anthropic 的發展方向為何起到了有益的糾偏作用
Anthropic 在對外宣傳 Claude 3.7 和 Claude 4 時,其措辭顯得相當克制。他們強調了集成推理能力、用戶可控的「思考預算」、解決現實世界任務的能力、代碼編寫質量,以及隨后引入的在進行長程思考時調用工具的能力。
Claude 3.7 被定位為一種具備可控預算的混合推理模型;而 Claude 4 則在此基礎上進行了擴展,允許推理過程與工具調用交錯進行,與此同時,Anthropic 明確將代碼編寫、長周期任務處理以及智能體(Agent)工作流視為其主要發展目標。
生成更長的推理軌跡,并不意味著模型就自動變得更加智能。在許多情況下,過度的、顯性的推理痕跡反而暴露出模型在資源分配上的低效與薄弱。如果模型試圖以同樣冗長繁瑣的方式去對所有事物進行推理,那很可能意味著它未能有效地進行優先級排序、未能對信息進行精簡壓縮,甚至未能果斷地采取行動。
Anthropic 的發展軌跡所體現的,是一種更為嚴謹的理念:模型的思考過程應當根據其所針對的具體工作負載來塑形。如果目標任務是代碼編寫,那么思考過程就應當致力于輔助代碼庫的導航、任務規劃、問題拆解、錯誤修復以及工具的協同調度。如果目標任務是智能體工作流,那么思考過程的核心目的應當是提升在長周期任務執行中的質量與成效,而非僅僅為了生成那些看似精彩卻無實質意義的中間過程文本。
這種對「針對性實用價值」的強調,指向了一個更為宏大的趨勢:我們正從「訓練模型」的時代,邁向「訓練智能體」的時代。我們在 Qwen3 的官方博客文章中明確闡述了這一觀點,文中寫道:「我們正從一個專注于訓練基礎模型的時代,向一個以訓練智能體為核心的時代過渡」;同時,我們將未來強化學習(RL)技術的進步,與基于環境反饋所實現的長程推理能力緊密地聯系在了一起。所謂「智能體」,是指這樣一種系統:它能夠制定行動計劃、自主決定何時采取行動、調用外部工具、感知并解讀環境反饋、適時調整策略,并能在漫長的時間跨度內持續地執行任務。智能體的本質特征,在于它與現實世界之間所建立的那種「閉環式」的交互關系。
4. 「智能體式思維」的真正含義
智能體式思維設定了一個截然不同的優化目標。推理式思維通常是根據模型在得出最終答案之前進行內部推演的質量來評判的:即模型能否解出定理、寫出證明、生成正確的代碼,或者通過基準測試。而智能體式思維關注的則是:模型在與環境進行交互的過程中,能否持續地取得進展。
核心問題由此發生了轉變:不再是「模型能否進行足夠長時間的思考?」,而是「模型能否以一種能夠支撐有效行動的方式進行思考?」智能體式思維必須處理一系列純粹的推理模型大多可以回避的問題:
- 決定何時停止思考并采取行動
- 選擇調用哪種工具,以及按何種順序調用
- 整合來自環境的帶有噪聲或不完整(部分)的觀測信息
- 在遭遇失敗后對計劃進行修正
- 在多輪交互及多次工具調用之間保持邏輯的一致性
智能體式思維所描述的模型,是通過「行動」來進行推理的。
5. 為什么智能體式強化學習的基礎設施構建難度更大?
一旦優化目標從解決基準測試問題轉向解決交互式任務,整個強化學習(RL)的技術棧也就隨之發生了變化。用于傳統推理式強化學習的基礎設施,已不足以滿足新的需求。在推理式強化學習中,我們通常可以將「軌跡采樣」(rollouts)視為相對獨立且自洽的序列,并配合相對純凈、簡單的評估器進行評判。而在智能體式強化學習中,策略模型被嵌入到了一個更為龐大的支撐框架之中 —— 該框架涵蓋了工具服務器、瀏覽器、終端、搜索引擎、模擬器、執行沙箱、API 接口層、記憶系統以及編排調度框架等一系列組件。此時,環境不再僅僅是一個靜態的驗證器,它已然成為了整個訓練系統不可分割的一部分。
這種轉變帶來了一項全新的系統級需求:訓練過程與推理過程之間必須實現更為徹底、干凈的解耦。若無法實現這種解耦,軌跡采樣的吞吐量將會急劇下滑。試想這樣一個場景:一個負責編寫代碼的智能體必須將其生成的代碼提交至一個「實時運行」的測試環境(test harness)中進行執行與驗證。在此過程中,推理端(inference side)將因苦等執行結果的反饋而陷入停滯;訓練端(training side)則因無法獲得足夠多的已完成軌跡數據而處于「饑餓」狀態;最終導致整個訓練管線的運行效率遠低于我們在傳統推理式強化學習場景中所預期的 GPU 利用率水平。若再疊加工具調用的延遲、環境的部分可觀測性以及環境狀態的動態變化(有狀態環境)等因素,這種低效狀況將會被進一步放大。其直接后果便是:在模型尚未達到你所預期的能力水平之前,相關的實驗迭代過程就已經變得步履維艱、令人倍感煎熬了。
此外,環境本身也由此躍升為一種「最核心」級別的研究資產。回溯至 SFT(監督微調)時代,我們曾將全部精力與關注點都聚焦于「數據多樣性」這一核心議題之上。在「智能體時代」,我們應當對環境質量精益求精:包括穩定性、真實性、覆蓋度、難度、狀態多樣性、反饋豐富度、抗利用性,以及推演生成的可擴展性。環境構建已不再僅僅是一項輔助性的副業,而是開始演變為一個真正獨立的創業賽道。如果智能體的訓練目標是在接近生產環境的設定中運行,那么其所處的環境便構成了其核心能力棧不可或缺的一部分。
6. 下一個前沿:更具可用性的思維
我預計,智能體式思維(agentic thinking)將成為主導性的思維形式。我認為,它最終可能會取代許多舊有的、靜態獨白式的推理思維模式 —— 即那些過于冗長、孤立的內部思維軌跡,它們試圖通過不斷生成文本輸出來彌補缺乏交互的缺陷。即使面對極其困難的數學或編程任務,一個真正先進的系統也應當擁有執行搜索、模擬、執行代碼、檢查、驗證及修訂操作的權限。其核心目標在于:以穩健且高效的方式解決問題。
訓練此類系統面臨的最棘手挑戰是「獎勵作弊」(reward hacking)問題。一旦模型獲得了調用外部工具的實質性權限,獎勵作弊的風險便會急劇攀升。例如,一個具備搜索功能的模型可能會在強化學習(RL)訓練過程中,直接通過搜索來獲取標準答案;一個編程智能體可能會利用代碼倉庫中未來的信息、濫用日志數據,或者發現某些能繞過任務實質的「捷徑」。如果訓練環境存在隱蔽的信息泄露漏洞,模型在表面上可能會展現出超乎常人的能力,但實際上它只是學會了如何「作弊」。正是在這一點上,「智能體時代」的運作機制遠比此前的「推理時代」要精細、微妙得多。雖然更強大的工具能提升模型的實用性,但也隨之擴大了「虛假優化」(spurious optimization)的潛在攻擊面。因此,我們應當預見到,下一波嚴峻的研究瓶頸將主要集中在以下領域:環境設計、評估器的魯健性、防作弊協議,以及在策略(policy)與世界(world)之間構建更具原則性的接口。
盡管挑戰重重,但發展方向已然清晰:基于工具輔助的思維模式,其實用性顯然優于孤立的內部思維,且更有望切實提升現實世界的生產力。
智能體式思維的興起,同時也意味著對「系統編排工程」(harness engineering)的精細化構建。系統的核心智能將日益源自于對多個智能體之間的組織與協同:包括負責規劃與任務分發的「編排者」(orchestrator);扮演特定領域專家角色的「專業化智能體」;以及負責執行具體微小任務的「子智能體」—— 后者在執行任務的同時,還能協助管理上下文語境、防止信息污染,并確保不同層級推理過程之間的邏輯隔離。未來的發展趨勢將呈現出一種演進:從單純訓練模型轉向訓練智能體,進而從訓練智能體升華為訓練整個智能體系統。
結語
「推理浪潮」的第一階段確立了一項至關重要的事實:若能確保反饋信號的可靠性,且底層基礎設施能夠提供充分支撐,那么在語言模型之上疊加強化學習(RL)機制,確實能夠催生出在本質上更為強大的認知能力。
而更為深層的變革,則是從「推理式思維」向「智能體式思維」的范式轉移 —— 即從單純追求「思考得更長、更深」,轉向追求「為了采取行動而進行思考」。至此,訓練工作的核心對象已發生了根本性的轉變:它不再僅僅是孤立的模型本身,而是「模型與環境構成的整體系統」;若具體來說,其核心對象便是「智能體」及其周遭用于駕馭與協同的架構體系(harness)。這改變了哪些研究產物最為關鍵:誠然,模型架構和訓練數據依然重要,但環境設計、部署基礎設施、評估器的魯棒性,以及多個智能體之間進行協調的接口,也變得同樣關鍵。這也重新定義了何為「優質思考」:它不再指最冗長或最顯眼的思考軌跡,而是在現實世界的種種約束下,最有助于維持行動持續性的那條軌跡。
此外,這也改變了競爭優勢的來源。在「推理時代」,競爭優勢主要源自更優的強化學習算法、更強的反饋信號,以及更具擴展性的訓練流水線。而在「智能體時代」,競爭優勢將轉而源自更優良的環境設計、更緊密的訓練與服務集成、更強大的「駕馭工程」(harness engineering)能力,以及能夠將模型的決策與其所產生的后果之間形成閉環的能力。
參考內容:
https://x.com/JustinLin610/status/2037116325210829168
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.