![]()
作者 | 允毅
在外界圍繞“Harness Engineer”討論得熱火朝天之際,阿里千問技術負責人林俊旸在離職后首次公開發聲。
昨天深夜,他發布了一篇長文《From “Reasoning” Thinking to “Agentic” Thinking》(從“推理”思維到“智能體思維”),對 AI 下一波能力躍遷作出了一次系統性的判斷:大模型的未來,不是繼續把推理鏈拉得更長,而是轉向一種為了行動而思考、在環境中思考、并通過反饋閉環持續修正的“智能體思維”。
在這篇文章中,林俊旸罕見復盤了Qwen 在訓練過程中的一次關鍵嘗試,以及他為何最終改變了判斷。
他在文中提到,2025 年初,團隊曾試圖挑戰一件事:把 thinking 和 Instruct 模式合并到同一個模型中。在他的理想設定里,一個真正先進的模型,不應只有“會不會思考”這一個開關,而應該能夠根據提示詞和上下文,自動判斷該投入多少推理計算:什么問題可以直接回答,什么問題需要多想一會兒,什么問題又值得顯著增加計算量。
Qwen3 正是這一方向的一次大膽嘗試,它首次引入了混合思維模式。但在林俊旸看來,結果并不理想。
合并之后,thinking 往往變得更啰嗦、更猶豫,而 Instruct 模式 也不再像過去那樣干脆、穩定、低成本。問題的根源不在模型開關,而在數據本身:兩種模式對應的數據分布不同、行為目標不同,如果缺乏精細化的融合與校準,最終往往不是“取長補短”,而是“兩頭都受損”。
這也是為什么,盡管 OpenAI 的 o1 和 DeepSeek-R1 已經證明推理能力可以被訓練、被復現,并在 2025 年上半年將行業帶入“推理模型時代”,大家都在思考如何讓模型在推理階段投入更多計算、如何用更強獎勵信號訓練它們、如何控制額外的推理開銷時,林俊旸卻開始追問另一個更根本的問題:大模型最好的思考方式,到底應該是什么樣子?
他給出的答案是,單純延長推理鏈并不是終點。真正更有效的方向,是讓模型為了行動而思考。
在這一判斷上,Anthropic 給了他重要啟發。林俊旸注意到,Anthropic 在 Claude 3.7 和 Claude 4 上,始終強調“思考應該由目標工作負載來塑造”。
Claude 3.7 被定義為一個帶有可控預算的混合式推理模型;Claude 4 則更進一步,允許推理過程與工具使用交錯進行。這種思路背后的關鍵,不是讓模型輸出更長的思維鏈,而是讓思考真正服務于編碼、工具調用、長時任務和智能體工作流。
由此,林俊旸重新審視了自己此前的實驗,也重新界定了“合并”這件事的真正含義。在他看來,理想中的統一,并不是把 thinking 和 Instruct 模式 粗暴塞進同一個 checkpoint,而是讓模型擁有一個更平滑的推理光譜:它既能表達不同層級的推理強度,也能在理想情況下根據任務難度自適應地做出選擇。
這也構成了他對 AI 下一階段最核心的判斷:從“推理思維”走向“智能體思維”。
如果說推理思維的典型形態,是靜態的、內部的、偏獨白式的長推理鏈;那么智能體思維則完全不同。它不是在封閉的模型內部“想得更久”,而是在與環境持續互動的過程中思考,在行動中調用工具、獲取反饋、修正策略,并把思考真正嵌入到執行過程之中。
這意味著,未來更強的模型不只是“更會解題”,還必須能夠處理一系列純推理模型很難解決的問題:
決定什么時候該停止思考并采取行動
選擇調用哪個工具,以及調用順序
吸收來自環境的噪聲觀測或不完整觀測
在失敗之后修訂計劃
在多輪交互、多個工具調用之間保持一致性
這與最近被頻繁討論的Harness Engineering正相對應。
按照林俊旸的理解,未來智能體能力的核心,越來越不只來自模型本身,也來自圍繞模型搭建的那套“腳手架”——也就是環境、工具、約束、反饋循環,以及多智能體協同機制。Harness Engineering 的價值,正是在于把一個“裸模型”變成一個能夠在現實任務中持續行動、持續修正、持續完成工作的 Agent。
在推理時代,領先主要來自更強的強化學習算法、更穩定的反饋信號和更可擴展的訓練流水線;而在智能體時代,領先將越來越取決于誰能構建出更好的環境、更緊密的訓推協同、更強的 harness engineering,以及誰能真正把模型的決策與現實后果閉環起來。
以下是林俊旸全文展現:
從“推理”思維到“智能體思維”
過去兩年,重塑了我們評估模型的方式,也重塑了我們對模型的期待。OpenAI 的 o1 表明,“思考”可以成為一項核心能力:它既可以被專門訓練,也可以被直接呈現給用戶。DeepSeek-R1 則證明,以推理為中心的后訓練范式并非原始實驗室獨有,它可以在外部被復現并進一步擴展。OpenAI 將 o1 描述為一個通過強化學習訓練、能夠“先思考再作答”的模型;DeepSeek 則將 R1 定位為一個可與 o1 競爭的開源推理模型。
那個階段當然重要。但 2025 年上半年,行業主要關注的仍然是“推理式思維”:如何讓模型在推理階段投入更多計算,如何用更強的獎勵信號來訓練它們,以及如何展示或控制這部分額外的推理開銷。現在的問題是,下一步會是什么?我認為答案是:智能體思維。也就是為了行動而思考,在與環境互動的過程中思考,并根據來自外部世界的反饋不斷調整計劃。
1. o1 和 R1 的興起,究竟教會了我們什么
第一波推理模型告訴我們:如果想在語言模型上擴展強化學習,就需要確定、穩定、可擴展的反饋信號。數學、代碼、邏輯以及其他可驗證領域因此變得格外關鍵,因為這些場景下的獎勵信號遠強于一般性的偏好監督。它們讓強化學習優化的是“正確性”,而不是“看起來合理”。基礎設施也因此變得至關重要。
一旦模型被訓練到能夠處理更長的推理軌跡,強化學習就不再只是監督微調上的一個輕量附加模塊,而會變成一個系統工程問題。你需要大規模 rollout 生成、高吞吐驗證、穩定的策略更新以及高效的采樣。推理模型的出現,既是模型層面的故事,也是基礎設施層面的故事。OpenAI 將 o1 描述為一條通過強化學習訓練出來的推理模型路線;而 DeepSeek R1 隨后進一步強化了這一方向,展示了基于推理的強化學習對專門算法和基礎設施投入有多高。第一個重要轉變,就是從擴展預訓練,轉向擴展面向推理的后訓練。
2. 真正的問題,從來不只是“把思考模式和 Instruct 模式 合并”
在 2025 年初,Qwen 團隊中的許多人腦海里都有一個頗具野心的愿景。理想中的系統,應當統一思考模式與 Instruct 模式。它應支持可調節的推理難度或推理光譜,類似 low 、 medium、high 這樣的推理檔位。更理想的是,它還能根據提示詞和上下文自動判斷合適的推理強度,讓模型自己決定:什么時候可以立即回答,什么時候需要多想一會兒,什么時候又值得為真正困難的問題投入更多計算。
從概念上看,這個方向是對的。Qwen3 可以說是其中最清晰的公開嘗試之一。它提出了“混合思考模式”,支持同一模型家族同時具備思考與非思考兩種行為,強調可控的思考預算,并描述了一個四階段的后訓練流程,其中在長鏈思維冷啟動和推理強化學習之后,明確包含了“思考模式融合”。
但“合并”說起來容易,真正做好卻很難。難點在于數據。人們談到合并思考模式與 Instruct 模式 時,往往首先想到的是模型側的兼容性:一個 checkpoint 能不能同時支持兩種模式,一個聊天模板能不能在二者之間切換,一套服務棧能不能暴露合適的開關。可更深層的問題在于,這兩種模式對應的數據分布和行為目標本身就有明顯差異。
在試圖平衡模型合并與提升后訓練數據質量、數據多樣性的過程中,我們并不是每一步都做得盡善盡美。在那輪調整中,我們也格外關注了用戶究竟是如何使用思考模式和 Instruct 模式 的。一個強大的 Instruct 模式 模型,通常因其直接、簡潔、格式遵循度高,以及在重寫、標注、模板化客服、結構化抽取、運營問答等高頻高吞吐企業任務上的低延遲表現而受到獎勵。一個強大的思考模型,則會因其在難題上愿意投入更多 token、能維持連貫的中間結構、能探索備選路徑,并保留足夠的內部計算以切實提升最終正確率而受到獎勵。
這兩種行為畫像天然存在拉扯。如果合并數據沒有經過足夠精細的篩選和設計,結果往往是兩邊都做不好:“思考”行為會變得嘈雜、臃腫、猶疑不決;而“Instruct 模式”行為則會失去應有的利落、可靠和成本優勢,不再符合商業用戶的實際需求。
因此,在實踐中,“分開做”依然很有吸引力。2025 年稍晚些時候,在 Qwen3 最初提出混合框架之后,2507 系列推出了彼此獨立的 Instruct 和 Thinking 更新,其中包括分別獨立的 30B 和 235B 版本。在商業部署中,大量客戶依然需要的是高吞吐、低成本、強可控的 Instruct 模式 行為,用于批量化操作。對這些場景來說,合并并不一定帶來明確收益。將產品線拆開,反而能讓團隊更清晰地分別解決兩種模式各自對應的數據和訓練問題。
其他實驗室則選擇了相反的道路。Anthropic 公開主張一種一體化模型哲學:Claude 3.7 Sonnet 被定義為一個混合式推理模型,用戶既可以選擇普通回答,也可以選擇擴展思考;API 用戶還可以設置思考預算。Anthropic 明確表示,他們相信推理應當是一種集成能力,而不是一個單獨的模型。GLM-4.5 也公開將自己定位為混合式推理模型,同時支持思考與非思考模式,并統一了推理、編碼和智能體能力;DeepSeek 后來在 V3.1 上也朝類似方向邁進,推出了“Think & Non-Think”的混合推理。
關鍵問題在于,這種融合是否是“自然長出來的”。如果思考模式和 Instruct 模式 只是被塞進同一個 checkpoint 里,但表現出來仍像兩個生硬拼接的人格,那么產品體驗依然不會自然。真正成功的融合,要求推理投入是一個平滑連續的譜系。模型應能夠表達多個層級的推理強度,并且理想情況下,還能自適應地做出選擇。GPT 風格的 effort control 正指向這個方向:它不是一個二元開關,而是一套關于計算投入的策略。
3. 為什么 Anthropic 的方向是一種有益的糾偏
Anthropic 圍繞 Claude 3.7 和 Claude 4 的公開表述是相當克制的。他們強調的是一體化推理、用戶可控的思考預算、真實世界任務、代碼質量,以及后續在擴展思考過程中使用工具的能力。Claude 3.7 被描述為一個帶有可控預算的混合式推理模型;Claude 4 則在此基礎上更進一步,允許推理過程與工具使用交錯進行。與此同時,Anthropic 還將編碼、長時任務和智能體工作流明確放在核心目標位置上。
更長的推理軌跡,并不會自動讓模型變得更聰明。很多時候,過度外顯的推理反而暴露了資源分配不當。如果模型試圖用同樣冗長的方式去“思考”所有問題,它可能其實是在優先級判斷上出了問題,沒能有效壓縮信息,也沒能及時采取行動。Anthropic 的路線傳達出一種更克制、更有紀律性的看法:思考應當由目標工作負載來塑造。如果目標是編碼,那么思考就應當幫助模型進行代碼庫導航、任務規劃、問題拆解、錯誤恢復和工具編排;如果目標是智能體工作流,那么思考就應當提升模型在長時間尺度上的執行質量,而不是產出一段看起來很厲害的中間推理文本。
這種對“目標效用”的強調,實際上指向了一個更大的變化:我們正在從“訓練模型”的時代,邁向“訓練智能體”的時代。我們在 Qwen3 的博客里也明確寫過:“我們正在從一個專注于訓練模型的時代,轉向一個以訓練智能體為中心的時代。”同時,我們也把未來強化學習的推進方向,與依賴環境反饋的長時程推理聯系在了一起。一個智能體,是那種能夠制定計劃、決定何時行動、使用工具、感知環境反饋、修正策略,并在較長時間范圍內持續推進任務的系統。它的本質,在于與世界之間的閉環交互。
4. “智能體思維”到底意味著什么
智能體思維對應的是一個完全不同的優化目標。推理式思維通常看重的是:模型在給出最終答案之前,內部思考的質量如何——它能不能解出定理、寫出證明、產出正確代碼,或者通過基準測試。智能體思維關注的則是:模型在與環境交互的過程中,能否持續推進問題的解決。
核心問題也因此從“模型能不能想得足夠久”,轉變為“模型能不能以一種能夠支撐有效行動的方式去思考”。智能體思維必須處理若干純推理模型往往可以回避的問題:
決定什么時候該停止思考并采取行動
選擇調用哪個工具,以及調用順序
吸收來自環境的噪聲觀測或不完整觀測
在失敗之后修訂計劃
在多輪交互、多個工具調用之間保持一致性
智能體思維,本質上是一種圍繞行動展開、在環境中運作、并依賴反饋閉環不斷修正自身的思維能力。它不是為了生成更長的中間過程而思考,而是為了讓行動持續有效地推進。
5. 為什么智能體強化學習的基礎設施更難
一旦目標從“解基準題”變成“解交互任務”,強化學習的整套技術棧就會發生變化。用于經典推理強化學習的基礎設施已經不夠用了。在推理強化學習里,你通常還能把 rollout 生成視為相對自包含的軌跡,配合相對干凈的評估器。而在智能體強化學習里,策略是被嵌入在一個更大的執行框架中的:工具服務器、瀏覽器、終端、搜索引擎、模擬器、執行沙箱、API 層、記憶系統,以及各種編排框架。環境不再只是一個靜態驗證器,而成為訓練系統本身的一部分。
這就帶來了一個新的系統要求:訓練與推理必須更徹底地解耦。如果做不到這一點,rollout 生成的吞吐會迅速崩掉。設想一個編碼智能體,它需要把自己生成的代碼放到實時測試環境里執行:推理側會因為等待執行反饋而卡住,訓練側又會因為拿不到完成的軌跡而“斷糧”,整條流水線的 GPU 利用率會遠低于經典推理強化學習中的水平。再疊加工具延遲、部分可觀測性和有狀態環境,這些低效只會被進一步放大。最終,實驗會在離目標能力還很遠的時候,就已經變得緩慢、痛苦且難以擴展。
環境本身,也因此成了一類一等研究對象。在 SFT 時代,我們癡迷的是數據多樣性;在智能體時代,我們應該癡迷的是環境質量:穩定性、真實性、覆蓋面、難度、狀態多樣性、反饋豐富度、抗利用能力,以及 rollout 生成的可擴展性。環境構建已經開始從“順手做的副項目”,變成一個真正的創業賽道。如果智能體的目標是在接近生產環境的設置中運行,那么環境本身就是核心能力棧的一部分。
6. 下一個前沿,是更“可用”的思考
我的判斷是,智能體思維會成為未來最主要的思考形態。我甚至認為,它最終可能替代掉大量舊式的、靜態獨白式的推理:那種冗長、孤立的內部思維軌跡,試圖通過輸出越來越多文本來彌補無法交互的缺陷。即便面對非常困難的數學題或編碼任務,一個真正先進的系統也應該有權去搜索、模擬、執行、檢查、驗證和修正。目標應當是穩健、高效地解決問題,而不是單純展示一段很長的“思考過程”。
訓練這類系統時最棘手的挑戰,是 reward hacking。一旦模型獲得了真正有用的工具訪問權限,reward hacking 就會變得危險得多。一個帶搜索能力的模型,可能會在強化學習過程中學會直接搜索答案;一個編碼智能體,可能會利用代碼倉庫里的未來信息、濫用日志,或者發現一些讓任務本身失效的捷徑。一個存在隱蔽泄漏的環境,會讓策略看起來像“超人”,而實際上它學到的只是作弊。這正是為什么智能體時代要比推理時代微妙得多。更強的工具當然會讓模型更有用,但也同時擴大了偽優化的攻擊面。我們應當預期,下一批真正嚴肅的研究瓶頸,將來自環境設計、評估器魯棒性、反作弊協議,以及策略與世界之間更原則化的接口設計。盡管如此,方向是明確的:能夠借助工具進行思考,顯然比孤立思考更有用,也更有機會真正提升生產力。
智能體思維也意味著 harness engineering 會變得越來越重要。未來的核心智能,將越來越多地體現在多個智能體的組織方式上:一個負責規劃與分發工作的協調器,一些扮演領域專家的專用智能體,以及一些處理更窄任務范圍的子智能體;這些子智能體不僅負責執行,也有助于控制上下文、避免污染,并維持不同推理層級之間的隔離。未來的演進路徑,將是從訓練模型,走向訓練智能體,再走向訓練系統。
結 論
推理浪潮的第一階段,確立了一件重要的事:當反饋信號足夠可靠、基礎設施足以支撐時,在語言模型之上施加強化學習,能夠帶來質量層面顯著更強的認知能力。
而更深層的變化,是從“推理式思維”走向“智能體思維”:從“想得更久”,轉向“為了行動而思考”。訓練的核心對象已經改變了。它不再只是模型本身,而是“模型 + 環境”組成的系統;更具體地說,是智能體及其周邊的執行框架。這也改變了哪些研究產物最重要:模型架構和訓練數據當然依舊重要,但環境設計、rollout 基礎設施、評估器魯棒性,以及多智能體協同所依賴的接口,同樣變得關鍵。它還改變了“好的思考”到底意味著什么:真正有價值的,不是最長、最顯眼的思維軌跡,而是在現實約束下最能支撐持續行動、最能在環境中有效運作、并能通過反饋閉環不斷修正的那種思考。
這也改變了競爭優勢將來自哪里。在推理時代,優勢主要來自更好的強化學習算法、更強的反饋信號,以及更可擴展的訓練流水線。而在智能體時代,優勢將更多來自更好的環境、更緊密的訓推協同、更強的 harness engineering,以及把模型決策與其后果真正閉環起來的能力。
https://x.com/justinlin610/status/2037116325210829168?s=46
聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
會議推薦
OpenClaw 出圈,“養蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。
針對這一系列挑戰,在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態實踐」專題,將聚焦一線實踐與踩坑復盤,分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.