網易首頁 > 網易號 > 正文申請入駐

為大模型思考裝上“獵鷹重裝引擎” ：騰訊混元 SEAT 重塑深度思考

2025-07-15 20:19:11　來源: AI科技大本營

北京舉報

分享至

責編 | 夢依丹

出品丨AI 科技大本營（ID：rgznai100）

本文深度解析騰訊混元最新發布的 SEAT 自適應并行擴展推理框架，讓大模型 CoT 從“單引擎飛艇”變身“多發并聯火箭”，征服復雜推理任務的星辰大海，避開過度思考迷航。

大模型 Falcon Heavy 時刻

2018 年，當 SpaceX 獵鷹重裝級火箭 (F alcon Heavy) 轟鳴升空，捆綁著多臺發動機并聯點火，以多發并聯抵消失效風險，用多級捆綁實現推力飛躍，將人類太空運載能力推向全新高度。

當時沒有人意識到，在 7 年后將會有另外一場的技術發布遙相呼應，形成了跨越時間的共振：2025 年7 月 10 日，xAI發布「Grok 4 Heavy」，用多智能體并行架構復刻“多發引擎”設計，讓 AI 同時思考多種假設，在 ARC-AGI 基準上以 15.9% 的碾壓成績刷新 SOTA。

就在同一天，騰訊混元團隊在 arXiv 上發布論文《SEAT: Adaptive Termination for Multi-round Parallel Reasoning - An Universal Semantic Entropy-Guided Framework》(ArXiv, abs/2507.06829) ，以嚴謹的論證、詳實的技術細節和扎實的實驗數據，為大模型的思考注入同款“重型推力”，SEAT 框架的「自適應多輪并行引擎」首次點火:

多輪并行推理 - 多流交叉驗證突破盲目自信、誤入歧途和無限循環等低效推理；
語義熵導航 - 多輪迭代依賴動態監控答案收斂時及時停止；

從此，大模型無論是閉源還是開源，都能將復雜推理思維鏈 (Chain-of-Thought, CoT) 從“單引擎飛艇”升級為“多發并聯的星際火箭”，并適配“智能導航”保證長程推理全程精準掌控。

大模型“深度思考”的瓶頸與挑戰

在人工智能的星辰大海中，大型語言模型(LLM)無疑是就是當前最引人注目的旗艦，它擁有強大的馬力，知識儲備豐富，能回答人們提出的各種問題，今天我們所熟知的快思考語言模型能夠輕松應對問答、對話和創作等各種語言任務。但漸漸地，大家不再滿足于讓大模型局限于語言任務，而是嘗試讓大模型去探索復雜推理問題的廣袤的未知空間，比如解決一個奧數競賽題題，或者撰寫一份嚴謹的科學報告，又或者是一個需要長程規劃的 Agentic 任務。

這時你需要的可能不再僅僅是大模型在海上乘風破浪，而是需要長距離飛行探索天空并能精準降落到目的地。

于是大語言模型就發展出了思維鏈 (CoT) 技術，從而具備了深度思考的能力，就像是給大模型裝上了噴氣式引擎，讓它能夠離地升空，飛得高、看得遠，通過一步步的邏輯推理來解決問題。這在很大程度上提升了 LLM 的推理能力，但其局限性也日益凸顯，如果你嘗試過用大模型來做這些復雜任務就可能遇到過，大模型要么一頓操作猛如虎，輸出一堆邏輯鏈但結果還是錯，要么直接擺爛堅持輸出一個明顯的錯誤答案，又或者陷入思考死循環繞不出來。大家漸漸發現深度思考模型 CoT 縱然強大，但當面對復雜推理任務時也常常會力不從心，也暴露出“過度思考”、“無效思考”和“盲目自信”等各種缺陷。

在此之前，模型性能的提升主流做法依賴于“訓練時擴展”，即通過增加模型參數量和訓練數據集的規模來實現。然而，隨著模型規模的急劇膨脹，這種方法的邊際效益遞減，且帶來了高昂的訓練成本和算力需求。為了突破這一瓶頸，“測試時計算擴展” (Test-Time Scaling) 作為一個新的研究方向迅速成為前沿熱點:

測試時計算擴展的核心思想是，在不改變模型預訓練參數的前提下，通過在推理階段投入更多的計算資源，來提升模型在復雜任務上的表現。這種方法允許模型在給出最終答案前進行更深入的探索，從而顯著提高答案的準確性和可靠性。近期大量研究證明測試時計算擴展的巨大潛力，業界相當部分的注意力也從單純的訓練時擴展，轉向如何更有效地設計和優化推理時計算策略，“測試時計算擴展”逐漸成為 LLM 能力提升的探索的一個新的趨勢，即從“更大的模型”轉向“更聰明的推理過程”，這個方向逐漸發展出“順序擴展 - 深度迭代精進”和“并行擴展 - 多樣性廣度探索“這兩個主要分支:

1.順序擴展 (Sequential Scaling) ，其核心思想是通過延長推理路徑的“深度”來擴展計算。這通常通過生成更長的思維鏈（Chain-of-Thought, CoT）或采用多輪迭代優化的方式實現。但是“順序擴展”思路下，推理容易一條道走到黑，模型常常會陷入錯誤的推理路徑而無法自拔，并且由于缺乏有效的“剎車”機制也不知道自己何時應該停止徒勞的思考。

2.與追求深度的順序擴展相對，并行擴展 (Parallel Scaling)通過增加推理路徑的“廣度”來擴展計算。其核心策略是讓模型針對同一個問題，獨立、并行地生成多個（N個）候選答案，探索了更多可能性然后從中挑選。“并行擴展”思路下，多流推理往往各自為戰，缺乏協作和迭代，導致計算效率低下，性能提升也很快會遇到瓶頸。

顯然兩種主流測試時擴展范式的互補性與局限性變得清晰起來：

順序擴展提供了深度精煉的能力，但有陷入局部最優和“過度思考”的風險；
并行擴展提供了廣度探索的能力，但缺乏協作和持續優化的機制。

這種內在的矛盾自然地引出了一個核心研究問題，也正是 SEAT 論文開篇所提出的：“我們能否設計一個靈活的框架，有效整合順序和并行擴展范式的互補優勢？”

騰訊混元 SEAT 框架提出的融合二者的一種全新的混合擴展（Hybrid Scaling）范式：利用并行生成進行廣泛探索，再利用順序迭代進行深度精煉，這像是為大語言模型提供了一套強大的升級“深度思考”的外掛，它給 CoT 裝上“重裝發動機“（多輪并行動力）和“智能導航”（語義熵自適應剎車），讓 AI從“單引擎飛艇”升級為“多發并聯火箭”。接下來將逐步拆解 SEAT 提出的這個范式升級的關鍵環節！

范式升級第一彈：并行推理給 CoT 裝上“獵鷹重裝”級的澎湃動力

SEAT 的第一步，就是對模型推理的“動力系統”進行一次徹底的系統性升級。它引入了一個 N x M 的多輪并行推理框架，將傳統 CoT 的單引擎模式升級為了一臺擁有 N 個并行引擎的重裝級火箭。

什么是 N x M 框架?

N 代表并行(Parallel)的廣度：在每一輪(Round)推理中，模型會像“獵鷹重裝”的并聯引擎一樣，同時點燃 N 條獨立的思考路徑。這 N 個并行的思考分支會同時對問題進行探索，生成 N 份包含思考過程和答案的候選方案。這極大地拓寬了模型在單一步驟中的探索范圍。
M 代表順序(Sequential)的深度：這套框架并非一次性的并行，而是可以進行多達 M 輪的迭代精煉。最關鍵的是，第 i 輪的 N 個思考分支在開始工作前，會得到一份特殊的“參考資料”，這份資料包含了第 i-1 輪所有 N 個推理分支的完整答案。

這個設計巧妙地融合了并行與順序的優勢：模型在每一輪都能集思廣益，看到其他可能性的同時，又能基于上一輪的集體智慧進行更深層次的迭代和修正。各個分支之間不再是單打獨斗，而是通過團隊協作中進行集合思考。

正如“獵鷹重裝”火箭，其“多發并聯”的引擎(并行N)提供了強大的探索推力與容錯能力，而“多級捆綁”的結構(順序M)則確保了推理能夠逐級精煉，抵達更高的高度。

驚人的推力：N=2 也能帶來巨大性能飛躍

在 AIME-2025 這個極具挑戰性的數學競賽數據集上，實驗結果顯示:

對于 32B 的大模型，僅僅采用 N=2 的最小并行設置，就能帶來 +14.1% 的驚人準確率提升。
對于 7B 的小模型，效果更為顯著，準確率提升高達 +24.5%！

當并行數增加到 N=8 時，性能還能進一步提升。這充分證明了 SEAT 框架提供的“并行引擎”具有極其強大的推力，并且性價比極高。

SEAT 的核心優勢：非侵入式的“外掛”設計哲學

更值得稱道的是 SEAT 實現這種并行的方式。當前，許多工作試圖通過干預模型內部的生成過程 (inner-round control)來實現更精細的控制，但這往往需要對模型結構進行修改，或者進行復雜的專門訓練，通用性很差。

而 SEAT 采用的是一種 inter-round（輪次間）的控制策略。它把大模型視作一個黑箱，只在每一輪推理的輸入和輸出端進行信息整合。這意味著:

即插即用 (Plug-and-Play)：無論你是用 Hunyuan，Qwen，Llama，還是 DeepSeek，任何大模型都可以直接使用 SEAT 框架。
無需訓練 (Training-Free)：它是一個純粹的推理時策略，不需要任何額外的微調或訓練成本。

所以，SEAT 就像一個通用化的“并聯引擎”升級的外掛套件，可以輕松地安裝到任何現有的“飛行器”(LLM)上，即插即用，立刻帶來性能的飛躍。

范式升級第二彈：語義熵的動態監控實現全程的“智能導航”

現在，LLM 升級成為搭載著“獵鷹重裝”級引擎的超級火箭。但困擾大模型推理的另外一個問題仍然擺在面前：一臺只有引擎沒有導航的火箭，最終的結局只可能是在太空中迷失方向，或是在燃料耗盡后墜毀。

如何為這股強大的力量裝上“導航”？如何讓模型知道自己何時已經“到目的地”啦，可以停止計算，給出答案？

騰訊混元團隊在這里引入了整個SEAT 框架的題眼 - 語義熵 (Semantic Entropy)。怎么說呢(忘掉復雜的數學公式)，語義熵就是一個衡量 AI 推理“困惑度”的傳感器，用一個直觀的比喻來理解語義熵：它就像一個“航向一致性”檢測儀。在每一輪推理中，我們都有 N 個并行推理分支會給出各自的答案，語義熵衡量的，就是這 N 個答案在“語義層面”上的一致性:

高熵 (High Entropy)：如果 N 個答案五花八門，語義上南轅北轍(比如，一個答案是“68”，另一個是“蘋果”，還有一個是“不確定，我再想想”)，這說明模型的并行推理分支的推導方向分歧巨大，處于高度“困惑”的狀態。此時，“航向一致性檢測儀”的讀數會飆高。
低熵 (Low Entropy)：如果 N 個答案雖然措辭不同，但最終都指向了同一個語義核心(比如，都指向最終答案“68”)，這說明模型的思考已經“收斂”，內部達成了高度共識。此時，檢測儀的讀數會變得很低。

SEAT 論文最重要的實證發現：模型的推理準確率與語義熵存在強烈的負相關性。這條“黃金法則”在說，當推理結果的“困惑度”降低，則表明模型多路推理分支達成共識，這時它給出的答案有極大概率是正確的！這個發現的可貴之處在于，它意味著我們找到了一個不依賴外部知識、純粹依靠模型自身輸出就能判斷其推理質量的自監督指標。這個“導航傳感器”是真實、可靠且有效的。

智能導航的兩種模式：預設航線 vs. 自適應巡航

有了這個強大的傳感器，SEAT 設計了兩種“關閉引擎”的導航策略：

1. 預設航線模式 (Pre-defined Threshold Approach)

這個方法比較直接。我們事先通過對一批問題進行采樣，分析模型在不同“困惑度”（語義熵）下的表現。研究發現了一個有趣的 “80/20”法則：大約 80% 的正確答案，都出現在語義熵最低的 20% 的區間內。因此，我們可以提前計算出這個“20%分位點”的熵值，并將其設定為一個固定的“目標穩定度”。在多輪推理中，一旦某一輪的語義熵低于這個預設的閾值，導航系統就認為“已抵達預定航線”的終點，立刻停止推理。這種方法行之有效，但缺點是需要提前進行采樣和校準，當更換模型或并行設置時，需要重新操作。

2. 自適應巡航模式 (Adaptive Threshold-free Mechanism)

這是 SEAT 的又一個創新。為了擺脫對預設閾值的依賴，研究者從運籌學問題“秘書問題”中獲得了靈感，其核心是在信息不完全的情況下做出最優決策。SEAT 的自適應導航完美地借鑒了這一經典思想：

第一步建立動態基準 - 即統計前 T 輪推理產生的語義熵并形成“初始抖動”的基線。我們不評判這個初始值是好是壞，只是客觀記錄下來。
第二步動態巡航與決策 - 從第 T +1 輪開始，每一輪推理結束后，都計算新的語義熵，并與基線的“初始抖動”進行比較。一旦當前輪次的語義熵低于這個基線，導航系統就立刻做出判斷：“當前的思考狀態已經比剛開始時更加清晰和收斂了，思考取得了實質性進展，可以終止！”

這個策略的精妙之處在于它的完全自適應性。它不關心熵的絕對值是多少，只關心相對的改善。無論面對的是簡單問題（初始熵很低）還是復雜問題（初始熵很高），這套系統都能動態地為自己設定一個“過得去”的標桿，并在此基礎上尋求超越。這使得 SEAT 框架異常靈活、魯棒且無需任何前期準備。

范式升級的彩蛋：“智能導航”如何防止“引擎過載”造成熔毀事故

在實驗過程中，騰訊混元團隊還觀察到了 SEAT 一個之前在設計時可能沒有太預設的、但在實踐中很實用的“副作用”，尤其是在針對小規模模型(如 7B)推理時經常出現的語義熵坍塌 (Semantic Entropy Collapse) 的現象。具體說說什么是“語義熵坍塌”？在很多實際推理或者實驗中，當讓 7B 這樣的小模型進行多輪的并行推理時，它的語義熵在后期會突然暴跌至接近于零。從“導航傳感器”的讀數上看，似乎是模型達到了前所未有的“共識”。但當檢查此時的答案準確率時，卻發現準確率也隨之崩盤，同樣跌至谷底。通過分析模型的具體輸出才發現：模型并非真正地“想明白了”，而是陷入了一種“過度自信的錯誤”。它喪失了思維的多樣性，開始固執地、一遍又一遍地重復同一個錯誤的答案，并且其思考過程變得極度簡化，甚至直接跳過推理步驟。實際上，這就像一臺持續超負荷運轉的火箭引擎會發生一種災難性的“引擎過載”的熔毀事故。

SEAT 的“安全保護機制”

此時，SEAT 的“智能導航系統”展現出了它作為“安全員”附加的但是又是極為實用的價值。

以上述發生“熵坍塌”的案例為例，假如模型的準確率在第2輪達到峰值之后便開始下滑。而 SEAT 根據自適應終止策略，一旦發現語義熵已經低于了初始的基準，就可發出“停止”指令!

這意味著，SEAT 能夠在模型性能達到巔峰、但還未因“想太多”而陷入“過載自毀”狀態之前，就果斷地切斷動力。它不僅是一個效率工具，更是一個至關重要的安全保護機制。它保護了小模型，使其能夠在復雜的多輪推理中保持穩定的表現，而不會因為能力不足而“燒壞腦子”。

為每個推理模型進行“星際穿越”而準備的升級外掛

回到我們最初的問題：如何讓大模型這艘旗艦，實現精準、高效且可靠的“星際穿越”，去探索 AI 廣袤未知的星辰大海?

SEAT 框架基于 Test-Time Scaling 范式給出了一份非常有創新性的答案：它并非一個復雜的、需要高昂成本的全新模型，也不要求現有大模型進行額外訓練，或者滿足什么特定要求，它基本上就是一套完整的、即插即用的深度思考CoT 的“升級”外掛。

它通過多輪并行推理，為我們的模型裝上了“獵鷹重裝”級的強大引擎，提供了前所未有的并行探索動力，通過推理時計算擴展為大模型也能帶來高效且顯著的性能提升。
它通過引入語義熵這個精妙的自監督指標，并設計出自適應無閾值終止策略，為這股強大的力量裝上了一套極其聰明的“智能導航系統”。
這套導航系統不僅能通過“見好就收”來大幅提升計算效率，更能通過規避“語義熵坍塌”，為模型的推理過程提供關鍵的安全保障。

騰訊混元發布的 SEAT 推理框架，其核心在于支持基礎模型在推理階段根據任務需求動態切換為更強大的 Heavy 版本。這種設計既提供了算力調度的靈活性，也引入了更復雜的推理控制與引導機制。

相較于單純追求推理性能，SEAT 更強調在擴展路徑中引入“控制”和“引導”的策略。通過 Hybrid Scaling 的融合機制，以及基于語義熵的判斷方式，它嘗試以更具上下文感知的方式提升大模型在長鏈條、復雜語境下的推理質量。

在推理能力走向更強的同時，如何走得更穩、更有目標感，或許將成為大模型演化中的關鍵議題之一。而 SEAT 提出的這些方案，提供了一種新的路徑選擇。

（投稿或尋求報道：zhanghy@csdn.net）

AI 產品爆發，但你的痛點解決了嗎？

2025 全球產品經理大會

8 月 15–16 日

北京·威斯汀酒店

互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人

12 大專題分享，洞察趨勢、拆解路徑、對話未來。

立即掃碼領取大會PPT

搶占 AI 產品下一波紅利

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.