![]()
在 LLM 時代,思維鏈( CoT)已成為解鎖模型復雜推理能力的關鍵鑰匙。然而,CoT 的冗長問題一直困擾著研究者——中間推理步驟和解碼操作帶來了巨大的計算開銷和顯存占用,嚴重制約了模型的推理效率。
為了解決這個問題,研究界近期嘗試了「隱式 CoT」(Implicit CoT),即讓模型在內部隱狀態中完成推理,而不輸出具體的文本。這種方法雖然快,但卻是個「黑盒」:我們無法知道模型到底想了什么,也難以進行監督。
有什么方案既保證推理速度快,又使得過程可分析,還無需昂貴的預訓練?
針對這一挑戰,騰訊內容服務部 BAC 聯合清華大學與北京大學,提出了一種名為Render-of-Thought (RoT)的新框架。RoT 的核心思想非常巧妙:利用多模態模型(VLM)已有的視覺編碼器作為「語義錨點」,將文本推理步驟「渲染」為圖像的視覺嵌入(Visual Embeddings)。
這種方法不僅將推理過程壓縮到了致密的視覺潛空間中,還通過視覺渲染讓隱式推理過程變得可分析且可追蹤。
![]()
- 論文標題:Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning
- 論文地址:https://arxiv.org/abs/2601.14750
- Github 地址:https://github.com/TencentBAC/RoT
- Huggingface地址:https://huggingface.co/collections/TencentBAC/rot
顯式太慢,隱式太黑盒?
RoT 走出第三條路
顯式 CoT (Explicit CoT):讓模型把每一步推理都寫出來,就像學生做數學題寫步驟一樣。生成幾百個 Token 的中間步驟不僅費時,還極其消耗顯存。
隱式 CoT (Implicit CoT):模型直接在內部隱狀態中進行推理,不輸出具體文本。這種方式就像把思考過程扔進了一個「黑箱」,缺乏中間過程的監督。
Render-of-Thought (RoT):另辟蹊徑,把「思考」變成了「作畫」。利用視覺信息的高密度特性,將冗長的文本壓縮成緊湊的視覺向量。這不僅有跡可循,還大幅提升了推理速度。
![]()
拒絕「黑盒」:
讓隱式推理「看得見、摸得著」
RoT 是一種將文本思維鏈通過光學渲染(Optical Rendering)和視覺知識蒸餾轉化為緊湊視覺表征的新范式。
與以往需要從頭學習「推理 Token」的隱式方法不同,RoT 直接利用了現有 VLM(如 Qwen-VL, LLaVA)中凍結的視覺編碼器。通過將 LLM 的隱狀態與渲染文本的視覺嵌入對齊,RoT 實現了即插即用(Plug-and-Play),無需額外的預訓練開銷。渲染方案將文本推理步驟轉化為單行圖像,隱空間推理方法通過投影頭將 LLM 生成的隱狀態與視覺特征對齊。
為了適應自回歸思維鏈的序列化建模,研究團隊摒棄了固定尺寸的圖像渲染方案,采用了單行圖像渲染。該策略可以根據文本長度動態修改所需的圖像寬度。此外,單行的渲染方式確保圖像的 Patch 嚴格按照從左到右的方式提取,自然地將視覺序列與文本順序對齊。
![]()
移花接木的藝術:
兩步訓練實現「降維打擊」
RoT 的實現過程主要分為兩個階段,旨在逐步將 LLM 的離散推理能力轉化為連續的視覺隱空間推理能力。
階段一:視覺對齊 (Visual Alignment)
這一階段凍結了 LLM 和視覺編碼器,僅訓練一個輕量級的「視覺投影頭」(Visual Projection Head)。目標是將 LLM 的文本隱狀態映射到由視覺編碼器提取的「渲染 CoT 圖像」的特征空間上。
![]()
![]()
此外,在第一階段中,為了使模型與所提出的推理模式保持一致,同時對<|img_end|>這一 special token 和答案的交叉熵損失進行了建模:
![]()
![]()
階段二:潛在監督微調 (Latent Supervised Fine-Tuning)
在對齊之后,第二階段通過 LoRA 微調 LLM,并且凍結已經訓練對齊的投影頭。此時,模型不再生成文本 Token,而是自回歸地生成一串連續的「潛在視覺 Token」(Latent Visual Tokens)。這些 Token 在隱空間中模擬了視覺編碼器的輸出,最終引導模型解碼出正確的文本答案。
![]()
推理與解碼策略
推理過程要求模型自主地從連續的潛在推理空間導航到離散的文本解空間。研究團隊探索了兩種方案:基于 Special Token 的動態終止策略以及固定 Token 預算的靜態終止策略。
- 基于 Special Token 的動態終止策略
![]()
![]()
![]()
- 固定 Token 預算的靜態終止策略
該策略將潛在思維鏈的長度限制為一個固定的超參數。達到這個閾值時,會手動添加<|img_end|>這一 special token,以觸發從潛在推理到文本生成的轉換。
研究團隊在實驗中發現,動態終止策略的性能明顯低于固定 Token 預算策略。這種性能差距可能源于連續潛空間中自我調節停止機制的內在不穩定性。在生成潛空間推理嵌入時,隱藏狀態可能無法始終如一地為終止標記生成高置信度的預測,從而導致過早或延遲的轉換,破壞推理流程。
此外,采用固定 Token 預算策略時,每個數據集的最優 Token 預算各不相同。在 GSM8k-Aug 數據集上,32 個 Token 能實現最佳性能,而 MATH 數據集則需要 64 個 Token 才能達到峰值準確率。研究者推測這種差異的出現是因為 MATH 數據集更具挑戰性,需要更長的推理鏈。
![]()
實測數據說話:
推理速度「狂飆」
研究團隊在 GSM8k、MATH、SVAMP 等多個數學和邏輯推理基準上對 RoT 進行了廣泛測試。實驗基于 Qwen3-VL 和 LLaVA-V1.6 等主流架構。
- 顯著的壓縮與加速:相比于顯式 CoT,RoT 實現了 3-4 倍的 Token 壓縮率。在推理速度上,RoT 展現出了巨大的優勢。例如在 Qwen3-VL-4B 模型上,Pass@1/#L(準確率與長度比)指標顯著優于基線。
![]()
- 優于現有的隱式推理方法:與 Coconut、CoLaR 等最新的隱式推理方法相比,RoT 在準確率上表現出色。特別是在 MultiArith 數據集上,RoT (Qwen3-VL-4B) 達到了 97.2% 的準確率,顯著優于同等規模下其他隱空間推理方案。
![]()
![]()
- 隱空間推理的可分析性:RoT 的一大亮點在于其可分析性。由于隱狀態被對齊到了視覺空間,可以通過熱力圖(Heatmap)等來觀察模型的「思考過程」。研究團隊展示了 MATH 數據集的一個案例。可以看到,生成的潛在 Token 呈現出明顯的結構化模式,Token 相似度矩陣顯示了推理的階段性。這證明模型并非在隨機生成向量,而是在進行有邏輯的隱式推理。
![]()
單行渲染 vs. 多行渲染
在 RoT 中,傳統的固定尺寸的多行渲染會導致文本在圖像中頻繁換行。對于模型來說,這種換行在視覺空間中引入了不必要的「空間跳躍」,打斷了語義的連續性。
為了驗證這一點,研究團隊對比了「固定尺寸的多行渲染圖像」與 RoT 文中使用的「單行動態寬度圖像」。
![]()
如上圖所示,單行渲染相比多行渲染收斂更快,同時能夠更好地契合語言模型從左到右的序列生成特性。
兩階段訓練缺一不可
為了評估漸進式訓練策略的效果,研究團隊分別對每個階段進行獨立消融實驗。
去除第一階段會導致 MATH 的準確率從 33.2% 降至 22.2%,表明視覺對齊對于構建潛在空間結構以及在復雜任務中防止表示坍縮至關重要。同樣,排除第二階段也會導致性能顯著下降,這會導致模型難以從連續的潛在空間中推導出最終答案。
![]()
展望
Render-of-Thought 提出了一種極具前景的「視覺化思維」范式。它打破了文本模態的限制,利用視覺信息的高密度特性來壓縮推理過程。
這項工作不僅大幅提升了推理效率,更重要的是,它通過「將思維渲染為圖像」這一直觀的想法,為理解大模型神秘的內部隱空間提供了一扇新的窗口。對于未來在端側設備等資源受限場景下部署強推理模型,RoT 提供了一條切實可行的技術路徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.