網易首頁 > 網易號 > 正文申請入駐

告別邊畫邊說：LatentMorph 開啟視覺生成隱式潛空間推理新范式

2026-03-05 14:25:11　來源: 機器之心Pro

河北舉報

分享至

本文第一作者為香港科技大學博士生陳浩東和西北工業大學本科生尹新祥；通訊作者為香港科技大學教授陳啟峰和陳穎聰。

人類在創作藝術時，大腦并非一味地輸出，而是在每一筆落下時都在進行著復雜的、難以言表的 “視覺優化”。

現有的文生圖（T2I）模型雖然強大，但往往表現得像是一個 “像素映射機器”，缺乏人類在創作過程中的動態思考與自我修正能力。雖然目前已有研究通過引入大語言模型（LLM）的推理鏈（CoT）來輔助生成，但這些方法大多依賴顯式推理 —— 即必須把思考過程解碼成文字或中間圖像，再重新編碼。

這種方式不僅效率低下，還會導致信息損耗，更不符合人類的創作直覺。為了打破這一瓶頸，來自香港科技大學的團隊提出了 LatentMorph。這是一種全新的框架，它將隱式潛空間推理（Implicit Latent Reasoning）無縫集成到 T2I 生成過程中。它不再需要繁瑣的文本解碼，而是直接在連續的潛空間中完成 “思考” 與 “修正”，讓模型擁有了類似人類的 “創作直覺”。實驗結果顯示，LatentMorph 顯著增強了基座模型 Janus-Pro，在 GenEval 和 T2I-CompBench 上分別提升了16%25%的性能。在復雜的抽象推理任務中，它超越了顯式范式11%~15%，同時大幅削減了44%的推理延時與51%的 Token 消耗，并實現了高達71%的人機認知對齊。

論文題目：Show, Don't Tell: Morphing Latent Reasoning into Image Generation
論文鏈接：https://arxiv.org/abs/2602.02227
代碼連接：https://github.com/EnVision-Research/LatentMorph

背景介紹

在 LatentMorph 提出之前，賦予圖像生成模型 “System-2” 推理能力的嘗試主要集中在兩種范式：

外部循環（External-Loop）：將多模態大模型（MLLM）作為外部優化器，用于精煉提示詞、評審輸出或迭代編輯圖片。
內部循環（Internal-Loop）：在統一多模態模型（UMM）內部交替進行理解分支與生成分支的交互，通常是在預定義的固定步驟進行推理。

盡管這些方法有效，但這些范式普遍依賴將 “想法” 強制壓縮進有限的離散文本通道。這種顯式做法引發了三大核心缺陷：

1.信息損耗：自然語言難以精準描述光影、紋理等微妙的視覺邏輯。

2.計算冗余：頻繁的解碼 - 重編碼循環帶來了巨大的推理延遲和 Token 開銷。

3.認知失調：強迫模型在每一筆之前都 “說出” 邏輯，違背了人類直覺式的視覺反饋機制。

受潛空間推理在語言模型中成功的啟發，LatentMorph 應運而生，其核心研究課題在于：如何讓模型在生成圖像 Token 的同時，動態監控其視覺狀態并隱式介入推理并優化？

LatentMorph 方法

LatentMorph 通過四個輕量化組件，共同構成了一個閉環的 “觀察 - 決策 - 思考 - 引導” 系統。其中，冷凝器（Condensers）負責將海量生成狀態提煉為緊湊的視覺記憶；調用器（Invoker）智能決定何時介入推理；翻譯器（Translator）將抽象想法轉化為生成指令；而整形器（Shaper）則精準驅動圖像 Token 的最終修正。

2.1 視覺記憶凝結器（Memory Condensers）

為了讓推理分支能夠理解當前的生成進度，LatentMorph 設計了雙重冷凝機制：

2.2 強化學習驅動的推理調用器 (Reason Invoker)

語義一致性：測量當前狀態與用戶提示詞的對齊程度。
預測不確定性：通過 Token Logits 的熵值捕捉模型的信心水平。
時序動態與穩定性：監測語義對齊的波動和偏離。

通過強化學習（GRPO）訓練，LatentMorph 能夠像人類一樣，僅在遇到瓶頸或歧義時才激活思考，從而最大化推理效率并避免冗余計算。

2.3 潛空間翻譯器 (Latent Translator)

2.4 潛空間整形器 (Latent Shaper)

這種注入方式不改動模型權重，也不占用 Token 的預測位置，而是通過修改注意力機制的上下文，潛移默化地引導后續 Token 的預測走向。這使得 LatentMorph 能夠實現極致的生成連貫性。

實驗分析

LatentMorph 在五個權威基準測試中與十種主流方法進行了全方位對比，結果證明了其范式級的優勢。

3.1 忠實度與組合性的新高度

在通用的 GenEval 和側重組合能力的 T2I-CompBench 測試中，LatentMorph 表現優異：

相比基座模型 Janus-Pro，LatentMorph 在 GenEval 上提升了16%，在 T2I-CompBench 上提升了25%
在處理復雜的 “非空間屬性（Non-Spatial）” 任務時，LatentMorph 超過了領先的顯式推理基線 TwiG-RL 達7.28%
定性結果顯示，LatentMorph 能有效解決基座模型常見的物體遺漏和屬性混淆問題，如精準區分不同物體的顏色與位置。

3.2 抽象與極限推理能力的驗證

LatentMorph 在處理抽象知識（WISE）和反物理直覺提示詞（IPV-Txt）時展現了獨特優勢：

在 IPV-Txt 基準上，顯式文本推理往往受限于語言的表達力，而 LatentMorph 通過連續潛空間保留了關鍵的、難以言表的視覺線索，性能顯著優于所有對比方案。
熱力圖分析證實，LatentMorph 的潛空間推理能更好地激活圖像中細微紋理和光影對應的關注區域。

3.3 極速推理與超低消耗

LatentMorph 徹底終結了 “推理必低效” 的魔咒：

相比于需要多次全量生成的迭代方法（如 MILR），或受限于文本解碼速度的方案（TWIG），LatentMorph 的推理時間減少了44%，Token 消耗降低了51%。這使其成為一種極其經濟且可擴展的自回歸生成增強方案。

3.4 認知一致性與消歧

LatentMorph 的調用策略與人類直覺達到了71.8%的對齊度。它表現出一種 “任務復雜度敏感” 的模式：對于簡單的提示詞僅進行少量干預，而面對復雜的抽象任務則會增加調用頻率（在 GenEval 上平均 1.14 次 vs. 在 WISE 上平均 1.60 次）。

結論

通過 LatentMorph，團隊證明了推理增強型模型正從 “顯式說理” 向 “隱式直覺” 發生范式轉移。

它成功將邏輯思考的深度與生成流程的效率統一在潛空間內，不僅顯著提升了模型對復雜、抽象指令的遵循能力，更賦予了 AI 一種類人的創作節奏。正如論文標題所言：“Show, Don't Tell”，真正的智慧往往蘊含在無需言說的潛意識演化之中。

未來，這種潛空間推理框架有望拓展至視頻生成、3D 構建等更多高維多模態領域，為構建真正具備自我演化能力的創作型 AI 奠定基礎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.