![]()
本文第一作者為香港科技大學博士生 陳浩東 和 西北工業大學本科生 尹新祥;通訊作者為香港科技大學教授 陳啟峰 和 陳穎聰。
人類在創作藝術時,大腦并非一味地輸出,而是在每一筆落下時都在進行著復雜的、難以言表的 “視覺優化”。
現有的文生圖(T2I)模型雖然強大,但往往表現得像是一個 “像素映射機器”,缺乏人類在創作過程中的動態思考與自我修正能力。雖然目前已有研究通過引入大語言模型(LLM)的推理鏈(CoT)來輔助生成,但這些方法大多依賴顯式推理 —— 即必須把思考過程解碼成文字或中間圖像,再重新編碼。
這種方式不僅效率低下,還會導致信息損耗,更不符合人類的創作直覺。為了打破這一瓶頸,來自香港科技大學的團隊提出了 LatentMorph。這是一種全新的框架,它將隱式潛空間推理(Implicit Latent Reasoning)無縫集成到 T2I 生成過程中。它不再需要繁瑣的文本解碼,而是直接在連續的潛空間中完成 “思考” 與 “修正”,讓模型擁有了類似人類的 “創作直覺”。實驗結果顯示,LatentMorph 顯著增強了基座模型 Janus-Pro,在 GenEval 和 T2I-CompBench 上分別提升了16%25%的性能。在復雜的抽象推理任務中,它超越了顯式范式11%~15%,同時大幅削減了44%的推理延時與51%的 Token 消耗,并實現了高達71%的人機認知對齊。
![]()
- 論文題目:Show, Don't Tell: Morphing Latent Reasoning into Image Generation
- 論文鏈接:https://arxiv.org/abs/2602.02227
- 代碼連接:https://github.com/EnVision-Research/LatentMorph
背景介紹
在 LatentMorph 提出之前,賦予圖像生成模型 “System-2” 推理能力的嘗試主要集中在兩種范式:
- 外部循環(External-Loop): 將多模態大模型(MLLM)作為外部優化器,用于精煉提示詞、評審輸出或迭代編輯圖片。
- 內部循環(Internal-Loop): 在統一多模態模型(UMM)內部交替進行理解分支與生成分支的交互,通常是在預定義的固定步驟進行推理。
盡管這些方法有效,但這些范式普遍依賴將 “想法” 強制壓縮進有限的離散文本通道。這種顯式做法引發了三大核心缺陷:
1.信息損耗: 自然語言難以精準描述光影、紋理等微妙的視覺邏輯。
2.計算冗余: 頻繁的解碼 - 重編碼循環帶來了巨大的推理延遲和 Token 開銷。
3.認知失調: 強迫模型在每一筆之前都 “說出” 邏輯,違背了人類直覺式的視覺反饋機制。
![]()
受潛空間推理在語言模型中成功的啟發,LatentMorph 應運而生,其核心研究課題在于:如何讓模型在生成圖像 Token 的同時,動態監控其視覺狀態并隱式介入推理并優化?
LatentMorph 方法
LatentMorph 通過四個輕量化組件,共同構成了一個閉環的 “觀察 - 決策 - 思考 - 引導” 系統。其中,冷凝器(Condensers)負責將海量生成狀態提煉為緊湊的視覺記憶;調用器(Invoker)智能決定何時介入推理;翻譯器(Translator)將抽象想法轉化為生成指令;而整形器(Shaper)則精準驅動圖像 Token 的最終修正。
![]()
2.1 視覺記憶凝結器(Memory Condensers)
為了讓推理分支能夠理解當前的生成進度,LatentMorph 設計了雙重冷凝機制:
![]()
2.2 強化學習驅動的推理調用器 (Reason Invoker)
![]()
- 語義一致性: 測量當前狀態與用戶提示詞的對齊程度。
- 預測不確定性: 通過 Token Logits 的熵值捕捉模型的信心水平。
- 時序動態與穩定性: 監測語義對齊的波動和偏離。
通過強化學習(GRPO)訓練,LatentMorph 能夠像人類一樣,僅在遇到瓶頸或歧義時才激活思考,從而最大化推理效率并避免冗余計算。
2.3 潛空間翻譯器 (Latent Translator)
![]()
2.4 潛空間整形器 (Latent Shaper)
![]()
這種注入方式不改動模型權重,也不占用 Token 的預測位置,而是通過修改注意力機制的上下文,潛移默化地引導后續 Token 的預測走向。這使得 LatentMorph 能夠實現極致的生成連貫性。
實驗分析
LatentMorph 在五個權威基準測試中與十種主流方法進行了全方位對比,結果證明了其范式級的優勢。
3.1 忠實度與組合性的新高度
![]()
在通用的 GenEval 和側重組合能力的 T2I-CompBench 測試中,LatentMorph 表現優異:
- 相比基座模型 Janus-Pro,LatentMorph 在 GenEval 上提升了16%,在 T2I-CompBench 上提升了25%
- 在處理復雜的 “非空間屬性(Non-Spatial)” 任務時,LatentMorph 超過了領先的顯式推理基線 TwiG-RL 達7.28%
- 定性結果顯示,LatentMorph 能有效解決基座模型常見的物體遺漏和屬性混淆問題,如精準區分不同物體的顏色與位置。
![]()
3.2 抽象與極限推理能力的驗證
![]()
LatentMorph 在處理抽象知識(WISE)和反物理直覺提示詞(IPV-Txt)時展現了獨特優勢:
- 在 IPV-Txt 基準上,顯式文本推理往往受限于語言的表達力,而 LatentMorph 通過連續潛空間保留了關鍵的、難以言表的視覺線索,性能顯著優于所有對比方案。
- 熱力圖分析證實,LatentMorph 的潛空間推理能更好地激活圖像中細微紋理和光影對應的關注區域。
3.3 極速推理與超低消耗
LatentMorph 徹底終結了 “推理必低效” 的魔咒:
![]()
相比于需要多次全量生成的迭代方法(如 MILR),或受限于文本解碼速度的方案(TWIG),LatentMorph 的推理時間減少了44%,Token 消耗降低了51%。這使其成為一種極其經濟且可擴展的自回歸生成增強方案。
3.4 認知一致性與消歧
![]()
LatentMorph 的調用策略與人類直覺達到了71.8%的對齊度。它表現出一種 “任務復雜度敏感” 的模式:對于簡單的提示詞僅進行少量干預,而面對復雜的抽象任務則會增加調用頻率(在 GenEval 上平均 1.14 次 vs. 在 WISE 上平均 1.60 次)。
![]()
結論
通過 LatentMorph,團隊證明了推理增強型模型正從 “顯式說理” 向 “隱式直覺” 發生范式轉移。
它成功將邏輯思考的深度與生成流程的效率統一在潛空間內,不僅顯著提升了模型對復雜、抽象指令的遵循能力,更賦予了 AI 一種類人的創作節奏。正如論文標題所言:“Show, Don't Tell”,真正的智慧往往蘊含在無需言說的潛意識演化之中。
未來,這種潛空間推理框架有望拓展至視頻生成、3D 構建等更多高維多模態領域,為構建真正具備自我演化能力的創作型 AI 奠定基礎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.