<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別邊畫邊說:LatentMorph 開啟視覺生成隱式潛空間推理新范式

      0
      分享至



      本文第一作者為香港科技大學博士生 陳浩東 和 西北工業大學本科生 尹新祥;通訊作者為香港科技大學教授 陳啟峰 和 陳穎聰。

      人類在創作藝術時,大腦并非一味地輸出,而是在每一筆落下時都在進行著復雜的、難以言表的 “視覺優化”。

      現有的文生圖(T2I)模型雖然強大,但往往表現得像是一個 “像素映射機器”,缺乏人類在創作過程中的動態思考與自我修正能力。雖然目前已有研究通過引入大語言模型(LLM)的推理鏈(CoT)來輔助生成,但這些方法大多依賴顯式推理 —— 即必須把思考過程解碼成文字或中間圖像,再重新編碼。

      這種方式不僅效率低下,還會導致信息損耗,更不符合人類的創作直覺。為了打破這一瓶頸,來自香港科技大學的團隊提出了 LatentMorph。這是一種全新的框架,它將隱式潛空間推理(Implicit Latent Reasoning)無縫集成到 T2I 生成過程中。它不再需要繁瑣的文本解碼,而是直接在連續的潛空間中完成 “思考” 與 “修正”,讓模型擁有了類似人類的 “創作直覺”。實驗結果顯示,LatentMorph 顯著增強了基座模型 Janus-Pro,在 GenEval 和 T2I-CompBench 上分別提升了16%25%的性能。在復雜的抽象推理任務中,它超越了顯式范式11%~15%,同時大幅削減了44%的推理延時與51%的 Token 消耗,并實現了高達71%的人機認知對齊。



      • 論文題目:Show, Don't Tell: Morphing Latent Reasoning into Image Generation
      • 論文鏈接:https://arxiv.org/abs/2602.02227
      • 代碼連接:https://github.com/EnVision-Research/LatentMorph

      背景介紹

      在 LatentMorph 提出之前,賦予圖像生成模型 “System-2” 推理能力的嘗試主要集中在兩種范式:

      • 外部循環(External-Loop): 將多模態大模型(MLLM)作為外部優化器,用于精煉提示詞、評審輸出或迭代編輯圖片。
      • 內部循環(Internal-Loop): 在統一多模態模型(UMM)內部交替進行理解分支與生成分支的交互,通常是在預定義的固定步驟進行推理。

      盡管這些方法有效,但這些范式普遍依賴將 “想法” 強制壓縮進有限的離散文本通道。這種顯式做法引發了三大核心缺陷:

      1.信息損耗: 自然語言難以精準描述光影、紋理等微妙的視覺邏輯。

      2.計算冗余: 頻繁的解碼 - 重編碼循環帶來了巨大的推理延遲和 Token 開銷。

      3.認知失調: 強迫模型在每一筆之前都 “說出” 邏輯,違背了人類直覺式的視覺反饋機制。



      受潛空間推理在語言模型中成功的啟發,LatentMorph 應運而生,其核心研究課題在于:如何讓模型在生成圖像 Token 的同時,動態監控其視覺狀態并隱式介入推理并優化?

      LatentMorph 方法

      LatentMorph 通過四個輕量化組件,共同構成了一個閉環的 “觀察 - 決策 - 思考 - 引導” 系統。其中,冷凝器(Condensers)負責將海量生成狀態提煉為緊湊的視覺記憶;調用器(Invoker)智能決定何時介入推理;翻譯器(Translator)將抽象想法轉化為生成指令;而整形器(Shaper)則精準驅動圖像 Token 的最終修正。



      2.1 視覺記憶凝結器(Memory Condensers)

      為了讓推理分支能夠理解當前的生成進度,LatentMorph 設計了雙重冷凝機制:



      2.2 強化學習驅動的推理調用器 (Reason Invoker)



      • 語義一致性: 測量當前狀態與用戶提示詞的對齊程度。
      • 預測不確定性: 通過 Token Logits 的熵值捕捉模型的信心水平。
      • 時序動態與穩定性: 監測語義對齊的波動和偏離。

      通過強化學習(GRPO)訓練,LatentMorph 能夠像人類一樣,僅在遇到瓶頸或歧義時才激活思考,從而最大化推理效率并避免冗余計算。

      2.3 潛空間翻譯器 (Latent Translator)



      2.4 潛空間整形器 (Latent Shaper)



      這種注入方式不改動模型權重,也不占用 Token 的預測位置,而是通過修改注意力機制的上下文,潛移默化地引導后續 Token 的預測走向。這使得 LatentMorph 能夠實現極致的生成連貫性。

      實驗分析

      LatentMorph 在五個權威基準測試中與十種主流方法進行了全方位對比,結果證明了其范式級的優勢。

      3.1 忠實度與組合性的新高度



      在通用的 GenEval 和側重組合能力的 T2I-CompBench 測試中,LatentMorph 表現優異:

      • 相比基座模型 Janus-Pro,LatentMorph 在 GenEval 上提升了16%,在 T2I-CompBench 上提升了25%
      • 在處理復雜的 “非空間屬性(Non-Spatial)” 任務時,LatentMorph 超過了領先的顯式推理基線 TwiG-RL 達7.28%
      • 定性結果顯示,LatentMorph 能有效解決基座模型常見的物體遺漏和屬性混淆問題,如精準區分不同物體的顏色與位置。



      3.2 抽象與極限推理能力的驗證



      LatentMorph 在處理抽象知識(WISE)和反物理直覺提示詞(IPV-Txt)時展現了獨特優勢:

      • 在 IPV-Txt 基準上,顯式文本推理往往受限于語言的表達力,而 LatentMorph 通過連續潛空間保留了關鍵的、難以言表的視覺線索,性能顯著優于所有對比方案。
      • 熱力圖分析證實,LatentMorph 的潛空間推理能更好地激活圖像中細微紋理和光影對應的關注區域。

      3.3 極速推理與超低消耗

      LatentMorph 徹底終結了 “推理必低效” 的魔咒:



      相比于需要多次全量生成的迭代方法(如 MILR),或受限于文本解碼速度的方案(TWIG),LatentMorph 的推理時間減少了44%,Token 消耗降低了51%。這使其成為一種極其經濟且可擴展的自回歸生成增強方案。

      3.4 認知一致性與消歧



      LatentMorph 的調用策略與人類直覺達到了71.8%的對齊度。它表現出一種 “任務復雜度敏感” 的模式:對于簡單的提示詞僅進行少量干預,而面對復雜的抽象任務則會增加調用頻率(在 GenEval 上平均 1.14 次 vs. 在 WISE 上平均 1.60 次)。



      結論

      通過 LatentMorph,團隊證明了推理增強型模型正從 “顯式說理” 向 “隱式直覺” 發生范式轉移。

      它成功將邏輯思考的深度與生成流程的效率統一在潛空間內,不僅顯著提升了模型對復雜、抽象指令的遵循能力,更賦予了 AI 一種類人的創作節奏。正如論文標題所言:“Show, Don't Tell”,真正的智慧往往蘊含在無需言說的潛意識演化之中。

      未來,這種潛空間推理框架有望拓展至視頻生成、3D 構建等更多高維多模態領域,為構建真正具備自我演化能力的創作型 AI 奠定基礎。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美軍的最強援助已到!中東各國猛然意識到:中國的3大預測全對了

      美軍的最強援助已到!中東各國猛然意識到:中國的3大預測全對了

      科普100克克
      2026-03-09 14:38:59
      女子相親帶男閨蜜蹭飯,狂點8000元海鮮,男方逃單失聯,警方介入

      女子相親帶男閨蜜蹭飯,狂點8000元海鮮,男方逃單失聯,警方介入

      離離言幾許
      2026-03-07 15:52:24
      尼克松訪華,毛主席只送了4兩茶葉被嫌棄?周總理笑著說出4個字,美國總統立馬變了臉色

      尼克松訪華,毛主席只送了4兩茶葉被嫌棄?周總理笑著說出4個字,美國總統立馬變了臉色

      文史明鑒
      2025-12-13 22:15:21
      身家近30億美元!其實是NBA球員高攀了!

      身家近30億美元!其實是NBA球員高攀了!

      籃球大圖
      2026-03-09 20:00:17
      印前參謀長終于承認:印軍白死了!加勒萬那夜,輸的根本不是膽量

      印前參謀長終于承認:印軍白死了!加勒萬那夜,輸的根本不是膽量

      知識TNT
      2026-03-08 11:00:08
      德媒:中國五年規劃有效性持續顯現

      德媒:中國五年規劃有效性持續顯現

      參考消息
      2026-03-10 16:09:26
      美媒評論東風5C導彈:恐怖!如果丟一枚到美國,會造成怎樣的景象

      美媒評論東風5C導彈:恐怖!如果丟一枚到美國,會造成怎樣的景象

      朝子亥
      2026-03-10 19:15:03
      公布了!1332人遇難!內塔尼亞胡或被關進大牢,特朗普開始急了

      公布了!1332人遇難!內塔尼亞胡或被關進大牢,特朗普開始急了

      肖茲探秘說
      2026-03-10 14:22:41
      3月多吃這菜,全身是寶,比薺菜營養,比韭菜鮮,錯過等1年!

      3月多吃這菜,全身是寶,比薺菜營養,比韭菜鮮,錯過等1年!

      江江食研社
      2026-03-09 14:30:07
      36歲張含韻近況曝光!春節一周胖6斤,如今和“五竹叔”戀情穩定

      36歲張含韻近況曝光!春節一周胖6斤,如今和“五竹叔”戀情穩定

      代軍哥哥談娛樂
      2026-03-09 14:17:39
      妻子如愿跟我離婚,陪重病的男閨蜜,半年后找我復婚,不能如你意

      妻子如愿跟我離婚,陪重病的男閨蜜,半年后找我復婚,不能如你意

      奶茶麥子
      2026-03-10 15:15:11
      重慶C羅,重出江湖,將執教佛山南獅,成中超中甲最年輕主帥

      重慶C羅,重出江湖,將執教佛山南獅,成中超中甲最年輕主帥

      實事球是
      2026-03-10 17:26:43
      G7緊急開會救火,美媒詢問中國是否愿出手相助,中方的回應很直接

      G7緊急開會救火,美媒詢問中國是否愿出手相助,中方的回應很直接

      健身狂人
      2026-03-10 19:32:31
      48歲中科院美女博導在中東突然去世:死因披露,給兒子留言曝光

      48歲中科院美女博導在中東突然去世:死因披露,給兒子留言曝光

      博士觀察
      2026-03-09 16:22:08
      70歲后想多活30年,記住這5句話,活好余生每一日

      70歲后想多活30年,記住這5句話,活好余生每一日

      青蘋果sht
      2026-01-31 05:27:33
      淺色系穿搭!這個組合讓你在健身房瞬間吸引眼球!

      淺色系穿搭!這個組合讓你在健身房瞬間吸引眼球!

      獨角showing
      2025-12-31 21:08:57
      王文瀾也沒想到,曾患有眼疾的兒子,如今成了倪萍晚年最大的依靠

      王文瀾也沒想到,曾患有眼疾的兒子,如今成了倪萍晚年最大的依靠

      以茶帶書
      2026-03-10 13:32:43
      黃干宗“壓寨丈夫” 十三年,那些婦女光著上身,一點不避諱生人

      黃干宗“壓寨丈夫” 十三年,那些婦女光著上身,一點不避諱生人

      蜉蝣說
      2025-09-26 10:54:24
      手機有沒有被監聽?看一眼頂部狀態欄就清楚

      手機有沒有被監聽?看一眼頂部狀態欄就清楚

      小柱解說游戲
      2026-03-08 05:10:17
      周琦談眼睛傷勢:就那樣,反正也好不了,壞也就那樣了

      周琦談眼睛傷勢:就那樣,反正也好不了,壞也就那樣了

      懂球帝
      2026-03-10 09:01:05
      2026-03-10 21:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142580關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      肖戰首奪SMG視帝,孫儷四封視后創歷史

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      家居
      健康
      旅游
      房產
      手機

      家居要聞

      自然肌理 溫度質感婚房

      轉頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      意外邂逅金甲財神殿的人間煙火,這里可不只一年兩度的“財神會”

      房產要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      手機要聞

      三星Galaxy手機新增閑置72小時自動重啟功能,提升隱私安全

      無障礙瀏覽 進入關懷版