<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      統一多模態理解與生成模型:進展、挑戰與機遇

      0
      分享至

      Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

      統一的多模態理解與生成模型:進展、挑戰與機遇


      摘要

      近年來,多模態理解模型和圖像生成模型均取得了顯著進展。盡管二者各自取得了成功,但這兩個領域卻獨立發展,形成了不同的架構范式:基于自回歸的架構在多模態理解中占據主導地位,而基于擴散的模型則成為圖像生成的基石。近期,學界對開發整合這兩類任務的統一框架的興趣日益增長。GPT-4o所展現的新能力正是這一趨勢的例證,凸顯了統一架構的潛力。然而,兩個領域之間的架構差異也帶來了重大挑戰。為清晰梳理當前在統一方向上的努力,我們提供了一份全面綜述,旨在指導未來研究。首先,我們介紹了多模態理解與文本到圖像生成模型的基礎概念及最新進展。接著,我們回顧了現有的統一模型,并將其歸納為三大主要架構范式:基于擴散的、基于自回歸的,以及融合自回歸與擴散機制的混合方法。針對每一類范式,我們分析了相關工作所采用的結構設計與創新之處。此外,我們匯總了專為統一模型定制的數據集與評測基準,為后續探索提供資源支持。最后,我們討論了這一新興領域面臨的關鍵挑戰,包括分詞(tokenization)策略、跨模態注意力機制以及數據問題。鑒于該領域尚處于早期階段,我們預計將出現快速進展,并將持續更新本綜述。我們的目標是激發更多研究,并為社區提供一份有價值的參考文獻。本綜述的相關參考文獻可在 https://github.com/AIDC-AI/Awesome-UnifiedMultimodal-ModelsIndex 獲取。

      關鍵詞—統一多模態模型,多模態理解,圖像生成,自回歸模型,擴散模型

      1 引言

      近年來,大型語言模型(LLMs)的快速發展,如 LLaMa [1]、[2]、PanGu [3]、[4]、Qwen [5]、[6] 和 GPT [7],徹底改變了人工智能領域。這些模型在規模和能力上不斷擴展,推動了眾多應用場景中的突破性進展。與此同時,LLMs 已被拓展至多模態領域,催生了強大的多模態理解模型,例如 LLaVa [8]、Qwen-VL [9]、[10]、InternVL [11]、Ovis [12] 和 GPT-4 [13]。這些模型的能力已不再局限于簡單的圖像描述生成,而是能夠根據用戶指令執行復雜的推理任務。

      另一方面,圖像生成技術也經歷了迅猛發展,諸如 SD 系列 [14]、[15] 和 FLUX [16] 等模型如今已能生成高度符合用戶提示的高質量圖像。

      當前,LLMs 及多模態理解模型主要采用自回歸生成架構 [17],該范式依賴純解碼器結構,并通過逐詞預測實現序列化文本生成。相比之下,文本到圖像生成領域則沿著不同的技術路徑演進:早期以生成對抗網絡(GANs)[18] 為主導,隨后轉向基于擴散的模型 [19]。這類擴散模型通常采用 UNet [14] 或 DiT [20]、[21] 等架構,并結合 CLIP [22] 和 T5 [23] 等先進的文本編碼器。盡管已有部分研究嘗試將受 LLM 啟發的架構用于圖像生成 [24]、[25]、[26],但就當前性能而言,基于擴散的方法仍是圖像生成領域的最先進方案。

      盡管自回歸模型在圖像生成質量上尚不及擴散方法,但其與 LLM 在結構上的一致性使其在構建統一多模態系統方面極具吸引力。一個能夠同時理解和生成多模態內容的統一模型具有巨大潛力:它可根據復雜指令生成圖像、對視覺數據進行推理,并通過生成的輸出可視化多模態分析結果。2025 年 3 月發布的 GPT-4o 所展現出的增強能力 [27] 進一步凸顯了這一潛力,引發了學術界和工業界對統一架構的廣泛關注。

      然而,設計此類統一框架面臨重大挑戰。它需要將自回歸模型在推理和文本生成方面的優勢,與基于擴散的模型在高質量圖像合成方面的強大能力有效整合。一些關鍵問題仍未解決,其中就包括如何為自回歸生成有效地對圖像進行分詞(tokenization)。部分方法 [28]、[29]、[30] 采用擴散模型流程中常用的 VAE [31] 或 VQ-GAN [32] 及其相關變體;而其他方法 [33]、[34]、[35] 則利用語義編碼器,如 EVA-CLIP [36] 和 OpenAI-CLIP [22]。此外,盡管離散 token 是自回歸模型中文本的標準表示形式,但新興研究表明,連續表征可能更適合圖像 token [25]。

      除了分詞問題之外,融合并行擴散策略與序列化自回歸生成的混合架構 [37]、[38]、[39] 也提供了另一條有前景的路徑,相較于單純的自回歸架構更具潛力。因此,無論是圖像分詞技術還是整體架構設計,在統一多模態模型中都仍處于早期發展階段。

      為全面概述當前統一多模態模型的研究現狀(如圖 1 所示),從而助力未來研究工作,我們撰寫了本綜述。首先,我們介紹多模態理解與圖像生成領域的基礎概念及最新進展,涵蓋自回歸與擴散兩種范式。接著,我們回顧現有的統一模型,并將其劃分為三大主要架構范式:基于擴散的、基于自回歸的,以及融合自回歸與擴散機制的混合方法。在自回歸與混合類別中,我們進一步根據其圖像分詞策略對模型進行細分,以反映該領域方法的多樣性。


      除架構之外,我們還匯總了專為訓練和評估統一多模態模型而設計的數據集與評測基準。這些資源覆蓋多模態理解、文本到圖像生成、圖像編輯及其他相關任務,為后續探索奠定基礎。最后,我們討論了這一新興領域面臨的關鍵挑戰,包括高效的分詞策略、數據構建、模型評估等。應對這些挑戰對于提升統一多模態模型的能力與可擴展性至關重要。

      在學術界,已有諸多優秀的綜述分別聚焦于大型語言模型 [40]、[41]、多模態理解 [42]、[43]、[44] 以及圖像生成 [45]、[46]。而本文則專門關注理解任務與生成任務的集成。我們鼓勵讀者參考這些互補性綜述,以獲得更廣泛的相關背景知識。我們的目標是激發這一快速演進領域的進一步研究,并為社區提供一份有價值的參考。本綜述相關的參考資料、數據集和評測基準已整理至 GitHub 頁面,并將持續更新以反映最新進展。

      2 預備知識

      2.1 多模態理解模型

      多模態理解模型是指基于大型語言模型(LLM)的架構,能夠接收、推理并從多模態輸入中生成輸出 [47]。這些模型將 LLM 的生成與推理能力從純文本數據擴展至多種信息模態,從而實現對不同模態信息的豐富語義理解 [42], [48]?,F有方法的大部分工作聚焦于視覺-語言理解(Vision-Language Understanding, VLU),即整合視覺(如圖像和視頻)與文本輸入,以支持對空間關系、物體、場景及抽象概念的更全面理解 [49], [50], [51]。圖 2 展示了多模態理解模型的典型架構。


      這類模型運行于混合輸入空間:文本數據以離散形式表示,而視覺信號則被編碼為連續表征 [52]。與傳統 LLM 類似,其輸出通過基于分類的語言建模方式,從內部表征中生成離散 token,并采用任務特定的解碼策略 [8], [53]。

      早期的 VLU 模型主要采用雙編碼器架構來對齊視覺與文本模態:圖像和文本首先分別編碼,再通過對其潛在表征進行聯合推理,代表性工作包括 CLIP [22]、ViLBERT [54]、VisualBERT [55] 和 UNITER [56]。盡管這些開創性模型確立了多模態推理的關鍵原則,但它們嚴重依賴基于區域的視覺預處理和分離的編碼器,限制了模型的可擴展性與通用性。

      隨著強大 LLM 的出現,VLU 模型逐漸轉向僅使用解碼器的架構,通常采用凍結或僅微調少量參數的 LLM 主干網絡。這些方法主要通過不同結構的連接器(connector)將圖像嵌入映射到 LLM 的 token 空間,如圖 2 所示。具體而言,MiniGPT-4 [57] 使用單個可學習層,將 CLIP 提取的圖像嵌入投影到 Vicuna [58] 的 token 空間;BLIP-2 [53] 引入了一個查詢 Transformer,將凍結的視覺編碼器與凍結的 LLM(如 Flan-T5 [59] 或 Vicuna [58])橋接起來,以極少的可訓練參數實現高效的視覺-語言對齊;Flamingo [60] 則采用門控交叉注意力層,將預訓練的視覺編碼器與凍結的 Chinchilla [61] 解碼器相連接。

      近期 VLU 的進展體現出向通用多模態理解的轉變。GPT-4V [62] 將 GPT-4 框架 [13] 擴展至支持用戶提供的圖像輸入,在視覺推理、圖像描述和多模態對話方面展現出強大能力,盡管其具體實現未公開。Gemini [63] 基于純解碼器架構,支持圖像、視頻和音頻等多種模態,其 Ultra 版本在多模態推理任務中設立了新的性能標桿。Qwen 系列體現了可擴展的多模態設計思路:Qwen-VL [5] 引入了視覺感受器和定位模塊,而 Qwen2-VL [9] 進一步增加了動態分辨率處理能力和 M-RoPE 機制,以穩健地處理多樣化的輸入。LLaVA-1.5 [64] 和 LLaVA-Next [65] 采用基于 CLIP 的視覺編碼器與 Vicuna 風格的 LLM,在視覺問答(VQA)和指令遵循任務中取得具有競爭力的性能。InternVL 系列 [11], [66], [67] 探索了一種統一的多模態預訓練策略,同時從文本和視覺數據中學習,以提升各類視覺-語言任務的表現。Ovis [12] 通過一個可學習的視覺嵌入查找表引入結構嵌入對齊機制,使生成的視覺嵌入在結構上與文本 token 對應。

      最近,一些模型開始探索面向多模態處理的可擴展且統一的架構。例如,DeepSeek-VL2 [68] 采用混合專家(Mixture-of-Experts, MoE)架構以增強跨模態推理能力。總體而言,這些模型清晰地展現出向指令微調、以 token 為中心的統一框架演進的趨勢,能夠以可擴展的方式處理多樣化的多模態任務。

      2.2 文本到圖像模型

      擴散模型。擴散模型(DM)將生成過程建模為一對馬爾可夫鏈:一個前向過程,通過在 T 個時間步內逐步向數據 x? 添加高斯噪聲以產生 x?;以及一個反向過程,學習一個參數化分布,以迭代方式去噪并恢復至原始數據流形 [19], [69], [70]。形式上,如圖 3 所示,在前向過程中,給定數據分布 x? ~ q(x?),在每一步 t,數據 x? 被添加噪聲:



      其中,網絡參數化了均值 μθ(x?, t) 和方差 Σθ(x?, t)。該網絡以帶噪數據 x? 和時間步 t 作為輸入,輸出用于噪聲預測的正態分布參數。噪聲向量通過從 p(x?) 中采樣 x? 開始,然后依次從學習到的轉移核 x??? ~ pθ(x??? | x?) 中采樣,直至 t = 1。訓練目標是最小化負對數似然的變分下界:? = {q(x?,x?:T)} [‖εθ(x?, t) ? ε*(x?, t)‖2],其中 εθ(x?, t) 是模型在時間步 t 對噪聲的預測,而 ε*(x?, t) 是該時間步實際添加的噪聲。

      早期的擴散模型采用 U-Net 架構來近似得分函數 [19]。U-Net 設計基于寬殘差網絡(Wide ResNet),融合了殘差連接和自注意力模塊,以保留梯度流并恢復精細的圖像細節。這些方法大致可分為像素級方法和潛在特征級方法。像素級方法直接在像素空間中執行擴散過程,包括 GLIDE [71](引入了“無分類器引導”)和 Imagen [72](使用預訓練的大語言模型,即 T5-XXL [23],作為文本編碼器)。然而,這些方法存在高昂的訓練與推理計算成本,從而推動了潛在擴散模型(Latent Diffusion Models, LDMs)[14] 的發展——這類模型在預訓練變分自編碼器的潛在空間中運行。LDMs 在保持高生成質量的同時實現了計算效率,從而啟發了多種基于擴散的生成模型,如 VQ-Diffusion [73]、SD 2.0 [74]、SD XL [75] 和 UPainting [76]。

      Transformer 架構的進步促使擴散過程中采用了基于 Transformer 的模型。開創性的擴散 Transformer(DiT)[20] 將輸入圖像轉換為一系列圖像塊,并將其送入一系列 Transformer 塊中處理。DiT 還接收額外的條件信息作為輸入,例如擴散時間步 t 和條件信號 c。DiT 的成功啟發了許多先進的生成方法,包括 REPA [77](將自監督視覺表征注入擴散訓練以增強大規模性能)、SD 3.0 [15](使用兩組獨立權重分別建模文本和圖像模態),以及其他方法 [78], [79], [80]。對于文本編碼器,這些方法主要利用對比學習,在共享的潛在空間中對齊圖像與文本模態,這通常是在大規模圖文配對數據上聯合訓練獨立的圖像和文本編碼器實現的 [22], [53], [81]。具體而言,GLIDE [71] 探索了 CLIP 引導與無分類器引導,證明了 CLIP 條件下的擴散模型優于早期 GAN 基線,并支持強大的文本驅動編輯功能。SD [14] 使用凍結的 CLIP-ViT-L/14 編碼器為其潛在擴散去噪器提供條件,從而在高效計算下獲得高質量樣本。SD 3.0 [15] 則利用 CLIP ViT-L/14、OpenCLIP bigG/14 和 T5-v1.1 XXL 將文本轉換為嵌入表示,用于生成引導。

      擴散模型的最新進展已將大型語言模型(LLMs)引入文本到圖像的擴散生成中 [82]、[83],顯著提升了文本與圖像之間的對齊程度以及生成圖像的質量。
      RPG [83] 利用多模態 LLM 所蘊含的視覺-語言先驗,從文本提示中推理出互補的空間布局,并在文本引導的圖像生成與編輯過程中操控對象的組合結構。然而,這些方法針對不同任務需要采用不同的模型架構、訓練策略和參數配置,給模型管理帶來了挑戰。一種更具可擴展性的解決方案是采用統一的生成模型,以處理多種數據生成任務 [84]、[85]、[86]、[87]。
      OmniGen [84] 實現了文本到圖像生成能力,并支持多種下游任務,如圖像編輯、特定主體生成和視覺條件生成。UniReal [85] 將圖像級任務視為非連續視頻生成,將數量可變的輸入與輸出圖像視為視頻幀,從而無縫支持圖像生成、編輯、定制和合成等任務。GenArtist [86] 提供了一個由多模態大語言模型(MLLM)智能體協調的統一圖像生成與編輯系統。UniVG [87] 將多模態輸入視為統一的條件,通過單一權重集支持各類下游應用。隨著該領域研究的不斷推進,預計將涌現出越來越多的統一模型,能夠應對更廣泛的圖像生成與編輯任務。

      自回歸模型。自回歸(Autoregressive, AR)模型通過將序列的聯合分布分解為一系列條件概率的乘積來定義該分布,其中每個元素依次基于所有先前生成的元素進行預測。這一范式最初為語言建模而提出,現已成功應用于視覺領域,其核心思想是將圖像映射為一維的離散 token 序列(如像素、圖像塊或潛在編碼)。形式上,給定一個序列,模型通過以所有前序元素為條件來生成每個元素:


      如圖 4 所示,現有方法根據序列表示策略可分為三類:基于像素的模型、基于 token 的模型和基于多 token 的模型。


      1)基于像素的模型。PixelRNN [88] 是最早進行下一像素預測的方法。它將二維圖像轉換為一維像素序列,并使用 LSTM 層依次根據先前生成的像素值生成每個新像素。盡管該方法在建??臻g依賴關系方面有效,但計算成本高昂。PixelCNN [89] 引入了空洞卷積(dilated convolutions),以更高效地捕捉長距離像素依賴;而 PixelCNN++ [90] 則采用離散化邏輯混合似然(discretized logistic mixture likelihood)和架構改進,進一步提升了圖像質量和生成效率。一些更先進的工作 [91] 還提出了并行化方法,以降低計算開銷,尤其適用于高分辨率圖像的快速生成。

      2)基于 token 的模型。受自然語言處理范式的啟發,基于 token 的自回歸(AR)模型將圖像轉換為緊湊的離散 token 序列,大幅縮短序列長度,從而支持高分辨率圖像合成。該過程始于向量量化(Vector Quantization, VQ):一個通過重建損失和承諾損失(commitment loss)訓練的編碼器-解碼器學習一個緊湊的潛在索引碼本(codebook),隨后使用純解碼器 Transformer 對這些 token 上的條件分布進行建模 [92]。典型的 VQ 模型包括 VQ-VAE-2 [93]、VQGAN [32]、ViT-VQGAN [94] 以及其他相關方法 [95]、[96]、[97]。許多研究致力于增強純解碼器 Transformer 模型。例如,LlamaGen [24] 將 VQGAN 分詞器應用于 LLaMA 主干網絡 [1]、[2],在生成質量上達到與 DiT 相當的水平,并表明隨著參數量增加,生成質量持續提升。與此同時,數據高效的變體如 DeLVM [98] 在使用顯著更少數據的情況下實現了相當的保真度;而 AiM [26]、ZigMa [99] 和 DiM [100] 則引入了來自 Mamba [101] 的線性或門控注意力層,以實現更快的推理速度和更優性能。

      為豐富上下文建模,研究者還提出了隨機性和混合解碼策略。SAIM [102]、RandAR [103] 和 RAR [104] 通過隨機打亂圖像塊的預測順序,以克服固定的光柵掃描(raster)偏置;SAR [105] 則將因果學習推廣至任意順序和跳躍間隔。混合框架進一步融合不同范式:RAL [106] 利用對抗策略梯度緩解暴露偏差(exposure bias);ImageBART [107] 將分層擴散更新與 AR 解碼交錯進行;DisCo-Diff [108] 則在擴散解碼器中引入離散潛在表示,實現了當時最優的 FID 性能。

      3)基于多 token 的方法。為提升生成效率,近期的 AR 模型已從逐個生成 token 轉向以組為單位預測多個 token,在不損失質量的前提下顯著加速生成過程。Next Patch Prediction(NPP)[109] 將圖像 token 聚合為信息密度更高的 patch 級 token,從而大幅縮短序列長度。類似地,Next Block Prediction(NBP)[110] 將分組擴展到更大的空間塊,例如整行或完整幀。Neighboring AR(NAR)[111] 提出使用局部化的“近鄰”機制向外預測;Parallel Autoregression(PAR)[112] 則將 token 劃分為互不相交的子集以實現并行解碼。MAR [25] 放棄了離散分詞和固定順序,轉而采用連續表征,并使用擴散損失進行訓練。

      除空間分組外,VAR [113] 提出了由粗到細的“下一尺度”(next-scale)范式,啟發了一系列先進方法,包括 FlowAR [114]、M-VAR [115]、FastVAR [116] 和 FlexVAR [117]。一些基于頻域的方法則在頻譜層面分解生成過程:FAR [118] 和 NFIG [119] 先合成低頻結構,再逐步細化高頻細節。xAR [120] 則在一個統一框架下抽象地整合了多種自回歸單元,包括圖像塊(patches)、單元格(cells)、尺度(scales)乃至整幅圖像。這些多 token 方法表明,在現代圖像生成中,合理定義自回歸單元對于在保真度、效率和可擴展性之間取得平衡至關重要。

      控制機制也已被集成到自回歸解碼器中,以實現更精確的編輯。ControlAR [121] 在解碼過程中引入邊緣圖、深度線索等空間約束,從而實現對 token 級編輯的細粒度控制。ControlVAR [122] 進一步發展了這一理念,通過對圖像級特征施加尺度感知的條件控制,增強了生成結果的一致性與可編輯性。CAR [123] 則在類似概念基礎上進行了擴展,聚焦于自回歸模型中的高級控制機制,以提升視覺輸出的細節表現力和適應性。

      針對涉及多個對象或時間上連貫序列的復雜場景,Many-to-Many Diffusion(M2M)[124] 將自回歸框架適配于多幀生成任務,確保跨圖像的語義一致性和時間連貫性。MSGNet [125] 結合 VQ-VAE 與自回歸建模,在場景中多個實體之間保持空間-語義對齊。在醫學領域,MVG [126] 將自回歸圖像到圖像生成擴展至分割、合成和去噪等任務,通過配對的提示-圖像輸入進行條件生成。

      這些文本到圖像生成的自回歸方法為模型架構和視覺建模技術奠定了基礎,有效推動了面向理解與生成的統一多模態模型的研究進展。


      3 面向理解與生成的統一多模態模型

      統一多模態模型旨在構建單一架構,能夠跨多種模態同時進行理解和生成。這類模型被設計用于處理多樣化的輸入形式(例如文本、圖像、視頻、音頻),并以統一的方式在一種或多種模態中生成輸出。一個典型的統一多模態框架可抽象為三個核心組件:

      • 模態特定編碼器(modality-specific encoders):將不同輸入模態投影到統一的表征空間;
      • 模態融合主干網絡(modality-fusion backbone):整合來自多個模態的信息,并支持跨模態推理;
      • 模態特定解碼器(modality-specific decoders):在目標模態中生成輸出(例如文本生成或圖像合成)。

      本節主要聚焦于支持視覺-語言理解與生成的統一多模態模型,即能夠同時接收圖像和文本作為輸入,并輸出文本或圖像的模型。如圖 5 所示,現有統一模型大致可分為三大類:基于擴散的模型、基于自回歸的模型,以及融合自回歸與擴散機制的模型(fused AR + diffusion models)。



      對于自回歸模型,我們進一步根據其模態編碼方法細分為四個子類別:

      1. 基于像素的編碼(pixel-based encoding)
      2. 基于語義的編碼(semantic-based encoding)
      3. 基于可學習查詢的編碼(learnable query-based encoding)
      4. 混合編碼(hybrid encoding)

      這些編碼策略代表了處理視覺與文本數據的不同方式,導致多模態表征在集成程度和靈活性上存在差異。

      融合 AR + 擴散的模型則根據模態編碼方式分為兩類:基于像素的編碼和混合編碼。這類模型結合了自回歸與擴散技術的優勢,為實現更統一、高效的多模態生成提供了有前景的路徑。

      在接下來的小節中,我們將深入探討每一類模型:

      • 第 3.1 節探討基于擴散的模型,討論其在從含噪表征中生成高質量圖像和文本方面的獨特優勢;
      • 第 3.2 節聚焦基于自回歸的模型,詳細分析不同編碼方法如何影響其在視覺-語言任務中的性能;
      • 第 3.3 節涵蓋融合 AR + 擴散的模型,考察這兩種范式結合如何增強多模態生成能力。

      最后,我們將討論擴展至任意到任意(any-to-any)的多模態模型,該類模型將上述框架從視覺與語言推廣至更廣泛的模態(如音頻、視頻和語音),旨在構建通用、通用目的的生成模型。

      3.1 擴散模型

      擴散模型在圖像生成領域取得了顯著成功,這主要歸功于若干關鍵優勢。
      首先,與生成對抗網絡(GANs)相比,擴散模型能提供更優的樣本質量,具有更好的模式覆蓋能力,并有效緩解模式崩潰和訓練不穩定等常見問題 [201]。
      其次,其訓練目標——從輕微擾動的數據中預測所添加的噪聲——是一個簡單的監督學習任務,避免了對抗訓練中的動態不穩定性。
      第三,擴散模型具有高度靈活性,允許在采樣過程中融入多種條件信號,例如分類器引導(classifier guidance)[201] 和無分類器引導(classifier-free guidance)[202],從而增強可控性與生成保真度。此外,噪聲調度策略的改進 [203] 以及加速采樣技術的發展 [204], [205] 顯著降低了計算負擔,使擴散模型日益高效且可擴展。

      借助這些優勢,研究者已將擴散模型從單模態任務拓展至多模態生成,旨在構建一個統一框架,同時支持文本與圖像輸出。如圖 5(a) 所示,在多模態擴散模型中,去噪過程不僅以時間步和噪聲為條件,還以多模態上下文(如文本描述、圖像或聯合嵌入)為條件。這種擴展實現了跨模態的同步生成,并在生成結果之間建立了豐富的語義對齊。

      代表性工作之一是 Dual Diffusion [127],它引入了一種雙分支擴散過程,用于聯合生成文本與圖像。具體而言,給定一個圖文對,Dual Diffusion 首先使用預訓練的 T5 編碼器 [23](采用 softmax 概率建模)對文本進行編碼,獲得離散的文本表征;同時使用 Stable Diffusion [14] 中的 VAE 編碼器對圖像進行編碼,得到連續的圖像潛在表示。隨后,文本和圖像潛在變量分別通過獨立的前向擴散過程被加噪,在每個時間步生成對應的帶噪潛在變量。在反向過程中,模型使用兩個模態特定的去噪器——基于 Transformer 的文本去噪器和基于 UNet 的圖像去噪器——聯合對文本和圖像潛在變量進行去噪。關鍵在于,每個時間步中,兩個去噪器都引入跨模態條件:文本潛在變量關注圖像潛在變量,反之亦然,從而在整個去噪軌跡中實現模態間的語義對齊。去噪完成后,文本潛在變量通過 T5 解碼器還原為自然語言,圖像潛在變量則通過 VAE 解碼器重建為高保真圖像。訓練由兩個獨立的損失項監督:圖像分支最小化標準的噪聲預測損失,文本分支則最小化對比對數損失(contrastive log-loss)。通過耦合兩條擴散鏈并引入顯式的跨模態交互,Dual Diffusion 實現了從純噪聲出發的連貫且可控的多模態生成。

      與 Dual Diffusion [127] 不同(后者通過 Stable Diffusion [14] 將離散文本擴散與連續圖像擴散結合),UniDisc[128] 采用完全離散的擴散框架,從零開始訓練一個擴散 Transformer(Diffusion Transformer)[206]。它使用 LLaMA2 分詞器 [2] 對文本進行分詞,并利用 MAGVIT-v2 編碼器 [207] 將圖像轉換為離散 token,從而在統一的離散 token 空間中融合兩種模態。這些 token 經歷一個離散前向擴散過程,其中結構化噪聲被同時施加到所有模態上。在反向過程中,UniDisc 逐步去噪這些 token,生成連貫序列。隨后,LLaMA2 和 MAGVIT-v2 解碼器將這些序列分別轉換為高質量的文本和圖像。通過全離散方法,UniDisc 實現了文本與圖像 token 的同步優化,提升了推理效率,并支持靈活的跨模態條件控制。

      與早期基于離散擴散的方法不同,FUDOKI [130] 提出了一種基于離散流匹配(discrete flow matching)[208] 的新型生成方法。在該框架下,FUDOKI 通過一條動力學最優、由度量誘導的概率軌跡,直接建模噪聲分布與數據分布之間的路徑。這一設計引入了連續的自校正機制,在生成效果上明顯優于早期模型所采用的簡單掩碼策略。FUDOKI 的模型架構基于 Janus-1.5B [174],但為支持統一的視覺-語言離散流建模,進行了關鍵修改:
      一是將標準的因果掩碼替換為全注意力掩碼,使每個 token 都能關注所有其他 token,從而增強全局上下文理解能力。盡管這一改動移除了顯式的因果結構,但模型仍可通過將輸出 logits 整體偏移一位來支持下一 token 預測。
      二是 FUDOKI 不依賴擴散模型中常見的顯式時間步嵌入,而是直接從輸入數據中推斷當前的“損壞”(corruption)狀態。
      此外,FUDOKI 延續 Janus-1.5B 的設計,將理解與生成路徑解耦:使用 SigLIP 編碼器 [209] 提取用于圖像理解的高層語義特征,而圖像生成則通過 LlamaGen [24] 中基于 VQGAN 的分詞器將圖像編碼為低層離散 token 序列。在輸出階段,Janus-1.5B 主干網絡生成的特征嵌入被送入模態特定的輸出頭,分別生成最終的文本和圖像。

      類似地,Muddit [131] 提出了一種基于純離散擴散框架的統一模型,用于文本與圖像的雙向生成。其架構包含一個單一的多模態擴散 Transformer(MM-DiT),結構設計類似于 FLUX [210]。為利用強大的圖像先驗,MM-DiT 生成器初始化自 Meissonic [211]——一個專為高分辨率合成而廣泛訓練的模型。兩種模態均被量化到共享的離散空間:圖像通過預訓練的 VQ-VAE [32] 編碼為碼本索引,文本則通過 CLIP 模型 [22] 提供 token 嵌入。在統一訓練過程中,Muddit 采用余弦調度策略進行 token 掩碼,并訓練單一的 MM-DiT 生成器根據另一模態條件預測干凈的 token。輸出時,輕量級線性頭解碼文本 token,VQ-VAE 解碼器重建圖像,從而實現單套參數同時處理文本與圖像生成。

      在此基礎上,MMaDA [129] 進一步將擴散范式擴展為統一的多模態基礎模型。它采用 LLaDA-8B-Instruct [212] 作為語言主干,并使用 MAGVIT-v2 [213] 圖像分詞器將圖像轉換為離散語義 token。這一統一的 token 空間使得生成過程中可無縫進行多模態條件控制。為提升跨模態對齊,MMaDA 引入了一種混合思維鏈(mixed chain-of-thought, CoT)微調策略,統一了文本與視覺任務的推理格式。這種對齊機制支持“冷啟動”強化學習(cold-start RL),使模型從訓練初期即可有效進行后訓練優化。此外,MMaDA 還提出了一種新穎的 UniGRPO 方法——一種專為擴散模型設計的統一策略梯度強化學習算法。UniGRPO 利用多樣化的獎勵信號(如事實正確性、圖文對齊度和用戶偏好),在推理與生成任務上同時進行后訓練優化,確保模型在廣泛能力維度上持續提升,而非過擬合于單一任務獎勵。

      盡管上述方法頗具創新性,統一離散擴散模型仍面臨顯著挑戰與局限。
      首要問題是推理效率。盡管 Mercury [214] 和 Gemini Diffusion [215] 等模型展示了高速并行 token 生成的潛力,但大多數開源離散擴散模型在實際推理速度上仍落后于自回歸模型。這一差距主要源于缺乏對 key-value 緩存的支持,以及在并行解碼多個 token 時生成質量顯著下降的問題。
      其次,訓練難度也制約了擴散模型的有效性。與自回歸訓練中每個 token 都提供學習信號不同,離散擴散訓練僅對隨機選擇的掩碼 token 子集計算損失,導致監督信號稀疏,訓練語料利用率低且方差高。
      此外,這些模型存在長度偏差(length bias),難以泛化到不同輸出長度,因為它們缺乏自回歸模型中天然存在的結束符(如 EOS token)作為停止機制。
      架構與基礎設施方面也亟需改進。許多現有模型直接復用為自回歸系統設計的架構,這種工程上的簡化選擇并不總是適合擴散過程——擴散旨在建模聯合數據分布,其本質與自回歸模型的序列生成機制截然不同。在基礎設施層面,離散擴散模型的支持仍十分有限:相比自回歸模型成熟的框架生態,它們缺乏完善的訓練/推理流水線和健壯的開源工具,這阻礙了公平比較、延緩了研究進展,并增加了實際部署的復雜性。

      綜上所述,要推動統一離散擴散模型的能力提升與實際應用,必須協同解決推理、訓練、架構和基礎設施等相互關聯的挑戰。

      3.2 自回歸模型

      統一多模態理解與生成模型的一個主要方向采用自回歸(Autoregressive, AR)架構,其中視覺和語言 token 通常被序列化并按順序建模。在這些模型中,主干網絡通常是一個 Transformer,其結構源自大型語言模型(LLMs),例如 LLaMA 系列 [1]、[2]、[216]、Vicuna [58]、Gemma 系列 [217]–[219] 以及 Qwen 系列 [5]、[6]、[9]、[10],作為統一的模態融合模塊,以自回歸方式預測多模態輸出。

      為將視覺信息整合進 AR 框架,如圖 5 所示,現有方法在模態編碼階段提出了不同的圖像分詞策略。這些方法大致可分為四類:基于像素的編碼(pixel-based)、基于語義的編碼(semantic-based)、基于可學習查詢的編碼(learnable query-based)以及混合編碼(hybrid-based)。

      1)基于像素的編碼如圖 5(b-1) 所示,基于像素的編碼通常指通過預訓練的自編碼器(僅以圖像重建為目標進行監督)將圖像表示為連續或離散 token,例如 VQGAN 類模型 [32]、[220]–[222]。這些編碼器將高維像素空間壓縮為緊湊的潛在空間,其中每個空間圖像塊對應一個圖像 token。在統一的多模態自回歸模型中,由此類編碼器序列化的圖像 token 與文本 token 類似處理,使得兩種模態可在單一序列中聯合建模。

      近期工作通過不同編碼器設計對基于像素的分詞進行了改進。LWM [29] 使用 VQGAN 分詞器 [32] 將圖像編碼為離散潛在碼,無需語義監督。它提出了一種多模態世界建??蚣?,將視覺與文本 token 序列化后進行統一的自回歸建模。LWM 僅通過基于重建的視覺 token 和文本描述學習世界動態,證明了在不依賴專門語義分詞的情況下,大規模多模態生成是可行的。

      Chameleon [30] 和 ANOLE [132] 采用 VQ-IMG [222]——一種專為內容豐富的圖像生成設計的改進型 VQ-VAE。相比標準 VQGAN 分詞器,VQ-IMG 采用更深的編碼器、更大的感受野,并引入殘差預測機制,以更好地保留復雜視覺細節。這一增強使 Chameleon 和 ANOLE 能更忠實地序列化圖像內容,從而支持高質量的多模態生成。此外,這些模型支持交錯生成(interleaved generation),允許在統一的自回歸框架內交替生成文本與圖像 token。

      Emu3 [133]、SynerGen-VL [136] 和 UGen [138] 采用 SBER-MoVQGAN [220]、[221]——一種多尺度 VQGAN 變體,可將圖像編碼為同時捕捉全局結構與細粒度細節的潛在表示。通過多尺度分詞,這些模型提升了視覺表征在自回歸建模中的表達能力,同時保持高效的訓練吞吐量。

      與 LWM [29] 類似,Liquid [137] 使用 VQGAN 風格的分詞器,并揭示了一個新見解:當視覺理解與生成在單一自回歸目標和共享視覺 token 表示下統一時,二者可相互促進。

      此外,MMAR [134]、Orthus [135] 和 Harmon [139] 提出使用其對應編碼器提取的連續值圖像 token,避免了離散化帶來的信息損失。它們還將擴散過程與 AR 主干解耦,在每個自回歸生成的圖像塊嵌入之上疊加輕量級擴散頭。該設計確保主干網絡的隱藏表征不局限于最終去噪步驟,從而促進更好的圖像理解。

      TokLIP [140] 將低層離散 VQGAN 分詞器與基于 ViT 的 token 編碼器 SigLIP [209] 結合,以捕獲高層連續語義,不僅賦予視覺 token 高層語義理解能力,也增強了底層生成能力。

      Selftok [141] 引入了一種新穎的離散視覺自一致性分詞器,在高質量重建與壓縮率之間取得良好平衡,同時支持有效的視覺強化學習中的最優策略改進。

      除 MMAR [134] 和 Harmon [139] 外,上述模型在預訓練和生成階段均采用因果注意力掩碼,確保每個 token 僅關注序列中先前的 token。它們使用下一 token 預測損失進行訓練,圖像與文本 token 均以自回歸方式預測,從而實現跨模態的統一訓練目標。

      值得注意的是,在基于像素的編碼方法中,用于從潛在 token 重建圖像的解碼器通常沿用 VQGAN 類模型最初提出的配對解碼器結構。這些解碼器是輕量級卷積架構,專門優化用于將離散潛在網格映射回像素空間,主要聚焦于準確的底層重建,而非高層語義推理。

      此外,由于 MMAR [134]、Orthus [135] 和 Harmon [139] 等方法將圖像分詞為連續潛在變量,它們采用輕量級擴散 MLP 作為解碼器,將連續潛在變量映射回像素空間。

      盡管有效,基于像素的編碼方法仍面臨若干固有局限:第一,由于視覺 token 僅針對像素級重建優化,往往缺乏高層語義抽象,使得文本與圖像表征之間的跨模態對齊更具挑戰性。第二,像素級分詞傾向于生成密集的 token 網格,顯著增加序列長度(尤其在高分辨率圖像下),導致自回歸訓練與推理過程中巨大的計算與內存開銷,限制了可擴展性。第三,由于底層視覺編碼器以重建為中心進行訓練,所得視覺 token 可能保留模態特異性偏差,例如對紋理和底層模式過度敏感,而這對于語義理解或細粒度跨模態推理未必最優。

      2)基于語義的編碼為克服像素級編碼器的語義局限,越來越多的工作采用語義編碼:如圖 5(b-2) 所示,圖像輸入通過預訓練的文本對齊視覺編碼器處理,例如 OpenAI-CLIP [22]、SigLIP [209]、EVA-CLIP [36],或更近期的統一分詞器如 UNIT [223]。

      部分模型利用多模態自回歸模型編碼的多模態特征作為擴散模型的條件,從而在保留多模態理解能力的同時實現圖像生成。例如:

      • OmniGen2 [158] 利用 Qwen2.5-VL [10] 作為多模態模型,結合增強版 OmniGen [224] 作為圖像擴散模型;
      • Ovis-U1 [159] 在多模態模型 Ovis [12] 基礎上,通過定制設計的擴散 Transformer 擴展為統一模型;
      • Qwen-Image [161] 同樣基于 Qwen2.5-VL [10],集成擴散 Transformer 實現統一生成。

      然而,大多數此類模型在大規模圖文對上通過對比學習或回歸目標進行訓練,生成的視覺嵌入在共享語義空間中與語言特征高度對齊。這類表征能實現更有效的跨模態對齊,特別有利于多模態理解與生成。

      多個代表性模型利用不同的語義編碼器和架構設計支持統一多模態任務:

      • Emu [142]、Emu2 [33] 和 LaViT [143] 均采用 EVA-CLIP [36] 作為視覺編碼器。其中,Emu [142] 首次提出結合凍結的 EVA-CLIP 編碼器、大語言模型和擴散解碼器,統一支持 VQA、圖像描述和圖像生成;Emu2 [33] 在此基礎上提出簡化且可擴展的統一多模態預訓練框架,并將 MLLM 擴展至 37B 參數,顯著提升理解與生成能力。
      • Bifrost-1 [162] 使用兩個語義編碼器:ViT 用于生成,MLLM(Qwen2.5-VL)中使用的編碼器用于理解,通過預測的 CLIP 潛在變量橋接 MLLM 與擴散模型。
      • LaViT [143] 在 EVA-CLIP 基礎上構建動態視覺分詞機制,通過選擇器與合并模塊根據內容復雜度自適應地從圖像嵌入中選擇視覺 token,動態決定每張圖像的視覺 token 序列長度,顯著減少冗余信息、保留關鍵視覺線索,提升描述、VQA 和圖像生成等任務的訓練效率與生成質量。

      DreamLLM [34]、VL-GPT [35]、MM-Interleaved [144] 和 PUMA [147] 采用 OpenAI-CLIP 編碼器 [22]:

      • DreamLLM [34] 引入輕量線性投影對齊 CLIP 嵌入與語言 token;
      • VL-GPT [35] 在 CLIP 視覺編碼器后接強大因果 Transformer,有效保留原始圖像的語義信息與像素細節;
      • MM-Interleaved [144] 和 PUMA [147] 通過帶簡單 ViT-Adapter 或池化操作的 CLIP 分詞器提取多粒度圖像特征,支持細粒度特征融合,從而實現豐富的多模態生成。

      Mini-Gemini [145] 引入視覺 token 增強機制,需雙語義編碼器:使用 CLIP 預訓練 ViT 編碼器 [22] 獲取全局視覺 token,同時用 LAION 預訓練 ConvNeXt 編碼器提供密集局部視覺信息,再通過交叉注意力模塊用局部細節精煉全局 token,隨后與文本 token 一起送入 LLM 進行聯合理解與生成,有效彌合 CLIP 特征的語義抽象與密集編碼器的像素級精度。

      MetaMorph [148] 采用 SigLIP [209] 提取視覺嵌入,并在預訓練語言模型中引入模態特定適配器,插入多個 Transformer 層,實現比淺層投影更深入的視覺-語言交互。

      ILLUME [149] 采用 UNIT [223] 作為視覺編碼器,提供兼顧語義對齊與像素保真度的統一表征。不同于純對比目標的 CLIP 類編碼器,UNIT [223] 聯合訓練圖像重建與對比對齊損失,生成的 token 同時適用于視覺-語言理解和圖像合成?;趶姶蟮?UNIT 分詞器,ILLUME 有效生成兼具語義與像素信息的圖像 token,在描述、VQA、文本到圖像及交錯生成等任務中表現優異。

      類似地,VILA-U [146] 和 UniTok [150] 模仿 UNIT [223],引入圖像-文本對比學習,獲得一種新型文本對齊視覺分詞器,平衡語義對齊與像素保真度。

      QLIP [151] 通過二值球面量化(binary-spherical quantization)解決重建與圖文對齊任務間的潛在沖突。

      Tar [157] 利用 LLM 詞匯初始化視覺碼本,并引入尺度自適應池化與解碼方法,使模型可根據需求調整分詞器長度:粗粒度用于高效生成,細粒度用于全面理解。在生成任務中,Tar 利用擴散技術增強 AR 模型的視覺生成效果。

      UniFork [153] 利用 VILA-U 的文本對齊視覺特征,但不同于完全共享參數的理解與生成 MLLM,UniFork 僅在淺層共享參數,深層則由不同網絡處理各自任務,成功平衡共享學習與任務特異性專業化。

      UniCode2 [154] 采用級聯碼本:沿用 [225] 方法,使用聚類 SigLIP 特征構建的大規模碼本作為凍結基礎碼本,同時引入可學習補充碼本以精煉特定任務語義,提升利用率并促進穩健學習。

      近期工作 DualToken [152] 利用 SigLIP 的淺層特征用于重建、深層特征用于語義學習,同時獲取紋理與語義視覺特征,在重建與語義任務中均表現優越,并在下游 MLLM 理解與生成任務中效果顯著。

      X-Omni [160] 采用 SigLIP-VQ 作為視覺編碼器,并利用強化學習緩解自回歸推理中的累積誤差及離散編碼固有的信息損失,大幅增強離散自回歸模型的生成質量,實現圖像與語言生成的無縫融合。

      在大多數此類模型中,MLLM 訓練時采用因果注意力掩碼,并使用下一 token 預測損失優化文本與視覺 token 的生成。在圖像生成方面,多數模型通常采用基于擴散的解碼器(如 SD 系列 [14]、[226]、IP-adapter [227]、FLUX [16]、Lumina-Next [228]),這些解碼器獨立于 MLLM 訓練。推理時,MLLM 生成語義級視覺 token,再傳遞給擴散解碼器完成最終圖像合成。

      這種“語義編碼器 + 擴散解碼器”的設計源于以下事實:語義嵌入編碼高層概念信息,但缺乏直接像素重建所需的空間密度與底層細節。而擴散模型憑借其迭代去噪機制,特別適合此場景——即使輸入 token 稀疏或抽象,也能逐步將其精煉為高分辨率、逼真的圖像。

      相比之下,少數方法(如 VILA-U [146] 和 UniTok [150])采用像素級解碼器,但其生成圖像質量不及擴散解碼器。因此,擴散解碼器為語義壓縮的視覺 token 提供了更魯棒、更具表達力的解碼路徑,顯著提升圖文對齊、全局一致性和視覺保真度。

      UniWorld [155] 和 Pisces [156] 進一步發展了這一方案:

      • UniWorld 直接利用預訓練 MLLM 的視覺理解輸出特征作為高層條件信號,同時使用 SigLIP 作為低層條件信號,為 DiT 提供全面的語義視覺控制;
      • Pisces 以 EVA-CLIP 作為視覺生成條件,并利用擴散進一步增強模型的視覺生成輸出。針對不同任務,Pisces 引入定制的視覺向量長度,并使用不同 MLP 編碼條件,既提升模型設計靈活性,又降低推理成本(相比單一編碼器配置)。

      盡管具有上述優勢,語義編碼也存在若干局限:第一,由于底層線索被抽象化,所得視覺 token 在像素級可控性較差,難以執行細粒度圖像編輯、局部修復或結構保持變換;第二,語義編碼器通常僅提供全局或中層表征,對于需要空間對應的任務(如指代表達分割或姿態精確合成)可能不足;第三,由于語義編碼器與擴散解碼器通常分開訓練,缺乏端到端優化,可能導致 MLLM 輸出與解碼器期望不匹配,偶爾引發語義漂移或生成偽影。

      3)基于可學習查詢的編碼(Learnable Query Encoding)
      可學習查詢編碼已成為一種有效策略,用于生成自適應且任務相關的圖像表征。如圖 5(b-3) 所示,該方法不依賴固定的視覺分詞器或密集圖像塊,而是引入一組可學習的查詢 token,動態地從圖像特征中提取信息性內容。這些查詢 token 充當內容感知探針,與視覺編碼器交互,生成緊湊且語義對齊的嵌入,非常適合多模態理解與生成。

      目前,可學習查詢編碼的實現大致可分為兩類代表性范式:

      第一類以 SEED [163] 為代表,其提出了一種“種子分詞器”(seed tokenizer),用于學習因果視覺嵌入。具體而言,輸入圖像首先通過 BLIP-2 ViT 編碼器 [53] 編碼為密集 token 特征;隨后,這些特征與一組可學習查詢 token 拼接,并送入一個因果 Q-Former,生成因果視覺嵌入。該設計同時采用圖像-文本對比學習和圖像重建監督進行訓練,使所學嵌入既能保留底層視覺細節,又能捕獲與文本高度對齊的高層語義。在此基礎上,SEED-LLAMA [164] 和 SEED-X [165] 通過將主干網絡從 OPT [229] 替換為更強的 LLaMA2 [2],并將解碼器升級為 UnCLIP-SD [14] 或 SDXL [226],顯著提升了理解和生成性能。

      第二類由 MetaQueries [166] 提出,提供了一種更簡化的可學習查詢編碼方案。該方法使用凍結的 SigLIP 編碼器 [209] 提取圖像特征,再與可學習查詢 token 拼接后,直接送入凍結的視覺-語言主干網絡(如 LLaVA [216] 或 Qwen2.5-VL [10])。輸出的因果嵌入被用作基于擴散的圖像解碼器的條件輸入,實現高質量圖像生成。由于主干網絡保持凍結,其視覺-語言理解能力與底層預訓練模型一致,提供了一種輕量但高效的多模態生成方案。

      OpenUni [170] 對 MetaQueries 的架構進行了優化,僅使用可學習查詢,并在 MLLM 與擴散模型之間引入一個輕量連接器,促進連貫的多模態理解與生成。OpenUni 表明,MLLM 視覺理解組件與擴散生成組件之間的連接器可以極其簡潔——例如僅包含六層 Transformer 即可。

      Nexus-Gen [167] 和 Ming-Lite-Uni [168] 遵循 MetaQueries 范式,但引入了顯著改進以進一步提升多模態生成能力:

      • Nexus-Gen [167] 引入了更強大的擴散解碼器 FLUX-1.dev,顯著提升生成質量,使其能更好地捕捉復雜圖像生成任務所需的精細細節與高保真特征;
      • Ming-Lite-Uni [168] 則采用高性能 MLLM 模型 M2-omini [200] 增強視覺-語言交互,執行高級視覺-語言條件化以生成條件圖像嵌入,確保更語義對齊的表征。此外,它通過引入多尺度可學習 token 對擴散模型進行微調,促進不同視覺尺度間的語義對齊,從而提升從文本提示生成細節豐富、上下文連貫圖像的能力,有效應對分辨率不匹配和語義不一致等挑戰。

      Ming-Omni [171] 采用集成的 MoE 架構,通過為每個 token 定制的專用機制實現模態特定路由,從而支持定制化的路由分布。為應對視覺生成中固有的多尺度現象 [113],Ming-Omni 使用多尺度可學習查詢,在對齊策略指導下,從粗到細迭代生成圖像。此外,Ming-Omni 還整合了音頻模態,并采用兩階段訓練策略以緩解音頻理解與生成任務之間的相互干擾:第一階段側重理解能力,第二階段聚焦生成質量提升。

      BLIP3o [169] 同樣利用可學習查詢橋接多模態理解與生成,但采用兩個擴散模型:一個用于學習 CLIP 嵌入,另一個以 CLIP 為條件生成圖像。研究發現,流匹配損失(flow matching loss)比 MSE 損失更有效,能實現更多樣化的圖像采樣并獲得更優圖像質量。

      UniLIP [172] 通過自蒸餾逐步將重建能力融入 CLIP,然后結合可學習查詢與 MLLM 最后一層的隱藏狀態作為聯合條件,該框架被證明能優化視覺編輯中的豐富信息利用。

      為挖掘 MLLM 中間層的層次化表征,TBAC-UniImage [173] 在多個 Transformer 層(而非僅最后一層)應用可學習查詢。

      綜上所述,這些基于可學習查詢的設計具有共同優勢:它們提供自適應、緊湊且語義豐富的表征,同時支持高效的圖像理解與高質量生成。通過聚焦任務驅動的 token 提取,這類模型為傳統視覺分詞器提供了靈活且可擴展的替代方案,尤其適用于統一多模態框架。

      盡管具有靈活性和良好前景,可學習查詢編碼仍存在若干局限,可能限制其廣泛應用:
      第一,可學習查詢 token 會帶來額外的計算開銷。隨著查詢數量增加,模型的內存消耗和計算復雜度顯著上升,尤其在大規模數據集或復雜多模態任務中更為明顯。此外,若采用固定編碼器(如 MetaQueries 中的做法),模型在面對與預訓練數據分布差異較大的新奇或復雜視覺輸入時,靈活性受限。
      第二,在 SEED [163] 和 MetaQueries [166] 等方法中,依賴凍結或預訓練主干會限制視覺特征對下游任務的適應性。雖然凍結可降低訓練成本并保留先驗知識,但也阻礙了圖像特征與動態演化的查詢語義之間的深度對齊,尤其在組合性強或多樣的場景中表現不足。
      第三,盡管可學習查詢能有效捕獲任務相關內容,但在處理多樣視覺內容時未必均勻有效。例如,包含多個對象、細粒度細節或模糊視覺線索的復雜場景,可能無法被少量可學習查詢充分表征。這一局限在需要生成高度細節化輸出時尤為明顯——固定或小規模查詢集可能無法在某些上下文中充分捕捉視覺輸入的豐富性與變異性。

      4)混合編碼(Hybrid Encoding)
      為克服單一視覺表征模態的固有局限,統一多模態模型引入了混合編碼策略?;谙袼氐木幋a方法(如 VQ-VAE 或 VQGAN)擅長保留細粒度視覺細節,但往往缺乏與文本的語義對齊;而基于語義的編碼器(如 SigLIP 或 CLIP 變體)生成抽象但語義豐富的表征,卻在底層圖像保真度方面表現較弱?;旌暇幋a旨在融合兩者優勢,將像素級與語義級特征整合為統一表征。

      根據像素 token 與語義 token 的整合方式,混合編碼方法可分為兩類:偽混合編碼(pseudo hybrid encoding)和聯合混合編碼(joint hybrid encoding)。

      偽混合編碼
      代表性工作包括 Janus [174]、Janus-Pro [175]、OmniMamba [176]、Unifluid [177] 和 MindOmni [178]。如圖 5(b-4) 所示,這些模型采用雙編碼器——通常是一個語義編碼器(如 SigLIP)和一個像素編碼器(如 VQGAN 或 VAE)——但以任務特定方式使用:

      • 在訓練時,語義編碼器分支用于視覺-語言理解任務,像素編碼器分支用于圖像生成任務;
      • 盡管雙編碼器在聯合的理解與生成數據集上并發訓練,但在推理時:理解任務不使用像素編碼器,文本到圖像生成任務則禁用語義編碼器。

      然而,在圖像編輯任務中,Unifluid [177] 使用語義編碼器編碼源圖像,而 MindOmni [178] 則同時使用 VAE 和語義編碼器編碼源圖像。這種設計背后的邏輯是:混合數據訓練可提升理解與生成任務的整體性能。

      Skywork UniPic [179] 在理解任務中使用 SigLIP2 作為編碼器,在生成任務中使用 MAR [25] 作為編碼器。但由于任一時刻僅激活一個編碼器,這些模型并未充分發揮混合編碼的優勢——既未能在生成任務中利用語義 grounding,也未能在理解任務中利用高保真視覺細節。因此,這些模型通常采用像素解碼器(如 VQGAN)從潛在碼重建圖像。

      聯合混合編碼
      如圖 5(b-5) 所示,聯合混合編碼方法將語義 token 與像素 token 整合為語言模型或解碼器的單一統一輸入,實現兩種表征的同時利用。不同模型采用不同的融合策略:

      • MUSE-VL [180] 和 UniToken [186] 將 SigLIP 與 VQGAN 的特征沿通道維度拼接后送入 LLM;
      • Tokenflow [181] 引入雙編碼器與共享映射的碼本,實現高層語義與底層像素細節的聯合優化;
      • VARGPT [182]、VARGPT-1.1 [184] 和 ILLUME+ [185] 則沿序列維度拼接語義與像素 token,使 LLM 輸入中同時包含兩類 token;
      • SemHiTok [183] 提出語義引導的層次化碼本(SGHC),在完美繼承語義碼本信息的同時融入紋理信息,實現像素級重建;
      • 與多數方法不同,Show-o2 [187] 并非直接對圖像使用不同網絡分支,而是對 3DVAE [230] 生成的潛在特征使用獨立分支處理,并通過時空融合模塊聚合各分支輸出,從而同時捕獲底層與高層視覺信息。但該操作可能因 3D VAE 對圖像/視頻的有損壓縮而丟失細微語義元素,導致視覺語義細節處理欠佳。

      通過整合語義與細節視覺信息,聯合混合編碼為多模態理解與生成提供了更魯棒、更具表達力的建模能力。這些模型既支持像素解碼器(如 VQGAN、Infinity [231]、VAR-D30 [113]),也支持基于擴散的解碼器(如 SDXL [226]),從而生成語義對齊更強、視覺更逼真的圖像。

      盡管混合編碼通過融合像素級與語義級表征的互補優勢展現出廣闊前景,但仍面臨若干挑戰:

      • 許多偽混合方法在推理時未同時利用雙編碼器,未能充分發揮細粒度細節與高層語義之間的協同潛力;
      • 即使在聯合混合方法中,異構 token 類型的融合也可能引入模態不平衡或冗余,若未精心設計,可能損害下游性能;
      • 雙編碼器架構顯著增加了計算與內存開銷,在高分辨率或長序列場景下面臨可擴展性挑戰;
      • 像素 token 與語義 token 的對齊仍是一個非平凡問題,隱式不匹配可能導致表征不連貫或學習信號沖突;
      • 當前混合編碼技術常假設像素與語義 token 之間存在隱式對齊,但實踐中這種對齊并不容易實現。視覺細節與語義抽象之間的錯位可能引發沖突的監督信號或不一致的表征,尤其在數據稀缺或噪聲較多的訓練環境中更為嚴重。

      3.3 融合自回歸與擴散模型

      融合自回歸(Autoregressive, AR)與擴散建模的框架近期已成為統一視覺-語言生成的一種強大范式。在該范式中,文本 token 以自回歸方式生成,保留了大型語言模型在組合式推理方面的優勢;而圖像 token 則通過多步去噪過程生成,遵循擴散建模的基本原理。這種混合策略使圖像生成無需按序列順序進行,從而提升了視覺質量和全局一致性。

      代表性模型如 Transfusion [38]、Show-o [39]、MonoFormer [37] 和 LMFusion[188] 均采用這一方法。在生成過程中,噪聲被添加到潛在視覺表征中,并通過迭代方式逐步去除,該過程以先前生成的文本或完整的跨模態上下文為條件。盡管由于多步采樣導致推理成本增加,但該設計在符號控制能力與視覺保真度之間實現了有效權衡,特別適用于高質量的視覺-語言生成任務。

      現有的融合 AR + 擴散模型通常采用兩種圖像分詞策略之一:基于像素的編碼(pixel-based encoding)和混合編碼(hybrid encoding)。

      1)基于像素的編碼如圖 5(c-1) 所示,基于像素的編碼將圖像轉換為離散 token 或連續潛在向量,隨后在擴散去噪過程中將其作為目標,條件為自回歸生成的文本 token。在近期工作中,Transfusion [38]、MonoFormer [37] 和 LMFusion [188] 均采用通過 SD-VAE 提取的連續潛在表示。這些模型共享一個聯合訓練目標:對語言建模使用自回歸損失,對圖像重建使用擴散損失,并利用雙向注意力機制以實現空間一致性。

      盡管框架相似,各模型引入了不同的架構創新:

      • Transfusion [38] 提出一個統一的 Transformer 主干網絡,包含模態特定層,以聯合處理離散與連續輸入;
      • MonoFormer [37] 設計了一種緊湊架構,通過共享模塊和任務依賴的注意力掩碼,在 AR 與擴散任務之間取得平衡;
      • LMFusion [188] 通過一個輕量級視覺注入模塊,使凍結的 LLM 能夠執行高質量圖像生成,在僅訓練視覺分支的同時保留語言能力。

      相比之下,Show-o [39] 采用基于 MAGVIT-v2 [213] 的離散像素級分詞器,生成與 Transformer 風格解碼兼容的符號化圖像 token。它同時支持基于 AR 的文本 token 生成和基于擴散的圖像合成,并通過自回歸損失與擴散損失的組合進行監督。

      總體而言,這些模型證明了基于像素的編碼在平衡語言模型提供的語義可控性與擴散過程帶來的高分辨率視覺保真度方面的有效性。

      然而,融合 AR 與擴散框架中的基于像素編碼方法也面臨若干局限:第一,依賴連續潛在空間(如通過 SD-VAE)的模型在訓練和推理階段會帶來顯著計算開銷,原因在于擴散采樣的迭代特性以及高維特征處理需求。當擴展至高分辨率圖像生成或多輪視覺-語言交互時,這一負擔尤為突出。第二,文本與視覺模態之間的對齊仍具挑戰性。盡管雙向注意力機制支持跨模態融合,但潛在空間表征——尤其是通過 SD-VAE 中無監督重建目標學習得到的——未必能與語義豐富的語言 token 最優對齊,可能導致細粒度可控性較弱或生成結果可解釋性不足。第三,如 Show-o 所采用的離散分詞方案,繼承了 VQ 類模型的問題,例如碼本坍塌(codebook collapse)和對細微視覺差異的表達能力有限。這類符號化 token 雖與 Transformer 建模兼容,但可能限制視覺多樣性,并在重建保真度上遜于連續潛在方法。

      2)混合編碼如圖 5(c-2) 所示,混合編碼融合了語義特征(如來自 CLIP 或 ViT 編碼器)與像素級潛在表示(如來自 SD-VAE),提供更具表達力的圖像表征。該方法使模型既能利用高層語義抽象,又能保留細節視覺信息。

      具體而言,Janus-flow [189]、Mogao [190] 和 BAGEL [191] 采用雙編碼器架構,并提出一種極簡設計,將 AR 語言模型與校正流(rectified flow)相協調。它們將理解與生成編碼器解耦:

      • 在多模態理解任務中,使用 SigLIP 或 SigLIP 與 SDXL-VAE 的拼接作為視覺編碼器;
      • 在圖像生成任務中,則使用 SDXL-VAE 或 FLUX-VAE。

      然而,這種偽混合編碼(pseudo hybrid encoding)設計在圖像合成過程中僅激活像素編碼器,限制了模型在生成階段同時利用語義與像素級特征的能力。盡管這種解耦有利于模塊化和訓練效率,但阻礙了模型在圖像解碼過程中充分利用語義線索,可能削弱生成任務中的細粒度對齊與多模態組合能力。

      盡管已有進展,混合編碼方法仍面臨若干挑戰:

      • 雙編碼器架構與 AR/擴散過程的結合增加了模型整體復雜度,導致更高的計算成本和更長的訓練時間,相比更簡單模型效率較低;
      • 確保語義特征與像素級特征的有效對齊需要精心的架構設計與優化,而這一對齊過程難以實現和微調,限制了模型在兩類模態間均衡利用的能力;
      • 在統一模型中平衡視覺-語言理解與圖像生成的目標常導致權衡:一項任務的改進可能以犧牲另一項任務為代價。

      這些局限凸顯了對更高效混合設計的需求——既能更好發揮視覺與語義特征的優勢,又能降低計算開銷,并在各類任務中保持高性能。

      3.4 任意到任意多模態模型

      盡管早期的統一多模態模型主要聚焦于文本-圖像對,近期研究已拓展至任意到任意(any-to-any)的多模態建模。這一雄心勃勃的方向旨在構建能夠跨多種模態進行處理與生成的模型,涵蓋音頻、視頻、語音、音樂乃至更多模態。這些模型力求在單一架構內統一各類模態專用的編碼器與解碼器,從而支持諸如文本到音頻、視頻到文本、語音到音樂,甚至圖像到視頻生成等多樣化任務。本節回顧該新興領域中的代表性工作,重點介紹其設計原則、模塊化特性及當前局限。

      大多數任意到任意模型采用模塊化設計:每種模態配有一套專用的編碼器和解碼器,而一個共享主干網絡負責跨模態表征學習與序列建模。例如,OmniFlow [199] 集成了 HiFiGen [232] 用于音頻與音樂生成,SD-VAE [14] 用于圖像處理,并以類 DiT 的擴散模型(MMDiT)[15] 作為主干網絡。這種模塊化設計使模型能高效組合不同模態,完成復雜的生成任務。

      部分模型依賴共享嵌入空間,在特征層面統一不同模態。例如,Spider [198]、X-VILA [196] 和 Next-GPT [192] 利用 ImageBind——一種通過對比學習訓練的模型,可將六種模態(文本、圖像、視頻、音頻、深度圖和熱成像)映射到同一嵌入空間。這種統一表征通過模態特定解碼器(如 Stable Diffusion [14]、Zeroscope 或基于 LLM 的文本解碼器 [1])實現靈活的條件控制與生成。盡管該方法在理論上簡潔優雅,但其生成能力常受限于解碼器質量與共享嵌入的粒度。

      其他模型如 AnyGPT [195] 和 Unified-IO 2 [193] 則將序列到序列范式擴展至多模態場景:

      • AnyGPT [195] 使用 EnCodec [233] 進行音頻分詞,SpeechTokenizer [234] 處理語音,并訓練一個帶模態特定前綴的統一 Transformer;
      • Unified-IO 2 [193] 則采用更結構化的編碼器-解碼器設計,整合視覺、音頻和語言模態,在單一模型中支持 AST 到文本、語音到圖像、視頻描述等任務。

      近期值得關注的任意到任意統一多模態模型是 M2-omni [200],它引入了一種高度通用的架構,能夠處理并生成包括文本、圖像、視頻和音頻在內的廣泛模態。M2-omni 更進一步,集成了多個模態專用的分詞器與解碼器,每個組件均針對不同數據類型的獨特特性精心設計:

      • 使用 NaViT [235] 對任意分辨率的視頻和圖像進行編碼;
      • 結合預訓練的 SD-3 [226] 作為圖像解碼器;
      • 對音頻,引入 paraformer-zh [236] 提取音頻 token,并將預測的離散音頻 token 輸入預訓練的 CosyVoice [237] 流匹配與聲碼器模型以生成音頻流。

      這種集成確保 M2-omni 能從多種輸入有效生成高質量圖像與音頻流,使其成為真正意義上的多模態 powerhouse(全能模型)。

      盡管進展顯著,當前任意到任意模型仍面臨若干挑戰:

      • 模態不平衡:文本和圖像模態通常占據主導地位,而音頻、視頻、音樂等模態代表性不足,限制了模型可處理任務的多樣性;
      • 可擴展性問題:支持廣泛模態會顯著增加模型復雜度,導致推理延遲更高、資源需求更大;
      • 跨模態語義一致性:確保不同模態間語義一致仍非易事,模型常難以維持有根據且對齊的輸出。

      這些挑戰構成了任意到任意多模態模型研發中的持續研究方向。

      盡管如此,這些模型代表了邁向通用基礎模型的關鍵一步——此類模型有望理解并生成人類全部感官輸入與交流形式的完整譜系。隨著數據、架構與訓練范式的不斷演進,未來的任意到任意模型預計將更具組合性、效率更高,并真正實現通用的跨模態生成能力。

      4 統一模型相關數據集

      大規模、高質量且多樣化的訓練數據是構建強大統一多模態理解與生成模型的基石。這類模型通常需要在海量圖像-文本對上進行預訓練,以學習跨模態關聯與表征。需要注意的是,在使用大規模多模態數據訓練之前,這些模型通常會先用大型自然語言語料庫(如 Common Crawl、RedPajama [291]、WebText [292] 等)進行初始化。由于本綜述主要聚焦于多模態模型,本節將不討論純文本數據。

      根據主要用途和模態特性,常見的多模態預訓練數據集可大致分為以下幾類:

      • 多模態理解數據集
      • 文本到圖像生成數據集
      • 圖像編輯數據集
      • 交錯式圖文數據集
      • 以及其他支持以文本和圖像為條件的圖像生成任務的數據集

      本節將圍繞表 3 中列出的代表性數據集展開詳細說明,重點介紹 2020 年及之后發布的重要資源。


      4.1 多模態理解數據集

      此類數據集主要用于訓練模型的跨模態理解能力,支持圖像描述生成、視覺問答(VQA)、圖文檢索、視覺定位等任務。它們通常包含大量圖像及其對應的文本描述。

      • RedCaps [238]:該數據集包含從 Reddit 平臺收集的 1200 萬組圖像-文本對,特別擅長捕捉社交媒體用戶常分享的日常生活場景(如寵物、愛好、食物、休閑等)。
      • Wukong [239]:Wukong 是一個大規模中文多模態預訓練數據集,包含從網絡中篩選出的 1 億組中文圖像-文本對。其構建填補了高質量、大規模中文多模態預訓練數據的空白,顯著推動了面向中文場景的多模態模型發展。
      • LAION [240]:LAION(Large-scale Artificial Intelligence Open Network)項目提供了目前最大規模的公開圖像-文本對數據集之一。例如,LAION-5B 包含近 60 億組從網絡爬取的圖文對,并通過 CLIP 模型進行過濾以確保圖文相關性。因其規模龐大、多樣性豐富,LAION 已成為眾多大型多模態模型預訓練的基礎。其子集 Laion-COCO [242] 包含 6 億個高質量標注樣本,旨在提供風格上更接近 MS COCO [293] 的大規模數據。
      • COYO [241]:COYO 是另一個大規模圖像-文本對數據集,包含約 7.47 億個樣本,同樣源自網絡爬取并經過過濾處理,為社區提供了 LAION 之外的另一大規模預訓練資源。
      • DataComp [243]:包含 14 億個樣本,源自 Common Crawl,通過精心設計的過濾策略(包括 CLIP 分數和基于圖像的過濾)篩選,旨在提供比原始爬取數據質量更高的圖文對。
      • ShareGPT4V [246]:提供約 10 萬條高質量圖像-文本對話數據,專為增強大模型的指令遵循與對話能力而設計,使其成為更優秀的多模態對話代理。
      • ALLaVA [216]:包含 140 萬條合成數據,專為訓練輕量級視覺-語言模型(LVLMs)而構建。其生成流程采用強閉源模型(如 GPT-4V)分階段完成:首先從 LAION 和 Vision-FLAN 等來源選取圖像;其次生成細粒度、詳細的圖像描述;最后構造復雜的推理型視覺問答對,強調包含證據和思維鏈的詳細答案,以支持魯棒的視覺指令微調。
      • CapsFusion-120M [245]:從 Laion-COCO [242] 中精選出的 1.2 億組圖像-文本對,其文本描述通過整合 Laion-COCO 原有標題與 CapsFusion-LLaMA [245] 生成內容獲得。
      • Cambrian-10M(7M) [247]:Cambrian-10M 是一個用于多模態指令微調的大規模數據集,來源多樣但類別分布不均衡。為提升數據質量,研究者基于優化后的數據比例進行過濾,最終形成 Cambrian-7M。
      • LLaVA-OneVision [248]:該視覺指令微調數據集包含兩部分:一是 320 萬條多樣化的單圖樣本(涵蓋 QA、OCR、數學等);二是 OneVision 數據集,包含 160 萬條混合模態樣本(包括視頻、多圖及精選單圖)。
      • Infinity-MM [248]:一個綜合性多模態訓練數據集,包含超過 4000 萬條樣本,通過廣泛收集和分類現有開源數據集并結合新生成數據構建而成。內容包括圖像描述、通用視覺指令、高質量精選指令,以及大量由 GPT-4 或定制 VLM 流水線生成的數據,以確保對齊性與多樣性。所有數據均經過嚴格的質量控制與一致性過濾。
      • 其他數據集:近期開發的其他理解類數據集還包括 GRIT(Grid-based Representation for Image-Text)[244](2000 萬樣本,強調圖像區域與文本短語的細粒度對齊)。此外,SAM 數據集 [251] 雖然最初并非圖文對形式,但其包含 1100 萬張高分辨率圖像及精細分割掩碼,提供了寶貴的空間與語義信息,可增強多模態模型對物體位置、邊界或區域操作的理解能力。另外,文本到圖像模型所用數據也可用于多模態理解任務。

      4.2 文本到圖像數據集

      此類數據集主要用于訓練根據文本描述生成圖像的模型,通常包含圖像-文本對,更強調圖像的美學質量、內容豐富性或特定風格屬性。

      • CC-12M(Conceptual Captions 12M) [250]:包含約 1200 萬組從網頁 Alt-text 中提取并過濾的圖文對。相比原始網絡爬取數據,其文本描述更簡潔、更具描述性,被廣泛用于文本到圖像模型訓練。
      • LAION-Aesthetics [240]:LAION 的一個子集,通過美學評分模型篩選出約 1.2 億張被認為具有較高“美學價值”的圖像及其對應文本。
      • 文本渲染數據集:多個數據集專門用于解決生成圖像中文本準確、清晰渲染的挑戰:
        • Mario-10M [252]:含 1000 萬樣本,用于訓練 TextDiffuser 模型,旨在提升文本布局與可讀性;
        • RenderedText [253]:提供 1200 萬張高分辨率手寫文本合成圖像,具有多樣視覺屬性,是手寫文本理解與生成的重要資源;
        • AnyWord-3M [255]:含 300 萬樣本,對 AnyText 等模型的訓練至關重要,專注于提升生成文本質量;
        • TextAtlas5M [265]:面向密集文本生成,融合交錯文檔、合成數據及帶長描述和人工標注的真實圖像,以應對復雜文本密集型圖像場景。
      • JourneyDB [254]:包含 400 萬組由 Midjourney 平臺生成的高質量圖像-提示對。由于 Midjourney 以生成創意性和藝術性強的圖像著稱,該數據集為訓練模型學習復雜、細致且具藝術風格的文本到圖像映射提供了寶貴資源。
      • CosmicMan-HQ 1.0 [256]:包含 600 萬張高分辨率真實人像(平均分辨率達 1488 × 1255 像素),其文本標注極為精確,源自 1.15 億個不同粒度的屬性,可用于提升人像生成能力。
      • DOCCI [257]:提供 1.5 萬張精心策劃的圖像,每張配有由人工撰寫的長英文描述(平均 136 詞),內容高度細致,旨在區分相似圖像。該數據集聚焦細粒度描述與對比圖像集,是訓練和評估圖文互生模型處理微妙細節與復雜構圖能力的重要資源。
      • PixelProse [258]:從 DataComp [243]、CC-12M [250] 和 RedCaps [238] 中提取,包含豐富標注的圖像及其文本描述,并提供水印存在性、美學評分等元數據,可用于過濾以獲取目標圖像。
      • Megalith [260]:包含約 1000 萬條 Flickr 上標記為“photo”且無版權限制的圖像鏈接,其社區生成的文本描述由 ShareCaptioner [246]、Florence2 [294] 和 InternVL2 [11], [66] 等模型生成,并已公開。
      • PD12M [262]:包含 1240 萬張公共領域(CC0 許可)高分辨率圖像,配以 Florence-2-large [294] 生成的合成描述,專為文本到圖像模型訓練設計,在規避版權問題的同時提供大規模數據。
      • 合成數據集:越來越多的文本到圖像專用數據集通過現有生成模型構建:
        • text-to-image-2M [261]:提供 200 萬組經高級 T2I 與描述模型精選的增強圖文對,用于微調;
        • SFHQ-T2I [263]:提供 12.2 萬張由多個 T2I 模型生成的多樣化高分辨率合成人臉圖像,確保多樣性與隱私保護;
        • EliGen TrainSet [264]:使用基線模型(FLUX.1-dev)生成圖像,并結合 MLLM 生成的提示,以保證風格一致性和詳細標注,用于實體控制;
        • BLIP-3o 60k [169]:提供 6 萬條從 GPT-4o 蒸餾出的指令微調樣本,覆蓋多類別以支持多樣化訓練;
        • ShareGPT4o-Image [266]:貢獻 4.5 萬組文本到圖像對,其提示通過“屬性優先”和“圖像優先”兩種結構化方法生成,對應圖像由 GPT-4o 的圖像生成能力合成,以蒸餾其先進技能;
        • Echo-4o-Image [267]:提供超 10 萬條樣本,專門針對現實數據中的盲區,如超現實幻想場景和復雜長尾指令,以增強模型想象力與對齊能力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一句“搞么哩”火遍全網!4歲重慶娃,讓千萬人看見家的幸福模樣

      一句“搞么哩”火遍全網!4歲重慶娃,讓千萬人看見家的幸福模樣

      江津融媒
      2026-01-27 13:05:14
      鄒市明虧光2億左眼失明,仍需打零工養3個孩子買不起新衣服

      鄒市明虧光2億左眼失明,仍需打零工養3個孩子買不起新衣服

      淡淡稻花香s
      2026-01-27 22:49:13
      重磅!總投資9600億元,海南2026年重大項目清單曝光!

      重磅!總投資9600億元,海南2026年重大項目清單曝光!

      網易海南房產
      2026-01-27 10:14:35
      廣州一乘客羊城通欠費1400萬元? 嶺南通公司回應

      廣州一乘客羊城通欠費1400萬元? 嶺南通公司回應

      深圳晚報
      2026-01-27 10:15:25
      二手房雄起:天津9個區上漲,最高漲幅26.5%

      二手房雄起:天津9個區上漲,最高漲幅26.5%

      濱海房叔
      2026-01-27 09:56:28
      蹉跎半生的樊振東父母沒想到,兒子一則動態,讓他們迎來無上榮光

      蹉跎半生的樊振東父母沒想到,兒子一則動態,讓他們迎來無上榮光

      以茶帶書
      2026-01-27 17:20:57
      哈梅內伊藏身地堡!48小時內有45架美軍運輸機飛抵中東

      哈梅內伊藏身地堡!48小時內有45架美軍運輸機飛抵中東

      項鵬飛
      2026-01-25 20:25:40
      斯諾克最新:中國8人進32強,趙心童凌晨戰福德,火箭對卡特

      斯諾克最新:中國8人進32強,趙心童凌晨戰福德,火箭對卡特

      老牛體育解說
      2026-01-28 01:27:25
      梁羽生的《云海玉弓緣》只此一節,便足以和金庸相媲美了

      梁羽生的《云海玉弓緣》只此一節,便足以和金庸相媲美了

      青霄
      2026-01-27 22:27:32
      中國有源相控陣雷達真實水平:并非世界第一,和美差距有多大

      中國有源相控陣雷達真實水平:并非世界第一,和美差距有多大

      黑翼天使
      2026-01-10 03:28:16
      中國股市:換手率一旦大于7%,果斷進入,不是漲停就是漲不停!

      中國股市:換手率一旦大于7%,果斷進入,不是漲停就是漲不停!

      一方聊市
      2026-01-23 08:00:03
      醫生發現:早期腦梗不是頭暈,而是頻繁出現這5個異常,別忽視

      醫生發現:早期腦梗不是頭暈,而是頻繁出現這5個異常,別忽視

      蜉蝣說
      2026-01-20 15:16:24
      5局惜敗+4場關鍵戰拉胯!陳方的固執坑慘天津女排,本土名宿才是救命稻草

      5局惜敗+4場關鍵戰拉胯!陳方的固執坑慘天津女排,本土名宿才是救命稻草

      畫夕
      2026-01-28 04:00:46
      何慶魁:我一個人支撐本山傳媒好幾年!網友:黑土,有人喊你打錢

      何慶魁:我一個人支撐本山傳媒好幾年!網友:黑土,有人喊你打錢

      手工制作阿殲
      2026-01-28 03:17:23
      為什么全國人民都在拒接電話?連10086打來也是瞄一眼就掛掉了!

      為什么全國人民都在拒接電話?連10086打來也是瞄一眼就掛掉了!

      今朝牛馬
      2026-01-08 16:05:10
      車門緊鎖拍窗毫無反應,上海一司機疑似車內昏迷,民警當機立斷破窗救人,送醫及時最終脫離危險

      車門緊鎖拍窗毫無反應,上海一司機疑似車內昏迷,民警當機立斷破窗救人,送醫及時最終脫離危險

      縱相新聞
      2026-01-27 20:13:03
      如果不及時快速的解決臺灣,有可能出現無法挽回的局面

      如果不及時快速的解決臺灣,有可能出現無法挽回的局面

      曉楖科普
      2026-01-26 22:34:40
      賈家被抄家的真實原因,就是賈元春省親,可惜他們沒懂皇帝的用意

      賈家被抄家的真實原因,就是賈元春省親,可惜他們沒懂皇帝的用意

      銘記歷史呀
      2026-01-26 19:39:13
      76歲上海知青回江西訪友,竟發現當年的女友終生未嫁:我對不住你

      76歲上海知青回江西訪友,竟發現當年的女友終生未嫁:我對不住你

      五元講堂
      2026-01-19 11:13:16
      山東一66歲大媽喜歡睡前泡腳,不久腦梗去世,醫生怒斥:太無知了

      山東一66歲大媽喜歡睡前泡腳,不久腦梗去世,醫生怒斥:太無知了

      華庭講美食
      2026-01-25 12:26:25
      2026-01-28 06:19:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1182文章數 18關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      美報告稱中國是其19世紀以來面對過的最強大國家

      頭條要聞

      美報告稱中國是其19世紀以來面對過的最強大國家

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      教育
      家居
      數碼
      親子
      手機

      教育要聞

      對話陳妤頡:閃閃發光的賽道,追逐夢想

      家居要聞

      現代古典 中性又顯韻味

      數碼要聞

      這事你怎么看 索尼與TCL簽署意向備忘錄 網友:Sony變Tony了

      親子要聞

      雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨立帶娃嗎?

      手機要聞

      蘋果連發4版系統:從iPhone 5s到iOS 26,果粉福音來了!

      無障礙瀏覽 進入關懷版