<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      多模態(tài)原來(lái)這么有趣?看完我簡(jiǎn)直醍醐灌頂!

      0
      分享至

      哈嘍,我是章北海

      最近很多朋友在社群和私信里提到,對(duì)多模態(tài)融合的概念、方法和實(shí)際應(yīng)用總是摸不透,尤其是在不同融合策略的選擇和代碼實(shí)現(xiàn)上有不少疑問(wèn)。所以今天咱們就把多模態(tài)融合的核心知識(shí)、主流方法和典型案例梳理清楚,幫大家徹底搞懂這個(gè)熱門(mén)方向!

      大家都知道,多模態(tài)數(shù)據(jù)(如圖像、文本、語(yǔ)音)在現(xiàn)實(shí)場(chǎng)景中無(wú)處不在,但單一模態(tài)數(shù)據(jù)往往存在信息局限 —— 比如圖片缺語(yǔ)義、文本缺視覺(jué)細(xì)節(jié)、語(yǔ)音缺場(chǎng)景上下文。而多模態(tài)融合能整合不同模態(tài)的冗余信息(增強(qiáng)可靠性)和互補(bǔ)信息(填補(bǔ)信息缺口),讓模型更全面地理解數(shù)據(jù),這也是當(dāng)前 AI 從 “單模態(tài)感知” 走向 “多模態(tài)認(rèn)知” 的關(guān)鍵一步。

      今天和大家分享的多模態(tài)融合核心內(nèi)容包括:

      • 多模態(tài)學(xué)習(xí)的核心任務(wù)

      • 多模態(tài)融合的基礎(chǔ)分類(lèi)

      • 主流多模態(tài)融合方法(含原理、公式、優(yōu)缺點(diǎn))

      • 典型應(yīng)用案例與代碼示例

      老規(guī)矩:如果大家伙覺(jué)得近期文章還不錯(cuò)!歡迎大家點(diǎn)個(gè)贊、轉(zhuǎn)個(gè)發(fā),在介紹之前想將自己整理的最新多模態(tài)論文代碼合集分享給大家,都是多模態(tài)與各領(lǐng)域前沿的結(jié)合論文,像是多模態(tài)醫(yī)學(xué)圖像、多模態(tài)特征融合、多模態(tài)大模型、多模態(tài)情感識(shí)別等等,希望能更好的幫大家掌握多模態(tài),挖掘出自己的創(chuàng)新點(diǎn)!



      掃碼添加小助理,回復(fù)“多模態(tài)

      免費(fèi)獲取全部論文+開(kāi)源代碼

      1.多模態(tài)學(xué)習(xí)的核心任務(wù)

      在講融合之前,得先明確多模態(tài)學(xué)習(xí)要解決的核心問(wèn)題。本質(zhì)上,多模態(tài)學(xué)習(xí)是讓模型處理 “跨模態(tài)信息交互”,主要包含 5 大任務(wù),這些任務(wù)也是融合方法的應(yīng)用場(chǎng)景基礎(chǔ):

      1. 表征(Representation):將多模態(tài)數(shù)據(jù)映射到統(tǒng)一 / 關(guān)聯(lián)的特征空間,便于后續(xù)處理。典型的場(chǎng)景有:文本 - 圖像語(yǔ)義對(duì)齊、跨模態(tài)檢索。

      2. 翻譯(Translation):將一種模態(tài)的信息轉(zhuǎn)換為另一種模態(tài)(如文本轉(zhuǎn)圖像、語(yǔ)音轉(zhuǎn)文字)。典型的場(chǎng)景有:圖像描述生成、語(yǔ)音識(shí)別。

      3. 對(duì)齊(Alignment):找到不同模態(tài) “子成分” 的對(duì)應(yīng)關(guān)系(如文本中的 “貓” 對(duì)應(yīng)圖像中的貓區(qū)域)。典型的場(chǎng)景有:視頻字幕對(duì)齊、跨模態(tài)注意力。

      4. 融合(Fusion):整合多模態(tài)特征,生成更全面的聯(lián)合表示,用于下游任務(wù)(分類(lèi)、預(yù)測(cè)等)。典型的場(chǎng)景有:情感分析、點(diǎn)擊率預(yù)估。

      5. 聯(lián)合學(xué)習(xí)(Co-learning):用數(shù)據(jù)豐富的模態(tài)(如圖像)輔助數(shù)據(jù)稀缺的模態(tài)(如文本),提升整體性能。典型的場(chǎng)景有:零樣本分類(lèi)、跨模態(tài)遷移學(xué)習(xí)

      其中,融合(Fusion) 是多模態(tài)學(xué)習(xí)的核心環(huán)節(jié) —— 所有跨模態(tài)任務(wù)最終都需要通過(guò) “融合” 整合信息,所以接下來(lái)重點(diǎn)拆解融合方法。

      2.多模態(tài)融合的基礎(chǔ)分類(lèi)

      按 “融合發(fā)生的階段”,多模態(tài)融合可分為三大類(lèi),不同階段對(duì)應(yīng)不同的適用場(chǎng)景和優(yōu)缺點(diǎn),這是選擇融合策略的第一步:

      早期融合(Early Fusion)

      • 原理:在 “特征提取階段” 就將多模態(tài)特征整合(如拼接、加權(quán)求和),再輸入模型進(jìn)行后續(xù)任務(wù)(如分類(lèi))。相當(dāng)于 “先融合,再建模”。

      • 核心操作:比如將圖像的 CNN 特征(如 ResNet 輸出)和文本的 Embedding(如 BERT 輸出)直接concat,再輸入全連接層。

      • 優(yōu)缺點(diǎn):

        • 優(yōu)點(diǎn):能盡早利用模態(tài)間的底層關(guān)聯(lián),信息損失少。

        • 缺點(diǎn):易受模態(tài)異質(zhì)性影響(如圖像特征維度高、文本特征維度低),且存在信息冗余,可能導(dǎo)致模型過(guò)擬合。

      • 適用場(chǎng)景:模態(tài)特征維度相近、底層關(guān)聯(lián)強(qiáng)的任務(wù)(如音頻 - 視頻語(yǔ)音識(shí)別)。

      晚期融合(Late Fusion)
      • 原理:先對(duì)每個(gè)模態(tài)單獨(dú)建模(如圖像用 CNN、文本用 RNN),得到各模態(tài)的 “任務(wù)結(jié)果”(如分類(lèi)概率),再對(duì)結(jié)果進(jìn)行融合(如投票、加權(quán)平均)。相當(dāng)于 “先建模,再融合”。

      • 核心操作:比如圖像分類(lèi)器輸出概率P_img、文本分類(lèi)器輸出概率P_txt,最終結(jié)果取(P_img + P_txt)/2

      • 優(yōu)缺點(diǎn):

        • 優(yōu)點(diǎn):各模態(tài)模型獨(dú)立訓(xùn)練,魯棒性強(qiáng),能避免模態(tài)異質(zhì)性帶來(lái)的干擾。

        • 缺點(diǎn):無(wú)法利用模態(tài)間的底層關(guān)聯(lián),信息整合不充分,可能錯(cuò)過(guò)關(guān)鍵交叉特征。

      • 適用場(chǎng)景:模態(tài)差異大、單獨(dú)建模效果好的任務(wù)(如跨模態(tài)檢索、多模態(tài)情感分析)。

      混合融合(Hybrid Fusion)
      • 原理:結(jié)合早期融合和晚期融合的優(yōu)勢(shì),在模型的多個(gè)階段進(jìn)行融合(如底層特征早期融合、中層特征注意力融合、頂層結(jié)果晚期融合)。

      • 核心操作:比如在 Transformer 模型中,底層對(duì)圖像 - 文本特征做shuffle融合,中層用跨模態(tài)注意力對(duì)齊,頂層對(duì)各模態(tài)預(yù)測(cè)結(jié)果做加權(quán)融合。

      • 優(yōu)缺點(diǎn):

        • 優(yōu)點(diǎn):靈活性高,能充分利用不同階段的模態(tài)信息,效果通常最優(yōu)。

        • 缺點(diǎn):模型結(jié)構(gòu)復(fù)雜,需要更多調(diào)參和計(jì)算資源。

      • 適用場(chǎng)景:復(fù)雜多模態(tài)任務(wù)(如視頻描述生成、多模態(tài)點(diǎn)擊率預(yù)估)

      3.主流多模態(tài)融合方法詳解

      接下來(lái)逐個(gè)拆解工業(yè)界和學(xué)術(shù)界常用的融合方法,每個(gè)方法都包含 “原理、核心公式、優(yōu)缺點(diǎn)、適用場(chǎng)景”,并附代碼示例或關(guān)鍵實(shí)現(xiàn)思路。

      ①?gòu)埩咳诤暇W(wǎng)絡(luò)(TFN:Tensor Fusion Network)
      原理

      TFN 是早期融合的經(jīng)典方法,通過(guò) “張量外積(Outer Product)” 計(jì)算多模態(tài)特征間的交叉關(guān)聯(lián),捕捉模態(tài)間的細(xì)粒度交互。比如對(duì)文本(X)、圖像(Y)、語(yǔ)音(Z)三種模態(tài),先給每個(gè)特征加一個(gè) “偏置項(xiàng) 1”,再做張量外積得到融合特征。

      核心公式

      假設(shè)三種模態(tài)的特征分別為

      、 、 ,融合過(guò)程為: 其中 表示張量外積,最終融合特征 的維度為 (需展平為向量后輸入后續(xù)層)。

      優(yōu)缺點(diǎn)

      • 優(yōu)點(diǎn):能捕捉模態(tài)間的高階交互,對(duì)細(xì)粒度關(guān)聯(lián)建模能力強(qiáng)。

      • 缺點(diǎn):特征維度爆炸(如 時(shí),融合后維度超 100 萬(wàn)),模型訓(xùn)練困難,易過(guò)擬合。

      適用場(chǎng)景

      模態(tài)數(shù)量少(2-3 種)、特征維度低的任務(wù)(如簡(jiǎn)單文本 - 圖像情感分析)。

      核心代碼示例(PyTorch)

      import torch import torch.nn as nn class TFN(nn.Module):     def __init__(self, d_x, d_y, d_z, out_dim):         super(TFN, self).__init__()         self.d_x, self.d_y, self.d_z = d_x, d_y, d_z         # 計(jì)算融合后特征維度(加1為偏置項(xiàng))         fusion_dim = (d_x + 1) * (d_y + 1) * (d_z + 1)         self.fc = nn.Linear(fusion_dim, out_dim)  # 展平后映射到輸出維度     def forward(self, x, y, z):         # 給每個(gè)特征加偏置項(xiàng)1(batch_size維度保持不變)         x_with_bias = torch.cat([x, torch.ones_like(x[:, :1])], dim=1)  # (bs, d_x+1)         y_with_bias = torch.cat([y, torch.ones_like(y[:, :1])], dim=1)  # (bs, d_y+1)         z_with_bias = torch.cat([z, torch.ones_like(z[:, :1])], dim=1)  # (bs, d_z+1)                  # 張量外積:先計(jì)算x與y的外積,再與z做外積         xy = torch.einsum('bi,bj->bij', x_with_bias, y_with_bias)  # (bs, d_x+1, d_y+1)         xyz = torch.einsum('bij,bk->bijk', xy, z_with_bias)        # (bs, d_x+1, d_y+1, d_z+1)                  # 展平為向量         xyz_flat = xyz.view(xyz.shape[0], -1)  # (bs, (d_x+1)(d_y+1)(d_z+1))         return self.fc(xyz_flat)  # 輸出融合結(jié)果 # 測(cè)試 if __name__ == "__main__":     bs = 32  # batch_size     d_x, d_y, d_z = 50, 64, 32  # 文本、圖像、語(yǔ)音特征維度     x = torch.randn(bs, d_x)     y = torch.randn(bs, d_y)     z = torch.randn(bs, d_z)          model = TFN(d_x, d_y, d_z, out_dim=10)  # 輸出維度10(如10分類(lèi))     out = model(x, y, z)     print("TFN輸出形狀:", out.shape)  # 應(yīng)輸出 (32, 10)
      ②低秩多模態(tài)融合(LMF:Low-rank Multimodal Fusion)原理

      LMF 是 TFN 的優(yōu)化版,解決 TFN 維度爆炸問(wèn)題。核心思路是 “低秩矩陣分解”:將原本高維的張量外積操作,拆解為 “各模態(tài)單獨(dú)線性變換 + 低秩交叉”,用低秩向量的和替代高維張量,減少參數(shù)數(shù)量。

      核心公式

      對(duì)三種模態(tài)特征 (音頻)、 (視覺(jué))、 (文本),LMF 融合過(guò)程為:

      1. 各模態(tài)單獨(dú)線性變換: 、 、 (f 為全連接層);

      2. 低秩交叉融合: ;其中 是 經(jīng)低秩分解后的第 k 個(gè)分量, 是元素積,K 是低秩維度(遠(yuǎn)小于原特征維度)。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):解決了 TFN 的維度爆炸問(wèn)題,參數(shù)更少,訓(xùn)練更穩(wěn)定,同時(shí)保留模態(tài)間的交叉關(guān)聯(lián)。

      • 缺點(diǎn):當(dāng)模態(tài)特征維度過(guò)大時(shí)(如視覺(jué)特征維度 1024),仍可能出現(xiàn)參數(shù)冗余;低秩維度 K 的選擇依賴(lài)經(jīng)驗(yàn)。

      適用場(chǎng)景

      中高維度多模態(tài)特征融合(如基于 ResNet 視覺(jué)特征 + BERT 文本特征的分類(lèi)任務(wù))。

      核心代碼示例(PyTorch)

      # 核心思路:拆解為“模態(tài)線性變換 + 低秩交叉” class LMF(nn.Module):     def __init__(self, d_a, d_v, d_l, K, out_dim):         super(LMF, self).__init__()         self.K = K  # 低秩維度         # 各模態(tài)線性變換(映射到K個(gè)低秩分量)         self.fc_a = nn.Linear(d_a, K)         self.fc_v = nn.Linear(d_v, K)         self.fc_l = nn.Linear(d_l, K)         # 最終輸出層         self.fc_out = nn.Linear(K, out_dim)     def forward(self, x_a, x_v, x_l):         # 各模態(tài)映射到低秩空間         z_a = self.fc_a(x_a).unsqueeze(-1)  # (bs, K, 1)         z_v = self.fc_v(x_v).unsqueeze(-1)  # (bs, K, 1)         z_l = self.fc_l(x_l).unsqueeze(-1)  # (bs, K, 1)         # 低秩交叉:元素積求和(K個(gè)分量分別交叉后相加)         fusion = (z_a * z_v * z_l).sum(dim=-1)  # (bs, K)         return self.fc_out(fusion)  # (bs, out_dim)
      ③ 記憶融合網(wǎng)絡(luò)(MFN:Memory Fusion Network)原理

      MFN 是基于注意力和記憶機(jī)制的融合方法,專(zhuān)門(mén)處理 “時(shí)序多模態(tài)數(shù)據(jù)”(如視頻 + 語(yǔ)音 + 文本的時(shí)序序列)。核心是用 “門(mén)控記憶單元” 保存歷史模態(tài)交互信息,用 “Delta 注意力” 捕捉當(dāng)前模態(tài)與歷史的差異,實(shí)現(xiàn)動(dòng)態(tài)融合。

      核心結(jié)構(gòu)

      1. 多視圖門(mén)控記憶(Multi-View Gated Memory):保存上一時(shí)刻的多模態(tài)融合狀態(tài),通過(guò)門(mén)控(Gating)控制歷史信息的保留比例;

      2. Delta 注意力(Delta-memory Attention):計(jì)算當(dāng)前模態(tài)特征與歷史記憶的差異,給重要差異賦予高權(quán)重;

      3. LSTM 時(shí)序編碼:對(duì)時(shí)序化的融合特征進(jìn)行編碼,捕捉時(shí)間維度上的模態(tài)交互。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):能處理時(shí)序多模態(tài)數(shù)據(jù),動(dòng)態(tài)捕捉模態(tài)間的時(shí)序關(guān)聯(lián);注意力機(jī)制提升關(guān)鍵信息的權(quán)重。

      • 缺點(diǎn):模型結(jié)構(gòu)復(fù)雜,訓(xùn)練成本高;對(duì)短時(shí)序數(shù)據(jù)可能存在過(guò)擬合。

      適用場(chǎng)景

      時(shí)序多模態(tài)任務(wù)(如視頻情感分析、多模態(tài)對(duì)話系統(tǒng))

      ④模態(tài)注意力融合(Modal Attention)
      原理

      模態(tài)注意力是最常用的自適應(yīng)融合方法:通過(guò)注意力機(jī)制學(xué)習(xí) “不同模態(tài)的重要性權(quán)重”,再按權(quán)重對(duì)多模態(tài)特征進(jìn)行加權(quán)融合。比如在淘寶視頻推薦中,模型會(huì)自動(dòng)判斷 “圖像、文本、音頻” 哪個(gè)對(duì) “商品分類(lèi)” 更重要,給重要模態(tài)更高權(quán)重。

      核心公式

      假設(shè)多模態(tài)特征為 (M 為模態(tài)數(shù)),融合過(guò)程為:

      1. 計(jì)算注意力權(quán)重: ( 為注意力參數(shù));

      2. 加權(quán)融合: 。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):自適應(yīng)調(diào)整模態(tài)權(quán)重,對(duì)不同任務(wù)的適配性強(qiáng);實(shí)現(xiàn)簡(jiǎn)單,易嵌入現(xiàn)有模型。

      • 缺點(diǎn):當(dāng)模態(tài)特征差異過(guò)大時(shí),注意力權(quán)重可能偏向某一模態(tài)(如文本模態(tài)占主導(dǎo)),忽略其他模態(tài)的互補(bǔ)信息。

      適用場(chǎng)景

      多模態(tài)分類(lèi)、推薦系統(tǒng)、點(diǎn)擊率預(yù)估(如淘寶商品分類(lèi)、廣告 CTR 預(yù)測(cè))。

      核心代碼示例(PyTorch)

      # 淘寶視頻多模態(tài)分類(lèi):圖像(ResNet) + 文本(BERT) + 音頻(VGGish) + 模態(tài)注意力 class ModalAttentionFusion(nn.Module):     def __init__(self, d_img, d_txt, d_audio, num_classes):         super(ModalAttentionFusion, self).__init__()         # 各模態(tài)特征降維(統(tǒng)一到同一維度)         self.fc_img = nn.Linear(d_img, 256)         self.fc_txt = nn.Linear(d_txt, 256)         self.fc_audio = nn.Linear(d_audio, 256)         # 模態(tài)注意力層         self.attention = nn.Sequential(             nn.Linear(256, 128),             nn.ReLU(),             nn.Linear(128, 1)         )         # 最終分類(lèi)層(淘寶用HMC分層分類(lèi),這里簡(jiǎn)化為單分類(lèi))         self.fc_out = nn.Linear(256, num_classes)     def forward(self, img_feat, txt_feat, audio_feat):         # 各模態(tài)特征降維         img = self.fc_img(img_feat)  # (bs, 256)         txt = self.fc_txt(txt_feat)  # (bs, 256)         audio = self.fc_audio(audio_feat)  # (bs, 256)                  # 計(jì)算各模態(tài)注意力權(quán)重         alpha_img = self.attention(img)  # (bs, 1)         alpha_txt = self.attention(txt)  # (bs, 1)         alpha_audio = self.attention(audio)  # (bs, 1)         # softmax歸一化權(quán)重         alphas = torch.softmax(torch.cat([alpha_img, alpha_txt, alpha_audio], dim=1), dim=1)  # (bs, 3)                  # 加權(quán)融合         fusion_feat = img * alphas[:, 0:1] + txt * alphas[:, 1:2] + audio * alphas[:, 2:3]  # (bs, 256)         # 分類(lèi)輸出         return self.fc_out(fusion_feat)  # (bs, num_classes)
      ⑤對(duì)抗多模態(tài)融合(Adversarial Multimodal Fusion)原理

      對(duì)抗融合是阿里在 WWW 2020 提出的方法,核心是用 “雙判別器” 分離多模態(tài)的 “共性特征”(各模態(tài)共有的信息,如商品的 “類(lèi)別屬性”)和 “個(gè)性特征”(某模態(tài)獨(dú)有的信息,如圖像的 “顏色細(xì)節(jié)”),再融合兩類(lèi)特征用于下游任務(wù)(如點(diǎn)擊率預(yù)估)。

      核心結(jié)構(gòu)

      1. 多模態(tài)注意力融合(MAF):基礎(chǔ)融合模塊,得到初步融合特征;

      2. 雙判別器(DDMA):

      • 模態(tài)判別器(D1):區(qū)分特征來(lái)自哪個(gè)模態(tài),迫使模型學(xué)習(xí) “模態(tài)不變的共性特征”;

      • 重要性判別器(D2):判斷特征的重要性,優(yōu)化模態(tài)權(quán)重分配;

      1. 對(duì)抗訓(xùn)練:通過(guò)生成器(融合模塊)與判別器的對(duì)抗,提升融合特征的魯棒性。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):能有效分離共性與個(gè)性特征,避免模態(tài)冗余;對(duì)抗訓(xùn)練提升模型泛化能力。

      • 缺點(diǎn):對(duì)抗訓(xùn)練不穩(wěn)定,需精細(xì)調(diào)參;模型復(fù)雜度高,適合大數(shù)據(jù)場(chǎng)景。

      適用場(chǎng)景

      多模態(tài)點(diǎn)擊率預(yù)估、推薦系統(tǒng)(如阿里電商廣告 CTR 預(yù)測(cè))。

      ⑥多項(xiàng)式張量池化(PTP:Polynomial Tensor Pooling)
      原理

      PTP 是針對(duì)傳統(tǒng)雙線性 / 三線性池化 “融合能力有限、無(wú)法捕捉復(fù)雜局部交互” 問(wèn)題提出的高階融合方法,核心是通過(guò) “多項(xiàng)式張量運(yùn)算” 集成多模態(tài)特征的高階矩(如二階、三階統(tǒng)計(jì)信息),同時(shí)引入低秩分解減少參數(shù)規(guī)模。相比 TFN 僅關(guān)注模態(tài)間的直接交叉,PTP 能捕捉更復(fù)雜的局部相互關(guān)系,比如文本中的 “情感詞” 與圖像中的 “表情區(qū)域”+“色彩飽和度” 的三階交互。

      核心公式

      假設(shè)兩種模態(tài)特征為 、 ,PTP(以 5 階為例)融合過(guò)程為:

      1. 特征拼接:將兩種模態(tài)特征拼接為統(tǒng)一向量 ;

      2. 多項(xiàng)式張量生成:計(jì)算 X 的 5 階張量表示 (此處為簡(jiǎn)化表達(dá),實(shí)際通過(guò)高階矩展開(kāi)實(shí)現(xiàn));

      3. 低秩分解:通過(guò)低秩張量網(wǎng)絡(luò)對(duì) 進(jìn)行分解,得到低維融合特征 (K 為低秩維度,遠(yuǎn)小于原始張量維度)。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):能捕捉多模態(tài)特征的高階交互,融合表現(xiàn)力更強(qiáng);低秩分解有效控制參數(shù)規(guī)模,避免維度爆炸;

      • 缺點(diǎn):高階張量運(yùn)算的理論理解和工程實(shí)現(xiàn)難度較高;對(duì)數(shù)據(jù)量要求大,小樣本場(chǎng)景下易過(guò)擬合。

      適用場(chǎng)景

      需要精細(xì)捕捉多模態(tài)復(fù)雜交互的任務(wù),如細(xì)粒度圖像 - 文本匹配(如 “紅色帶花紋的連衣裙” 與對(duì)應(yīng)商品圖匹配)、多模態(tài)細(xì)分類(lèi)別識(shí)別(如區(qū)分 “憤怒的貓” 和 “開(kāi)心的貓”)。

      核心代碼示例(PyTorch)

      import torch import torch.nn as nn import torch.nn.functional as F class PTPBlock(nn.Module):     def __init__(self, in_dim, poly_order=3, low_rank_dim=128):         super(PTPBlock, self).__init__()         self.poly_order = poly_order  # 多項(xiàng)式階數(shù)(如3階)         self.in_dim = in_dim         # 多項(xiàng)式特征生成:通過(guò)線性層模擬高階矩展開(kāi)         self.poly_proj = nn.Linear(in_dim, in_dim * poly_order)         # 低秩分解層:將高階特征映射到低維空間         self.low_rank_proj = nn.Linear(in_dim * poly_order, low_rank_dim)         self.norm = nn.BatchNorm1d(low_rank_dim)  #  BatchNorm穩(wěn)定訓(xùn)練     def forward(self, z1, z2):         # 1. 拼接多模態(tài)特征         concat_feat = torch.cat([z1, z2], dim=1)  # (bs, in_dim1 + in_dim2)         # 2. 生成多項(xiàng)式特征(模擬高階矩)         poly_feat = self.poly_proj(concat_feat)  # (bs, (d1+d2)*poly_order)         poly_feat = F.relu(poly_feat)  # 非線性激活增強(qiáng)表達(dá)         # 3. 低秩分解得到融合特征         fusion_feat = self.low_rank_proj(poly_feat)  # (bs, low_rank_dim)         fusion_feat = self.norm(fusion_feat)  # 歸一化         return fusion_feat # 測(cè)試 if __name__ == "__main__":     bs = 32  # batch_size     d1, d2 = 64, 128  # 兩種模態(tài)特征維度(如圖像、文本)     z1 = torch.randn(bs, d1)     z2 = torch.randn(bs, d2)          ptp = PTPBlock(in_dim=d1+d2, poly_order=3, low_rank_dim=128)     fusion_feat = ptp(z1, z2)     print("PTP融合特征形狀:", fusion_feat.shape)  # 輸出 (32, 128)
      ⑦多模態(tài)循環(huán)融合(MCF:Multi-modal Circulant Fusion)原理

      MCF 突破傳統(tǒng) “僅基于向量融合” 的思路,同時(shí)利用 “向量” 和 “循環(huán)矩陣(Circulant Matrix)” 進(jìn)行融合,核心是通過(guò) “循環(huán)矩陣變換” 探索多模態(tài)向量的所有可能交互。具體來(lái)說(shuō),將每種模態(tài)的向量轉(zhuǎn)換為循環(huán)矩陣(每行是原向量的循環(huán)移位),再通過(guò)矩陣與向量的交互運(yùn)算,捕捉模態(tài)間的全局關(guān)聯(lián),尤其適合視頻 - 文本這類(lèi)需全局時(shí)序匹配的任務(wù)。

      核心公式

      假設(shè)視覺(jué)特征向量 、文本特征向量 ,MCF 融合過(guò)程為:

      1. 循環(huán)矩陣生成:將向量轉(zhuǎn)換為循環(huán)矩陣 、 ,其中 A 的第 i 行是 ;

      2. 模態(tài)交互運(yùn)算:計(jì)算矩陣與另一模態(tài)向量的加權(quán)交互 (視覺(jué)矩陣與文本向量交互), (文本矩陣與視覺(jué)向量交互);

      3. 特征融合:將 G、F 與原向量 V、C 拼接,得到最終融合特征 。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):通過(guò)循環(huán)矩陣捕捉模態(tài)間的全局交互,避免局部信息遺漏;無(wú)需復(fù)雜注意力機(jī)制,計(jì)算效率較高;

      • 缺點(diǎn):循環(huán)矩陣變換依賴(lài)向量維度一致性(需先對(duì)齊模態(tài)特征維度);對(duì)短向量特征的交互捕捉效果有限。

      適用場(chǎng)景

      視頻 - 文本融合任務(wù)(如視頻描述生成、視頻文本檢索)、長(zhǎng)序列多模態(tài)匹配(如多段文本與多幀圖像的關(guān)聯(lián))。

      ⑧共享 - 私有特征融合(Shared-Private Fusion)
      原理

      該方法針對(duì) “多模態(tài)特征中既有共性信息(各模態(tài)共通,如‘貓’的語(yǔ)義),又有私有信息(某模態(tài)獨(dú)有,如圖像中‘貓的毛色’、文本中‘貓的品種’)” 的特點(diǎn),通過(guò)分離并融合 “共享特征” 和 “私有特征”,避免共性信息冗余、私有信息丟失。典型代表包括 ACL 2020 的 FP-Net 和 ACL 2021 的 Text-Centered 框架,核心是通過(guò) “正交投影” 或 “掩碼矩陣” 實(shí)現(xiàn)兩類(lèi)特征的分離。

      核心公式(以 FP-Net 為例)

      假設(shè)文本初始特征 ,目標(biāo)分離共享特征 和私有特征 :

      1. 共享特征提取:通過(guò)正交投影將 投影到共享特征空間,得到凈化的共享特征 ;

      2. 私有特征提取:將 投影到與共享特征正交的空間,得到私有特征 ;

      3. 融合:將共享特征 與各模態(tài)私有特征 (文本)、 (圖像)拼接,得到 。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):精準(zhǔn)分離共性與私有信息,充分利用模態(tài)互補(bǔ)性;對(duì)模態(tài)異質(zhì)性的容忍度高,適合多模態(tài)協(xié)同任務(wù);

      • 缺點(diǎn):特征分離依賴(lài)高質(zhì)量的共享特征初始化(如預(yù)訓(xùn)練模型提取的通用特征);正交投影計(jì)算需保證數(shù)值穩(wěn)定性。

      適用場(chǎng)景

      多模態(tài)情感分析(文本表達(dá)情感傾向,圖像 / 語(yǔ)音補(bǔ)充情感強(qiáng)度)、跨模態(tài)遷移學(xué)習(xí)(用圖像的共享語(yǔ)義輔助文本分類(lèi))、行人重識(shí)別(RGB 與紅外圖像的共性輪廓 + 私有紋理融合)。

      核心代碼示例(PyTorch)

      class FPNetSharedPrivate(nn.Module):     def __init__(self, text_dim, img_dim, shared_dim=256):         super(FPNetSharedPrivate, self).__init__()         # 共享特征提取器(文本和圖像共享)         self.shared_proj = nn.Linear(max(text_dim, img_dim), shared_dim)         # 文本私有特征投影層         self.text_private_proj = nn.Linear(text_dim, text_dim)         # 圖像私有特征投影層         self.img_private_proj = nn.Linear(img_dim, img_dim)         # 最終融合輸出層         self.fusion_out = nn.Linear(shared_dim + text_dim + img_dim, 10)  # 10分類(lèi)示例     def orthogonal_proj(self, x, target):         # 正交投影:將x投影到target所在空間         target_norm = torch.norm(target, dim=1, keepdim=True) + 1e-8  # 避免除零         proj_coeff = (x @ target.T) / (target_norm ** 2)  # (bs, bs)         proj = proj_coeff @ target  # (bs, shared_dim)         return proj     def forward(self, text_feat, img_feat):         # 1. 提取共享特征(統(tǒng)一模態(tài)維度后投影)         max_dim = max(text_feat.shape[1], img_feat.shape[1])         text_pad = F.pad(text_feat, (0, max_dim - text_feat.shape[1]))  # 對(duì)齊維度         img_pad = F.pad(img_feat, (0, max_dim - img_feat.shape[1]))         shared_feat = self.shared_proj(torch.cat([text_pad, img_pad], dim=0)).mean(dim=0, keepdim=True)         shared_feat = shared_feat.expand(text_feat.shape[0], -1)  # (bs, shared_dim)                  # 2. 提取文本私有特征         text_shared_proj = self.orthogonal_proj(text_feat, shared_feat)  # 文本的共享部分         text_private = self.text_private_proj(text_feat - text_shared_proj)  # 私有部分                  # 3. 提取圖像私有特征         img_shared_proj = self.orthogonal_proj(img_feat, shared_feat)  # 圖像的共享部分         img_private = self.img_private_proj(img_feat - img_shared_proj)  # 私有部分                  # 4. 融合共享與私有特征         fusion_feat = torch.cat([shared_feat, text_private, img_private], dim=1)  # (bs, shared_dim + text_dim + img_dim)         return self.fusion_out(fusion_feat)  # (bs, 10) # 測(cè)試 if __name__ == "__main__":     bs = 32     text_dim, img_dim = 128, 256     text_feat = torch.randn(bs, text_dim)     img_feat = torch.randn(bs, img_dim)          fp_net = FPNetSharedPrivate(text_dim, img_dim, shared_dim=256)     out = fp_net(text_feat, img_feat)     print("FP-Net輸出形狀:", out.shape)  # 輸出 (32, 10)
      ⑨注意力瓶頸融合(Attention Bottleneck Fusion)原理

      針對(duì)傳統(tǒng) Transformer 跨模態(tài)融合 “計(jì)算量過(guò)大” 的問(wèn)題,注意力瓶頸融合通過(guò)引入 “共享令牌(Shared Token)” 作為模態(tài)交互的 “瓶頸”,限制注意力流僅在共享令牌處進(jìn)行跨模態(tài)交互,而非所有 token 間的全量交互。這種設(shè)計(jì)在保證融合效果的同時(shí),大幅降低計(jì)算復(fù)雜度,尤其適合高分辨率圖像、長(zhǎng)文本這類(lèi)大尺度多模態(tài)數(shù)據(jù)。

      核心結(jié)構(gòu)

      1. 模態(tài)獨(dú)立編碼:文本用 Transformer Encoder 編碼為文本令牌(Text Token),圖像用 ViT 編碼為視覺(jué)令牌(Vision Token);

      2. 共享令牌插入:在兩類(lèi)令牌中插入 1-2 個(gè)共享令牌(如[SHARED]);

      3. 瓶頸注意力交互:僅允許共享令牌與所有文本 / 視覺(jué)令牌進(jìn)行注意力計(jì)算,文本與視覺(jué)令牌之間不直接交互;

      4. 融合特征生成:提取共享令牌的特征,與各模態(tài)的全局池化特征拼接,得到最終融合結(jié)果。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):計(jì)算復(fù)雜度低(O ((N+M+K)^2 ) 降至 O ( (N+M) K + K^2 ),N/M 為模態(tài)令牌數(shù),K 為共享令牌數(shù));共享令牌能有效聚合跨模態(tài)信息,融合效果接近全注意力;

      • 缺點(diǎn):共享令牌數(shù)量需手動(dòng)調(diào)整(過(guò)多易冗余,過(guò)少易丟失信息);對(duì)模態(tài)令牌的初始化質(zhì)量敏感。

      適用場(chǎng)景

      大尺度多模態(tài)任務(wù)(如高分辨率圖像 - 長(zhǎng)文本匹配、多模態(tài)文檔理解)、資源受限場(chǎng)景(如移動(dòng)端多模態(tài)分類(lèi))。

      4.多模態(tài)融合的學(xué)習(xí)資源推薦

      最后,給大家推薦一些學(xué)習(xí)資源,幫助進(jìn)一步深入:

      1. 必讀論文:

      • 綜述:《Multimodal Machine Learning: A Survey and Taxonomy》(多模態(tài)學(xué)習(xí)入門(mén)必讀);

      • 方法論文:TFN(ICMI 2017)、LMF(ACL 2018)、MFN(AAAI 2018)、Adversarial Multimodal Fusion(WWW 2020);

      1. 代碼倉(cāng)庫(kù):

      • 多模態(tài)工具庫(kù):PyTorch-Multimodal(Facebook 開(kāi)源,含多種融合方法);

      • 實(shí)戰(zhàn)項(xiàng)目:FP-Net(ACL 2020,特征投影融合)、MFAS(CVPR 2019,神經(jīng)架構(gòu)搜索融合);

      1. 論文合集: 我自己整理的最新多模態(tài)論文代碼合集


      掃碼添加小助理,回復(fù)“多模態(tài)

      免費(fèi)獲取全部論文+開(kāi)源代碼

      最后的最后

      大家有問(wèn)題可以直接在評(píng)論區(qū)留言即可~ 喜歡本文的朋友可以收藏、點(diǎn)贊、轉(zhuǎn)發(fā)起來(lái)!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      中國(guó)批準(zhǔn)稀土出口,日媒歡呼:對(duì)華反制措施見(jiàn)效,下一秒遭打臉

      中國(guó)批準(zhǔn)稀土出口,日媒歡呼:對(duì)華反制措施見(jiàn)效,下一秒遭打臉

      書(shū)紀(jì)文譚
      2026-02-10 18:32:15
      上海洗浴中心成新頂流,俄羅斯美女博主被圈粉,還有海外游客專(zhuān)門(mén)飛來(lái)打卡

      上海洗浴中心成新頂流,俄羅斯美女博主被圈粉,還有海外游客專(zhuān)門(mén)飛來(lái)打卡

      界面新聞
      2026-02-11 18:31:08
      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開(kāi)眼

      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開(kāi)眼

      喜歡歷史的阿繁
      2026-02-07 14:21:17
      退伍回村救了個(gè)落水女人,2天后縣長(zhǎng)突然來(lái)電:明天來(lái)我辦公室

      退伍回村救了個(gè)落水女人,2天后縣長(zhǎng)突然來(lái)電:明天來(lái)我辦公室

      秋風(fēng)專(zhuān)欄
      2025-08-13 15:54:55
      頭部朝下落地!中國(guó)33歲冬奧老將出意外:被抬出雪場(chǎng) 目前意識(shí)清醒

      頭部朝下落地!中國(guó)33歲冬奧老將出意外:被抬出雪場(chǎng) 目前意識(shí)清醒

      風(fēng)過(guò)鄉(xiāng)
      2026-02-11 20:52:27
      女子8年拒絕8次男友求婚,男友無(wú)奈另娶她人,女友:憑什么?

      女子8年拒絕8次男友求婚,男友無(wú)奈另娶她人,女友:憑什么?

      小蔣愛(ài)嘮嗑
      2026-02-11 05:33:41
      特朗普下達(dá)最后通牒,要求臺(tái)當(dāng)局立即付款,否則將取消對(duì)臺(tái)軍售

      特朗普下達(dá)最后通牒,要求臺(tái)當(dāng)局立即付款,否則將取消對(duì)臺(tái)軍售

      東極妙嚴(yán)
      2026-02-11 12:54:31
      亞馬爾連續(xù)5場(chǎng)破門(mén)+西甲24球,打破梅西和姆巴佩兩項(xiàng)紀(jì)錄

      亞馬爾連續(xù)5場(chǎng)破門(mén)+西甲24球,打破梅西和姆巴佩兩項(xiàng)紀(jì)錄

      晚霧空青
      2026-02-11 08:41:59
      從一晚三千到無(wú)人接盤(pán),五星級(jí)酒店集體被甩賣(mài),這場(chǎng)泡沫該誰(shuí)買(mǎi)單

      從一晚三千到無(wú)人接盤(pán),五星級(jí)酒店集體被甩賣(mài),這場(chǎng)泡沫該誰(shuí)買(mǎi)單

      青眼財(cái)經(jīng)
      2026-01-19 23:37:28
      萬(wàn)斯:伊朗人民想推翻政權(quán),那得靠他們自己

      萬(wàn)斯:伊朗人民想推翻政權(quán),那得靠他們自己

      桂系007
      2026-02-11 23:38:09
      笑麻了!以為兩人相伴了一輩子,其實(shí)厭煩了幾十年!

      笑麻了!以為兩人相伴了一輩子,其實(shí)厭煩了幾十年!

      墻頭草
      2026-02-09 16:37:03
      生圖能打!孟子義青島逛街被偶遇,路人驚呼:白到發(fā)光比精修還美

      生圖能打!孟子義青島逛街被偶遇,路人驚呼:白到發(fā)光比精修還美

      心靈得以滋養(yǎng)
      2026-02-11 21:50:42
      女演員千萬(wàn)別整容!看《夜色正濃》里40歲江疏影和36歲藍(lán)盈瑩

      女演員千萬(wàn)別整容!看《夜色正濃》里40歲江疏影和36歲藍(lán)盈瑩

      章眽八卦
      2026-02-11 12:40:57
      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      就一點(diǎn)
      2025-11-22 10:36:39
      我去!塔圖姆被下放了!!

      我去!塔圖姆被下放了!!

      柚子說(shuō)球
      2026-02-11 17:20:08
      利物浦遭重創(chuàng)!后場(chǎng)萬(wàn)金油被擔(dān)架抬下 面臨長(zhǎng)期傷停

      利物浦遭重創(chuàng)!后場(chǎng)萬(wàn)金油被擔(dān)架抬下 面臨長(zhǎng)期傷停

      球事百科吖
      2026-02-12 07:23:26
      3人共禁賽13場(chǎng)!這大概是年度最兇沖突了!

      3人共禁賽13場(chǎng)!這大概是年度最兇沖突了!

      柚子說(shuō)球
      2026-02-12 07:52:13
      這跟不穿有什么區(qū)別?王楚然裙子太短露膚度極高,胡意旋身材曼妙

      這跟不穿有什么區(qū)別?王楚然裙子太短露膚度極高,胡意旋身材曼妙

      樂(lè)悠悠娛樂(lè)
      2026-02-10 12:44:32
      比賭博還狠的“隱形毒藥”,正慢慢掏空中國(guó)家庭,無(wú)數(shù)人被它拖垮

      比賭博還狠的“隱形毒藥”,正慢慢掏空中國(guó)家庭,無(wú)數(shù)人被它拖垮

      千秋文化
      2026-02-10 20:55:47
      梁朝偉過(guò)安檢可憐眼神向劉嘉玲求救前所未見(jiàn) 老婆搞笑反應(yīng)曝光

      梁朝偉過(guò)安檢可憐眼神向劉嘉玲求救前所未見(jiàn) 老婆搞笑反應(yīng)曝光

      達(dá)達(dá)哥
      2026-02-10 21:52:25
      2026-02-12 08:35:00
      機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
      機(jī)器學(xué)習(xí)與Python社區(qū)
      機(jī)器學(xué)習(xí)算法與Python
      3247文章數(shù) 11085關(guān)注度
      往期回顧 全部

      科技要聞

      Meta將斥資超100億美元建設(shè)數(shù)據(jù)中心

      頭條要聞

      環(huán)球:高市"豪賭"大勝 軍工業(yè)恐成日本經(jīng)濟(jì)"搖錢(qián)樹(shù)"

      頭條要聞

      環(huán)球:高市"豪賭"大勝 軍工業(yè)恐成日本經(jīng)濟(jì)"搖錢(qián)樹(shù)"

      體育要聞

      搞垮一個(gè)冬奧選手,只需要一首歌?

      娛樂(lè)要聞

      大孤山風(fēng)波愈演愈烈 超50位明星扎堆

      財(cái)經(jīng)要聞

      廣州前首富被判無(wú)期 200億集資窟窿何償

      汽車(chē)要聞

      比亞迪最美B級(jí)SUV? 宋Ultra這腰線美翻了

      態(tài)度原創(chuàng)

      藝術(shù)
      手機(jī)
      家居
      房產(chǎn)
      旅游

      藝術(shù)要聞

      這13個(gè)狂草字,您認(rèn)出幾個(gè)?楷書(shū)練習(xí)多久就可以練行書(shū)了?

      手機(jī)要聞

      消息稱(chēng)蘋(píng)果新版Siri開(kāi)發(fā)遇阻,新功能可能跳票至iOS 26.5和iOS 27

      家居要聞

      簡(jiǎn)雅閑居 靜享時(shí)光柔

      房產(chǎn)要聞

      999元開(kāi)線上免稅店?海南爆出免稅大騙局,多人已被抓!

      旅游要聞

      8萬(wàn)余株花卉等您來(lái)賞 石家莊市植物園新春花展啟幕

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版