<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      多模態(tài)原來(lái)這么有趣?看完我簡(jiǎn)直醍醐灌頂!

      0
      分享至

      哈嘍,我是章北海

      最近很多朋友在社群和私信里提到,對(duì)多模態(tài)融合的概念、方法和實(shí)際應(yīng)用總是摸不透,尤其是在不同融合策略的選擇和代碼實(shí)現(xiàn)上有不少疑問(wèn)。所以今天咱們就把多模態(tài)融合的核心知識(shí)、主流方法和典型案例梳理清楚,幫大家徹底搞懂這個(gè)熱門方向!

      大家都知道,多模態(tài)數(shù)據(jù)(如圖像、文本、語(yǔ)音)在現(xiàn)實(shí)場(chǎng)景中無(wú)處不在,但單一模態(tài)數(shù)據(jù)往往存在信息局限 —— 比如圖片缺語(yǔ)義、文本缺視覺(jué)細(xì)節(jié)、語(yǔ)音缺場(chǎng)景上下文。而多模態(tài)融合能整合不同模態(tài)的冗余信息(增強(qiáng)可靠性)和互補(bǔ)信息(填補(bǔ)信息缺口),讓模型更全面地理解數(shù)據(jù),這也是當(dāng)前 AI 從 “單模態(tài)感知” 走向 “多模態(tài)認(rèn)知” 的關(guān)鍵一步。

      今天和大家分享的多模態(tài)融合核心內(nèi)容包括:

      • 多模態(tài)學(xué)習(xí)的核心任務(wù)

      • 多模態(tài)融合的基礎(chǔ)分類

      • 主流多模態(tài)融合方法(含原理、公式、優(yōu)缺點(diǎn))

      • 典型應(yīng)用案例與代碼示例

      老規(guī)矩:如果大家伙覺(jué)得近期文章還不錯(cuò)!歡迎大家點(diǎn)個(gè)贊、轉(zhuǎn)個(gè)發(fā),在介紹之前想將自己整理的最新多模態(tài)論文代碼合集分享給大家,都是多模態(tài)與各領(lǐng)域前沿的結(jié)合論文,像是多模態(tài)醫(yī)學(xué)圖像、多模態(tài)特征融合、多模態(tài)大模型、多模態(tài)情感識(shí)別等等,希望能更好的幫大家掌握多模態(tài),挖掘出自己的創(chuàng)新點(diǎn)!



      掃碼添加小助理,回復(fù)“多模態(tài)

      免費(fèi)獲取全部論文+開(kāi)源代碼

      1.多模態(tài)學(xué)習(xí)的核心任務(wù)

      在講融合之前,得先明確多模態(tài)學(xué)習(xí)要解決的核心問(wèn)題。本質(zhì)上,多模態(tài)學(xué)習(xí)是讓模型處理 “跨模態(tài)信息交互”,主要包含 5 大任務(wù),這些任務(wù)也是融合方法的應(yīng)用場(chǎng)景基礎(chǔ):

      1. 表征(Representation):將多模態(tài)數(shù)據(jù)映射到統(tǒng)一 / 關(guān)聯(lián)的特征空間,便于后續(xù)處理。典型的場(chǎng)景有:文本 - 圖像語(yǔ)義對(duì)齊、跨模態(tài)檢索。

      2. 翻譯(Translation):將一種模態(tài)的信息轉(zhuǎn)換為另一種模態(tài)(如文本轉(zhuǎn)圖像、語(yǔ)音轉(zhuǎn)文字)。典型的場(chǎng)景有:圖像描述生成、語(yǔ)音識(shí)別。

      3. 對(duì)齊(Alignment):找到不同模態(tài) “子成分” 的對(duì)應(yīng)關(guān)系(如文本中的 “貓” 對(duì)應(yīng)圖像中的貓區(qū)域)。典型的場(chǎng)景有:視頻字幕對(duì)齊、跨模態(tài)注意力。

      4. 融合(Fusion):整合多模態(tài)特征,生成更全面的聯(lián)合表示,用于下游任務(wù)(分類、預(yù)測(cè)等)。典型的場(chǎng)景有:情感分析、點(diǎn)擊率預(yù)估。

      5. 聯(lián)合學(xué)習(xí)(Co-learning):用數(shù)據(jù)豐富的模態(tài)(如圖像)輔助數(shù)據(jù)稀缺的模態(tài)(如文本),提升整體性能。典型的場(chǎng)景有:零樣本分類、跨模態(tài)遷移學(xué)習(xí)

      其中,融合(Fusion) 是多模態(tài)學(xué)習(xí)的核心環(huán)節(jié) —— 所有跨模態(tài)任務(wù)最終都需要通過(guò) “融合” 整合信息,所以接下來(lái)重點(diǎn)拆解融合方法。

      2.多模態(tài)融合的基礎(chǔ)分類

      按 “融合發(fā)生的階段”,多模態(tài)融合可分為三大類,不同階段對(duì)應(yīng)不同的適用場(chǎng)景和優(yōu)缺點(diǎn),這是選擇融合策略的第一步:

      早期融合(Early Fusion)

      • 原理:在 “特征提取階段” 就將多模態(tài)特征整合(如拼接、加權(quán)求和),再輸入模型進(jìn)行后續(xù)任務(wù)(如分類)。相當(dāng)于 “先融合,再建模”。

      • 核心操作:比如將圖像的 CNN 特征(如 ResNet 輸出)和文本的 Embedding(如 BERT 輸出)直接concat,再輸入全連接層。

      • 優(yōu)缺點(diǎn):

        • 優(yōu)點(diǎn):能盡早利用模態(tài)間的底層關(guān)聯(lián),信息損失少。

        • 缺點(diǎn):易受模態(tài)異質(zhì)性影響(如圖像特征維度高、文本特征維度低),且存在信息冗余,可能導(dǎo)致模型過(guò)擬合。

      • 適用場(chǎng)景:模態(tài)特征維度相近、底層關(guān)聯(lián)強(qiáng)的任務(wù)(如音頻 - 視頻語(yǔ)音識(shí)別)。

      晚期融合(Late Fusion)
      • 原理:先對(duì)每個(gè)模態(tài)單獨(dú)建模(如圖像用 CNN、文本用 RNN),得到各模態(tài)的 “任務(wù)結(jié)果”(如分類概率),再對(duì)結(jié)果進(jìn)行融合(如投票、加權(quán)平均)。相當(dāng)于 “先建模,再融合”。

      • 核心操作:比如圖像分類器輸出概率P_img、文本分類器輸出概率P_txt,最終結(jié)果取(P_img + P_txt)/2

      • 優(yōu)缺點(diǎn):

        • 優(yōu)點(diǎn):各模態(tài)模型獨(dú)立訓(xùn)練,魯棒性強(qiáng),能避免模態(tài)異質(zhì)性帶來(lái)的干擾。

        • 缺點(diǎn):無(wú)法利用模態(tài)間的底層關(guān)聯(lián),信息整合不充分,可能錯(cuò)過(guò)關(guān)鍵交叉特征。

      • 適用場(chǎng)景:模態(tài)差異大、單獨(dú)建模效果好的任務(wù)(如跨模態(tài)檢索、多模態(tài)情感分析)。

      混合融合(Hybrid Fusion)
      • 原理:結(jié)合早期融合和晚期融合的優(yōu)勢(shì),在模型的多個(gè)階段進(jìn)行融合(如底層特征早期融合、中層特征注意力融合、頂層結(jié)果晚期融合)。

      • 核心操作:比如在 Transformer 模型中,底層對(duì)圖像 - 文本特征做shuffle融合,中層用跨模態(tài)注意力對(duì)齊,頂層對(duì)各模態(tài)預(yù)測(cè)結(jié)果做加權(quán)融合。

      • 優(yōu)缺點(diǎn):

        • 優(yōu)點(diǎn):靈活性高,能充分利用不同階段的模態(tài)信息,效果通常最優(yōu)。

        • 缺點(diǎn):模型結(jié)構(gòu)復(fù)雜,需要更多調(diào)參和計(jì)算資源。

      • 適用場(chǎng)景:復(fù)雜多模態(tài)任務(wù)(如視頻描述生成、多模態(tài)點(diǎn)擊率預(yù)估)

      3.主流多模態(tài)融合方法詳解

      接下來(lái)逐個(gè)拆解工業(yè)界和學(xué)術(shù)界常用的融合方法,每個(gè)方法都包含 “原理、核心公式、優(yōu)缺點(diǎn)、適用場(chǎng)景”,并附代碼示例或關(guān)鍵實(shí)現(xiàn)思路。

      ①?gòu)埩咳诤暇W(wǎng)絡(luò)(TFN:Tensor Fusion Network)
      原理

      TFN 是早期融合的經(jīng)典方法,通過(guò) “張量外積(Outer Product)” 計(jì)算多模態(tài)特征間的交叉關(guān)聯(lián),捕捉模態(tài)間的細(xì)粒度交互。比如對(duì)文本(X)、圖像(Y)、語(yǔ)音(Z)三種模態(tài),先給每個(gè)特征加一個(gè) “偏置項(xiàng) 1”,再做張量外積得到融合特征。

      核心公式

      假設(shè)三種模態(tài)的特征分別為

      、 、 ,融合過(guò)程為: 其中 表示張量外積,最終融合特征 的維度為 (需展平為向量后輸入后續(xù)層)。

      優(yōu)缺點(diǎn)

      • 優(yōu)點(diǎn):能捕捉模態(tài)間的高階交互,對(duì)細(xì)粒度關(guān)聯(lián)建模能力強(qiáng)。

      • 缺點(diǎn):特征維度爆炸(如 時(shí),融合后維度超 100 萬(wàn)),模型訓(xùn)練困難,易過(guò)擬合。

      適用場(chǎng)景

      模態(tài)數(shù)量少(2-3 種)、特征維度低的任務(wù)(如簡(jiǎn)單文本 - 圖像情感分析)。

      核心代碼示例(PyTorch)

      import torch import torch.nn as nn class TFN(nn.Module):     def __init__(self, d_x, d_y, d_z, out_dim):         super(TFN, self).__init__()         self.d_x, self.d_y, self.d_z = d_x, d_y, d_z         # 計(jì)算融合后特征維度(加1為偏置項(xiàng))         fusion_dim = (d_x + 1) * (d_y + 1) * (d_z + 1)         self.fc = nn.Linear(fusion_dim, out_dim)  # 展平后映射到輸出維度     def forward(self, x, y, z):         # 給每個(gè)特征加偏置項(xiàng)1(batch_size維度保持不變)         x_with_bias = torch.cat([x, torch.ones_like(x[:, :1])], dim=1)  # (bs, d_x+1)         y_with_bias = torch.cat([y, torch.ones_like(y[:, :1])], dim=1)  # (bs, d_y+1)         z_with_bias = torch.cat([z, torch.ones_like(z[:, :1])], dim=1)  # (bs, d_z+1)                  # 張量外積:先計(jì)算x與y的外積,再與z做外積         xy = torch.einsum('bi,bj->bij', x_with_bias, y_with_bias)  # (bs, d_x+1, d_y+1)         xyz = torch.einsum('bij,bk->bijk', xy, z_with_bias)        # (bs, d_x+1, d_y+1, d_z+1)                  # 展平為向量         xyz_flat = xyz.view(xyz.shape[0], -1)  # (bs, (d_x+1)(d_y+1)(d_z+1))         return self.fc(xyz_flat)  # 輸出融合結(jié)果 # 測(cè)試 if __name__ == "__main__":     bs = 32  # batch_size     d_x, d_y, d_z = 50, 64, 32  # 文本、圖像、語(yǔ)音特征維度     x = torch.randn(bs, d_x)     y = torch.randn(bs, d_y)     z = torch.randn(bs, d_z)          model = TFN(d_x, d_y, d_z, out_dim=10)  # 輸出維度10(如10分類)     out = model(x, y, z)     print("TFN輸出形狀:", out.shape)  # 應(yīng)輸出 (32, 10)
      ②低秩多模態(tài)融合(LMF:Low-rank Multimodal Fusion)原理

      LMF 是 TFN 的優(yōu)化版,解決 TFN 維度爆炸問(wèn)題。核心思路是 “低秩矩陣分解”:將原本高維的張量外積操作,拆解為 “各模態(tài)單獨(dú)線性變換 + 低秩交叉”,用低秩向量的和替代高維張量,減少參數(shù)數(shù)量。

      核心公式

      對(duì)三種模態(tài)特征 (音頻)、 (視覺(jué))、 (文本),LMF 融合過(guò)程為:

      1. 各模態(tài)單獨(dú)線性變換: 、 、 (f 為全連接層);

      2. 低秩交叉融合: ;其中 是 經(jīng)低秩分解后的第 k 個(gè)分量, 是元素積,K 是低秩維度(遠(yuǎn)小于原特征維度)。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):解決了 TFN 的維度爆炸問(wèn)題,參數(shù)更少,訓(xùn)練更穩(wěn)定,同時(shí)保留模態(tài)間的交叉關(guān)聯(lián)。

      • 缺點(diǎn):當(dāng)模態(tài)特征維度過(guò)大時(shí)(如視覺(jué)特征維度 1024),仍可能出現(xiàn)參數(shù)冗余;低秩維度 K 的選擇依賴經(jīng)驗(yàn)。

      適用場(chǎng)景

      中高維度多模態(tài)特征融合(如基于 ResNet 視覺(jué)特征 + BERT 文本特征的分類任務(wù))。

      核心代碼示例(PyTorch)

      # 核心思路:拆解為“模態(tài)線性變換 + 低秩交叉” class LMF(nn.Module):     def __init__(self, d_a, d_v, d_l, K, out_dim):         super(LMF, self).__init__()         self.K = K  # 低秩維度         # 各模態(tài)線性變換(映射到K個(gè)低秩分量)         self.fc_a = nn.Linear(d_a, K)         self.fc_v = nn.Linear(d_v, K)         self.fc_l = nn.Linear(d_l, K)         # 最終輸出層         self.fc_out = nn.Linear(K, out_dim)     def forward(self, x_a, x_v, x_l):         # 各模態(tài)映射到低秩空間         z_a = self.fc_a(x_a).unsqueeze(-1)  # (bs, K, 1)         z_v = self.fc_v(x_v).unsqueeze(-1)  # (bs, K, 1)         z_l = self.fc_l(x_l).unsqueeze(-1)  # (bs, K, 1)         # 低秩交叉:元素積求和(K個(gè)分量分別交叉后相加)         fusion = (z_a * z_v * z_l).sum(dim=-1)  # (bs, K)         return self.fc_out(fusion)  # (bs, out_dim)
      ③ 記憶融合網(wǎng)絡(luò)(MFN:Memory Fusion Network)原理

      MFN 是基于注意力和記憶機(jī)制的融合方法,專門處理 “時(shí)序多模態(tài)數(shù)據(jù)”(如視頻 + 語(yǔ)音 + 文本的時(shí)序序列)。核心是用 “門控記憶單元” 保存歷史模態(tài)交互信息,用 “Delta 注意力” 捕捉當(dāng)前模態(tài)與歷史的差異,實(shí)現(xiàn)動(dòng)態(tài)融合。

      核心結(jié)構(gòu)

      1. 多視圖門控記憶(Multi-View Gated Memory):保存上一時(shí)刻的多模態(tài)融合狀態(tài),通過(guò)門控(Gating)控制歷史信息的保留比例;

      2. Delta 注意力(Delta-memory Attention):計(jì)算當(dāng)前模態(tài)特征與歷史記憶的差異,給重要差異賦予高權(quán)重;

      3. LSTM 時(shí)序編碼:對(duì)時(shí)序化的融合特征進(jìn)行編碼,捕捉時(shí)間維度上的模態(tài)交互。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):能處理時(shí)序多模態(tài)數(shù)據(jù),動(dòng)態(tài)捕捉模態(tài)間的時(shí)序關(guān)聯(lián);注意力機(jī)制提升關(guān)鍵信息的權(quán)重。

      • 缺點(diǎn):模型結(jié)構(gòu)復(fù)雜,訓(xùn)練成本高;對(duì)短時(shí)序數(shù)據(jù)可能存在過(guò)擬合。

      適用場(chǎng)景

      時(shí)序多模態(tài)任務(wù)(如視頻情感分析、多模態(tài)對(duì)話系統(tǒng))

      ④模態(tài)注意力融合(Modal Attention)
      原理

      模態(tài)注意力是最常用的自適應(yīng)融合方法:通過(guò)注意力機(jī)制學(xué)習(xí) “不同模態(tài)的重要性權(quán)重”,再按權(quán)重對(duì)多模態(tài)特征進(jìn)行加權(quán)融合。比如在淘寶視頻推薦中,模型會(huì)自動(dòng)判斷 “圖像、文本、音頻” 哪個(gè)對(duì) “商品分類” 更重要,給重要模態(tài)更高權(quán)重。

      核心公式

      假設(shè)多模態(tài)特征為 (M 為模態(tài)數(shù)),融合過(guò)程為:

      1. 計(jì)算注意力權(quán)重: ( 為注意力參數(shù));

      2. 加權(quán)融合: 。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):自適應(yīng)調(diào)整模態(tài)權(quán)重,對(duì)不同任務(wù)的適配性強(qiáng);實(shí)現(xiàn)簡(jiǎn)單,易嵌入現(xiàn)有模型。

      • 缺點(diǎn):當(dāng)模態(tài)特征差異過(guò)大時(shí),注意力權(quán)重可能偏向某一模態(tài)(如文本模態(tài)占主導(dǎo)),忽略其他模態(tài)的互補(bǔ)信息。

      適用場(chǎng)景

      多模態(tài)分類、推薦系統(tǒng)、點(diǎn)擊率預(yù)估(如淘寶商品分類、廣告 CTR 預(yù)測(cè))。

      核心代碼示例(PyTorch)

      # 淘寶視頻多模態(tài)分類:圖像(ResNet) + 文本(BERT) + 音頻(VGGish) + 模態(tài)注意力 class ModalAttentionFusion(nn.Module):     def __init__(self, d_img, d_txt, d_audio, num_classes):         super(ModalAttentionFusion, self).__init__()         # 各模態(tài)特征降維(統(tǒng)一到同一維度)         self.fc_img = nn.Linear(d_img, 256)         self.fc_txt = nn.Linear(d_txt, 256)         self.fc_audio = nn.Linear(d_audio, 256)         # 模態(tài)注意力層         self.attention = nn.Sequential(             nn.Linear(256, 128),             nn.ReLU(),             nn.Linear(128, 1)         )         # 最終分類層(淘寶用HMC分層分類,這里簡(jiǎn)化為單分類)         self.fc_out = nn.Linear(256, num_classes)     def forward(self, img_feat, txt_feat, audio_feat):         # 各模態(tài)特征降維         img = self.fc_img(img_feat)  # (bs, 256)         txt = self.fc_txt(txt_feat)  # (bs, 256)         audio = self.fc_audio(audio_feat)  # (bs, 256)                  # 計(jì)算各模態(tài)注意力權(quán)重         alpha_img = self.attention(img)  # (bs, 1)         alpha_txt = self.attention(txt)  # (bs, 1)         alpha_audio = self.attention(audio)  # (bs, 1)         # softmax歸一化權(quán)重         alphas = torch.softmax(torch.cat([alpha_img, alpha_txt, alpha_audio], dim=1), dim=1)  # (bs, 3)                  # 加權(quán)融合         fusion_feat = img * alphas[:, 0:1] + txt * alphas[:, 1:2] + audio * alphas[:, 2:3]  # (bs, 256)         # 分類輸出         return self.fc_out(fusion_feat)  # (bs, num_classes)
      ⑤對(duì)抗多模態(tài)融合(Adversarial Multimodal Fusion)原理

      對(duì)抗融合是阿里在 WWW 2020 提出的方法,核心是用 “雙判別器” 分離多模態(tài)的 “共性特征”(各模態(tài)共有的信息,如商品的 “類別屬性”)和 “個(gè)性特征”(某模態(tài)獨(dú)有的信息,如圖像的 “顏色細(xì)節(jié)”),再融合兩類特征用于下游任務(wù)(如點(diǎn)擊率預(yù)估)。

      核心結(jié)構(gòu)

      1. 多模態(tài)注意力融合(MAF):基礎(chǔ)融合模塊,得到初步融合特征;

      2. 雙判別器(DDMA):

      • 模態(tài)判別器(D1):區(qū)分特征來(lái)自哪個(gè)模態(tài),迫使模型學(xué)習(xí) “模態(tài)不變的共性特征”;

      • 重要性判別器(D2):判斷特征的重要性,優(yōu)化模態(tài)權(quán)重分配;

      1. 對(duì)抗訓(xùn)練:通過(guò)生成器(融合模塊)與判別器的對(duì)抗,提升融合特征的魯棒性。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):能有效分離共性與個(gè)性特征,避免模態(tài)冗余;對(duì)抗訓(xùn)練提升模型泛化能力。

      • 缺點(diǎn):對(duì)抗訓(xùn)練不穩(wěn)定,需精細(xì)調(diào)參;模型復(fù)雜度高,適合大數(shù)據(jù)場(chǎng)景。

      適用場(chǎng)景

      多模態(tài)點(diǎn)擊率預(yù)估、推薦系統(tǒng)(如阿里電商廣告 CTR 預(yù)測(cè))。

      ⑥多項(xiàng)式張量池化(PTP:Polynomial Tensor Pooling)
      原理

      PTP 是針對(duì)傳統(tǒng)雙線性 / 三線性池化 “融合能力有限、無(wú)法捕捉復(fù)雜局部交互” 問(wèn)題提出的高階融合方法,核心是通過(guò) “多項(xiàng)式張量運(yùn)算” 集成多模態(tài)特征的高階矩(如二階、三階統(tǒng)計(jì)信息),同時(shí)引入低秩分解減少參數(shù)規(guī)模。相比 TFN 僅關(guān)注模態(tài)間的直接交叉,PTP 能捕捉更復(fù)雜的局部相互關(guān)系,比如文本中的 “情感詞” 與圖像中的 “表情區(qū)域”+“色彩飽和度” 的三階交互。

      核心公式

      假設(shè)兩種模態(tài)特征為 、 ,PTP(以 5 階為例)融合過(guò)程為:

      1. 特征拼接:將兩種模態(tài)特征拼接為統(tǒng)一向量 ;

      2. 多項(xiàng)式張量生成:計(jì)算 X 的 5 階張量表示 (此處為簡(jiǎn)化表達(dá),實(shí)際通過(guò)高階矩展開(kāi)實(shí)現(xiàn));

      3. 低秩分解:通過(guò)低秩張量網(wǎng)絡(luò)對(duì) 進(jìn)行分解,得到低維融合特征 (K 為低秩維度,遠(yuǎn)小于原始張量維度)。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):能捕捉多模態(tài)特征的高階交互,融合表現(xiàn)力更強(qiáng);低秩分解有效控制參數(shù)規(guī)模,避免維度爆炸;

      • 缺點(diǎn):高階張量運(yùn)算的理論理解和工程實(shí)現(xiàn)難度較高;對(duì)數(shù)據(jù)量要求大,小樣本場(chǎng)景下易過(guò)擬合。

      適用場(chǎng)景

      需要精細(xì)捕捉多模態(tài)復(fù)雜交互的任務(wù),如細(xì)粒度圖像 - 文本匹配(如 “紅色帶花紋的連衣裙” 與對(duì)應(yīng)商品圖匹配)、多模態(tài)細(xì)分類別識(shí)別(如區(qū)分 “憤怒的貓” 和 “開(kāi)心的貓”)。

      核心代碼示例(PyTorch)

      import torch import torch.nn as nn import torch.nn.functional as F class PTPBlock(nn.Module):     def __init__(self, in_dim, poly_order=3, low_rank_dim=128):         super(PTPBlock, self).__init__()         self.poly_order = poly_order  # 多項(xiàng)式階數(shù)(如3階)         self.in_dim = in_dim         # 多項(xiàng)式特征生成:通過(guò)線性層模擬高階矩展開(kāi)         self.poly_proj = nn.Linear(in_dim, in_dim * poly_order)         # 低秩分解層:將高階特征映射到低維空間         self.low_rank_proj = nn.Linear(in_dim * poly_order, low_rank_dim)         self.norm = nn.BatchNorm1d(low_rank_dim)  #  BatchNorm穩(wěn)定訓(xùn)練     def forward(self, z1, z2):         # 1. 拼接多模態(tài)特征         concat_feat = torch.cat([z1, z2], dim=1)  # (bs, in_dim1 + in_dim2)         # 2. 生成多項(xiàng)式特征(模擬高階矩)         poly_feat = self.poly_proj(concat_feat)  # (bs, (d1+d2)*poly_order)         poly_feat = F.relu(poly_feat)  # 非線性激活增強(qiáng)表達(dá)         # 3. 低秩分解得到融合特征         fusion_feat = self.low_rank_proj(poly_feat)  # (bs, low_rank_dim)         fusion_feat = self.norm(fusion_feat)  # 歸一化         return fusion_feat # 測(cè)試 if __name__ == "__main__":     bs = 32  # batch_size     d1, d2 = 64, 128  # 兩種模態(tài)特征維度(如圖像、文本)     z1 = torch.randn(bs, d1)     z2 = torch.randn(bs, d2)          ptp = PTPBlock(in_dim=d1+d2, poly_order=3, low_rank_dim=128)     fusion_feat = ptp(z1, z2)     print("PTP融合特征形狀:", fusion_feat.shape)  # 輸出 (32, 128)
      ⑦多模態(tài)循環(huán)融合(MCF:Multi-modal Circulant Fusion)原理

      MCF 突破傳統(tǒng) “僅基于向量融合” 的思路,同時(shí)利用 “向量” 和 “循環(huán)矩陣(Circulant Matrix)” 進(jìn)行融合,核心是通過(guò) “循環(huán)矩陣變換” 探索多模態(tài)向量的所有可能交互。具體來(lái)說(shuō),將每種模態(tài)的向量轉(zhuǎn)換為循環(huán)矩陣(每行是原向量的循環(huán)移位),再通過(guò)矩陣與向量的交互運(yùn)算,捕捉模態(tài)間的全局關(guān)聯(lián),尤其適合視頻 - 文本這類需全局時(shí)序匹配的任務(wù)。

      核心公式

      假設(shè)視覺(jué)特征向量 、文本特征向量 ,MCF 融合過(guò)程為:

      1. 循環(huán)矩陣生成:將向量轉(zhuǎn)換為循環(huán)矩陣 、 ,其中 A 的第 i 行是 ;

      2. 模態(tài)交互運(yùn)算:計(jì)算矩陣與另一模態(tài)向量的加權(quán)交互 (視覺(jué)矩陣與文本向量交互), (文本矩陣與視覺(jué)向量交互);

      3. 特征融合:將 G、F 與原向量 V、C 拼接,得到最終融合特征 。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):通過(guò)循環(huán)矩陣捕捉模態(tài)間的全局交互,避免局部信息遺漏;無(wú)需復(fù)雜注意力機(jī)制,計(jì)算效率較高;

      • 缺點(diǎn):循環(huán)矩陣變換依賴向量維度一致性(需先對(duì)齊模態(tài)特征維度);對(duì)短向量特征的交互捕捉效果有限。

      適用場(chǎng)景

      視頻 - 文本融合任務(wù)(如視頻描述生成、視頻文本檢索)、長(zhǎng)序列多模態(tài)匹配(如多段文本與多幀圖像的關(guān)聯(lián))。

      ⑧共享 - 私有特征融合(Shared-Private Fusion)
      原理

      該方法針對(duì) “多模態(tài)特征中既有共性信息(各模態(tài)共通,如‘貓’的語(yǔ)義),又有私有信息(某模態(tài)獨(dú)有,如圖像中‘貓的毛色’、文本中‘貓的品種’)” 的特點(diǎn),通過(guò)分離并融合 “共享特征” 和 “私有特征”,避免共性信息冗余、私有信息丟失。典型代表包括 ACL 2020 的 FP-Net 和 ACL 2021 的 Text-Centered 框架,核心是通過(guò) “正交投影” 或 “掩碼矩陣” 實(shí)現(xiàn)兩類特征的分離。

      核心公式(以 FP-Net 為例)

      假設(shè)文本初始特征 ,目標(biāo)分離共享特征 和私有特征 :

      1. 共享特征提取:通過(guò)正交投影將 投影到共享特征空間,得到凈化的共享特征 ;

      2. 私有特征提取:將 投影到與共享特征正交的空間,得到私有特征 ;

      3. 融合:將共享特征 與各模態(tài)私有特征 (文本)、 (圖像)拼接,得到 。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):精準(zhǔn)分離共性與私有信息,充分利用模態(tài)互補(bǔ)性;對(duì)模態(tài)異質(zhì)性的容忍度高,適合多模態(tài)協(xié)同任務(wù);

      • 缺點(diǎn):特征分離依賴高質(zhì)量的共享特征初始化(如預(yù)訓(xùn)練模型提取的通用特征);正交投影計(jì)算需保證數(shù)值穩(wěn)定性。

      適用場(chǎng)景

      多模態(tài)情感分析(文本表達(dá)情感傾向,圖像 / 語(yǔ)音補(bǔ)充情感強(qiáng)度)、跨模態(tài)遷移學(xué)習(xí)(用圖像的共享語(yǔ)義輔助文本分類)、行人重識(shí)別(RGB 與紅外圖像的共性輪廓 + 私有紋理融合)。

      核心代碼示例(PyTorch)

      class FPNetSharedPrivate(nn.Module):     def __init__(self, text_dim, img_dim, shared_dim=256):         super(FPNetSharedPrivate, self).__init__()         # 共享特征提取器(文本和圖像共享)         self.shared_proj = nn.Linear(max(text_dim, img_dim), shared_dim)         # 文本私有特征投影層         self.text_private_proj = nn.Linear(text_dim, text_dim)         # 圖像私有特征投影層         self.img_private_proj = nn.Linear(img_dim, img_dim)         # 最終融合輸出層         self.fusion_out = nn.Linear(shared_dim + text_dim + img_dim, 10)  # 10分類示例     def orthogonal_proj(self, x, target):         # 正交投影:將x投影到target所在空間         target_norm = torch.norm(target, dim=1, keepdim=True) + 1e-8  # 避免除零         proj_coeff = (x @ target.T) / (target_norm ** 2)  # (bs, bs)         proj = proj_coeff @ target  # (bs, shared_dim)         return proj     def forward(self, text_feat, img_feat):         # 1. 提取共享特征(統(tǒng)一模態(tài)維度后投影)         max_dim = max(text_feat.shape[1], img_feat.shape[1])         text_pad = F.pad(text_feat, (0, max_dim - text_feat.shape[1]))  # 對(duì)齊維度         img_pad = F.pad(img_feat, (0, max_dim - img_feat.shape[1]))         shared_feat = self.shared_proj(torch.cat([text_pad, img_pad], dim=0)).mean(dim=0, keepdim=True)         shared_feat = shared_feat.expand(text_feat.shape[0], -1)  # (bs, shared_dim)                  # 2. 提取文本私有特征         text_shared_proj = self.orthogonal_proj(text_feat, shared_feat)  # 文本的共享部分         text_private = self.text_private_proj(text_feat - text_shared_proj)  # 私有部分                  # 3. 提取圖像私有特征         img_shared_proj = self.orthogonal_proj(img_feat, shared_feat)  # 圖像的共享部分         img_private = self.img_private_proj(img_feat - img_shared_proj)  # 私有部分                  # 4. 融合共享與私有特征         fusion_feat = torch.cat([shared_feat, text_private, img_private], dim=1)  # (bs, shared_dim + text_dim + img_dim)         return self.fusion_out(fusion_feat)  # (bs, 10) # 測(cè)試 if __name__ == "__main__":     bs = 32     text_dim, img_dim = 128, 256     text_feat = torch.randn(bs, text_dim)     img_feat = torch.randn(bs, img_dim)          fp_net = FPNetSharedPrivate(text_dim, img_dim, shared_dim=256)     out = fp_net(text_feat, img_feat)     print("FP-Net輸出形狀:", out.shape)  # 輸出 (32, 10)
      ⑨注意力瓶頸融合(Attention Bottleneck Fusion)原理

      針對(duì)傳統(tǒng) Transformer 跨模態(tài)融合 “計(jì)算量過(guò)大” 的問(wèn)題,注意力瓶頸融合通過(guò)引入 “共享令牌(Shared Token)” 作為模態(tài)交互的 “瓶頸”,限制注意力流僅在共享令牌處進(jìn)行跨模態(tài)交互,而非所有 token 間的全量交互。這種設(shè)計(jì)在保證融合效果的同時(shí),大幅降低計(jì)算復(fù)雜度,尤其適合高分辨率圖像、長(zhǎng)文本這類大尺度多模態(tài)數(shù)據(jù)。

      核心結(jié)構(gòu)

      1. 模態(tài)獨(dú)立編碼:文本用 Transformer Encoder 編碼為文本令牌(Text Token),圖像用 ViT 編碼為視覺(jué)令牌(Vision Token);

      2. 共享令牌插入:在兩類令牌中插入 1-2 個(gè)共享令牌(如[SHARED]);

      3. 瓶頸注意力交互:僅允許共享令牌與所有文本 / 視覺(jué)令牌進(jìn)行注意力計(jì)算,文本與視覺(jué)令牌之間不直接交互;

      4. 融合特征生成:提取共享令牌的特征,與各模態(tài)的全局池化特征拼接,得到最終融合結(jié)果。

      優(yōu)缺點(diǎn)
      • 優(yōu)點(diǎn):計(jì)算復(fù)雜度低(O ((N+M+K)^2 ) 降至 O ( (N+M) K + K^2 ),N/M 為模態(tài)令牌數(shù),K 為共享令牌數(shù));共享令牌能有效聚合跨模態(tài)信息,融合效果接近全注意力;

      • 缺點(diǎn):共享令牌數(shù)量需手動(dòng)調(diào)整(過(guò)多易冗余,過(guò)少易丟失信息);對(duì)模態(tài)令牌的初始化質(zhì)量敏感。

      適用場(chǎng)景

      大尺度多模態(tài)任務(wù)(如高分辨率圖像 - 長(zhǎng)文本匹配、多模態(tài)文檔理解)、資源受限場(chǎng)景(如移動(dòng)端多模態(tài)分類)。

      4.多模態(tài)融合的學(xué)習(xí)資源推薦

      最后,給大家推薦一些學(xué)習(xí)資源,幫助進(jìn)一步深入:

      1. 必讀論文:

      • 綜述:《Multimodal Machine Learning: A Survey and Taxonomy》(多模態(tài)學(xué)習(xí)入門必讀);

      • 方法論文:TFN(ICMI 2017)、LMF(ACL 2018)、MFN(AAAI 2018)、Adversarial Multimodal Fusion(WWW 2020);

      1. 代碼倉(cāng)庫(kù):

      • 多模態(tài)工具庫(kù):PyTorch-Multimodal(Facebook 開(kāi)源,含多種融合方法);

      • 實(shí)戰(zhàn)項(xiàng)目:FP-Net(ACL 2020,特征投影融合)、MFAS(CVPR 2019,神經(jīng)架構(gòu)搜索融合);

      1. 論文合集: 我自己整理的最新多模態(tài)論文代碼合集


      掃碼添加小助理,回復(fù)“多模態(tài)

      免費(fèi)獲取全部論文+開(kāi)源代碼

      最后的最后

      大家有問(wèn)題可以直接在評(píng)論區(qū)留言即可~ 喜歡本文的朋友可以收藏、點(diǎn)贊、轉(zhuǎn)發(fā)起來(lái)!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      國(guó)乒公開(kāi)競(jìng)聘總教練、副總教練!孔令輝有希望競(jìng)聘3個(gè)席位

      國(guó)乒公開(kāi)競(jìng)聘總教練、副總教練!孔令輝有希望競(jìng)聘3個(gè)席位

      好乒乓
      2025-12-26 18:30:59
      總裁夫人董花花,她吃了回頭草,沒(méi)敢離婚,也沒(méi)成大女主

      總裁夫人董花花,她吃了回頭草,沒(méi)敢離婚,也沒(méi)成大女主

      涼湫瑾言
      2025-12-25 21:45:29
      鄭州之后貴州也有保時(shí)捷4S店被曝經(jīng)營(yíng)異常,北京一門店也將關(guān)閉

      鄭州之后貴州也有保時(shí)捷4S店被曝經(jīng)營(yíng)異常,北京一門店也將關(guān)閉

      界面新聞
      2025-12-25 21:43:33
      姜昆徹底不裝了:此生無(wú)悔入華夏,家在加利福尼亞!咋啦?

      姜昆徹底不裝了:此生無(wú)悔入華夏,家在加利福尼亞!咋啦?

      細(xì)雨中的呼喊
      2025-12-26 17:22:45
      京東宣布年終獎(jiǎng)25薪!刺痛全行業(yè)的劉強(qiáng)東為什么要這么做?

      京東宣布年終獎(jiǎng)25薪!刺痛全行業(yè)的劉強(qiáng)東為什么要這么做?

      傳心財(cái)經(jīng)
      2025-12-26 13:54:19
      雷迪克暴怒批全隊(duì)爛透!拉拉維亞曝內(nèi)部出裂痕 湖記:該全面重建

      雷迪克暴怒批全隊(duì)爛透!拉拉維亞曝內(nèi)部出裂痕 湖記:該全面重建

      顏小白的籃球夢(mèng)
      2025-12-26 13:08:09
      鄭麗文揮刀清黨,盧秀燕180度轉(zhuǎn)向表忠誠(chéng),韓流5萬(wàn)力挺掀變局

      鄭麗文揮刀清黨,盧秀燕180度轉(zhuǎn)向表忠誠(chéng),韓流5萬(wàn)力挺掀變局

      星辰夜語(yǔ)
      2025-12-24 23:11:11
      他無(wú)顯赫出身,靠4任妻子成為知名人物,活到97歲

      他無(wú)顯赫出身,靠4任妻子成為知名人物,活到97歲

      古書(shū)記史
      2025-12-19 18:18:41
      預(yù)售31.3萬(wàn)元起 全新奧迪Q5L將于1月內(nèi)上市

      預(yù)售31.3萬(wàn)元起 全新奧迪Q5L將于1月內(nèi)上市

      車質(zhì)網(wǎng)
      2025-12-25 09:14:07
      姜昆方否認(rèn)在美國(guó)過(guò)圣誕,他本人還在國(guó)內(nèi),知情人說(shuō)上個(gè)月剛見(jiàn)過(guò)

      姜昆方否認(rèn)在美國(guó)過(guò)圣誕,他本人還在國(guó)內(nèi),知情人說(shuō)上個(gè)月剛見(jiàn)過(guò)

      好賢觀史記
      2025-12-26 13:57:45
      科爾:我不習(xí)慣看到克萊在別的球隊(duì),我想他多希望他還在這里

      科爾:我不習(xí)慣看到克萊在別的球隊(duì),我想他多希望他還在這里

      懂球帝
      2025-12-26 13:44:47
      老同志借而不還的畫(huà),現(xiàn)估價(jià)8800萬(wàn)現(xiàn)身拍賣會(huì)這個(gè)老東西究竟是誰(shuí)

      老同志借而不還的畫(huà),現(xiàn)估價(jià)8800萬(wàn)現(xiàn)身拍賣會(huì)這個(gè)老東西究竟是誰(shuí)

      深度報(bào)
      2025-12-22 22:36:02
      永別了,7天無(wú)理由退換!

      永別了,7天無(wú)理由退換!

      一個(gè)壞土豆
      2025-12-25 19:52:58
      河南一驢肉火燒店用小字標(biāo)注“含馬肉”,商家:馬肉更便宜,6元一份的兩種肉各占一半,今年5月開(kāi)始對(duì)外公示

      河南一驢肉火燒店用小字標(biāo)注“含馬肉”,商家:馬肉更便宜,6元一份的兩種肉各占一半,今年5月開(kāi)始對(duì)外公示

      極目新聞
      2025-12-26 15:28:32
      不敵火箭吞下三連敗 湖人輸在哪兒?

      不敵火箭吞下三連敗 湖人輸在哪兒?

      封面新聞
      2025-12-26 20:57:02
      攜程被迫發(fā)聲明,但聲明或會(huì)讓信任再次崩塌,卸載潮難止!

      攜程被迫發(fā)聲明,但聲明或會(huì)讓信任再次崩塌,卸載潮難止!

      魯八兩
      2025-12-25 18:20:23
      五個(gè)城市迎來(lái)新任代市長(zhǎng)

      五個(gè)城市迎來(lái)新任代市長(zhǎng)

      上觀新聞
      2025-12-26 19:04:06
      北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來(lái)

      北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來(lái)

      小哥很OK
      2025-12-12 14:33:01
      烏軍確認(rèn)撤出西維爾斯克,庫(kù)皮揚(yáng)斯克取得進(jìn)展,克宮拒絕圣誕停火

      烏軍確認(rèn)撤出西維爾斯克,庫(kù)皮揚(yáng)斯克取得進(jìn)展,克宮拒絕圣誕停火

      鷹眼Defence
      2025-12-24 16:19:36
      22名敢死隊(duì)員拼死拿下瀘定橋后神秘消失,40年后河北一份絕密檔案,意外揭開(kāi)塵封半個(gè)世紀(jì)的驚人真相

      22名敢死隊(duì)員拼死拿下瀘定橋后神秘消失,40年后河北一份絕密檔案,意外揭開(kāi)塵封半個(gè)世紀(jì)的驚人真相

      源溯歷史
      2025-12-18 19:06:21
      2025-12-26 21:16:49
      機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
      機(jī)器學(xué)習(xí)與Python社區(qū)
      機(jī)器學(xué)習(xí)算法與Python
      3235文章數(shù) 11081關(guān)注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      寶馬網(wǎng)紅銷冠推行"一口價(jià)"賣車:來(lái)回談價(jià)累 8天賣11輛

      頭條要聞

      寶馬網(wǎng)紅銷冠推行"一口價(jià)"賣車:來(lái)回談價(jià)累 8天賣11輛

      體育要聞

      開(kāi)翻航母之后,他決定親手造一艘航母

      娛樂(lè)要聞

      王傳君生病后近照變化大,面部浮腫

      財(cái)經(jīng)要聞

      投資巨鱷羅杰斯最新持倉(cāng):只留四種資產(chǎn)

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開(kāi)啟首款獵裝轎跑路測(cè)

      態(tài)度原創(chuàng)

      親子
      教育
      數(shù)碼
      時(shí)尚
      手機(jī)

      親子要聞

      62歲懷二胎后續(xù):妹妹發(fā)視頻曝光真相,醫(yī)生擔(dān)心,惡心的一幕出現(xiàn)

      教育要聞

      教育部公布重要名單!上海10所學(xué)校上榜

      數(shù)碼要聞

      ColorOS公布OPPO Pad 5十二月升級(jí)內(nèi)容

      冬天,“大衣”是中年女人的穿搭剛需,這樣搭配時(shí)髦提氣質(zhì)

      手機(jī)要聞

      榮耀Power2再次被確認(rèn):外觀配置全揭秘,是否值得期待?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 蜜臀av午夜精品福利| 国内综合精品午夜久久资源| 人人入人人爱| a在线视频v视频| 久久一卡二卡三卡四卡| 久爱av| 喜德县| 精品少妇后入一区二区三区| 熟女91| 男人靠女人免费视频网站| 欧美性大战久久久久久| 齐齐哈尔市| 91精品国产成人观看| 麻豆A∨在线| 亚洲日韩AV在线| 狠狠躁夜夜躁人人爽天天5| 老鸭窝在钱视频| 中文字幕人成无码免费视频| 影音先锋在线资源无码| 亚洲天堂人妻| 梅州市| av四虎| 国产成人a在线观看视频| 99久久亚洲综合精品成人| 色一情一乱一伦一区二区三区日本| 国产亚洲欧美日韩亚洲中文色| 苍井空亚洲精品AA片在线播放| 网友自拍偷拍一区| 日韩欧美在线综合网另类| 国产美女久久久亚洲综合| 久久精品电影| 粗壮挺进人妻水蜜桃成熟| 国精无码欧精品亚洲一区| 亚洲性天堂| 亚洲无码综合网| 江源县| 美女黄区| 成人网站18禁| 日本高清在线播放一区二区三区| 亚洲区综合区小说区激情区| 成在人线av无码免费高潮水老板|