網易首頁 > 網易號 > 正文申請入駐

多模態大型語言模型綜述

2026-01-12 00:08:13　來源: CreateAMind

上海舉報

分享至

多模態大型語言模型綜述

A Survey on Multimodal Large Language Models

https://arxiv.org/pdf/2306.13549

摘要

近期，以 GPT-4V 為代表的多模態大語言模型（Multimodal Large Language Model, MLLM）已成為一個新興的研究熱點，它利用強大的大語言模型（LLMs）作為“大腦”來執行多模態任務。MLLM 展現出令人驚訝的涌現能力，例如根據圖像編寫故事、無需 OCR 的數學推理等，這些能力在傳統多模態方法中極為罕見，暗示了一條通往通用人工智能的潛在路徑。為此，學術界和工業界都在努力開發能夠與 GPT-4V 競爭甚至超越它的 MLLM，以驚人的速度不斷推動研究邊界。本文旨在追蹤并總結 MLLM 的最新進展。首先，我們介紹了 MLLM 的基本形式，并闡明其相關概念，包括架構、訓練策略與數據，以及評估方法。接著，我們介紹了關于如何將 MLLM 擴展以支持更細粒度、更多模態、更多語言和更多應用場景的研究主題。隨后，我們討論了多模態幻覺問題及相關擴展技術，包括多模態上下文學習（Multimodal ICL, M-ICL）、多模態思維鏈（Multimodal CoT, M-CoT）和大語言模型輔助的視覺推理（LLM-Aided Visual Reasoning, LAVR）。最后，我們探討了當前存在的挑戰，并指出有前景的研究方向。鑒于 MLLM 時代才剛剛開啟，我們將持續更新本綜述，希望能激發更多研究。配套的 GitHub 鏈接匯總了最新論文，地址為：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models 。

索引術語—多模態大語言模型，視覺語言模型，大語言模型。

1 引言

近年來，大語言模型（LLMs）[1]–[5] 取得了顯著進展。通過擴大數據規模和模型規模，這些 LLM 展現出非凡的涌現能力，典型包括指令遵循 [5]、[6]、上下文學習（In-Context Learning, ICL）[7] 和思維鏈（Chain of Thought, CoT）[8]。盡管 LLM 在大多數自然語言處理（NLP）任務上展現出令人驚訝的零樣本/少樣本推理性能，但它們本質上是“盲”的——因為它們只能理解離散文本。與此同時，大視覺模型（Large Vision Models, LVMs）能夠清晰“看見”圖像 [9]–[12]，但在推理能力方面通常較為滯后。

鑒于這種互補性，LLM 與 LVM 相向而行，催生了多模態大語言模型（Multimodal Large Language Model, MLLM）這一新領域。形式上，MLLM 指的是基于 LLM、具備接收、推理和輸出多模態信息能力的模型。在 MLLM 出現之前，已有大量工作致力于多模態研究，可分為判別式 [13]–[15] 和生成式 [16]–[18] 兩種范式。前者以 CLIP [13] 為代表，將視覺與文本信息投影到統一的表征空間中，為下游多模態任務搭建橋梁；后者以 OFA [16] 為代表，以序列到序列的方式統一多模態任務。MLLM 按照序列操作方式可歸類為后者，但與傳統方法相比，它展現出兩個代表性特征：(1) MLLM 基于參數量達數十億級別的 LLM，這是以往模型所不具備的；(2) MLLM 采用新的訓練范式以充分釋放其潛力，例如使用多模態指令微調 [19]、[20] 來促使模型遵循新指令。

憑借這兩個特征，MLLM 展現出全新能力，例如根據圖像編寫網頁代碼 [21]、理解網絡迷因（meme）的深層含義 [22]，以及無需 OCR 的數學推理 [23]。

自從 GPT-4 [3] 發布以來，因其展示出的驚人多模態示例，學術界掀起了 MLLM 研究熱潮。這一快速發展由學術界和工業界的共同努力推動。早期的 MLLM 研究聚焦于基于文本提示和圖像 [20]、[24]/視頻 [25]、[26]/音頻 [27] 生成文本內容。后續工作進一步拓展了模型能力或應用場景，包括：(1) 更細粒度的支持。通過引入邊界框 [28] 或點擊某對象 [29]，實現對用戶提示中特定區域或物體的精細控制；(2) 對輸入和輸出模態的增強支持 [30]、[31]，如圖像、視頻、音頻和點云。除輸入外，如 NExT-GPT [32] 等項目還支持多模態輸出；(3) 改進的語言支持。已有研究嘗試將 MLLM 的成功擴展到其他語言（如中文），即使其訓練語料相對有限 [33]、[34]；(4) 向更多領域和應用場景延伸。一些研究將 MLLM 的強大能力遷移至醫學圖像理解 [35]–[37] 和文檔解析 [38]–[40] 等領域。此外，還開發了多模態智能體以輔助現實世界交互，例如具身智能體（embodied agents）[41]、[42] 和圖形用戶界面智能體（GUI agents）[43]–[45]。圖1展示了 MLLM 的發展時間線。

鑒于該領域的快速發展和廣闊前景，我們撰寫本綜述，旨在幫助研究人員掌握 MLLM 的基本思想、主流方法和當前進展。需要注意的是，我們主要關注視覺與語言模態，但也納入了涉及視頻、音頻等其他模態的工作。具體而言，我們覆蓋了 MLLM 最重要的方面并提供相應總結，同時開設了一個 GitHub 頁面進行實時更新。據我們所知，這是首篇關于 MLLM 的綜述。

本綜述后續結構如下：首先全面回顧 MLLM 的核心要素，包括 (1) 主流架構（§2）；(2) 完整的訓練策略與數據配方（§3）；(3) 常見的性能評估實踐（§4）。隨后，我們深入探討若干重要主題，每個主題聚焦一個核心問題：(1) 哪些方面可進一步改進或擴展（§5）？(2) 如何緩解多模態幻覺問題（§6）？接著，我們介紹三項關鍵技術（§7），每項技術針對特定場景：多模態上下文學習（M-ICL，§7.1）是一種常用于推理階段以提升少樣本性能的有效技術；另一項重要技術是多模態思維鏈（M-CoT，§7.2），通常用于復雜推理任務；之后，我們闡述一種通用思路，即構建基于 LLM 的系統以解決復合推理任務或響應常見用戶查詢（§7.3）。最后，我們以總結和潛在研究方向結束本綜述。

2 架構

一個典型的 MLLM 可以抽象為三個模塊，即：一個預訓練的模態編碼器、一個預訓練的大語言模型（LLM），以及一個連接兩者的模態接口。類比人類，圖像/音頻編碼器等模態編碼器相當于人的眼睛/耳朵，用于接收并預處理光/聲信號；而 LLM 則類似于人腦，用于理解和推理這些已處理的信號。在兩者之間，模態接口的作用是實現不同模態之間的對齊。一些 MLLM 還包含一個生成器，用于輸出除文本以外的其他模態。圖2繪制了該架構的示意圖。本節將依次介紹每個模塊。

2.1 模態編碼器

編碼器將原始信息（如圖像或音頻）壓縮為更緊湊的表征。通常不從頭開始訓練，而是采用已在其他模態上對齊過的預訓練編碼器。例如，CLIP [13] 包含一個視覺編碼器，該編碼器通過在大規模圖像-文本對上進行預訓練，實現了與文本的語義對齊。因此，使用這類初始已對齊的編碼器，再通過對齊預訓練（見 §3.1）將其與 LLM 對齊會更加容易。

常用圖像編碼器系列總結于表1。除了標準的 CLIP 圖像編碼器 [13] 外，一些工作也探索使用其他變體。例如，MiniGPT-4 [21] 采用了 EVA-CLIP [47]、[48]（ViT-G/14）編碼器，該編碼器使用了改進的訓練技術進行訓練。相比之下，Osprey [29] 引入了基于卷積的 ConvNext-L 編碼器 [46]，以利用更高分辨率和多層級特征。還有一些工作探索了無編碼器（encoder-free）架構。例如，Fuyu-8B [49] 直接將圖像塊（image patches）投影后送入 LLM。因此，該模型天然支持靈活的圖像分辨率輸入。

在選擇編碼器時，通常會考慮分辨率、參數量和預訓練語料等因素。值得注意的是，許多工作已通過實驗驗證：使用更高分辨率可帶來顯著的性能提升 [34]、[50]、[51]、[52]。擴大輸入分辨率的方法可分為直接縮放（direct scaling）和分塊（patch-division）兩類。直接縮放方法將更高分辨率的圖像直接輸入編碼器，通常涉及對編碼器進行進一步微調 [34]，或替換為支持更高分辨率的預訓練編碼器 [50]。類似地，CogAgent [44] 采用雙編碼器機制，其中兩個編碼器分別處理高分辨率和低分辨率圖像；高分辨率特征通過交叉注意力注入到低分辨率分支中。分塊方法則將高分辨率圖像切分為多個圖像塊，并復用低分辨率編碼器。例如，Monkey [51] 和 SPHINX [53] 將大圖像劃分為若干小塊，并將這些子圖像與一個下采樣后的全圖一起送入圖像編碼器——其中子圖像捕獲局部特征，而下采樣圖像捕獲全局特征。相比之下，經驗研究表明，參數量和訓練數據組成相較于輸入分辨率而言重要性較低 [52]。

其他模態也有類似的編碼器可用。例如，Pengi [27] 使用 CLAP [54] 模型作為音頻編碼器；ImageBind-LLM [30] 則采用 ImageBind [55] 編碼器，該編碼器支持對圖像、文本、音頻、深度圖、熱成像和慣性測量單元（IMU）數據進行編碼。借助這一強大的編碼器，ImageBind-LLM 能夠響應多模態輸入。

2.2 預訓練大語言模型（Pre-trained LLM）

從頭開始訓練一個 LLM 既低效也不現實，因此更高效且實用的做法是基于一個預訓練好的 LLM 進行開發。通過在海量網絡語料上進行大規模預訓練，LLM 已內嵌豐富的世界知識，并展現出強大的泛化與推理能力。

我們在表2中總結了常用且公開可用的 LLM。值得注意的是，大多數 LLM 屬于因果解碼器（causal decoder）類型，遵循 GPT-3 [7] 的范式。其中，Flan-T5 [56] 系列是較早被用于 BLIP-2 [59] 和 InstructBLIP [60] 等工作的 LLM。LLaMA 系列 [5]、[57] 和 Vicuna 家族 [4] 是具有代表性的開源 LLM，受到學術界廣泛關注。由于這兩個 LLM 主要在英文語料上預訓練，它們在多語言支持（如中文）方面存在局限。相比之下，Qwen [58] 是一個雙語 LLM，在中文和英文上均表現良好。

需要指出的是，擴大 LLM 的參數量也能帶來額外收益，這與提升輸入分辨率的情況類似。具體而言，Liu 等人 [50]、[61] 發現，僅將 LLM 從 7B 擴展到 13B，即可在各類基準測試上帶來全面性能提升。此外，當使用 34B 的 LLM 時，即使訓練過程中僅使用英文多模態數據，模型也展現出涌現的零樣本中文能力。Lu 等人 [62] 在將 LLM 從 13B 擴展到 35B 乃至 65B/70B 時也觀察到類似現象——更大的模型規模在專為 MLLM 設計的基準測試上持續帶來性能增益。

也有一些工作采用較小的 LLM 以便于在移動設備上部署。例如，MobileVLM 系列 [63]、[64] 使用了縮小版的 LLaMA [5]（稱為 MobileLLaMA 1.4B/2.7B），從而實現在移動處理器上的高效推理。

近期，針對 LLM 的混合專家（Mixture of Experts, MoE）架構探索引起了越來越多關注 [65]–[67]。與稠密模型相比，這種稀疏架構通過選擇性激活部分參數，在不增加計算成本的前提下實現總參數量的擴展。經驗表明，MM1 [52] 和 MoE-LLaVA [68] 均發現，MoE 實現在幾乎所有基準測試上均優于對應的稠密模型。

2.3 模態接口

由于 LLM 僅能感知文本，因此有必要彌合自然語言與其他模態之間的鴻溝。然而，以端到端方式訓練一個大型多模態模型成本高昂。一種更實際的做法是在預訓練的視覺編碼器與 LLM 之間引入一個可學習的連接器（connector）。另一種方法是借助專家模型將圖像轉換為語言，再將該語言輸入 LLM。

可學習連接器（Learnable Connector）其作用是彌合不同模態之間的差距。具體而言，該模塊將信息投影到 LLM 能夠高效理解的空間中。根據多模態信息融合的方式，此類接口大致可分為兩類：token 級融合和特征級融合。

在 token 級融合中，編碼器輸出的特征被轉換為 token，并與文本 token 拼接后送入 LLM。一種常見且可行的方案是利用一組可學習的查詢 token，以基于查詢的方式提取信息 [69]，該方法最早在 BLIP-2 [59] 中實現，隨后被大量工作繼承 [26]、[60]、[70]。這類 Q-Former 風格的方法將視覺 token 壓縮為數量更少的表征向量。相比之下，一些方法則簡單地使用基于 MLP 的接口來彌合模態差距 [20]、[37]、[71]、[72]。例如，LLaVA 系列采用一個或兩個線性 MLP [20]、[50] 來投影視覺 token，并將其特征維度對齊到詞嵌入空間。

值得一提的是，MM1 [52] 對連接器的設計選擇進行了消融實驗，發現對于 token 級融合而言，模態適配器的具體類型遠不如視覺 token 的數量和輸入分辨率重要。盡管如此，Zeng 等人 [73] 比較了 token 級與特征級融合的性能，并通過實驗表明：在 VQA 基準測試中，token 級融合變體表現更優。關于性能差距，作者指出，交叉注意力模型可能需要更復雜的超參數搜索過程才能達到可比性能。

另一方面，特征級融合通過插入額外模塊，實現文本特征與視覺特征之間的深度交互與融合。例如，Flamingo [74] 在 LLM 凍結的 Transformer 層之間插入額外的交叉注意力層，從而用外部視覺線索增強語言特征。類似地，CogVLM [75] 在每個 Transformer 層中插入一個視覺專家模塊，以實現視覺與語言特征之間的雙向交互與融合。為獲得更好性能，所引入模塊的 QKV 權重矩陣從預訓練 LLM 初始化。同樣，LLaMA-Adapter [76] 在 Transformer 層中引入可學習的提示（prompts），這些提示首先嵌入視覺知識，然后作為前綴與文本特征拼接。

就參數量而言，可學習接口通常只占整個模型的一小部分。以 Qwen-VL [34] 為例，Q-Former 的參數量約為 0.08B，不到總參數量的 1%；而編碼器和 LLM 分別約占 19.8%（1.9B）和 80.2%（7.7B）。

專家模型（Expert Model）除了可學習接口，使用專家模型（如圖像描述生成模型）也是彌合模態鴻溝的一種可行方式 [77]–[80]。其基本思想是在不進行訓練的情況下，將多模態輸入轉換為語言。這樣，LLM 就可以通過轉換后的語言理解多模態信息。例如，VideoChat-Text [25] 使用預訓練的視覺模型提取動作等視覺信息，并借助語音識別模型豐富描述內容。盡管使用專家模型操作簡單，但其靈活性可能不如采用可學習接口。將非文本模態轉換為文本會導致信息損失。例如，將視頻轉化為文本描述會扭曲其時空關系 [25]。

3 訓練策略與數據

一個成熟的 MLLM 通常經歷三個訓練階段，即：預訓練（pre-training）、指令微調（instruction-tuning）和對齊微調（alignment tuning）。每個訓練階段需要不同類型的數據，并實現不同的目標。本節將分別討論各階段的訓練目標，以及數據的收集方式與特性。

3.1 預訓練 3.1.1 訓練細節

作為首個訓練階段，預訓練的主要目標是對齊不同模態并學習多模態世界知識。預訓練階段通常依賴大規模的文本配對數據，例如圖像/音頻/視頻的描述（caption）數據。這些描述通常以自然語言句子的形式呈現。

此處我們考慮一種常見場景：MLLM 被訓練用于對齊視覺與文本模態。如表3所示，給定一張圖像，模型被訓練以自回歸方式預測該圖像的描述（caption），采用標準的交叉熵損失函數。

預訓練的一種常見做法是凍結預訓練模塊（如視覺編碼器和 LLM），僅訓練一個可學習的接口（learnable interface）[20]、[35]、[72]。其核心思想是在不丟失已有預訓練知識的前提下，實現不同模態的對齊。也有一些方法 [34]、[81]、[82] 會解凍更多模塊（例如視覺編碼器），以啟用更多可訓練參數來提升對齊效果。

需要注意的是，訓練方案與數據質量密切相關。對于簡短且含噪聲的描述數據，可采用較低分辨率（如 224）以加速訓練；而對于更長且更干凈的數據，則宜使用更高分辨率（如 448 或更高），以減輕幻覺問題。此外，ShareGPT4V [83] 發現，在預訓練階段使用高質量描述數據時，解鎖視覺編碼器有助于實現更好的模態對齊。

3.1.2 數據

預訓練數據主要服務于兩個目的：(1) 對齊不同模態；(2) 提供世界知識。根據粒度粗細，預訓練語料可分為粗粒度和細粒度兩類，下文將依次介紹。常用預訓練數據集匯總于表4。

粗粒度描述數據具有一些典型共性：
(1) 數據量龐大，因為樣本通常來自互聯網；
(2) 由于是網絡爬取所得，描述通常較短且含噪聲，因為它們源自網頁圖像的 alt-text（替代文本）。

這類數據可通過自動化工具進行清洗和過濾，例如使用 CLIP [13] 模型剔除圖像-文本對相似度低于預設閾值的樣本。接下來介紹一些具有代表性的粗粒度數據集。

CC（Conceptual Captions）

CC-3M [84]是一個包含 330 萬圖像-描述對的網絡規模描述數據集，原始描述來自與圖像關聯的 alt-text。作者設計了一套復雜的清洗流程：

(1) 對圖像：過濾掉包含不當內容或寬高比異常的圖像；
(2) 對文本：使用 NLP 工具獲取文本標注，并根據設定的啟發式規則過濾樣本；
(3) 對圖像-文本對：通過分類器為圖像分配標簽，若文本標注與圖像標簽無重疊，則丟棄該樣本。
CC-12M [85]是 CC-3M 的后續工作，包含 1240 萬圖像-描述對。相比前作，CC-12M 放寬并簡化了數據收集流程，從而收集到更多數據。

SBU Captions [86]
這是一個包含 100 萬圖像-文本對的帶描述照片數據集，圖像和描述均來自 Flickr。具體而言，研究者通過在 Flickr 網站上使用大量查詢詞進行檢索，獲取初始圖像集，圖像附帶的描述即作為 caption。為確保描述與圖像相關，保留的圖像需滿足以下條件：
(1) 圖像描述長度適中（通過觀察確定）；
(2) 描述中至少包含兩個預定義術語列表中的詞匯，以及一個表示空間關系的介詞（如 “on”、“under”）。

LAION。該系列是大規模網絡級數據集，圖像從互聯網爬取，其對應的 alt-text 作為描述（captions）。為過濾圖像-文本對，執行了以下步驟：
(1) 剔除文本過短，或圖像尺寸過小/過大的樣本；
(2) 基于 URL 進行圖像去重；
(3) 提取圖像和文本的 CLIP [13] 嵌入，并利用這些嵌入剔除可能包含非法內容的樣本，以及圖像與文本嵌入之間余弦相似度較低的圖像-文本對。

以下是對一些典型變體的簡要總結：

LAION-5B [87]：這是一個面向研究的包含 58.5 億（5.85B）圖像-文本對的數據集。該數據集為多語言，其中包含一個 20 億（2B）規模的英文子集。
LAION-COCO [88]：它從 LAION-5B 的英文子集中提取出 6 億（600M）張圖像。其描述是合成的：使用 BLIP [89] 為圖像生成多種描述，并使用 CLIP [13] 選擇與圖像最匹配的一條作為最終 caption。

COYO-700M [90]。該數據集包含 7.47 億（747M）圖像-文本對，從 CommonCrawl 中提取。在數據過濾方面，作者設計了以下策略：
(1) 對圖像：過濾掉尺寸、內容、格式或寬高比不合適的圖像；此外，基于 pHash 值進行過濾，以移除與 ImageNet 和 MS-COCO 等公開數據集重疊的圖像；
(2) 對文本：僅保留長度合適、包含名詞形式且用詞恰當的英文文本。句子前后的空白字符被移除，連續的空白字符被替換為單個空格。此外，出現超過 10 次的重復文本（如 “image for”）會被剔除；
(3) 對圖像-文本對：基于 (圖像 pHash, 文本) 元組進行去重。

近期，更多工作 [83]、[91]、[92] 探索通過向強大的 MLLM（如 GPT-4V）發送提示（prompting）來生成高質量的細粒度數據。與粗粒度數據相比，這類數據通常包含更長、更準確的圖像描述，從而實現圖像與文本模態之間更精細的對齊。然而，由于該方法通常需要調用商用 MLLM，成本較高，且數據規模相對較小。值得注意的是，ShareGPT4V [83] 通過以下方式取得平衡：首先使用 GPT-4V 生成的 10 萬條數據訓練一個描述生成器（captioner），然后利用該預訓練描述生成器將數據規模擴展至 120 萬條。

3.2 指令微調（Instruction-tuning）3.2.1 引言

“指令”指對任務的描述。直觀上，指令微調旨在教會模型更好地理解用戶指令并完成所要求的任務。通過這種方式進行微調，LLM 能夠通過遵循新指令泛化到未見過的任務，從而提升零樣本（zero-shot）性能。這一簡單而有效的思想催生了后續一系列 NLP 工作的成功，例如 ChatGPT [2]、InstructGPT [95]、FLAN [19]、[56] 和 OPT-IML [96]。

圖3展示了指令微調與相關典型學習范式之間的對比。監督微調（supervised fine-tuning）方法通常需要大量任務特定數據來訓練專用模型。提示（prompting）方法則降低了對大規模數據的依賴，可通過提示工程（prompt engineering）完成特定任務。在這種情況下，盡管少樣本（few-shot）性能有所提升，但零樣本性能仍然較為一般 [7]。相比之下，指令微調學習的是如何泛化到未見任務，而非像前兩者那樣擬合特定任務。此外，指令微調與多任務提示（multi-task prompting）[97] 密切相關。

本節將闡述指令樣本的格式、訓練目標、收集指令數據的典型方法，以及相應的常用數據集。

3.2.2 訓練細節

一個多模態指令樣本通常包含一個可選的指令（instruction）以及一個輸入-輸出對。

指令通常是一個自然語言句子，用于描述任務，例如：“詳細描述這張圖像。”
輸入可以是圖像-文本對（如 VQA 任務 [99]），也可以僅是一張圖像（如圖像描述任務 [100]）。
輸出則是基于輸入條件下對指令的回答。

指令模板具有靈活性，可根據人工設計進行調整 [20]、[25]、[98]，表5中給出了示例。需要注意的是，該指令模板也可推廣至多輪對話場景 [20]、[37]、[71]、[98]。

形式上，一個多模態指令樣本可用三元組表示：(I, M, R)，其中 I、M、R 分別代表指令（instruction）、多模態輸入（multimodal input）和真實回答（ground truth response）。MLLM 在給定指令和多模態輸入的條件下預測一個回答：

此處， A A 表示預測的答案， θ θ 是模型的參數。訓練目標通常是用于訓練大語言模型（LLMs）[20]、[37]、[71]、[101] 的原始自回歸目標，基于此目標，MLLM 被鼓勵預測回答中的下一個 token。該目標可表示為：

其中 N N 是真實回答的長度。

3.2.3 數據收集

由于指令數據在格式上更加靈活、任務表述形式多樣，其數據樣本的收集通常更為棘手且成本更高。本節總結了三種在大規模下獲取指令數據的典型方法：數據適配（data adaptation）、自指令生成（self-instruction）和數據混合（data mixture）。

數據適配（Data Adaptation）
面向特定任務的數據集是高質量數據的豐富來源。因此，大量工作 [60]、[70]、[76]、[82]、[101]–[104] 利用現有的高質量數據集構建指令格式的數據集。以 VQA 數據集的轉換為例：原始樣本是一個輸入-輸出對，其中輸入包含一張圖像和一個自然語言問題，輸出則是基于該圖像對問題的文本回答。這些數據集的輸入-輸出對可自然構成指令樣本中的多模態輸入與響應（參見 §3.2.2）。而指令（即任務描述）可來自人工設計，也可借助 GPT 進行半自動生成。

具體而言，一些工作 [21]、[35]、[60]、[70]、[102]、[105] 手工構建一個候選指令池，并在訓練過程中隨機采樣其中一條。表6展示了 VQA 數據集指令模板的一個示例。另一些工作則手動設計若干種子指令，并以此提示 GPT 生成更多指令 [25]、[82]、[98]。

需要注意的是，由于現有 VQA 和圖像描述數據集的答案通常較為簡潔，直接將其用于指令微調可能會限制 MLLM 的輸出長度。對此，有兩種常見策略：
第一種是在指令中明確指定輸出長度。例如，ChatBridge [104] 對短答案數據明確要求“簡短扼要”，對常規粗粒度描述數據則要求“一句話”或“單句”。
第二種是擴展現有答案的長度 [105]。例如，M3IT [105] 提出通過向 ChatGPT 輸入原始問題、答案以及圖像上下文信息（如描述和 OCR 結果），對原始答案進行改寫，從而生成更長的回答。

自指令生成（Self-Instruction）
盡管現有的多任務數據集可提供豐富的數據來源，但它們通常難以很好地滿足現實場景中的人類需求，例如多輪對話。為解決這一問題，一些工作通過自指令生成方式收集樣本 [106]，即利用 LLM 基于少量人工標注樣本生成文本形式的指令遵循數據。具體做法是：先手工構建若干指令遵循樣本作為示例（demonstrations），然后提示 ChatGPT/GPT-4 以這些示例為引導，生成更多指令樣本。

LLaVA [20] 將該方法擴展到多模態領域：將圖像轉換為包含描述和邊界框的文本，再提示純文本版的 GPT-4，在需求和示例的引導下生成新數據。通過這種方式，構建了一個名為 LLaVA-Instruct-150k 的多模態指令數據集。沿襲這一思路，后續工作如 MiniGPT-4 [21]、ChatBridge [104]、GPT4Tools [107] 和 DetGPT [72] 開發了滿足不同需求的各類數據集。近期，隨著更強大的多模態模型 GPT-4V 的發布，許多工作開始采用 GPT-4V 生成更高質量的數據，例如 LVIS-Instruct4V [91] 和 ALLaVA [92]。我們在表7中匯總了通過自指令生成的流行數據集。

數據混合（Data Mixture）
除了多模態指令數據外，純語言的用戶-助手對話數據也可用于提升模型的對話能力和指令遵循能力 [81]、[98]、[101]、[103]。LaVIN [101] 直接從純語言數據和多模態數據中隨機采樣，構建一個 mini-batch。MultiInstruct [102] 探索了融合單模態與多模態數據的不同訓練策略，包括：混合指令微調（將兩類數據合并后隨機打亂）和順序指令微調（先訓練文本數據，再訓練多模態數據）。

3.2.4 數據質量

近期研究表明，指令微調樣本的數據質量至少與數據量同等重要。Lynx [73] 發現，在大規模但含噪聲的圖像-文本對上預訓練的模型，其性能不如在規模較小但更干凈的數據集上預訓練的模型。類似地，Wei 等人 [108] 發現，使用更少但質量更高的指令微調數據反而能取得更好性能。針對數據過濾，該工作提出了一些評估數據質量的指標，并相應地設計了一種自動剔除低質視覺-語言數據的方法。此處我們討論數據質量的兩個重要方面：

提示多樣性（Prompt Diversity）
已有研究發現，指令的多樣性對模型性能至關重要。Lynx [73] 通過實驗驗證，多樣化的提示有助于提升模型性能和泛化能力。

任務覆蓋范圍（Task Coverage）
關于訓練數據所涵蓋的任務類型，Du 等人 [109] 進行了一項實證研究，發現視覺推理任務在提升模型性能方面優于圖像描述和問答（QA）任務。此外，該研究還指出，提升指令的復雜性可能比增加任務多樣性或引入細粒度空間標注更有益。

3.3 對齊微調（Alignment Tuning） 3.3.1 引言

對齊微調更常用于需要使模型與特定人類偏好對齊的場景，例如生成更少幻覺的回答（參見 §6）。目前，基于人類反饋的強化學習（Reinforcement Learning with Human Feedback, RLHF）和直接偏好優化（Direct Preference Optimization, DPO）是兩種主要的對齊微調技術。本節將依次介紹這兩種技術的核心思想，舉例說明它們如何用于解決實際問題，并最后匯總相關數據集。

3.3.2 訓練細節

RLHF [110]、[111]。該技術旨在利用強化學習算法，使大語言模型（LLMs）與人類偏好對齊，訓練過程中以人類標注作為監督信號。如 InstructGPT [95] 所示，RLHF 包含三個關鍵步驟：

研究人員已探索使用 RLHF 技術以實現更好的多模態對齊。例如，LLaVA-RLHF [112] 收集人類偏好數據，并基于 LLaVA [20] 微調出一個幻覺更少的模型。

DPO [113]。它利用簡單二元分類損失，直接從人類偏好標簽中學習。與基于 PPO 的 RLHF 算法相比，DPO 無需學習顯式的獎勵模型，從而將整個流程簡化為兩個步驟，即：人類偏好數據收集與偏好學習。其學習目標如下：

RLHF-V [114] 通過修正模型回答中的幻覺，收集了細粒度（片段級別）的偏好數據對，并利用所獲得的數據執行密集型 DPO（dense DPO）。Silkie [115] 則通過向 GPT-4V 發送提示來收集偏好數據，并通過 DPO 將這種偏好監督蒸餾到一個經過指令微調的模型中。

3.3.3 數據

對齊微調階段數據收集的核心在于收集對模型回答的反饋，即判斷哪個回答更好。這類數據的收集通常成本更高，且該階段所用數據量一般甚至少于之前的訓練階段。本部分介紹若干相關數據集，并在表8中對其進行匯總。

LLaVA-RLHF [112]：包含 1 萬組（10K）由人類基于誠實性與有用性反饋收集的偏好對。該數據集主要用于減少模型回答中的幻覺問題。
RLHF-V [114]：包含 5700 組（5.7K）細粒度的人類反饋數據，通過片段級別的幻覺修正方式收集。
VLFeedback [115]：利用人工智能（AI）對模型回答提供反饋。該數據集包含超過 38 萬組（380K）比較對，由 GPT-4V 根據有用性、忠實性（faithfulness）和倫理關切進行評分。

4 評估

評估是開發 MLLM 的關鍵環節，因為它為模型優化提供反饋，并有助于比較不同模型的性能。與傳統多模態模型的評估方法相比，MLLM 的評估呈現出若干新特點：(1) 由于 MLLM 通常具有通用性，因此對其進行全面評估至關重要；(2) MLLM 展現出許多涌現能力（如無需 OCR 的數學推理），這些能力需要特別關注，因而要求新的評估方案。

根據問題類型，MLLM 的評估大致可分為兩類：封閉集（closed-set）和開放集（open-set）。

4.1 封閉集

封閉集問題指答案選項預先定義且限定于有限集合的問題。此類評估通常在任務特定的數據集上進行，其回答可自然地通過基準指標進行評判 [20]、[60]、[70]、[76]、[101]–[105]。例如，InstructBLIP [60] 報告了在 ScienceQA [116] 上的準確率，以及在 NoCaps [118] 和 Flickr30K [119] 上的 CIDEr 分數 [117]。

評估設置通常分為零樣本（zero-shot）[60]、[102]、[104]、[105] 或微調（finetuning）[20]、[35]、[60]、[70]、[76]、[101]、[103]、[105]。

前者通常選取覆蓋多種通用任務的廣泛數據集，并將其劃分為“訓練內”（held-in）和“訓練外”（held-out）兩部分：在前者上微調后，在后者上評估零樣本性能，包括未見過的數據集甚至未見過的任務。
后者則常見于領域特定任務的評估。例如，LLaVA [20] 和 LLaMA-Adapter [76] 報告了在 ScienceQA [116] 上的微調性能；LLaVA-Med [35] 則在生物醫學 VQA 數據集 [120]–[122] 上報告結果。

上述評估方法通常局限于少量選定任務或數據集，缺乏全面的定量比較。為此，一些研究致力于開發專為 MLLM 設計的新基準 [123]–[129]。例如：

Fu 等人 [123] 構建了綜合性評估基準 MME，包含共計 14 項感知與認知任務，其中所有指令-回答對均為人工設計，以避免數據泄露；
MMBench [124] 是一個專門用于評估模型多維能力的基準，利用 ChatGPT 將開放回答匹配到預定義選項；
Video-ChatGPT [130] 和 Video-Bench [131] 聚焦視頻領域，提出了專用的基準及評估工具；
還有一些評估策略針對模型的特定方面，例如 POPE [132] 用于評估幻覺程度。

4.2 開放集

與封閉集問題不同，開放集問題的回答更加靈活，MLLM 通常扮演聊天機器人角色。由于對話內容可以任意，其評判比封閉式輸出更為困難。評判標準可分為人工打分、GPT 打分和案例研究。

人工打分要求人類評估生成的回答，通常涉及人工設計的問題，以評估特定維度的能力。例如：

mPLUG-Owl [81] 收集了一個視覺相關評估集，用于評判自然圖像理解、圖表與流程圖理解等能力；
GPT4Tools [107] 分別構建了用于微調和零樣本性能的兩個評估集，并從“思維、行動、論據和整體”四個維度評估回答。

由于人工評估勞動密集，一些研究者探索使用 GPT 進行評分，即GPT 打分。該方法常用于多模態對話性能評估。例如：

LLaVA [20] 提出通過純文本版 GPT-4 從多個維度（如有用性、準確性）對回答打分。具體做法是從 COCO [133] 驗證集中采樣 30 張圖像，每張圖像通過 GPT-4 自指令生成一個簡短問題、一個詳細問題和一個復雜推理問題；將模型和 GPT-4 生成的答案一同送入 GPT-4 進行比較。
后續工作沿用此思路，提示 ChatGPT [81] 或 GPT-4 [35]、[70]、[101]、[104]、[105] 對結果打分 [35]、[70]、[81]、[101]、[104]，或判斷哪個回答更優 [103]。

然而，使用純文本 GPT-4 作為評估器的主要問題是：評判僅基于與圖像相關的文本內容（如描述或邊界框坐標），而無法訪問圖像本身 [35]。因此，在這種情況下將 GPT-4 視為性能上限可能值得商榷。隨著 GPT 視覺接口的發布，一些工作 [77]、[134] 開始利用更先進的 GPT-4V 模型評估 MLLM 性能。例如，Woodpecker [77] 采用 GPT-4V 基于圖像直接評判模型回答的質量。由于 GPT-4V 可直接訪問圖像，預期其評估比純文本 GPT-4 更準確。

案例研究（case study）是一種補充方法，通過具體案例比較不同 MLLM 的能力。例如，一些研究評估了兩種典型的商用先進模型 GPT-4V 和 Gemini：

Yang 等人 [135] 通過在多個領域和任務中精心構造一系列樣本，對 GPT-4V 進行深入定性分析，涵蓋從基礎技能（如圖像描述、物體計數）到需世界知識與推理的復雜任務（如笑話理解、作為具身智能體的室內導航）；
Wen 等人 [136] 通過設計面向自動駕駛場景的樣本，對 GPT-4V 進行更聚焦的評估；
Fu 等人 [137] 通過對 Gemini-Pro 與 GPT-4V 的全面對比評估發現，盡管兩者回答風格不同，但在視覺推理能力上表現相當。

5 擴展

近期研究在拓展 MLLM 能力方面取得了顯著進展，涵蓋從更強的基礎能力到更廣泛的應用場景。我們在此追蹤 MLLM 在這方面的主要發展方向。

粒度支持（Granularity Support）為促進智能體與用戶之間更精細的交互，研究人員開發了在輸入和輸出層面支持更細粒度的 MLLM。在輸入端，支持用戶提示中更精細控制的模型逐步發展，從整圖 → 區域 [28]、[138]、[139] → 甚至像素級別 [29]、[140]、[141]。

具體而言，Shikra [28] 支持區域級輸入與理解，用戶可通過自然語言形式的邊界框指代特定區域，從而更靈活地與助手交互。
Ferret [141] 更進一步，通過設計一種混合表征方案，支持更靈活的指代方式，包括點、框和草圖等多種提示形式。
類似地，Osprey [29] 利用分割模型 [9] 支持點輸入，借助預訓練分割模型的強大能力，用戶只需單擊即可指定某個實體或其部分。

在輸出端，隨著輸入支持的發展，模型的“接地”（grounding）能力也同步提升：

Shikra [28] 支持在回答中通過邊界框標注實現圖像接地，從而獲得更高精度和更精細的指代體驗；
LISA [142] 進一步支持掩碼級（mask-level）的理解與推理，使像素級接地成為可能。

模態支持（Modality Support）增強對多模態的支持是 MLLM 研究的一個趨勢。一方面，研究者探索讓 MLLM 支持更多類型的輸入模態，如 3D 點云 [41]、[143]–[145]；另一方面，MLLM 也被擴展至能生成更多類型的輸出模態，如圖像 [32]、[146]–[148]、音頻 [32]、[147]、[149]、[150] 和視頻 [32]、[151]。例如，NExT-GPT [32] 提出一個支持混合模態輸入與輸出的框架，在 MLLM 基礎上附加擴散模型 [152]、[153]，實現文本、圖像、音頻和視頻的任意組合。該框架采用編碼器-解碼器架構，并以 LLM 作為理解和推理的核心樞紐。

語言支持（Language Support）當前模型主要為單語（尤其是英語），可能是因為高質量的非英語訓練語料稀缺。一些工作致力于開發多語言模型，以覆蓋更廣泛的用戶群體。

VisCPM [33] 通過設計多階段訓練方案，將模型能力遷移至多語言環境：以英語為樞紐語言（因其語料豐富），利用預訓練的雙語 LLM，在指令微調階段加入翻譯樣本，將多模態能力遷移到中文。
類似地，Qwen-VL [34] 基于雙語 LLM Qwen [58] 開發，支持中英雙語。在預訓練階段，中文數據被混入訓練語料以保留雙語能力，占總數據量的 22.7%。

場景/任務擴展（Scenario/Task Extension）除開發通用助手外，一些研究聚焦于需考慮實際條件的特定場景，另一些則將 MLLM 擴展至具備專業能力的下游任務。

一個典型趨勢是將 MLLM 適配到更具體的現實場景：

MobileVLM [63] 探索開發小型 MLLM 變體，適用于資源受限環境，采用小規模 LLM 和量化技術以加速移動端部署。
其他工作開發能與現實世界交互的智能體，例如專為圖形用戶界面（GUI）設計的友好助手，如 CogAgent [44]、AppAgent [43] 和 Mobile-Agent [45]。這些助手擅長規劃并逐步引導用戶完成指定任務，成為人機交互中的得力代理。

另一方向是為 MLLM 注入特定領域技能，以解決不同領域的任務，例如文檔理解[38]、[39]、[156]、[157] 和醫療領域[35]、[36]、[37]：

在文檔理解方面，mPLUG-DocOwl [38] 利用多種文檔級數據進行微調，提升了無需 OCR 的文檔理解能力；
TextMonkey [39] 整合多項文檔理解相關任務以提升模型性能，除常規文檔圖像和場景文本數據集外，還引入位置相關任務，以減少幻覺并幫助模型學會基于視覺信息生成接地的回答。

MLLM 也可通過注入醫學知識擴展至醫療領域。例如，LLaVA-Med [158] 在基礎 LLaVA [20] 中注入醫學知識，開發出專精于醫學圖像理解和問答的助手。

6 多模態幻覺

多模態幻覺（Multimodal hallucination）是指 MLLM 生成的回答與圖像內容不一致的現象 [77]。作為一個基礎且重要的問題，該問題已受到越來越多的關注。本節將簡要介紹相關概念及研究進展。

6.1 預備知識

當前關于多模態幻覺的研究可進一步分為三類 [159]：

存在性幻覺（Existence Hallucination）是最基本的形式，指模型錯誤地聲稱圖像中存在某些實際上并不存在的物體。
屬性幻覺（Attribute Hallucination）指對某些物體的屬性描述錯誤，例如未能正確識別狗的顏色。這類幻覺通常與存在性幻覺相關，因為屬性描述應基于圖像中實際存在的物體。
關系幻覺（Relationship Hallucination）是一種更復雜的類型，同樣以物體的存在為前提，指對物體之間關系（如相對位置或交互）的錯誤描述。

接下來，我們首先介紹一些具體的評估方法（§6.2），這些方法有助于衡量緩解幻覺方法的性能（§6.3）。隨后，我們將根據主要類別，詳細討論當前減少幻覺的方法。

6.2 評估方法

CHAIR [160]是一種早期用于評估開放式圖像描述中幻覺程度的指標。該指標衡量所有提及物體中包含幻覺物體的句子比例，或幻覺物體在全部提及物體中的占比。

相比之下，POPE [132]是一種評估封閉集選擇的方案。具體而言，它構建多個二元選擇提示，每個提示詢問圖像中是否存在某個特定物體。該方法還涵蓋更具挑戰性的設置，以評估 MLLM 的魯棒性，并考慮了數據統計特性。最終評估采用簡單的關鍵詞檢測機制——即通過識別回答中的“yes/no”關鍵詞——將開放式回答轉換為封閉式的二元選擇。

采用類似評估思路，MME [123]提供了更全面的評估，涵蓋存在性、數量、位置和顏色等方面，如 [77] 中所示。

與以往依賴匹配機制來檢測和判定幻覺的方法不同，HaELM [161]提出使用純文本 LLM 作為評判者，自動判斷 MLLM 生成的描述是否與參考描述一致。然而，鑒于純文本 LLM 只能訪問有限的圖像上下文且依賴參考標注，Woodpecker [77]改用 GPT-4V 直接基于圖像對模型回答進行評估。

FaithScore [162]是一種更細粒度的指標，其流程將描述性子句分解，并對每個子句單獨評估。

基于前述研究，AMBER [163]是一個無需 LLM 的基準測試，同時包含判別式任務和生成式任務，并涵蓋上述三種可能的幻覺類型（見 §6.1）。

6.3 緩解方法

根據高層思路，當前的方法大致可分為三類：預修正（pre-correction）、過程內修正（in-process-correction）和后修正（post-correction）。

預修正（Pre-correction）緩解幻覺的一種直觀且直接的解決方案是收集專門的數據（例如負樣本數據），并利用這些數據進行微調，從而獲得生成更少幻覺回答的模型。

LRV-Instruction [164]引入了一個視覺指令微調數據集。除常見的正向指令外，該數據集還精心設計了不同語義層級的負向指令，以鼓勵模型生成忠實于圖像內容的回答。
LLaVA-RLHF [112]收集人類偏好對，并采用強化學習技術對模型進行微調，使模型更傾向于生成幻覺更少的回答。

過程內修正（In-process-correction）另一類方法是在架構設計或特征表征層面進行改進。這些工作試圖探究幻覺產生的原因，并在生成過程中設計相應的補救措施以減輕幻覺。

HallE-Switch [159]對物體存在性幻覺的可能因素進行了實證分析，并假設存在性幻覺源于視覺編碼器未能接地的物體，而這些物體實際上是基于 LLM 中嵌入的知識推斷出來的。基于這一假設，該方法引入了一個連續控制因子及相應的訓練方案，以在推理過程中控制模型輸出的“想象力”程度。
VCD [165]認為物體幻覺主要源于兩個原因：訓練語料中的統計偏差和 LLM 中嵌入的強語言先驗。作者注意到，當向圖像注入噪聲時，MLLM 傾向于依賴語言先驗而非圖像內容生成回答，從而導致幻覺。相應地，該工作設計了一種“先放大再對比”（amplify-then-contrast）的解碼方案，以抵消這種錯誤偏差。
HACL [166]研究了視覺與語言的嵌入空間。基于觀察結果，該方法設計了一種對比學習方案：將配對的跨模態表征拉近，同時將非幻覺文本表征與幻覺文本表征推開。

后修正（Post-correction）與前述范式不同，后修正以事后補救的方式緩解幻覺，在輸出生成之后對其進行修正。

Woodpecker [77]是一個無需訓練的通用幻覺修正框架。具體而言，該方法引入專家模型以補充圖像的上下文信息，并構建一個多步驟流水線逐步修正幻覺。該方法具有可解釋性，因為每一步的中間結果均可檢查，且物體均在圖像中實現接地。
另一種方法LURE [167]訓練了一個專用的修正器（revisor），用于遮蔽描述中不確定性較高的物體，并重新生成回答。

7 擴展技術

7.1 多模態上下文學習（Multimodal In-Context Learning, M-ICL）

上下文學習（ICL）是 LLM 的一項重要涌現能力。ICL 具有兩個顯著優點：(1) 與傳統監督學習范式（從大量數據中學習隱式模式）不同，ICL 的核心在于類比學習（learning from analogy）[168]。具體而言，在 ICL 設置下，LLM 從少量示例（以及可選的指令）中學習，并外推至新問題，從而以少樣本方式解決復雜且未見過的任務 [22]、[169]、[170]。(2) ICL 通常以無需訓練（training-free）的方式實現 [168]，因此可在推理階段靈活集成到不同框架中。

與 ICL 密切相關的技術是指令微調（見 §3.2），實證表明指令微調可增強模型的 ICL 能力 [19]。

在 MLLM 的背景下，ICL 已被擴展至更多模態，形成了多模態上下文學習（Multimodal ICL, M-ICL）。基于 §3.2 中的設置，在推理時，M-ICL 可通過向原始樣本添加一個演示集（demonstration set，即一組上下文內樣本）來實現。此時，模板可如表9所示進行擴展。需要注意的是，此處僅列出兩個上下文示例用于說明，但示例的數量和順序可靈活調整。事實上，模型通常對演示的排列方式較為敏感 [168]、[171]。

7.1.1 ICL 能力的提升

近期，越來越多的工作聚焦于在各種場景下提升 ICL 性能。本節追蹤該領域的發展并總結相關工作。

MIMIC-IT [172]將上下文學習與指令微調結合，構建了一個包含多模態上下文的指令數據集。在該數據集上進行指令微調的模型在圖像描述任務中展現出更優的少樣本性能。
Emu [173]延續 Flamingo [74] 的思路，通過在模型生成和相應訓練語料中引入額外模態進行擴展。借助引入的視覺解碼器（即 Stable Diffusion），模型從額外的視覺監督中學習，并支持更靈活的輸出格式和上下文推理。具體而言，除純文本回答外，模型還能以圖像形式給出響應。
Sheng 等人 [174]采用類似思路，嘗試將輸出模態擴展至文本和圖像。與采用專用圖像編碼器不同，該工作采用統一的量化方案和共享嵌入層。

其他一些工作則探索在特定設置下提升少樣本學習性能：

Link-context learning [175]聚焦于強化圖像-標簽對之間的因果聯系，通過構建正負圖像-描述對，設計了一種對比訓練方案。
MMICL [176]旨在增強模型對多個相關圖像的推理能力。為加強圖像與文本的關聯，該工作提出一種上下文方案，將交錯的圖像-文本數據轉換為統一格式。
Jeong [177]發現，當插入少量不連貫的圖像/文本作為噪聲時，MLLM 可能被誤導，生成與上下文不一致的回答。基于此觀察，該工作提出一種預過濾方法，以移除無關上下文，促進更連貫的回答。

7.1.2 應用

在多模態應用中，M-ICL 主要用于兩類場景：(1) 解決各類視覺推理任務 [22]、[74]、[178]–[180]；(2) 教會 LLM 使用外部工具 [169]、[170]、[181]。

前者通常涉及從少量任務特定示例中學習，并泛化到新的但相似的問題。通過指令和演示提供的信息，LLM 能理解任務目標和輸出模板，最終生成預期答案。相比之下，工具使用的示例更為細粒度，通常包含一系列可順序執行以完成任務的步驟。因此，第二種場景與思維鏈（CoT，見 §7.2）密切相關。

7.2 多模態思維鏈（Multimodal Chain of Thought, M-CoT）

正如開創性工作 [8] 所指出，CoT 是“一系列中間推理步驟”，已被證明在復雜推理任務中有效 [8]、[182]、[183]。CoT 的核心思想是提示 LLM 不僅輸出最終答案，還輸出通向答案的推理過程，模擬人類的認知過程。

受 NLP 中 CoT 成功的啟發，多項工作 [184]–[187] 提出將單模態 CoT 擴展至多模態思維鏈（M-CoT）。我們首先介紹獲取 M-CoT 能力的不同范式（§7.2.1），隨后詳細闡述 M-CoT 的具體方面，包括鏈式結構（§7.2.2）和生成模式（§7.2.3）。

7.2.1 學習范式

學習范式也是值得研究的一個方面。獲取 M-CoT 能力大致有三種方式：微調、少樣本學習和零樣本學習（均無需額外訓練）。這三種方式對樣本量的需求依次遞減。

直觀上，微調方法通常需要構建特定的 M-CoT 學習數據集。例如：

Lu 等人 [116] 構建了科學問答數據集 ScienceQA，其中包含講解和解釋，可作為 CoT 推理的學習來源，并在該數據集上微調模型；
Multimodal-CoT [185] 同樣使用 ScienceQA 基準，但以兩步方式生成輸出：先生成推理步驟（rationale），再基于 rationale 生成最終答案；
CoT-PT [187] 通過提示微調與步驟特定的視覺偏置相結合，學習隱式的推理鏈。

與微調相比，少樣本/零樣本學習計算效率更高。兩者的主要區別在于：少樣本學習通常需要手工構建一些上下文示例，使模型更容易學會逐步推理；而零樣本學習則無需任何特定示例。在此情況下，模型通過提示設計好的指令（如 “Let’s think frame by frame” 或 “What happened between these two keyframes” [184]、[186]）利用內嵌知識和推理能力，無需顯式指導。類似地，一些工作 [22]、[188] 通過任務和工具使用的描述提示模型，將復雜任務分解為子任務。

7.2.2 鏈式結構

推理鏈的結構和長度是兩個關鍵方面。

在結構上，現有方法可分為單鏈樹形鏈。單鏈推理是各類方法中廣泛采用的范式 [116]、[185]，其逐步推理過程形成單一的“問題-推理-答案”鏈。近期，一些方法探索使用更復雜的樹形鏈進行推理：DDCoT [189] 將問題分解為多個子問題，每個子問題由 LLM 自身或視覺專家求解以生成推理步驟，隨后 LLM 聚合并推理這些步驟以形成最終答案。
在長度上，可分為自適應預定義兩種形式。前者要求 LLM 自行決定何時終止推理鏈 [22]、[116]、[169]、[170]、[185]、[188]；后者則在預設長度處停止推理鏈 [79]、[184]、[186]、[187]。

7.2.3 生成模式

如何構建推理鏈是一個值得研究的問題。我們將現有工作歸納為兩類：(1)填空式模式（infilling-based pattern）：要求根據上下文（前序和后序步驟）推斷中間步驟，以填補邏輯空白 [184]、[186]；(2)預測式模式（predicting-based pattern）：要求在給定條件（如指令和先前推理歷史）下擴展推理鏈 [22]、[116]、[169]、[170]、[185]、[188]。

這兩類模式均要求生成的步驟保持一致性和正確性。

7.3 大語言模型輔助的視覺推理（LLM-Aided Visual Reasoning） 7.3.1 引言

受工具增強型大語言模型（tool-augmented LLMs）成功經驗的啟發 [190]–[193]，一些研究探索了在視覺推理任務中調用外部工具[22]、[107]、[169]、[170] 或視覺基礎模型[22]、[79]、[80]、[188]、[194]–[196] 的可能性。這些工作將 LLM 視為具有不同角色的助手，構建了面向特定任務的 [79]、[197]、[198] 或通用目的的 [22]、[169]、[170]、[181]、[188] 視覺推理系統。

與傳統視覺推理模型 [199]–[201] 相比，這些方法展現出若干優勢：
(1)強大的泛化能力：得益于從大規模預訓練中獲得的豐富開放世界知識，這些系統能輕松泛化到未見過的物體或概念，并在零樣本/少樣本設置下表現出色 [169]、[170]、[195]、[197]、[198]、[202]；
(2)涌現能力：借助 LLM 強大的推理能力，這些系統可執行復雜任務。例如，給定一張圖像，MM-ReAct [22] 能解讀表層之下的含義，如解釋一則網絡迷因為何好笑；
(3)更好的交互性與可控性：傳統模型通常僅支持有限的控制機制，且往往需要昂貴的人工標注數據集 [203]、[204]；相比之下，基于 LLM 的系統能在用戶友好的界面中實現精細控制（如點擊操作和自然語言查詢）[79]。

本部分首先介紹構建 LLM 輔助視覺推理系統所采用的不同訓練范式（§7.3.2），隨后深入探討 LLM 在這些系統中扮演的主要角色（§7.3.3）。

7.3.2 訓練范式

根據訓練方式，LLM 輔助的視覺推理系統可分為兩類：無需訓練（training-free）和微調（finetuning）。

無需訓練（Training-free）
由于預訓練 LLM 中已存儲大量先驗知識，一種直觀且簡單的方法是凍結預訓練模型，直接通過提示（prompting）讓 LLM 滿足各種需求。在此設定下，推理系統可進一步分為少樣本模型[22]、[169]、[170]、[181] 和零樣本模型[79]、[197]。

少樣本模型包含少量人工設計的上下文內樣本（見 §7.1），用于引導 LLM 生成程序或一系列執行步驟。這些程序或步驟作為指令，供相應的基礎模型或外部工具/模塊使用。
零樣本模型更進一步，直接利用 LLM 的語言/語義知識或推理能力。例如：
- PointCLIP V2 [197] 通過提示 GPT-3 生成包含 3D 語義的描述，以更好地與對應圖像對齊；
- 在 CAT [79] 中，LLM 根據用戶查詢對圖像描述進行優化。

微調（Finetuning）
一些工作采用進一步微調，以提升系統在工具使用規劃能力[107] 或定位能力[142]、[205] 方面的表現。例如，GPT4Tools [107] 引入了指令微調方法（見 §3.2），相應地收集了一個新的工具相關指令數據集，并用于模型微調。

7.3.3 功能角色

為進一步考察 LLM 在 LLM 輔助視覺推理系統中具體扮演的角色，現有相關工作可分為三類：

LLM 作為控制器（LLM as a Controller）
LLM 作為決策者（LLM as a Decision Maker）
LLM 作為語義優化器（LLM as a Semantics Refiner）

前兩種角色與思維鏈（CoT，見 §7.2）相關。這種劃分被頻繁采用，是因為復雜任務需要被分解為若干中間的簡單步驟。當 LLM 充當控制器時，系統通常在單輪內完成任務；而當 LLM 充當決策者時，則更常采用多輪交互方式。下文將詳細闡述 LLM 如何履行這些角色。

LLM 作為控制器（LLM as a Controller）在此情形下，LLM 充當一個中央控制器，其功能包括：(1) 將復雜任務分解為更簡單的子任務/步驟；(2) 將這些子任務分配給合適的工具或模塊。第一步通常借助 LLM 的 CoT 能力實現。具體而言，通過明確提示 LLM 輸出任務規劃 [181]，或更直接地輸出需調用的模塊 [107]、[169]、[170]。例如，VisProg [170] 提示 GPT-3 輸出一個視覺程序，其中每一行程序調用一個模塊來執行一個子任務。此外，LLM 還需為模塊輸入輸出參數名稱。為應對這些復雜要求，通常使用人工設計的上下文示例作為參考 [169]、[170]、[181]。這與推理鏈的優化密切相關（見 §7.2），更具體地說，屬于“由簡到繁提示”（least-to-most prompting）[206] 技術：通過該方式，復雜問題被分解為可依次求解的子問題。

LLM 作為決策者（LLM as a Decision Maker）在此情形下，復雜任務以多輪方式求解，通常采用迭代形式 [195]。作為決策者，LLM 通常承擔以下職責：(1) 匯總當前上下文與歷史信息，并判斷當前步驟所獲得的信息是否足以回答問題或完成任務；(2) 組織并總結答案，以用戶友好的方式呈現。

LLM 作為語義優化器（LLM as a Semantics Refiner）當 LLM 被用作語義優化器時，研究者主要利用其豐富的語言與語義知識。具體而言，LLM 常被指示將信息整合為連貫流暢的自然語言句子 [202]，或根據不同的特定需求生成文本 [79]、[197]、[198]。

8 挑戰與未來方向

MLLM 的發展仍處于初級階段，因此仍有大量改進空間，我們總結如下：

當前 MLLM 在處理長上下文多模態信息方面能力有限。這限制了支持更多模態 token 的高級模型的發展，例如長視頻理解、圖文交錯的長文檔處理等。
MLLM 應被升級以遵循更復雜的指令。例如，目前生成高質量問答對數據的主流方法仍是提示閉源的 GPT-4V，因其具備先進的指令跟隨能力；而其他模型通常難以達到類似效果。
在 M-ICL 和 M-CoT 等技術上仍有巨大提升空間。當前針對這兩種技術的研究仍處于初步階段，MLLM 相關能力較弱。因此，對底層機制的探索及潛在性能提升前景廣闊。
基于 MLLM 開發具身智能體（embodied agents）是一個熱門話題。開發能與真實世界交互的此類智能體具有重要意義。這類努力需要模型具備關鍵能力，包括感知、推理、規劃與執行。
安全性問題。與 LLM 類似，MLLM 也可能易受精心設計的攻擊 [177]、[207]、[208]。換言之，MLLM 可能被誤導輸出帶有偏見或不期望的回應。因此，提升模型安全性將成為一個重要課題。

9 結論

在本文中，我們對現有的 MLLM 文獻進行了綜述，并提供了其主要研究方向的全面概覽，包括基礎方案及相關擴展。此外，我們強調了當前研究中存在的空白領域，并指出了若干有前景的研究方向。我們希望本綜述能為讀者提供關于 MLLM 當前進展的清晰圖景，并激發更多后續研究工作。

原文鏈接：https://arxiv.org/pdf/2306.13549

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.