網易首頁 > 網易號 > 正文申請入駐

綜述：多模態大型語言模型

2026-01-17 10:26:45　來源: CreateAMind

上海舉報

分享至

多模態大型語言模型：綜述

Multimodal Large Language Models : A Survey

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5314015

摘要：

多模態大語言模型（Multimodal Large Language Models, MLLMs）代表了人工智能領域的一項重大進展，其將文本、圖像、音頻和視頻等多種模態整合到一個統一的框架中。本綜述全面概述了MLLMs，考察了其模型架構、訓練方法、應用場景及所面臨的挑戰。我們探討了實現跨模態能力的基礎技術，包括自監督學習（Self-Supervised Learning, SSL）、混合專家模型（Mixture of Experts, MoE）、基于人類反饋的強化學習（Reinforcement Learning from Human Feedback, RLHF）以及思維鏈（Chain-of-Thought, CoT）提示等。此外，本文還梳理了MLLMs的發展歷程，重點介紹了關鍵模型及其對領域的貢獻。綜述同時討論了MLLMs當前的局限性與未來發展方向，強調了開發高效、可解釋且具有良好泛化能力模型的必要性。

關鍵詞：多模態大語言模型，視覺語言模型，大語言模型，自監督學習，混合專家模型，基于人類反饋的強化學習，思維鏈提示，跨模態能力，模型架構，訓練方法，應用，挑戰，未來方向。

引言
人工智能（AI）領域隨著大語言模型（Large Language Models, LLMs）的發展取得了顯著進展，例如GPT-3和BERT等模型在理解和生成人類語言方面展現出卓越的能力［1］。這些模型主要聚焦于基于文本的任務，在自然語言處理（NLP）應用中表現優異，如文本生成、情感分析和語言翻譯等。然而，其對文本的單一關注限制了它們在現實場景中的適用性——現實場景通常涉及多種模態，如圖像、音頻和視頻。

為應對這些局限性，多模態大語言模型（Multimodal Large Language Models, MLLMs）的研發已成為一個關鍵研究方向。這類模型旨在通過將文本、視覺內容，甚至音頻和視頻整合到一個統一的框架中，彌合不同數據類型之間的鴻溝。通過融合來自多種模態的信息，MLLMs能夠提供更全面的理解與生成能力，從而適用于更廣泛的應用場景［2］。例如，視覺問答、圖像描述生成和多模態對話系統等任務均受益于MLLMs處理和理解多模態數據的能力，不僅提升了模型響應的質量，也增強了交互式人工智能系統中的用戶體驗［3］。

MLLMs利用先進的架構和訓練技術來應對多模態數據的復雜性。諸如Transformer和視覺Transformer（Vision Transformers, ViTs）等架構已被改進以同時處理文本和圖像數據，使模型能夠理解不同模態之間的關聯［4］。此外，自監督學習（Self-Supervised Learning, SSL）和對比學習（contrastive learning）等技術被用于在大規模多模態數據集上對模型進行預訓練，從而提升其在各類任務中的泛化能力［5］。

盡管潛力巨大，MLLMs在實現廣泛應用之前仍面臨若干挑戰。其中一個主要障礙是缺乏大規模、多樣化且高質量的多模態數據集，而這類數據集對于訓練能夠理解并處理多種信息來源的模型至關重要。此外，MLLMs的訓練還面臨高昂的計算成本問題，因為高效處理多模態數據需要大量計算資源。再者，模型的可解釋性與公平性仍是關鍵關切點，尤其是在醫療健康和自動駕駛等敏感領域部署時尤為突出［6］。

架構基礎

多模態大語言模型（Multimodal Large Language Models, MLLMs）的架構在高效整合與處理跨模態數據方面起著至關重要的作用。這些模型需要專門設計的架構，以應對多模態學習中固有的復雜性。下文將討論已成為MLLMs發展核心的關鍵架構基礎。

基于Transformer的架構

Transformer已成為自然語言處理（NLP）和計算機視覺（CV）領域眾多最先進模型的骨干架構。最初由Vaswani等人提出用于機器翻譯［7］，Transformer依賴于自注意力機制，使模型能夠根據輸入序列中不同部分的重要性進行加權，而不受其位置限制。該架構在處理序列數據方面極為有效，并顯著推動了多模態模型的發展。

在MLLMs的背景下，Transformer通過提供一個可擴展且靈活的框架，促進了不同模態的融合。例如，Radford等人提出的CLIP模型（Contrastive Language–Image Pretraining）利用Transformer將視覺和文本信息投影到一個共享的潛在空間中，從而實現圖像與文本的對齊，支持零樣本圖像分類和圖文檢索等任務。CLIP等基于Transformer的架構所取得的成功，凸顯了其通過統一表征處理和理解多模態數據的潛力，并展示了其在圖像描述生成、視覺問答和跨模態檢索等多模態任務中的強大能力。

此外，Transformer還具備良好的可擴展性，使其能夠利用大規模數據集進行預訓練和微調，這對于MLLMs在多樣化任務上實現高性能至關重要。掩碼語言建模（masked language modeling）和對比學習（contrastive learning）等方法的引入，進一步拓展了Transformer從海量非結構化數據中學習的能力，增強了其多模態學習性能。

視覺Transformer（Vision Transformers, ViTs）

視覺Transformer（ViTs）通過將圖像建模為圖像塊（patches）序列，為圖像數據處理提供了一種新穎的方法——這與Transformer處理文本的方式類似。起初，卷積神經網絡（CNNs）主導了圖像相關任務，但ViTs通過捕捉圖像塊之間的長程依賴關系，在圖像分類及其他計算機視覺任務中展現出卓越的性能［4］。

與CNN相比，ViTs具有顯著優勢，尤其是在建模圖像中相距較遠區域之間的全局關系方面。通過將圖像塊視為序列，ViTs能夠學習比傳統基于卷積的方法更豐富的表征，從而在需要捕捉復雜視覺模式的任務中實現更優性能。

在MLLMs的背景下，ViTs在處理和理解視覺信息方面發揮著關鍵作用，使得文本輸入能夠以提升整體多模態理解的方式被整合進來。例如，視覺-語言Transformer（Vision-and-Language Transformer, ViLT）等模型利用視覺Transformer同時處理圖像和文本輸入，從而在圖像描述生成、視覺問答和視覺推理等任務上取得改進［8］。ViTs能夠無縫集成到多模態框架中，顯著提升了模型的整體效能，尤其在處理高分辨率圖像和更復雜的視覺數據時表現突出。

統一架構
近期的進展催生了能夠在單一框架內同時處理多種模態的統一架構。這些架構旨在跨模態共享表征，并采用交叉注意力（cross-attention）等機制，對來自圖像、文本甚至音頻等不同來源的信息進行對齊與融合。統一架構在需要多模態推理與理解的復雜任務中，有望生成更加連貫且具備上下文感知能力的輸出。

例如，Flamingo 和 Gemini 等模型采用共享表征，在單一模型中處理多模態輸入，并利用交叉注意力機制實現跨模態特征的對齊。特別是 Flamingo，它利用少樣本學習（few-shot learning）以極少的監督信息快速適應新任務，從而有效實現對多種模態的理解與推理［9］。這類統一架構在多模態對話系統、圖文檢索和跨模態推理等任務中，促進了更自然、更具上下文感知能力的交互。

統一架構不僅增強了模型的多模態能力，還減少了為每種模態單獨構建模型的需求。這使其在現實世界應用中尤為具有吸引力——在這些應用中，高效整合多模態數據對于系統成功至關重要。例如，OpenAI 的 GPT-4 能夠同時處理文本和圖像，充分展示了統一架構在彌合視覺與語言處理之間鴻溝方面的有效性［10］。

訓練方法

多模態大語言模型（Multimodal Large Language Models, MLLMs）的訓練涉及一系列復雜的方法論，使這些模型能夠有效處理并融合來自多種模態（如文本、圖像和音頻）的數據。這些訓練技術在提升MLLMs的性能、可擴展性和效率方面發揮了關鍵作用。以下各節將討論在MLLMs開發中應用的一些核心訓練方法。

自監督學習（Self-Supervised Learning, SSL）
自監督學習（SSL）已成為一種無需標注數據即可高效訓練模型的技術。該方法對MLLMs尤其有益，因為MLLMs需要處理大規模多模態數據集，而為這些數據集進行人工標注往往耗時且昂貴。在SSL中，模型通過輸入數據的一部分來預測另一部分，從而構建一個不依賴顯式標簽的預設任務（pretext task）。

在MLLMs的背景下，SSL使模型能夠利用數據內在的結構，學習到豐富且高層次的表征。例如，在視覺-語言模型中，對比學習（contrastive learning）等SSL技術允許模型通過預測不同模態之間的關系，學習圖像與文本描述之間的關聯［1］。這種方法對于在大量未標注數據上預訓練MLLMs至關重要，使其能夠理解復雜的多模態關系，并在極少監督的情況下適應新任務。CLIP和SimCLR的成功便是SSL技術應用于視覺-語言融合的典型范例，這些模型能夠從海量未標注的視覺和文本數據中有效學習［4］。

混合專家模型（Mixture of Experts, MoE）混合專家模型（MoE）是一種在神經網絡中引入動態路由機制的技術，其中針對每個輸入僅激活模型參數的一個子集——即所謂的“專家”。這種方法在保持模型學習復雜表征能力的同時，顯著降低了大規模模型的訓練計算成本。MoE 對多模態模型尤其有益，因為融合多種模態通常需要龐大的模型架構。

在 MLLMs 中，MoE 通過為不同類型輸入（如文本、圖像或音頻）激活不同的參數子集，實現了高效的模型擴展。這種動態路由機制使 MLLMs 能夠更高效地處理多模態數據，同時不犧牲性能［11］。例如，在 Switch Transformers——一種先進的 MoE 模型中——每個輸入僅激活少數專家，大幅降低了計算需求，同時仍能勝任圖像描述生成、跨模態檢索和多模態推理等復雜任務［12］。這類模型在處理多模態數據方面取得了顯著成果，同時提升了訓練效率和推理速度。

基于人類反饋的強化學習（Reinforcement Learning from Human Feedback, RLHF）

基于人類反饋的強化學習（RLHF）是一種利用人類評估者提供的反饋對模型進行微調的技術。該方法使模型能夠更好地與人類偏好對齊，特別適用于模型輸出需符合主觀人類判斷的應用場景。對于 MLLMs 而言，RLHF 可用于預訓練后的精調階段，確保生成的響應在語境上恰當，并符合用戶預期。

在實踐中，RLHF 通常由人類評估者對模型輸出的質量進行評分，這些評分隨后作為強化學習的反饋信號。這一反饋閉環使模型逐步學會生成更準確、更接近人類表達的響應。例如，GPT-3 及類似模型已采用 RLHF 來優化特定任務的響應，如在多模態對話系統中生成相關答案，或改進圖像描述的生成質量［13］。在醫療或客戶服務等高風險領域，融入人類反饋至關重要，因為在這些場景中，生成恰當、富有同理心且具備上下文感知能力的回應具有極高價值。

思維鏈提示（Chain-of-Thought, CoT Prompting）

思維鏈提示（CoT）是一種鼓勵模型在得出最終答案前生成中間推理步驟的技術。該方法提升了 MLLMs 在解決需要邏輯推理或多步問題求解的復雜任務時的可解釋性與可靠性。通過生成中間步驟，模型能夠清晰展現其推理過程，使人們更容易追溯并理解其結論的形成路徑。

在實踐中，CoT 提示在多模態推理任務中尤為有效，例如視覺問答（Visual Question Answering, VQA）或多模態對話，這些任務要求模型同時處理并推理來自文本和圖像的信息。近期關于 CoT 提示的研究表明，將推理過程分解為更小的步驟，能夠顯著提升模型在涉及邏輯推理和復雜問題求解任務中的表現［14］。此外，思維鏈推理增強了模型輸出的透明度，這對于醫療或自動駕駛等需要高度決策可問責性的應用場景至關重要［15］。

應用多模態大語言模型（Multimodal Large Language Models, MLLMs）通過整合與處理來自多種模態的信息，在眾多領域展現出顯著進展。其處理并融合文本、圖像、音頻和視頻的能力，使其在從視覺問答（Visual Question Answering, VQA）到跨模態檢索（Cross-Modal Retrieval）等多樣化應用中表現出色。以下各節將討論MLLMs產生重大影響的關鍵應用場景。

視覺問答（Visual Question Answering, VQA）

視覺問答任務要求模型基于視覺輸入（如圖像或視頻）回答相關問題。在該領域，MLLMs通過融合視覺與文本信息，生成更準確且語境相關的答案，取得了顯著進展。傳統的單模態模型（例如僅處理文本或僅處理圖像的模型）難以捕捉兩種模態之間的關聯；而MLLMs能夠同時處理這兩種模態，從而更深入地理解問題及其對應的視覺內容。

例如，在VQA任務中，VQAv2等模型利用圖像中的視覺上下文和問題中的文本上下文，生成更符合人類推理邏輯的答案［16］。此外，VilBERT和LXMERT等模型被專門設計用于學習視覺與語言的聯合表征，通過交叉注意力機制將視覺特征與相應的文本信息對齊，進一步提升了圖像描述生成和VQA等任務的性能［17］。這一能力在輔助技術等領域尤為有用——用戶可就圖像提出問題，模型需結合圖像內容與自然語言理解來作答。

圖像描述生成（Image Captioning）

在圖像描述生成任務中，MLLMs通過理解圖像的視覺內容并以自然語言表達出來，生成具有描述性的圖像標題。該能力具有廣泛的應用價值，尤其適用于需要對視覺數據進行自動解讀的場景。MLLMs可通過生成詳細圖像描述來提升無障礙訪問水平，幫助視障人士更好地理解圖像內容［18］。

此外，基于內容的圖像檢索系統也因多模態模型的引入而受益。例如，搜索引擎和多媒體平臺可利用圖像描述功能，使用戶能夠通過文本查詢搜索圖像，從而提升用戶體驗和檢索準確性［19］。Show and Tell 和 Att2in 等模型通過結合卷積神經網絡（CNNs）進行視覺特征提取與循環神經網絡（RNNs）生成連貫且語境準確的描述，推動了該領域的發展。此外，基于Transformer的新架構進一步提升了生成描述的流暢性與相關性［1］。

多模態對話系統（Multimodal Dialogue Systems）

多模態對話系統旨在通過融合語音、文本和視覺輸入等多種模態，實現人機之間更自然、直觀的交互。這類系統支持更具上下文感知能力的互動：模型可處理并整合來自不同通道的輸入，生成更連貫、準確的響應。MLLMs在此類系統中尤為有效，因為它們能夠綜合考慮交互的完整上下文，不僅包括文本或聽覺數據，還涵蓋面部表情、手勢和環境背景等視覺線索［20］。

例如，具備多模態能力的語音助手（如亞馬遜Alexa和谷歌助手）如今能夠處理同時涉及語音和視覺元素的指令。這些系統可以理解用戶針對其視覺環境中物體提出的口頭查詢，并生成融合了語音語言與視覺反饋的響應。多模態能力的集成顯著提升了人機交互（Human-Computer Interaction, HCI）體驗，使系統更具動態性和上下文感知能力，這對于醫療、教育和客戶服務等領域的應用至關重要［21］。

跨模態檢索（Cross-Modal Retrieval）
跨模態檢索指在不同模態之間進行信息搜索，例如根據文本查詢檢索圖像，或反之亦然。該任務要求MLLMs學習模態間的共享表征，從而彌合不同類型數據（如文本到圖像或圖像到文本檢索）之間的鴻溝。MLLMs在此場景中極為有效，因為它們能夠在統一的特征空間中對視覺和文本信息進行編碼，即使查詢與目標數據屬于不同模態，也能實現精準檢索。

例如，在文本到圖像檢索中，用戶輸入一段文字描述，系統即可返回匹配該查詢的圖像；而在圖像到文本檢索中，用戶上傳一張圖像，系統則返回相應的文字描述或相關文檔列表。CLIP和VisualBERT等模型通過采用共享的視覺-語言編碼器來學習此類跨模態表征，徹底革新了該領域，并在跨模態檢索和零樣本學習等任務中展現出最先進的性能［1］。這些進展顯著增強了電子商務、數字內容檢索和多媒體信息系統等多個領域的搜索能力。

挑戰

盡管多模態大語言模型（Multimodal Large Language Models, MLLMs）取得了顯著進展，但要充分實現其潛力，仍需應對若干關鍵挑戰。這些挑戰包括數據的可用性與質量、計算資源需求、可解釋性與可說明性，以及倫理與社會影響。

數據可用性與質量
MLLMs 的性能在很大程度上依賴于多模態數據集的可用性與質量。構建覆蓋多種模態（如圖像、視頻、音頻和文本）的大規模、多樣化且高質量的數據集，并使其能夠反映真實世界場景，是一項重大挑戰。目前廣泛用于訓練 MLLMs 的多模態數據集（如 MS COCO、Flickr30k 和 Visual Genome）主要用于圖像描述生成和視覺問答（VQA）等任務，但這些數據集在覆蓋范圍、規模和多樣性方面仍然有限［22］。例如，它們可能缺乏細粒度標注、多元文化背景，或特定領域應用（如醫學圖像分析或法律文件解讀）所需的專門知識。

此外，確保這些數據集具有代表性且無偏見，對于開發公平可靠的模型至關重要。訓練數據中存在的偏見——如性別、種族和文化偏見——可能導致模型產生不公平的預測結果，并加劇已有的刻板印象［23］。

計算資源
訓練大規模的多模態大語言模型（MLLMs）需要大量的計算資源，包括高性能硬件（如GPU、TPU）和高效的算法。與訓練和推理相關的高昂計算成本可能限制MLLMs的可及性與可擴展性，尤其對小型機構或資源受限環境中的研究人員而言尤為明顯。例如，GPT-3和BERT等模型是在大規模數據集上使用龐大的計算集群進行訓練的，而這類資源通常無法被更廣泛的科研社區所獲取［1］。

此外，訓練此類模型對環境的影響也十分顯著。人工智能社區已普遍關注大型神經網絡訓練所帶來的能源消耗問題。有研究估計，訓練一個大型模型所產生的二氧化碳排放量，相當于多輛汽車一年的排放總量。因此，開發高效的訓練技術與硬件優化方案，對于提升MLLMs的可持續性與可及性至關重要。目前，已有若干技術被提出以在不顯著犧牲性能的前提下減小模型規模并縮短計算時間，例如模型剪枝（model pruning）、量化（quantization）和知識蒸餾（knowledge distillation）。

可解釋性與可說明性
隨著MLLMs日益復雜，理解其決策過程變得愈發困難。文本、圖像和音頻等多種模態的融合進一步增加了復雜性，使得厘清模型如何處理并整合來自不同來源的信息極具挑戰。這一問題在醫療、自動駕駛和金融等安全關鍵型應用中尤為突出——在這些場景中，理解模型為何做出特定決策對于建立問責機制和用戶信任至關重要［24］。

目前，MLLMs本質上仍屬于“黑箱”系統，即便是領域專家也可能難以解釋其內部運作機制。因此，開發用于解釋和說明多模態模型行為的方法，對于確保其可信度與問責性至關重要。近年來，注意力機制、顯著性圖（saliency maps）以及可解釋性工具（如LIME和SHAP）的進展已開始為模型決策提供更深入的洞察，但這些方法在應用于多模態模型時仍存在局限性［25］。未來的研究需聚焦于提升模型透明度，確保MLLMs在高風險環境中既能保持高準確性，又具備良好的可解釋性。

倫理與社會影響
MLLMs的部署引發了一系列倫理關切，尤其涉及隱私、安全以及潛在的濫用風險。MLLMs通常在大量個人數據（包括圖像、文本和語音）上進行訓練，這帶來了嚴重的隱私問題。例如，在醫學影像或電子健康記錄（EHRs）上訓練的模型可能會無意中泄露敏感信息，從而侵犯用戶隱私［26］。此外，隨著MLLMs在監控、社交媒體和醫療等領域的廣泛應用，其面臨對抗性攻擊或被惡意利用的風險也日益凸顯，數據安全因此成為重要議題［27］。

此外，MLLMs容易放大訓練數據中隱含的有害偏見。若不加以有效緩解，這些偏見可能導致招聘、執法和信貸等應用場景中出現歧視性結果［28］。應對這些問題，既需要開發透明的模型，也需要為MLLMs的部署制定明確的倫理準則。未來必須著力于偏見緩解、數據隱私保護和模型問責機制的完善，以確保MLLMs的研發與應用符合負責任的人工智能原則。

未來方向

高效模型架構未來的研究應聚焦于開發高效的多模態大語言模型（Multimodal Large Language Models, MLLMs）架構，使其在有效處理多模態數據的同時盡可能降低計算成本。這包括采用諸如模型剪枝（model pruning）等技術——在不犧牲性能的前提下減少網絡中的參數數量；量化（quantization）——以更少的比特數表示模型權重，從而降低內存占用；以及知識蒸餾（knowledge distillation）——訓練一個較小的“學生”模型來模仿一個更大、已預訓練好的“教師”模型的行為。研究表明，這些方法可顯著提升MLLMs在資源受限環境中的部署能力，使其適用于移動設備、物聯網（IoT）系統或邊緣計算等現實應用場景［29］。

多模態預訓練策略利用大規模多模態數據集的創新性預訓練策略，對于增強MLLMs的泛化能力至關重要。通過在預訓練階段融合多種模態（文本、圖像、音頻、視頻）和多種任務（如分類、檢索、生成），模型能夠學習到更魯棒且可遷移的表征，從而提升在各類下游任務中的表現。其中一項關鍵挑戰在于預訓練階段如何對齊并整合多模態數據，確保模型能夠從不同模態之間的相關性和互補性中有效學習。CLIP和ALIGN等模型已在此方向展現出巨大潛力，它們通過學習文本與圖像的聯合表征實現跨模態連接［1］。此外，未來研究還可探索無監督或半監督的預訓練方法，使多模態模型能夠在未標注數據上進行訓練，進一步提升其可擴展性。

以人為中心的評估指標開發與人類感知和期望相一致的評估指標，對于衡量MLLMs的性能至關重要。傳統的指標（如準確率、精確率和召回率）可能無法充分捕捉多模態模型的細微之處——這些模型通常以復雜方式與人類交互。例如，考慮連貫性（生成文本或圖像的邏輯流暢性）、相關性（生成內容與用戶期望的契合程度）和用戶滿意度（用戶評分或主觀評價）的指標，能夠提供更有意義的模型性能洞察。在多模態系統背景下，既需評估各模態輸出的質量（如圖像質量或文本流暢度），也需評估模態間整體交互的有效性。研究人員已提出納入這些主觀因素的人類評估框架，例如通過眾包標注更深入地理解用戶對多模態響應的感知［30］。

跨學科協作MLLMs的發展需要自然語言處理（NLP）、計算機視覺、語音處理和認知科學等多個領域的協同合作。來自不同學科的研究人員可為模態間如何交互、如何建模多模態推理，以及如何借鑒人類感知機制指導模型設計等問題提供獨特見解。例如，與認知科學家的合作有助于開發更能準確模擬人類多模態理解能力的模型，從而可能獲得更具可解釋性和泛化能力的系統。此外，與特定領域專家（如醫療、教育或自動駕駛領域）的合作，將確保MLLMs的研發始終面向真實世界應用，并契合各行業的具體需求。未來的方向還可探索機器學習工程師與人機交互（HCI）研究者之間的協同，以設計出能更有效地與用戶互動的模型［31］。

評估基準

評估多模態大語言模型（Multimodal Large Language Models, MLLMs）需要專門設計的基準，以衡量其在多種模態和任務上的表現。傳統評估指標主要面向單模態模型，在捕捉多模態交互所固有的復雜性方面往往力不從心。這是因為MLLMs需同時整合并處理來自多個來源（如文本、圖像和音頻）的數據。因此，構建全面且真正多模態的評估框架，對于推動MLLMs的研究進展與實際部署至關重要。一個可靠的基準不僅能支持模型間的公平比較，還能系統性地促進模型設計與評估方法的發展。

多模態基

準近期研究已提出多種專為MLLMs量身定制的基準，每種都旨在評估模型在需要融合不同模態的任務中的表現。例如，視覺問答（Visual Question Answering, VQA）任務評估模型回答關于圖像問題的能力，要求模型同時理解視覺內容和自然語言［32］。圖像描述生成（image captioning）任務則測試模型根據視覺輸入生成描述性標題的能力，這需要模型將視覺感知與語言生成相結合［33］。其他任務，如多模態推理，則要求模型利用來自多個來源的信息進行復雜推理或推斷，例如結合文本與圖像生成特定輸出。這類基準已成為評估MLLMs在機器人、自動駕駛和醫療等現實應用場景中實際能力的關鍵工具。

評估指標

為有效評估MLLMs，研究人員開發了專門針對多模態交互特性的評估指標。在視覺問答（VQA）等任務中，最常用的評估指標是準確率（accuracy），即模型正確回答問題的百分比。然而，在圖像描述生成任務中，則采用更復雜的指標來評估生成標題的質量。BLEU、METEOR 和 CIDEr 是常用指標，用于衡量生成文本相對于人工撰寫的參考文本在流暢性、相關性和多樣性方面的表現［34］。這些指標雖能提供生成文本與預期輸出匹配程度的量化評估，但通常難以充分捕捉多模態理解中所蘊含的語境與細微差別。因此，研究人員日益重視以人為中心的評估指標，考慮連貫性、上下文相關性和用戶滿意度等因素——這些因素在MLLMs的實際應用中至關重要［26］。

評估中的挑戰

盡管已有多種基準和評估指標，MLLMs的評估仍面臨諸多挑戰。一個主要問題是缺乏覆蓋廣泛多模態任務的標準化多模態數據集，導致不同任務間模型性能評估結果存在不一致性。例如，當前大多數用于圖像描述生成或VQA的數據集在樣本數量和任務覆蓋范圍上相對有限，難以在多樣化的場景下全面評估模型能力。此外，圖像描述生成或情感分析等任務本身具有主觀性，使得建立客觀的評估標準變得復雜。例如，對生成文本的評估通常依賴人類對流暢性、相關性和創造性等要素的主觀判斷，而現有自動指標難以充分反映這些維度。因此，亟需構建更全面、標準化的評估框架，將客觀度量與人類判斷有機結合，以更好地應對上述挑戰［35］。

未來方向

為克服現有評估挑戰，未來關于多模態模型評估的研究應聚焦于創建覆蓋多樣化任務、場景和領域的標準化、大規模多模態數據集。這些數據集應更全面、真實地反映現實世界中的多模態交互，從而支持可泛化模型的開發與評估。此外，設計能更好體現多模態理解復雜性的新評估指標也至關重要。一種有前景的方法是更系統地將人類反饋納入評估流程，例如通過眾包評估或專家標注者提供對模型表現的定性反饋，并將其整合進自動化評估系統。通過改進評估方法論，研究社區將能更準確地把握MLLMs的全部能力與局限，從而有效引導多模態人工智能領域的進一步發展。

應用

多模態大語言模型（Multimodal Large Language Models, MLLMs）通過整合并處理來自多種模態（如文本、圖像、音頻和視頻）的信息，在多個領域展現出巨大潛力。其跨模態理解與內容生成能力，推動了若干應用領域的進步，從而構建出更魯棒、高效和智能的系統。

視覺問答（Visual Question Answering, VQA）

在視覺問答（VQA）任務中，模型需根據圖像回答相關問題，這要求同時理解視覺內容和自然語言。VQA任務是融合視覺與語言模型所面臨挑戰的典型代表。MLLMs憑借其多模態能力，能夠分析圖像內容并理解對應的問題，從而生成語境相關的答案。VQA v2 和 LXMERT 等模型在此領域取得了顯著進展，通過視覺與語言表征的聯合學習提升了準確率［40］。例如，LXMERT 采用基于 Transformer 的架構分別處理視覺與語言任務，并將視覺推理與語言理解更緊密地結合，從而實現更準確、更魯棒的 VQA 性能。

圖像描述生成（Image Captioning）

在圖像描述生成任務中，MLLMs 需要為圖像生成具有描述性的標題，這融合了視覺感知與語言生成能力。該能力在視障人士輔助工具等應用中至關重要——模型可為無法看見圖像或場景的用戶生成文字描述。此外，基于內容的圖像檢索系統也因 MLLMs 而受益，能夠通過文本查詢更有效地搜索圖像。Show and Tell 以及 Show, Attend and Tell 等技術在推動圖像描述生成方面發揮了關鍵作用，這些模型通過對圖像不同區域進行注意力聚焦，生成更準確的描述［36］。近期的發展包括采用基于 Transformer 的架構，如 ViLT 和 DETR，它們通過聯合處理視覺與語言任務，進一步提升了圖像描述生成及相關任務的效率。

多模態對話系統（Multimodal Dialogue Systems）
多模態對話系統旨在通過融合多種模態（如語音、文本和視覺輸入），實現人機之間更自然、更直觀的交互。傳統的對話系統通常僅依賴基于文本的輸入，而多模態系統能夠處理更廣泛的信息，從而生成更具連貫性和上下文感知能力的對話。例如，在與虛擬助手交互時，多模態系統可整合用戶的語音、面部表情和手勢，以更準確地理解語境并作出更有效的回應。M3ER 和 MM-Dialog 是在對話智能體中提升多模態理解能力的代表性模型，支持更動態、個性化的用戶交互。MLLMs 通過綜合考慮對話中所有可用模態，增強了系統的上下文感知能力，并有助于處理模糊或不完整的輸入。

跨模態檢索（Cross-Modal Retrieval）
跨模態檢索指在不同模態之間進行信息搜索，例如根據文本查詢檢索圖像，或反之亦然。MLLMs 通過學習能夠彌合不同類型數據之間鴻溝的共享表征，顯著提升了跨模態檢索系統的效能。例如，在文本到圖像檢索中，MLLMs 可通過解析文本查詢，在龐大的圖像數據集中查找在視覺內容和描述語境上均匹配的圖像。CLIP（Contrastive Language–Image Pretraining）在跨模態檢索任務中取得了顯著成功，其通過在共享潛在空間中對齊圖像與文本，實現了最先進的性能。另一大規模多模態模型 ALIGN 也通過利用大規模數據集進行預訓練和微調，進一步推動了跨模態檢索的發展。

醫療應用（Healthcare Applications）
在醫療領域，MLLMs 可協助完成多種關鍵任務，包括醫學影像分析、電子健康記錄（EHR）解讀以及臨床決策支持。例如，多模態模型可被訓練用于同時分析X光片、CT掃描或MRI等醫學影像，以及患者的病史或文本報告，從而提高診斷準確性。CheXNet 等模型已展現出在胸部X光片中檢測肺炎的優異表現，其采用深度學習方法融合視覺與文本數據［37］。MLLMs 還可用于電子健康記錄的解讀，通過提取相關醫療信息并提供預測性洞察，輔助醫護人員做出更明智的決策。此外，語音與文本數據的融合還可支持臨床對話系統，使醫生能夠通過語音指令和書面筆記與系統進行交互。

自主系統（Autonomous Systems）
自動駕駛汽車、無人機和機器人等自主系統高度依賴多模態信息來感知和理解其所處環境。MLLMs 使這些系統能夠整合來自多種傳感器（如攝像頭、激光雷達和雷達）的數據，以及文本或語音指令，從而做出更明智的決策。例如，自動駕駛車輛可處理視覺數據以識別行人和其他車輛，同時解讀文本地圖或音頻提示，以應對復雜環境中的導航任務。YOLO（You Only Look Once）等用于目標檢測的深度學習模型，以及用于序列預測的基于Transformer的模型，正越來越多地應用于自主系統中，以實現實時多模態數據處理［38］。融合來自不同模態的數據，顯著增強了系統對環境的理解能力，使其在動態場景中更加可靠且具備更強的適應性。

挑戰與局限

盡管多模態大語言模型（Multimodal Large Language Models, MLLMs）取得了顯著進展，但若干挑戰仍阻礙其廣泛應用與效能發揮。這些挑戰涵蓋數據可用性、計算資源、可解釋性以及倫理關切等多個方面，而這些因素對于確保MLLMs在現實應用中公平、負責任地使用至關重要。

數據可用性與質量

MLLMs 的性能在很大程度上依賴于多模態數據集的可用性與質量。構建覆蓋多種模態（如圖像、文本、音頻和視頻）的大規模、多樣化且高質量的數據集，并使其真實反映現實世界場景，是一項重大挑戰。例如，盡管 MS COCO 和 Visual Genome 等數據集已被廣泛用于圖像描述生成和視覺問答（VQA）等任務，但它們在多樣性以及所涵蓋的多模態任務類型方面仍然有限。此外，確保這些數據集具有代表性、全面性且無偏見，對于開發公平可靠的模型至關重要。訓練數據缺乏多樣性可能導致模型產生偏見性結果，影響預測的公平性，并強化有害的刻板印象。此外，使用存在偏見的數據集還會削弱 MLLMs 的泛化能力，尤其在醫療和執法等高風險應用場景中問題尤為突出。

計算資源

訓練大規模 MLLMs 需要大量計算資源，包括高性能硬件（如 GPU 和 TPU）以及高效的訓練算法。現代多模態模型所處理的數據規模和模型參數數量極其龐大，導致計算成本極高。例如，GPT-4 和 DALL·E 依賴海量數據和強大算力才能實現最先進的性能，這通常使其僅對具備雄厚計算資源的機構開放。此外，訓練此類模型所帶來的環境影響也引發廣泛關注——大型神經網絡訓練所消耗的能源可能非常巨大［39］。高昂的訓練與推理成本還限制了 MLLMs 在資源受限環境（如小型企業或發展中國家）中的可及性與可擴展性。因此，亟需開發更高效的算法和硬件優化方案，以緩解上述挑戰，并提升多模態模型研發的可持續性。

可解釋性與可說明性

隨著 MLLMs 日益復雜，理解其決策過程變得愈發困難。這些模型通常采用復雜的架構（如深度神經網絡和 Transformer），使其難以被解釋和說明。“黑箱”特性帶來了顯著挑戰，尤其是在醫療、自動駕駛和執法等對問責制與信任度要求極高的領域。例如，一輛使用 MLLM 的自動駕駛汽車可能基于多模態輸入（如攝像頭、雷達和激光雷達數據）做出決策，但要向人類操作員清晰解釋其為何決定為行人停車卻十分困難。研究人員正積極探索通過注意力機制、顯著性圖（saliency maps）以及模型無關的解釋方法（model-agnostic explanation methods）來提升模型的可解釋性與可說明性。開發透明的模型對于確保其可信度至關重要，同時也使監管機構能夠審查其決策過程。

倫理與社會影響
MLLMs 的部署引發了重大的倫理關切，尤其涉及隱私、安全以及潛在的濫用風險。例如，多模態模型在監控或人臉識別等應用中的使用，可能導致隱私侵犯和誤識別問題，尤其是在模型基于存在偏見或不平衡的數據集進行訓練的情況下。此外，人們日益擔憂這些模型的安全性，特別是在對抗性環境中——惡意行為者可能試圖操縱輸入（如篡改圖像或音頻信號），以誘導模型產生錯誤預測［34］。

此外，MLLMs 在醫療或執法等敏感領域的潛在濫用風險，凸顯了制定監管框架和倫理準則以規范其開發與部署的必要性。確保 MLLMs 能夠以負責任的方式被研發和使用，需要解決數據隱私、模型透明度以及有害偏見的緩解等關鍵問題［9］。因此，制定針對 MLLM 部署的倫理準則和政策建議，對于在推動技術創新與保障公共安全之間取得平衡至關重要。

未來方向

多模態大語言模型（Multimodal Large Language Models, MLLMs）領域正在迅速發展，未來研究有若干充滿前景的方向，有望應對當前挑戰并開辟新的機遇。這些研究方向包括高效模型架構的開發、創新的預訓練策略、以人為中心的評估指標，以及跨學科協作，以確保MLLMs既能滿足技術需求，也能契合社會價值。

高效模型架構

未來的研究應聚焦于開發高效的模型架構，在有效處理多模態數據的同時盡可能降低計算成本。大規模多模態模型的訓練需要大量計算資源，而降低這些成本對于MLLMs在現實應用中的部署至關重要，尤其是在資源受限的環境中。模型剪枝（model pruning）、量化（quantization）和知識蒸餾（knowledge distillation）等技術是構建輕量級MLLMs且不顯著犧牲性能的有前景方法。剪枝通過移除冗余的模型參數實現壓縮；量化則通過降低權重的數值精度來減少計算需求［40］；知識蒸餾將大型復雜模型的知識遷移到更小、更高效的模型中，從而加快推理速度并降低資源消耗［41］。該領域的研究還應致力于在模型規模、準確率與推理速度之間取得平衡，使MLLMs在醫療、自主系統和移動應用等行業中更具實用性。

多模態預訓練策略

為提升MLLMs的泛化能力，未來研究應探索利用大規模多模態數據集的創新性預訓練策略。在預訓練階段融合多種模態（文本、圖像、音頻、視頻等）和多樣化任務，可使模型學習到魯棒且可遷移的表征，從而適用于多種下游應用。近期如CLIP和Florence等模型已展示了跨模態預訓練的強大潛力——這些模型在視覺與語言任務上同步訓練，以學習共享表征。未來研究可進一步探索自監督學習技術，利用未標注的多模態數據進行訓練，使模型能在無需昂貴人工標注的情況下從海量數據中學習。此外，開發將領域特定知識（如醫學或法律專業知識）融入預訓練過程的策略，有望顯著提升MLLMs在專業領域的性能。

以人為中心的評估指標
開發以人為中心的評估指標，對于以符合人類感知與期望的方式評估多模態大語言模型（MLLMs）的性能至關重要。盡管準確率、BLEU 和 METEOR 等傳統指標在視覺問答（VQA）和圖像描述生成等任務中被廣泛使用，但它們往往無法全面捕捉模型在復雜多模態交互中的表現。因此，未來的研究應致力于設計能夠衡量連貫性、相關性、用戶滿意度和現實適用性等因素的評估指標。例如，可為多模態對話系統構建以用戶為中心的評估框架，不僅評估模型的語言流暢度，還考察其維持上下文一致性和開展有意義對話的能力［20］。此外，針對特定任務（如醫學影像分析或自主系統）定制的評估方法，也能提供對模型行為更具實際意義的洞察。通過眾包評估或專家評審將人類判斷納入評估流程，還可提供更契合人類價值觀和社會需求的寶貴反饋。

跨學科協作
MLLMs 的進步需要計算機科學、語言學、認知科學以及醫療、法律和人工智能倫理等特定領域之間的跨學科協作。融合語言學理論與認知模型，有助于使 MLLMs 實現更類人的推理與理解能力，因為模型可以借鑒人類如何統一處理語言、視覺信息和感官數據的機制。例如，從心理學角度理解認知負荷與感知過程，可指導 MLLMs 如何優先處理并整合多模態輸入。此外，與領域專家（如醫生、律師或工程師）的合作，對于開發不僅技術精湛、而且契合現實需求的模型至關重要。跨學科研究能夠促進構建更具倫理性、透明性和以用戶為中心的系統，充分考量在高風險環境中部署此類模型所涉及的社會、法律與道德影響。

結論多模態大語言模型（Multimodal Large Language Models, MLLMs）是人工智能領域的一項突破性創新，旨在處理并理解來自多種模態的信息，如文本、圖像、音頻和視頻。與專注于單一數據格式的傳統模型不同，MLLMs 能夠融合并跨這些多樣化的輸入進行推理，使其具備解決復雜任務的能力——這些任務需要同時理解多種形式的信息。例如，MLLMs 可以提升圖像描述生成等應用的性能，在該任務中，視覺與文本輸入被同步分析；也可應用于自動駕駛汽車，在這類場景中，傳感器數據與視覺識別的結合對導航至關重要。

盡管具有變革性潛力，MLLMs 仍面臨若干挑戰。數據質量是一個主要問題——MLLMs 需要大規模、多樣化且高質量的數據集進行訓練，而數據中的任何偏見或不準確都可能導致有缺陷甚至不道德的結果。計算效率是另一大挑戰：處理多種數據類型需要大量計算資源，這不僅限制了小型機構的可及性，也加劇了環境影響。可解釋性同樣令人擔憂：MLLMs 的復雜性常常使其預測或決策背后的推理過程難以理解，這在醫療或執法等高風險領域尤為成問題。最后，必須認真應對倫理方面的考量，包括偏見、隱私風險和潛在濫用等問題，以確保 MLLMs 能夠負責任地部署。

歸根結底，通過持續的研究與跨領域協作來應對上述挑戰，對于充分釋放 MLLMs 在現實世界應用中的全部潛力至關重要。

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5314015

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.