![]()
近年來,視頻大語言模型在理解動態(tài)視覺信息方面展現(xiàn)出強大能力,成為處理真實世界多模態(tài)數(shù)據(jù)的重要基礎(chǔ)模型。然而,它們在真實性、安全性、公平性、魯棒性和隱私保護(hù)等方面仍面臨嚴(yán)峻挑戰(zhàn)。
為此,合肥工業(yè)大學(xué)研究團(tuán)隊攜手清華大學(xué)研究團(tuán)隊推出了首個面向視頻大語言模型的綜合可信度評測基準(zhǔn) Trust-videoLLMs。
該工作以 Oral 形式被 AAAI 2026 接收。Trust-videoLLMs 對 5 款商業(yè)模型和 18 款開源模型進(jìn)行了全面評估。評測涵蓋真實性、魯棒性、安全性、公平性、隱私五大維度,包含 30 項精心設(shè)計的任務(wù)。同時,團(tuán)隊還提供了一個專門用于研究視頻大語言模型安全可信能力的工具箱,該工具箱采用統(tǒng)一接口和模塊化設(shè)計,便于模型交互和任務(wù)執(zhí)行。
![]()
- 論文地址:https://arxiv.org/pdf/2506.12336
- 項目主頁:https://github.com/wangyouze/Trust-videoLLMs
評測什么?
Trust-videoLLMs 構(gòu)建了一個系統(tǒng)化、多層次、可擴展的評測體系,包含五個核心維度:
- 真實性 (Truthfulness):視頻描述、時序理解、事件推理、幻覺抑制
- 魯棒性 (Robustness):噪聲干擾、時序擾動、對抗攻擊、模態(tài)沖突
- 安全性 (Safety):不良內(nèi)容識別、有害指令拒絕、深度偽造檢測、越獄攻擊防御
- 公平性 (Fairness):刻板印象識別、職業(yè)能力偏見、時間敏感性分析
- 隱私性 (Privacy):隱私內(nèi)容識別、名人隱私保護(hù)、自主隱私推理
![]()
評測任務(wù)涵蓋三個方面:
- 動態(tài)場景覆蓋:特別設(shè)計了時空動態(tài)場景任務(wù),區(qū)別于靜態(tài)圖像評測
- 跨模態(tài)交互分析:研究視頻、文本等多模態(tài)輸入的相互影響
- 實用風(fēng)險評估:評估模型在現(xiàn)實應(yīng)用中的實際風(fēng)險感知
![]()
評測模型涵蓋 23 款主流的視頻大語言模型 (5 款商用模型和 18 款開源模型),包括不同參數(shù)規(guī)模和架構(gòu)設(shè)計的模型。
![]()
評測結(jié)果速覽
![]()
上圖展示了整體排名,揭示了多樣化的性能格局。
閉源模型,特別是 Claude 和 Gemini1.5 系列,普遍優(yōu)于開源模型。Claude4-sonnet 位列第一,其次是 Claude3.7-sonnet 和 Gemini1.5-Flash。GPT-4o 盡管在特定子方面表現(xiàn)出色,但排名第六,僅次于 InternVL2.5-78B,表明其性能均衡但非領(lǐng)先。
在開源模型中,InternVL2.5-78B 和 Qwen2.5-VL-72B 獲得最高排名(第五和第七位),展現(xiàn)了與商用模型相媲美的潛力。然而,大多數(shù)開源模型(如 VideoLLaMA3-7B 和 LLaVA-OneVision-72B)排名靠后,在整體可信度、安全性以及隱私保護(hù)等方面,仍與主流閉源模型存在差距。
上圖 (a) 展示了綜合表現(xiàn)前 10 的模型在不同維度的表現(xiàn)。Claude4-Sonnet 在安全性方面表現(xiàn)卓越,具有均衡的高性能特征。Claude3.7-Sonnet 提供跨維度的一致可靠性,但缺乏突出優(yōu)勢。Gemini1.5-Flash 在魯棒性方面表現(xiàn)優(yōu)異,但性能方差相對較大,呈現(xiàn)不規(guī)則模式。其他模型整體得分較低,缺乏明顯的差異化特征。
上圖 (b) 展示了可信性各子方面之間的復(fù)雜關(guān)聯(lián)。我們觀察到,維度內(nèi)相關(guān)性較強,尤其在真實性與安全性這兩個子維度中表現(xiàn)明顯。跨維度分析進(jìn)一步揭示:在多模態(tài)場景下,魯棒性與安全維度高度相關(guān);而時間魯棒性則與真實性維度呈現(xiàn)顯著負(fù)相關(guān)。公平性維度與其他維度的跨相關(guān)性較弱,表明其具有相對獨立的特性。
關(guān)鍵發(fā)現(xiàn)
(1) 模型規(guī)模 ≠ 性能更強
參數(shù)量大的模型不一定在所有任務(wù)上表現(xiàn)更好,尤其是在時序推理、對抗攻擊等復(fù)雜場景中。例如,Qwen2.5-VL-7B 在公平性任務(wù)上表現(xiàn)優(yōu)于其 72B 版本。
(2)開源模型與閉源模型仍有差距
閉源模型(如 Claude、GPT-4o)在安全性、隱私保護(hù)、多模態(tài)對齊方面明顯更強。開源模型在有害內(nèi)容識別、越獄攻擊防御等方面仍有較大提升空間。
(3)視頻上下文對安全性影響顯著
同一有害文本提示,搭配相關(guān)視頻時,模型生成有害內(nèi)容的概率顯著提升。說明視頻內(nèi)容會放大模型的安全風(fēng)險,需加強跨模態(tài)安全對齊。
(4)公平性問題普遍存在
模型在處理性別、年齡、膚色等敏感屬性時仍存在刻板印象。閉源模型通過數(shù)據(jù)清洗和倫理約束表現(xiàn)更好,開源模型則更容易輸出偏見內(nèi)容。
(5)隱私保護(hù)是雙刃劍
模型越強,越能識別隱私內(nèi)容,但也越容易自主推理出隱私信息。閉源模型在隱私識別任務(wù)上表現(xiàn)更好,但同時也面臨更高的隱私泄露風(fēng)險。
開源工具與數(shù)據(jù)
為促進(jìn)可信視頻大模型的發(fā)展,團(tuán)隊同步開源了:
- 評測框架 Trust-videoLLMs:https://github.com/wangyouze/Trust-videoLLMs
- 大規(guī)模視頻數(shù)據(jù)集(6955 個視頻,覆蓋多場景多任務(wù))
- 統(tǒng)一評估工具箱(支持模型接入、任務(wù)執(zhí)行、自動評分)
作者信息
一作:王有澤,合肥工業(yè)大學(xué)四年級博士生,主要研究方向為多模態(tài)對抗魯棒性、多模態(tài)大模型安全可信,曾在 ACM MM, TMM, TCSVT 等頂級會議和期刊上發(fā)表論文。
通訊作者:胡文波,合肥工業(yè)大學(xué)計算機與信息學(xué)院副教授,黃山青年學(xué)者。主要研究方向為機器學(xué)習(xí),包括貝葉斯概率機器學(xué)習(xí)、人工智能安全以及科學(xué)人工智能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.