<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AAAI 2026|視頻大語言模型可不可信?23款主流模型全面測評來了

      0
      分享至



      近年來,視頻大語言模型在理解動態(tài)視覺信息方面展現(xiàn)出強大能力,成為處理真實世界多模態(tài)數(shù)據(jù)的重要基礎(chǔ)模型。然而,它們在真實性、安全性、公平性、魯棒性和隱私保護(hù)等方面仍面臨嚴(yán)峻挑戰(zhàn)。

      為此,合肥工業(yè)大學(xué)研究團(tuán)隊攜手清華大學(xué)研究團(tuán)隊推出了首個面向視頻大語言模型的綜合可信度評測基準(zhǔn) Trust-videoLLMs。

      該工作以 Oral 形式被 AAAI 2026 接收。Trust-videoLLMs 對 5 款商業(yè)模型和 18 款開源模型進(jìn)行了全面評估。評測涵蓋真實性、魯棒性、安全性、公平性、隱私五大維度,包含 30 項精心設(shè)計的任務(wù)。同時,團(tuán)隊還提供了一個專門用于研究視頻大語言模型安全可信能力的工具箱,該工具箱采用統(tǒng)一接口和模塊化設(shè)計,便于模型交互和任務(wù)執(zhí)行。



      • 論文地址:https://arxiv.org/pdf/2506.12336
      • 項目主頁:https://github.com/wangyouze/Trust-videoLLMs

      評測什么?

      Trust-videoLLMs 構(gòu)建了一個系統(tǒng)化、多層次、可擴展的評測體系,包含五個核心維度:

      • 真實性 (Truthfulness):視頻描述、時序理解、事件推理、幻覺抑制
      • 魯棒性 (Robustness):噪聲干擾、時序擾動、對抗攻擊、模態(tài)沖突
      • 安全性 (Safety):不良內(nèi)容識別、有害指令拒絕、深度偽造檢測、越獄攻擊防御
      • 公平性 (Fairness):刻板印象識別、職業(yè)能力偏見、時間敏感性分析
      • 隱私性 (Privacy):隱私內(nèi)容識別、名人隱私保護(hù)、自主隱私推理



      評測任務(wù)涵蓋三個方面:

      • 動態(tài)場景覆蓋:特別設(shè)計了時空動態(tài)場景任務(wù),區(qū)別于靜態(tài)圖像評測
      • 跨模態(tài)交互分析:研究視頻、文本等多模態(tài)輸入的相互影響
      • 實用風(fēng)險評估:評估模型在現(xiàn)實應(yīng)用中的實際風(fēng)險感知



      評測模型涵蓋 23 款主流的視頻大語言模型 (5 款商用模型和 18 款開源模型),包括不同參數(shù)規(guī)模和架構(gòu)設(shè)計的模型。



      評測結(jié)果速覽




      上圖展示了整體排名,揭示了多樣化的性能格局。

      閉源模型,特別是 Claude 和 Gemini1.5 系列,普遍優(yōu)于開源模型。Claude4-sonnet 位列第一,其次是 Claude3.7-sonnet 和 Gemini1.5-Flash。GPT-4o 盡管在特定子方面表現(xiàn)出色,但排名第六,僅次于 InternVL2.5-78B,表明其性能均衡但非領(lǐng)先。

      在開源模型中,InternVL2.5-78B 和 Qwen2.5-VL-72B 獲得最高排名(第五和第七位),展現(xiàn)了與商用模型相媲美的潛力。然而,大多數(shù)開源模型(如 VideoLLaMA3-7B 和 LLaVA-OneVision-72B)排名靠后,在整體可信度、安全性以及隱私保護(hù)等方面,仍與主流閉源模型存在差距。

      上圖 (a) 展示了綜合表現(xiàn)前 10 的模型在不同維度的表現(xiàn)。Claude4-Sonnet 在安全性方面表現(xiàn)卓越,具有均衡的高性能特征。Claude3.7-Sonnet 提供跨維度的一致可靠性,但缺乏突出優(yōu)勢。Gemini1.5-Flash 在魯棒性方面表現(xiàn)優(yōu)異,但性能方差相對較大,呈現(xiàn)不規(guī)則模式。其他模型整體得分較低,缺乏明顯的差異化特征。

      上圖 (b) 展示了可信性各子方面之間的復(fù)雜關(guān)聯(lián)。我們觀察到,維度內(nèi)相關(guān)性較強,尤其在真實性與安全性這兩個子維度中表現(xiàn)明顯。跨維度分析進(jìn)一步揭示:在多模態(tài)場景下,魯棒性與安全維度高度相關(guān);而時間魯棒性則與真實性維度呈現(xiàn)顯著負(fù)相關(guān)。公平性維度與其他維度的跨相關(guān)性較弱,表明其具有相對獨立的特性。

      關(guān)鍵發(fā)現(xiàn)

      (1) 模型規(guī)模 ≠ 性能更強

      參數(shù)量大的模型不一定在所有任務(wù)上表現(xiàn)更好,尤其是在時序推理、對抗攻擊等復(fù)雜場景中。例如,Qwen2.5-VL-7B 在公平性任務(wù)上表現(xiàn)優(yōu)于其 72B 版本。

      (2)開源模型與閉源模型仍有差距

      閉源模型(如 Claude、GPT-4o)在安全性、隱私保護(hù)、多模態(tài)對齊方面明顯更強。開源模型在有害內(nèi)容識別、越獄攻擊防御等方面仍有較大提升空間。

      (3)視頻上下文對安全性影響顯著

      同一有害文本提示,搭配相關(guān)視頻時,模型生成有害內(nèi)容的概率顯著提升。說明視頻內(nèi)容會放大模型的安全風(fēng)險,需加強跨模態(tài)安全對齊。

      (4)公平性問題普遍存在

      模型在處理性別、年齡、膚色等敏感屬性時仍存在刻板印象。閉源模型通過數(shù)據(jù)清洗和倫理約束表現(xiàn)更好,開源模型則更容易輸出偏見內(nèi)容。

      (5)隱私保護(hù)是雙刃劍

      模型越強,越能識別隱私內(nèi)容,但也越容易自主推理出隱私信息。閉源模型在隱私識別任務(wù)上表現(xiàn)更好,但同時也面臨更高的隱私泄露風(fēng)險。

      開源工具與數(shù)據(jù)

      為促進(jìn)可信視頻大模型的發(fā)展,團(tuán)隊同步開源了:

      • 評測框架 Trust-videoLLMs:https://github.com/wangyouze/Trust-videoLLMs
      • 大規(guī)模視頻數(shù)據(jù)集(6955 個視頻,覆蓋多場景多任務(wù))
      • 統(tǒng)一評估工具箱(支持模型接入、任務(wù)執(zhí)行、自動評分)

      作者信息

      一作:王有澤,合肥工業(yè)大學(xué)四年級博士生,主要研究方向為多模態(tài)對抗魯棒性、多模態(tài)大模型安全可信,曾在 ACM MM, TMM, TCSVT 等頂級會議和期刊上發(fā)表論文。

      通訊作者:胡文波,合肥工業(yè)大學(xué)計算機與信息學(xué)院副教授,黃山青年學(xué)者。主要研究方向為機器學(xué)習(xí),包括貝葉斯概率機器學(xué)習(xí)、人工智能安全以及科學(xué)人工智能。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      46歲上市公司國盾量子董事長意外去世,官方通報四個字信息量很大

      46歲上市公司國盾量子董事長意外去世,官方通報四個字信息量很大

      Mr王的飯后茶
      2025-12-19 00:02:15
      貴州發(fā)生一起刑案:被害人簽下3年租房合同并交錢后,遭房東持刀殺害,其妻兒受傷送醫(yī)

      貴州發(fā)生一起刑案:被害人簽下3年租房合同并交錢后,遭房東持刀殺害,其妻兒受傷送醫(yī)

      揚子晚報
      2025-12-19 07:06:55
      羅永浩又開炮!開通1000兆寬帶下載只有90多兆,上海電信壓力來了

      羅永浩又開炮!開通1000兆寬帶下載只有90多兆,上海電信壓力來了

      火山詩話
      2025-12-19 06:40:20
      海南封關(guān)背后,真正的意圖!

      海南封關(guān)背后,真正的意圖!

      子木聊房
      2025-12-18 16:23:54
      蘭海高速一小車定速巡航故障剎車失靈,時速115狂奔490公里直至燃油耗盡,交警開道、路政壓陣成功化險

      蘭海高速一小車定速巡航故障剎車失靈,時速115狂奔490公里直至燃油耗盡,交警開道、路政壓陣成功化險

      極目新聞
      2025-12-18 14:18:42
      首都機場公安偵破18年命案積案,犯罪嫌疑人已被批捕

      首都機場公安偵破18年命案積案,犯罪嫌疑人已被批捕

      新京報
      2025-12-19 09:39:06
      紫色戰(zhàn)神!楓哥這是真要下海干活了!

      紫色戰(zhàn)神!楓哥這是真要下海干活了!

      貴圈真亂
      2025-12-19 12:21:32
      亞歷山大32+7+6雷霆送快船5連敗,哈登缺席萊納德22+8+6

      亞歷山大32+7+6雷霆送快船5連敗,哈登缺席萊納德22+8+6

      湖人崛起
      2025-12-19 11:25:36
      上海新世界大丸百貨啟動升級改造

      上海新世界大丸百貨啟動升級改造

      上觀新聞
      2025-12-19 12:15:05
      為什么中國赴日游客還在增長?

      為什么中國赴日游客還在增長?

      知酷文旅
      2025-12-18 17:49:43
      22.13公里!世界最長高速公路隧道將于月底通車

      22.13公里!世界最長高速公路隧道將于月底通車

      每日經(jīng)濟(jì)新聞
      2025-12-18 23:55:06
      其實吧,大明跟你一點關(guān)系都沒有,尤其如果你不姓朱的話

      其實吧,大明跟你一點關(guān)系都沒有,尤其如果你不姓朱的話

      詩意世界
      2025-12-16 14:00:03
      香港中環(huán)發(fā)生巨額劫案 4持刀男劫走10億日元

      香港中環(huán)發(fā)生巨額劫案 4持刀男劫走10億日元

      看看新聞Knews
      2025-12-18 14:16:03
      凱特王妃發(fā)布圣誕合照,三寶變化太大了,夏洛特公主笑容很甜美

      凱特王妃發(fā)布圣誕合照,三寶變化太大了,夏洛特公主笑容很甜美

      蕭狡科普解說
      2025-12-19 09:12:25
      88比11!CBA最懸殊的比分誕生了:籃協(xié)看到這一幕后該懵了?

      88比11!CBA最懸殊的比分誕生了:籃協(xié)看到這一幕后該懵了?

      籃球快餐車
      2025-12-19 01:21:14
      海南封關(guān)次日實探三亞免稅店:蘭蔻等護(hù)膚品牌有免稅臨期產(chǎn)品5折銷售,此前甚至有口紅打1折

      海南封關(guān)次日實探三亞免稅店:蘭蔻等護(hù)膚品牌有免稅臨期產(chǎn)品5折銷售,此前甚至有口紅打1折

      極目新聞
      2025-12-19 13:22:22
      54歲陳松伶減重27斤,皮松臉黑括號紋很深,和老公站一起像兩代人

      54歲陳松伶減重27斤,皮松臉黑括號紋很深,和老公站一起像兩代人

      娛圈小愚
      2025-12-19 10:03:35
      廣西忻城一小區(qū)發(fā)生持刀傷人案致3死1傷,警方通報

      廣西忻城一小區(qū)發(fā)生持刀傷人案致3死1傷,警方通報

      界面新聞
      2025-12-19 10:46:52
      火箭爆冷遭鵜鶘25分加時逆轉(zhuǎn) 杜蘭特32+7+4帽申京28+11+8

      火箭爆冷遭鵜鶘25分加時逆轉(zhuǎn) 杜蘭特32+7+4帽申京28+11+8

      醉臥浮生
      2025-12-19 11:51:23
      涉及大量知名人士!民主黨人公布新一批愛潑斯坦案相關(guān)照片,特朗普、白宮回應(yīng)

      涉及大量知名人士!民主黨人公布新一批愛潑斯坦案相關(guān)照片,特朗普、白宮回應(yīng)

      環(huán)球網(wǎng)資訊
      2025-12-13 10:34:17
      2025-12-19 14:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11953文章數(shù) 142513關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

      頭條要聞

      團(tuán)播女生私下賣力維護(hù)"大哥":經(jīng)常擦邊 有女生會被約走

      頭條要聞

      團(tuán)播女生私下賣力維護(hù)"大哥":經(jīng)常擦邊 有女生會被約走

      體育要聞

      沒有塔圖姆,還有塔禿姆

      娛樂要聞

      曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

      財經(jīng)要聞

      非法集資911億!"金融大鱷"終審被判無期

      汽車要聞

      最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

      態(tài)度原創(chuàng)

      家居
      時尚
      游戲
      健康
      軍事航空

      家居要聞

      高端私宅 理想隱居圣地

      “煙管褲”今年冬天爆火,怎么搭都時髦!

      經(jīng)典劇情RPG神作《空之軌跡 the 1st》冬促來襲!

      這些新療法,讓化療不再那么痛苦

      軍事要聞

      媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 99视频精品在线| 午夜天堂一区人妻| 久久久亚洲欧洲日产国码二区| 日本人妻人人人澡人人爽| 国产又黄又硬又粗| 九九久久精品国产| 成在线人免费| 亚洲精品免费视频| 欧美自拍嘿咻内射在线观看| 国产性色av高清在线观看| 国产色视频网站免费| 日韩精品人妻系列无码| 日韩无码第2页| 亚洲91页| 精品国产一区二区三区大| 九九精品视频免费| 句容市| 青青网站| 尤物福利导航| 日日夜干| 丁香婷婷五月| 国产AV巨作丝袜秘书| 天天综合天天添夜夜添狠狠添| 3atv精品不卡视频| 国产av一区二区三区天堂综合网| 成年午夜性影院| 国产精品第八页| 国产精品被熟女| 蜜桃av在线| 南汇区| 久久一卡二卡三卡四卡| 亚洲成人无码AV| 日本精品一区二区| 通海县| 天堂在线中文| 刺激一区仑乱| 国产va免费精品观看| 国产最新网址| 亚洲精品九九| 国产av国片精品有毛| 日本深夜福利在线观看|