<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別全量掃描!浙大提出COIDO:破解多模態數據選擇「高耗」難題

      0
      分享至



      本文第一作者是二年級博士生閆熠辰,主要研究方向是多模態大模型的數據質量管理;通訊作者是李環研究員,主要研究方向包括人工智能數據準備、大模型高效推理與部署、時空大數據與模型輕量化等。



      01 省流版:一張圖看懂 COIDO

      在深入技術細節之前,我們先用一張漫畫來直觀理解 COIDO (Coupled Importance-Diversity Optimization) 解決的核心問題與方案:

      正如鐘離在漫畫中所言,面對海量視覺指令數據的選擇任務,傳統方法需要遍歷全部數據才能進行篩選造成大量「磨損」(高昂計算成本)。同時在面對數據重要性和多樣性問題時,傳統方法往往顧此失彼。而 COIDO 通過「耦合優化」的新契約,實現了以簡馭繁的效果。

      02 論文速覽



      • 論文題目:COIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization
      • 收錄會議:NeurIPS 2025
      • 作者單位:浙江大學大數據智能團隊、杭州電子科技大學、北京郵電大學
      • 項目代碼:https://github.com/SuDIS-ZJU/COIDO
      • 論文鏈接:https://arxiv.org/abs/2510.17847

      03 研究背景與動機 (Motivation)



      多模態大語言模型(MLLM)的能力在很大程度上依賴于高質量的視覺指令微調(Visual Instruction Tuning)。然而,隨著數據集規模的爆炸式增長(如 LLaVA-665K),在全量數據上進行微調帶來了巨大的計算開銷和冗余 。

      現有的數據篩選方法雖然旨在選取高質量子集,但普遍存在兩個關鍵痛點:

      • 高昂的篩選成本:現有方法通常要求目標 MLLM 對全量數據進行反向傳播以計算重要性(如梯度、Loss),這導致篩選階段本身的計算成本就極高,違背了 「降本增效」的初衷 。也就是說,為了篩選出少量有價值數據,我們還是得讓全部的數據進入到目標 MLLM 當中并訓練。
      • 優化目標的解耦:數據篩選通常需要兼顧重要性(Importance)和多樣性(Diversity)?,F有方法往往將二者割裂處理——在訓練階段關注重要性,在篩選階段通過獨立算法處理多樣性。這種解耦往往導致次優的權衡 。

      針對上述問題,本文提出了 COIDO 框架,旨在通過極低成本的訓練,實現重要性與多樣性的聯合(耦合)優化 。

      04 方法論 (Mothodology)

      COIDO 的核心思想是摒棄「遍歷全量數據」的舊范式,轉而采用輕量級評分器(Plug-in Scorer)配合小樣本采樣的策略。



      1. 輕量級評分器與小樣本學習:不同于需要全量微調 MLLM 的方法,COIDO 引入了一個輕量級的插件評分器(COIDO Scorer)。我們僅從全量數據中隨機采樣一小部分(例如 20%)作為訓練集。評分器通過這部分數據學習整個數據集的分布特征,從而能夠對剩余數據進行泛化評分,無需遍歷全集進行訓練 。

      2. 重要性與多樣性的耦合優化 (Coupled Optimization):這是本論文的核心創新點。本文將重要性和多樣性的優化統一在了一個聯合訓練框架中,而非分階段進行:

      重要性損失 (L_I):基于 Cross-Entropy Loss 的重加權。我們將評分器輸出的得分 w 加權作用于 MLLM 的預測 Loss。根據反向傳播原理,模型會自動降低高難度(高 Loss)樣本的權重以最小化整體 Loss,從而使得評分器隱式地學習到樣本的重要性(即:分數越低,樣本越重要 / 越難)
      多樣性損失 (L_D):基于譜聚類(Spectral Clustering)的方差最小化。我們在特征空間將數據聚類,并計算各簇(Cluster)平均得分的方差。通過最小化該方差,迫使模型在挑選高分樣本時,不會過度集中于某一類,從而保證了數據的多樣性分布。











      05 實驗 (Experiments)

      本文在 LLaVA-1.5-7B 模型及 LLaVA-665K 數據集上進行了廣泛驗證,并在 10 個主流多模態基準(包括 VQAv2, GQA, MMBench 等)上進行了測試。



      1. 性能與效率的雙重 SOTA:實驗結果表明,COIDO 僅利用 20% 的數據進行訓練和篩選,即可達到全量數據微調 98.2% 的平均性能。與現有的 SOTA 方法(如 ICONS、TIVE、COINCIDE)相比:

      • 計算效率最高:COIDO 擁有最低的 Total FLOPs (4.2E),顯著優于需要全量遍歷的方法。
      • 篩選質量最優:在相同的數據留存率下,COIDO 在各個 Benchmark 上均取得了極具競爭力的結果。



      2. 強大的泛化性與遷移性:將在 LLaVA-665K 上訓練好的 COIDO Scorer 直接應用于 Vision-Flan 數據集(Zero-shot Transfer),其表現甚至優于在該數據集上從頭訓練的評分器,證明了 COIDO 能夠學習到通用的數據價值評估標準。

      06 總結 (Conclusion)

      COIDO 提供了一種全新的多模態數據篩選范式。它打破了「數據篩選必須昂貴」的刻板印象,證明了通過耦合優化和小樣本學習,我們可以「以簡馭繁」,用極小的計算代價精準定位高價值的視覺指令數據。這不僅為資源受限的研究者提供了高效微調 MLLM 的可能,也為未來大規模多模態數據的自動化清洗與治理提供了新的思路。

      關注項目主頁獲取更多細節與代碼實現!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      小米交付中心車禍后續:醫療報告曝光,傷者確認死亡,家屬發聲

      小米交付中心車禍后續:醫療報告曝光,傷者確認死亡,家屬發聲

      鋭娛之樂
      2025-12-17 20:13:21
      61歲何晴離世僅3天,同學透露她一生遺憾!意外導致無法體面退休

      61歲何晴離世僅3天,同學透露她一生遺憾!意外導致無法體面退休

      銀河史記
      2025-12-16 16:13:16
      柬軍遭火力壓制,洪森押上三大賭注

      柬軍遭火力壓制,洪森押上三大賭注

      戎評
      2025-12-17 16:09:11
      健美冠軍王昆去世,年僅30歲,好友透露原因,甲流鍛煉誘發心肌炎

      健美冠軍王昆去世,年僅30歲,好友透露原因,甲流鍛煉誘發心肌炎

      180視角
      2025-12-17 08:10:16
      放棄爭奪數百億遺產,帶著女兒遠遁美國,如今才知道她有多清醒

      放棄爭奪數百億遺產,帶著女兒遠遁美國,如今才知道她有多清醒

      夢史
      2025-12-16 11:07:49
      副市長、市教育局局長、縣委書記、縣長等25人被處理

      副市長、市教育局局長、縣委書記、縣長等25人被處理

      南方都市報
      2025-12-17 19:50:20
      館藏明代仇英《江南春》為何現身拍賣市場?南京博物院回應

      館藏明代仇英《江南春》為何現身拍賣市場?南京博物院回應

      界面新聞
      2025-12-17 21:05:14
      泰軍炸掉詐騙園區、器官移植中心,洪森為何氣急敗壞?

      泰軍炸掉詐騙園區、器官移植中心,洪森為何氣急敗壞?

      胡嚴亂語
      2025-12-16 20:33:51
      快到年底了,一大波軍工企業又要出來騙經費了

      快到年底了,一大波軍工企業又要出來騙經費了

      超級學爸蛋總
      2025-12-17 18:54:55
      陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

      陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

      蕾爸退休日記
      2025-12-16 22:37:37
      “沒有人會對一捧土產生情感,直到自己親手壘起了一座”,廣州大學網紅教授發文懷念已故好友看哭全網;二人曾是大學室友,對方因公殉職

      “沒有人會對一捧土產生情感,直到自己親手壘起了一座”,廣州大學網紅教授發文懷念已故好友看哭全網;二人曾是大學室友,對方因公殉職

      極目新聞
      2025-12-17 20:51:53
      小米、華為鴻蒙智行、理想等先后報警,煙臺公安:打掉一個炒作新能源汽車負面信息團伙

      小米、華為鴻蒙智行、理想等先后報警,煙臺公安:打掉一個炒作新能源汽車負面信息團伙

      河南交通廣播1041
      2025-12-17 21:20:08
      海南封關動了誰的奶酪?答案顯而易見:新加坡為代表的傳統中轉港

      海南封關動了誰的奶酪?答案顯而易見:新加坡為代表的傳統中轉港

      知法而形
      2025-12-17 09:45:58
      上??諝饫镲h著“焦味”?最新回應來了

      上??諝饫镲h著“焦味”?最新回應來了

      看看新聞Knews
      2025-12-17 18:28:05
      3離4婚,2妻病逝,極品前夫哥許亞軍!

      3離4婚,2妻病逝,極品前夫哥許亞軍!

      凹凹滴
      2025-12-17 18:02:34
      日本通告全世界,或將強登釣魚島;中方已增兵,俄羅斯也選邊站了

      日本通告全世界,或將強登釣魚島;中方已增兵,俄羅斯也選邊站了

      現代小青青慕慕
      2025-12-17 12:58:18
      佳能63萬“惡意賠償”,咋這么明目張膽?

      佳能63萬“惡意賠償”,咋這么明目張膽?

      胡嚴亂語
      2025-12-16 20:29:21
      重情重義!曝許亞軍為何晴付10年醫藥費,延長生命偷偷打生活費

      重情重義!曝許亞軍為何晴付10年醫藥費,延長生命偷偷打生活費

      查爾菲的筆記
      2025-12-17 20:23:54
      貴州征求意見:支持探索“品牌白酒質押貸”等服務,盤活酒企資產緩解資金壓力

      貴州征求意見:支持探索“品牌白酒質押貸”等服務,盤活酒企資產緩解資金壓力

      界面新聞
      2025-12-09 13:16:31
      好利來大公子承認變女人!穿女裝做美甲,自稱“妹妹”,評論炸鍋

      好利來大公子承認變女人!穿女裝做美甲,自稱“妹妹”,評論炸鍋

      阿纂看事
      2025-12-17 16:50:40
      2025-12-17 23:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      藝術
      教育
      時尚
      手機
      房產

      藝術要聞

      毛主席書寫林則徐詩詞,字跡超凡,引發關注。

      教育要聞

      一年制英碩畢業生的感悟!

      你算老幾?我算老己!

      手機要聞

      iQOO Z11 Pro曝光,3D超聲波指紋+2億大底主攝

      房產要聞

      封關前夕!豪庭銘苑超前交付,敬呈??谏钚路侗?/h3>

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 实拍女处破www免费看| 成熟女人特级毛片www免费| 午夜福利理论片高清在线| 亚洲热妇无码av在线播放| 日本一区三区高清视频| 国产福利视频在线观看| 蜜桃av一卡二卡三卡| 欧美精品videosex极品| 国产360激情盗摄全集| 让少妇高潮无乱码高清在线观看 | 先锋影音男人av资源| 白银市| 久久天天躁狠狠躁夜夜躁2o2o| 亚洲精品综合网站| 国产精品成| 宜章县| 日韩精品人妻中文字幕有码| 人妻少妇精品中文字幕| 热re99久久精品国产99热| 影音先锋成人在线| 国产一级r片内射免费视频| 亚洲国产成人极品综合| 桂林市| 久久久女人| 失禁大喷潮在线播放| 狠狠色综合tv久久久久久| 越南女子杂交内射bbwxz| 日本在线观看| 久久精品av国产一区二区| 中文字幕日本人妻| 日本熟妇色xxxxx日本免费看| 性欧美丰满熟妇xxxx性久久久| 69堂在线观看线无码视频一| 国产美女无遮挡裸色视频| 中文精品字幕人妻熟女| 日韩无码专区| 国产sm调教折磨视频| 兴国县| 成人3p在线观看| 日韩精品一区二区蜜臀av| 亚洲人成电影|