<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      告別全量掃描!浙大提出COIDO:破解多模態(tài)數(shù)據(jù)選擇「高耗」難題

      0
      分享至



      本文第一作者是二年級(jí)博士生閆熠辰,主要研究方向是多模態(tài)大模型的數(shù)據(jù)質(zhì)量管理;通訊作者是李環(huán)研究員,主要研究方向包括人工智能數(shù)據(jù)準(zhǔn)備、大模型高效推理與部署、時(shí)空大數(shù)據(jù)與模型輕量化等。



      01 省流版:一張圖看懂 COIDO

      在深入技術(shù)細(xì)節(jié)之前,我們先用一張漫畫(huà)來(lái)直觀理解 COIDO (Coupled Importance-Diversity Optimization) 解決的核心問(wèn)題與方案:

      正如鐘離在漫畫(huà)中所言,面對(duì)海量視覺(jué)指令數(shù)據(jù)的選擇任務(wù),傳統(tǒng)方法需要遍歷全部數(shù)據(jù)才能進(jìn)行篩選造成大量「磨損」(高昂計(jì)算成本)。同時(shí)在面對(duì)數(shù)據(jù)重要性和多樣性問(wèn)題時(shí),傳統(tǒng)方法往往顧此失彼。而 COIDO 通過(guò)「耦合優(yōu)化」的新契約,實(shí)現(xiàn)了以簡(jiǎn)馭繁的效果。

      02 論文速覽



      • 論文題目:COIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization
      • 收錄會(huì)議:NeurIPS 2025
      • 作者單位:浙江大學(xué)大數(shù)據(jù)智能團(tuán)隊(duì)、杭州電子科技大學(xué)、北京郵電大學(xué)
      • 項(xiàng)目代碼:https://github.com/SuDIS-ZJU/COIDO
      • 論文鏈接:https://arxiv.org/abs/2510.17847

      03 研究背景與動(dòng)機(jī) (Motivation)



      多模態(tài)大語(yǔ)言模型(MLLM)的能力在很大程度上依賴于高質(zhì)量的視覺(jué)指令微調(diào)(Visual Instruction Tuning)。然而,隨著數(shù)據(jù)集規(guī)模的爆炸式增長(zhǎng)(如 LLaVA-665K),在全量數(shù)據(jù)上進(jìn)行微調(diào)帶來(lái)了巨大的計(jì)算開(kāi)銷和冗余 。

      現(xiàn)有的數(shù)據(jù)篩選方法雖然旨在選取高質(zhì)量子集,但普遍存在兩個(gè)關(guān)鍵痛點(diǎn):

      • 高昂的篩選成本:現(xiàn)有方法通常要求目標(biāo) MLLM 對(duì)全量數(shù)據(jù)進(jìn)行反向傳播以計(jì)算重要性(如梯度、Loss),這導(dǎo)致篩選階段本身的計(jì)算成本就極高,違背了 「降本增效」的初衷 。也就是說(shuō),為了篩選出少量有價(jià)值數(shù)據(jù),我們還是得讓全部的數(shù)據(jù)進(jìn)入到目標(biāo) MLLM 當(dāng)中并訓(xùn)練。
      • 優(yōu)化目標(biāo)的解耦:數(shù)據(jù)篩選通常需要兼顧重要性(Importance)和多樣性(Diversity)?,F(xiàn)有方法往往將二者割裂處理——在訓(xùn)練階段關(guān)注重要性,在篩選階段通過(guò)獨(dú)立算法處理多樣性。這種解耦往往導(dǎo)致次優(yōu)的權(quán)衡 。

      針對(duì)上述問(wèn)題,本文提出了 COIDO 框架,旨在通過(guò)極低成本的訓(xùn)練,實(shí)現(xiàn)重要性與多樣性的聯(lián)合(耦合)優(yōu)化 。

      04 方法論 (Mothodology)

      COIDO 的核心思想是摒棄「遍歷全量數(shù)據(jù)」的舊范式,轉(zhuǎn)而采用輕量級(jí)評(píng)分器(Plug-in Scorer)配合小樣本采樣的策略。



      1. 輕量級(jí)評(píng)分器與小樣本學(xué)習(xí):不同于需要全量微調(diào) MLLM 的方法,COIDO 引入了一個(gè)輕量級(jí)的插件評(píng)分器(COIDO Scorer)。我們僅從全量數(shù)據(jù)中隨機(jī)采樣一小部分(例如 20%)作為訓(xùn)練集。評(píng)分器通過(guò)這部分?jǐn)?shù)據(jù)學(xué)習(xí)整個(gè)數(shù)據(jù)集的分布特征,從而能夠?qū)κS鄶?shù)據(jù)進(jìn)行泛化評(píng)分,無(wú)需遍歷全集進(jìn)行訓(xùn)練 。

      2. 重要性與多樣性的耦合優(yōu)化 (Coupled Optimization):這是本論文的核心創(chuàng)新點(diǎn)。本文將重要性和多樣性的優(yōu)化統(tǒng)一在了一個(gè)聯(lián)合訓(xùn)練框架中,而非分階段進(jìn)行:

      重要性損失 (L_I):基于 Cross-Entropy Loss 的重加權(quán)。我們將評(píng)分器輸出的得分 w 加權(quán)作用于 MLLM 的預(yù)測(cè) Loss。根據(jù)反向傳播原理,模型會(huì)自動(dòng)降低高難度(高 Loss)樣本的權(quán)重以最小化整體 Loss,從而使得評(píng)分器隱式地學(xué)習(xí)到樣本的重要性(即:分?jǐn)?shù)越低,樣本越重要 / 越難)
      多樣性損失 (L_D):基于譜聚類(Spectral Clustering)的方差最小化。我們?cè)谔卣骺臻g將數(shù)據(jù)聚類,并計(jì)算各簇(Cluster)平均得分的方差。通過(guò)最小化該方差,迫使模型在挑選高分樣本時(shí),不會(huì)過(guò)度集中于某一類,從而保證了數(shù)據(jù)的多樣性分布。











      05 實(shí)驗(yàn) (Experiments)

      本文在 LLaVA-1.5-7B 模型及 LLaVA-665K 數(shù)據(jù)集上進(jìn)行了廣泛驗(yàn)證,并在 10 個(gè)主流多模態(tài)基準(zhǔn)(包括 VQAv2, GQA, MMBench 等)上進(jìn)行了測(cè)試。



      1. 性能與效率的雙重 SOTA:實(shí)驗(yàn)結(jié)果表明,COIDO 僅利用 20% 的數(shù)據(jù)進(jìn)行訓(xùn)練和篩選,即可達(dá)到全量數(shù)據(jù)微調(diào) 98.2% 的平均性能。與現(xiàn)有的 SOTA 方法(如 ICONS、TIVE、COINCIDE)相比:

      • 計(jì)算效率最高:COIDO 擁有最低的 Total FLOPs (4.2E),顯著優(yōu)于需要全量遍歷的方法。
      • 篩選質(zhì)量最優(yōu):在相同的數(shù)據(jù)留存率下,COIDO 在各個(gè) Benchmark 上均取得了極具競(jìng)爭(zhēng)力的結(jié)果。



      2. 強(qiáng)大的泛化性與遷移性:將在 LLaVA-665K 上訓(xùn)練好的 COIDO Scorer 直接應(yīng)用于 Vision-Flan 數(shù)據(jù)集(Zero-shot Transfer),其表現(xiàn)甚至優(yōu)于在該數(shù)據(jù)集上從頭訓(xùn)練的評(píng)分器,證明了 COIDO 能夠?qū)W習(xí)到通用的數(shù)據(jù)價(jià)值評(píng)估標(biāo)準(zhǔn)。

      06 總結(jié) (Conclusion)

      COIDO 提供了一種全新的多模態(tài)數(shù)據(jù)篩選范式。它打破了「數(shù)據(jù)篩選必須昂貴」的刻板印象,證明了通過(guò)耦合優(yōu)化和小樣本學(xué)習(xí),我們可以「以簡(jiǎn)馭繁」,用極小的計(jì)算代價(jià)精準(zhǔn)定位高價(jià)值的視覺(jué)指令數(shù)據(jù)。這不僅為資源受限的研究者提供了高效微調(diào) MLLM 的可能,也為未來(lái)大規(guī)模多模態(tài)數(shù)據(jù)的自動(dòng)化清洗與治理提供了新的思路。

      關(guān)注項(xiàng)目主頁(yè)獲取更多細(xì)節(jié)與代碼實(shí)現(xiàn)!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      國(guó)籍嚴(yán)查打響第一槍!華人被攔機(jī)場(chǎng),“雙面人”中國(guó)堅(jiān)決不要!

      國(guó)籍嚴(yán)查打響第一槍!華人被攔機(jī)場(chǎng),“雙面人”中國(guó)堅(jiān)決不要!

      青仔的世界
      2025-12-07 05:16:52
      中方殺雞儆猴,拿日本反華首惡開(kāi)刀,不到24小時(shí),聯(lián)合國(guó)爆發(fā)激戰(zhàn)

      中方殺雞儆猴,拿日本反華首惡開(kāi)刀,不到24小時(shí),聯(lián)合國(guó)爆發(fā)激戰(zhàn)

      吳欣純Deborah
      2025-12-18 18:16:04
      河南濟(jì)源明明是縣級(jí)市,為何市委書(shū)記和市長(zhǎng),卻都是正廳級(jí)?

      河南濟(jì)源明明是縣級(jí)市,為何市委書(shū)記和市長(zhǎng),卻都是正廳級(jí)?

      袁老師說(shuō)歷史
      2025-12-18 15:40:28
      娃哈哈老員工曝內(nèi)幕:杜建英和宗慶后在美領(lǐng)證,與宗馥莉早有隔閡

      娃哈哈老員工曝內(nèi)幕:杜建英和宗慶后在美領(lǐng)證,與宗馥莉早有隔閡

      娛樂(lè)八卦木木子
      2025-12-18 15:14:14
      張雨浦,添新身份

      張雨浦,添新身份

      上觀新聞
      2025-12-18 08:07:05
      特斯拉Model Y L上月在國(guó)內(nèi)市場(chǎng)交付量過(guò)萬(wàn) 消息稱有13000輛

      特斯拉Model Y L上月在國(guó)內(nèi)市場(chǎng)交付量過(guò)萬(wàn) 消息稱有13000輛

      TechWeb
      2025-12-18 17:01:07
      43-35!這就是喬治的改變,他讓76人防守從墊底飆升聯(lián)盟第二

      43-35!這就是喬治的改變,他讓76人防守從墊底飆升聯(lián)盟第二

      奕辰說(shuō)球
      2025-12-18 11:35:18
      66歲山口百惠近況曝光!O型腿明顯,走路彎腰駝背,變化大

      66歲山口百惠近況曝光!O型腿明顯,走路彎腰駝背,變化大

      小熊侃史
      2025-12-18 10:51:22
      ESPN:阿莫林擁有2億鎊可以改造后防線;郵報(bào):曼聯(lián)準(zhǔn)備在賽季末徹底重組他們的中場(chǎng)

      ESPN:阿莫林擁有2億鎊可以改造后防線;郵報(bào):曼聯(lián)準(zhǔn)備在賽季末徹底重組他們的中場(chǎng)

      MUREDS
      2025-12-17 22:48:17
      股票被套別躺平!主力自救法:10萬(wàn)本金虧到5萬(wàn),反賺60%

      股票被套別躺平!主力自救法:10萬(wàn)本金虧到5萬(wàn),反賺60%

      流蘇晚晴
      2025-12-18 18:35:55
      違規(guī)催收?微粒貸2.6萬(wàn)條投訴背后:微眾銀行合作超280家催收機(jī)構(gòu)

      違規(guī)催收?微粒貸2.6萬(wàn)條投訴背后:微眾銀行合作超280家催收機(jī)構(gòu)

      鳳凰網(wǎng)財(cái)經(jīng)
      2025-12-18 13:46:09
      網(wǎng)友在餐廳點(diǎn)了一只螃蟹引發(fā)熱議 專家:是正直愛(ài)潔蟹,有毒不能吃

      網(wǎng)友在餐廳點(diǎn)了一只螃蟹引發(fā)熱議 專家:是正直愛(ài)潔蟹,有毒不能吃

      封面新聞
      2025-12-18 18:47:04
      歷史第一人!詹姆斯是歷史唯一擁有五大MVP的球員!

      歷史第一人!詹姆斯是歷史唯一擁有五大MVP的球員!

      氧氣是個(gè)地鐵
      2025-12-18 14:11:55
      教育部:要增強(qiáng)做好中小學(xué)科學(xué)教育緊迫感

      教育部:要增強(qiáng)做好中小學(xué)科學(xué)教育緊迫感

      中國(guó)青年報(bào)
      2025-12-16 21:38:09
      給中國(guó)設(shè)下廣場(chǎng)協(xié)議陷阱,強(qiáng)盜本性爆發(fā),14億中國(guó)人給美債買單?

      給中國(guó)設(shè)下廣場(chǎng)協(xié)議陷阱,強(qiáng)盜本性爆發(fā),14億中國(guó)人給美債買單?

      趣史微視頻
      2025-12-18 18:10:05
      又一個(gè)大V被封!任何政治狂熱,都是國(guó)家和人民的災(zāi)難!

      又一個(gè)大V被封!任何政治狂熱,都是國(guó)家和人民的災(zāi)難!

      深度報(bào)
      2025-12-10 22:37:02
      事實(shí)證明,放棄回國(guó)嫁給撒貝寧的李白,才是她人生中最正確的決定

      事實(shí)證明,放棄回國(guó)嫁給撒貝寧的李白,才是她人生中最正確的決定

      角落的隱藏美景
      2025-12-17 06:20:07
      菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬(wàn)億,廣東是多少?

      菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬(wàn)億,廣東是多少?

      傲傲講歷史
      2025-09-27 16:59:25
      為了救它,李書(shū)福再貸6億美刀!

      為了救它,李書(shū)福再貸6億美刀!

      車轱轆話V
      2025-12-18 18:07:12
      河北一公立中學(xué),停止辦學(xué)!

      河北一公立中學(xué),停止辦學(xué)!

      新牛城
      2025-12-17 09:10:37
      2025-12-18 19:43:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11950文章數(shù) 142512關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽

      頭條要聞

      智力殘疾女孩遭4人侵犯懷孕父親討說(shuō)法遇害 后續(xù)來(lái)了

      頭條要聞

      智力殘疾女孩遭4人侵犯懷孕父親討說(shuō)法遇害 后續(xù)來(lái)了

      體育要聞

      巴黎首奪世界級(jí)冠軍 加冕6冠王比肩巴薩拜仁

      娛樂(lè)要聞

      絲芭放大招了!實(shí)名舉報(bào)鞠婧祎經(jīng)濟(jì)犯罪

      財(cái)經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶進(jìn)程

      汽車要聞

      在零下30℃的考場(chǎng)里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      游戲
      教育
      時(shí)尚
      公開(kāi)課
      軍事航空

      新江湖啟動(dòng)!《逍遙江湖輕松版》今日首測(cè),重啟一代人的武俠浪漫

      教育要聞

      “這樣廉價(jià)的母愛(ài),還是別曬了”,家長(zhǎng)給女兒補(bǔ)襪子,被網(wǎng)友群嘲

      “棕色大衣”今年冬天又火了,怎么搭都高級(jí)時(shí)髦

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      福建艦入列后首過(guò)臺(tái)海 臺(tái)方談為何"甲板上沒(méi)有艦載機(jī)"

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日本不卡一区二区三区| 中文字幕AV一区| 亚洲日韩成人精品| 少妇性l交大片| 国产精品久久无码一区二区三区网| 亚洲色婷婷一区二区| 91高级网站| 亚洲网站色| 少妇高潮喷水久久久影院| 午夜免费啪视频在线观看| 蜜桃?一区二区视频在线观看| 阿克| 一区二区国产精品精华液| 亚洲人成亚洲精品| 久久天堂无码av网站| 欧美老熟妇色XXXXX性| 九一九色国产| 久久精品国产中国久久| 国产乱码精品一区二区三| 婷婷色色五月天| 五级黄高潮片90分钟视频| 国产精品黄在线观看免费软件| 最新亚洲人成网站在线观看| 日本A在线| 四虎www永久在线精品| 国产一区二区三区四区五区vm | 亚洲中文字幕av| 超碰草| 天堂国产一区二区三区四区不卡| 好吊视频在线一区二区三区| 婷婷激情综合| 人妻图区| 大肉大捧一进一出视频| 天美传媒mv免费观看完整| 精品国产三级A∨在线| 99视频精品在线| 亚洲综合在线另类色区奇米| 人人爽人人爽人人片av东京热| 松下纱荣子被c到高潮下不了床| 久久久久国产一区二区| 九九热在线视频|