<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      LLaVA-OneVision-1.5開源,8B模型預(yù)訓(xùn)練只需4天、1.6萬美元

      0
      分享至



      LLaVA 于 2023 年提出,通過低成本對齊高效連接開源視覺編碼器與大語言模型,使「看圖 — 理解 — 對話」的多模態(tài)能力在開放生態(tài)中得以普及,明顯縮小了與頂級閉源模型的差距,標(biāo)志著開源多模態(tài)范式的重要里程碑。



      LLaVA 用低成本對齊打通「視覺編碼器 + 大語言模型」起步,LLaVA?1.5 以更大更干凈的數(shù)據(jù)與高分辨率輸入強(qiáng)化理解,LLaVA?NeXT 拓展 OCR / 數(shù)理與多場景任務(wù);隨后分支為 LLaVA?NeXT?Video 處理時(shí)序視頻、多幀推理,及 LLaVA-NeXT-Interleave 支持交替多圖文與跨圖聯(lián)推;最終在 LLaVA?OneVision 匯聚為統(tǒng)一接口,覆蓋圖像 / 文檔 / 圖表 / 多圖 / 視頻,兼顧效果與效率。

      盡管多模態(tài)對齊的接口與架構(gòu)趨于收斂,真正「可復(fù)現(xiàn)」的開源路徑仍與「僅開放權(quán)重」存在間距。Qwen2.5?VL、InternVL3.5 在 OCR、文檔理解、數(shù)理與跨圖推理上樹立高基線,但完整的數(shù)據(jù)清單、清洗與混合比例,以及對齊 / 采樣與訓(xùn)練日程多為部分披露,難以端到端重現(xiàn)。Molmo 以更干凈的數(shù)據(jù)流水線與精細(xì)化設(shè)計(jì),在多項(xiàng)評測與偏好中逼近閉源強(qiáng)基線;Open?Qwen2VL 則表明在更高效范式下,即便原始多模態(tài) token 占比較低亦能取得強(qiáng)對比性能。當(dāng)前主要鴻溝在于 「配方與工程細(xì)節(jié)的可復(fù)現(xiàn)性」,而非單一的模型架構(gòu)選擇。



      靈感實(shí)驗(yàn)室團(tuán)隊(duì)聯(lián)合 LMMs-Lab 圍繞「高性能 — 低成本 — 強(qiáng)復(fù)現(xiàn)」三大目標(biāo),在 LLaVA-OneVision 體系上推出完整開放的概念均衡 85M 預(yù)訓(xùn)練數(shù)據(jù)集(LLaVA-OV-1.5-Mid-Training-85M)與精篩 22M 指令數(shù)據(jù)集(LLaVA-OV-1.5-Instruct-22M),并沿用緊湊的三階段流程(語言–圖像對齊 Stage?1、概念均衡與高質(zhì)量知識(shí)注入 Stage?1.5、指令微調(diào) Stage?2),結(jié)合離線并行數(shù)據(jù)打包(最高約 11× padding 壓縮)與 Megatron?LM + 分布式優(yōu)化器,將 8B 規(guī)模 VL 模型的 Stage?1.5 預(yù)訓(xùn)練在 128 張 A800 上控制在約 4 天內(nèi)完成,預(yù)算控制在 1.6 萬美元。

      在此基礎(chǔ)上,我們提出LLaVA?OneVision?1.5,繼承并擴(kuò)展 LLaVA 系列:引入 RICE?ViT 支持原生分辨率與區(qū)域級細(xì)粒度語義建模、強(qiáng)化圖表 / 文檔 / 結(jié)構(gòu)化場景理解,延續(xù)緊湊三階段范式以避免冗長 curriculum,構(gòu)建并強(qiáng)調(diào)「質(zhì)量 — 覆蓋 — 均衡」的 85M 預(yù)訓(xùn)練與 22M 指令集合,并真正意義上實(shí)現(xiàn)全鏈條透明開放(數(shù)據(jù)、訓(xùn)練與打包工具鏈、配置腳本、日志與可復(fù)現(xiàn)評測命令及其構(gòu)建與執(zhí)行細(xì)節(jié)),以確保社區(qū)低成本復(fù)現(xiàn)與可驗(yàn)證拓展。

      實(shí)驗(yàn)結(jié)果顯示,LLaVA?OneVision 在多項(xiàng)公開多模態(tài)基準(zhǔn)上較 Qwen2.5?VL 展現(xiàn)出競爭性乃至更優(yōu)性能(詳見技術(shù)報(bào)告)。



      • 論文標(biāo)題:LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
      • 代碼地址:
      • https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
      • 技術(shù)報(bào)告地址:
      • https://arxiv.org/abs/2509.23661
      • 數(shù)據(jù) / 模型地址:
      • https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713
      • Demo:
      • https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

      數(shù)據(jù)構(gòu)建要點(diǎn)



      用于通用視覺語言的預(yù)訓(xùn)練集(85M)與指令微調(diào)數(shù)據(jù)集(22M)。其中 85M 預(yù)訓(xùn)練數(shù)據(jù)融合 COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K、SAM-1B、MINT、Zero250M 等 8 大異構(gòu)來源,形成約 2,000 萬中文與 6,500 萬英文圖文對。

      為破解長尾概念稀疏與原始 caption 噪聲 / 缺失問題,我們不再依賴原始文本詞頻,而是采用特征驅(qū)動(dòng)的「概念均衡」策略:利用 MetaCLIP 編碼器將全部圖像與 50 萬規(guī)模概念詞嵌入共享向量空間,對每張圖像檢索 Top-K 最相似概念,統(tǒng)計(jì)概念頻次后按逆頻加權(quán)重采樣,抑制高頻背景類并提升罕見細(xì)粒度實(shí)體、屬性與場景占比,顯著平坦化長尾分布;隨后使用高質(zhì)量 Captioner 生成對齊的中英文增強(qiáng)描述。系統(tǒng)實(shí)驗(yàn)表明,在相同或更低 token 預(yù)算下,擴(kuò)大高質(zhì)量數(shù)據(jù)規(guī)模并結(jié)合概念均衡采樣,可在多模態(tài)理解、長尾識(shí)別與指令泛化等核心指標(biāo)上獲得顯著且可復(fù)現(xiàn)的性能提升。



      指令數(shù)據(jù) 22M 覆蓋八大類別:Caption、Chart & Table、Code & Math、Domain-specific、General VQA、Grounding & Counting、OCR、Science。通過多源聚合、格式統(tǒng)一、指令重寫、雙語互轉(zhuǎn)、模板去同質(zhì)化與安全篩除,保持類別與難度分布均衡。并且我們的指令數(shù)據(jù)疊加 FineVision 數(shù)據(jù)集之后,結(jié)果會(huì)繼續(xù)增加。



      訓(xùn)練策略

      1. 視覺編碼器預(yù)訓(xùn)練

      為了讓模型在 OCR、表格 / 文檔、區(qū)域理解與后續(xù)指令推理上具有更高的下限,我們在 LLaVA-OneVision-1.5 中采用自研的 MVT v1.5(RICE-ViT) 作為視覺主干。

      相較僅做全局對齊的 CLIP / SigLIP 類對比模型,RICE-ViT 針對「實(shí)例只用單一全局向量」這一結(jié)構(gòu)性瓶頸,引入統(tǒng)一的 Region Cluster Discrimination 機(jī)制:在 4.5 億圖像與 24 億候選區(qū)域上訓(xùn)練,利用區(qū)域聚類判別 + 區(qū)域感知注意力顯式建模局部實(shí)體 / 文本塊與上下文關(guān)系,并結(jié)合 2D 旋轉(zhuǎn)位置編碼(2D RoPE)實(shí)現(xiàn)多分辨率原生支持。

      與 SigLIP2 依賴多套專用損失(SILC、TIPS、LocCa 等)不同,我們用單一聚類判別范式同時(shí)強(qiáng)化通用語義、OCR 識(shí)別與定位能力,訓(xùn)練與推理鏈路更簡潔、可維護(hù)性更高。在多模態(tài)融合階段,通過輕量投影與后續(xù)全參數(shù)聯(lián)合訓(xùn)練,將這一細(xì)粒度語義底座無縫接入語言模型,減少冗余適配模塊并提升跨任務(wù)遷移效率。



      2. 三階段學(xué)習(xí)流程

      • Stage-1:語言–圖像對齊

      使用 LLaVA-1.5 558K 數(shù)據(jù)集訓(xùn)練視覺投影層,將視覺編碼輸出映射到語言模型詞嵌入空間。此階段控制參數(shù)更新范圍以快速穩(wěn)定收斂。

      • Stage-1.5:高質(zhì)量知識(shí)中期預(yù)訓(xùn)練

      在概念均衡的 85M 預(yù)訓(xùn)練數(shù)據(jù)上進(jìn)行全參數(shù)訓(xùn)練,注入廣域視覺語義與世界知識(shí),強(qiáng)調(diào)數(shù)據(jù)質(zhì)量與覆蓋而非盲目擴(kuò)張 token 規(guī)模。

      • Stage-2:視覺指令對齊

      基于 22M 指令數(shù)據(jù)與 FineVision 等多源視覺指令語料繼續(xù)全參數(shù)訓(xùn)練,提升任務(wù)泛化、推理組織與響應(yīng)格式控制能力。

      3. 離線并行數(shù)據(jù)打包

      為降低多模態(tài)樣本長度差異帶來的 padding 浪費(fèi)、提升有效 token 利用率,我們采用離線并行數(shù)據(jù)打包:先按樣本長度或長度區(qū)間進(jìn)行哈希桶聚類,減少全局排序與掃描成本;再在數(shù)據(jù)準(zhǔn)備階段以多線程將多條短樣本拼接為接近目標(biāo)長度的定長序列。該流程一次性處理全量語料,具備確定性與可復(fù)現(xiàn)性,避免在線動(dòng)態(tài)打包引入的運(yùn)行時(shí)不穩(wěn)定與額外 CPU 開銷。

      在 85M 規(guī)模的預(yù)訓(xùn)練樣本上,相比原始方案可實(shí)現(xiàn)最高約 11× 的 padding 有效壓縮(定義:原始方案總 padding token / 打包后總 padding token)。

      4. 混合并行與長上下文高效訓(xùn)練,訓(xùn)練端采用混合并行與長上下文優(yōu)化

      張量并行(TP)+ 流水并行(PP)+ 序列 / 上下文并行(Sequence/Context Parallel)與分布式優(yōu)化器協(xié)同,以在大規(guī)模集群中同時(shí)提升算力利用與顯存效率;同時(shí)采用原生分辨率策略,保留圖表、文檔與密集文本區(qū)域的結(jié)構(gòu)細(xì)節(jié),避免統(tǒng)一縮放帶來的信息損失。

      在 128×A800 集群上,8B 規(guī)模模型的 Stage?1.5(85M 樣本、原生分辨率)約 3.7 天完成,兼顧吞吐與成本。

      結(jié)論

      LLaVA-OneVision-1.5 證明:依托概念均衡的 85M 預(yù)訓(xùn)練數(shù)據(jù)與高質(zhì)量指令數(shù)據(jù),結(jié)合 RICE?ViT 細(xì)粒度視覺底座和緊湊的三階段策略(對齊–高質(zhì)量知識(shí)注入–指令泛化),再配合離線并行打包(最高約 11× padding 減少)與混合并行 / 原生分辨率等工程優(yōu)化,8B 規(guī)模即可在更低 token 與算力成本下,對標(biāo)乃至部分超越主流開源與部分閉源多模態(tài)模型,體現(xiàn)「高質(zhì)量結(jié)構(gòu)化數(shù)據(jù) + 系統(tǒng)效率協(xié)同」相較單純堆量的優(yōu)勢。

      這是一次非常簡單的復(fù)現(xiàn)工作:我們完整開放數(shù)據(jù)、工具鏈、腳本、配置、日志與評測配方,復(fù)現(xiàn)路徑清晰、依賴明確,無需復(fù)雜調(diào)參即可跑通。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      大的要來了!伊朗公開最后底牌,美軍迎戰(zhàn)世界第二大軍事集團(tuán)總攻

      大的要來了!伊朗公開最后底牌,美軍迎戰(zhàn)世界第二大軍事集團(tuán)總攻

      探源歷史
      2026-04-10 02:10:36
      在過去的10年里,中國如何建立起龐大的天然氣儲(chǔ)備

      在過去的10年里,中國如何建立起龐大的天然氣儲(chǔ)備

      風(fēng)向觀察
      2026-04-09 12:00:32
      油價(jià)漲幅收窄、美股指數(shù)集體轉(zhuǎn)漲 特朗普要求內(nèi)塔尼亞胡減少對黎巴嫩的打擊

      油價(jià)漲幅收窄、美股指數(shù)集體轉(zhuǎn)漲 特朗普要求內(nèi)塔尼亞胡減少對黎巴嫩的打擊

      財(cái)聯(lián)社
      2026-04-09 23:37:04
      文章上海開陜西館子八號(hào)院兒!穿工服端盤子招呼客人,全程微笑

      文章上海開陜西館子八號(hào)院兒!穿工服端盤子招呼客人,全程微笑

      觀魚聽雨
      2026-04-09 20:06:27
      16歲四肢癱瘓女孩誤購2000元鄧紫棋演唱會(huì)門票 平臺(tái)稱售出不退:需證明無民事行為能力

      16歲四肢癱瘓女孩誤購2000元鄧紫棋演唱會(huì)門票 平臺(tái)稱售出不退:需證明無民事行為能力

      閃電新聞
      2026-04-09 14:22:12
      出生一個(gè)月后,她被陳麗華收養(yǎng),如今是集團(tuán)董事,享有同等繼承權(quán)

      出生一個(gè)月后,她被陳麗華收養(yǎng),如今是集團(tuán)董事,享有同等繼承權(quán)

      云景侃記
      2026-04-09 19:48:26
      劍指沙霸、礦霸等!中央定調(diào)、全國聯(lián)動(dòng) 掃黑除惡再升級

      劍指沙霸、礦霸等!中央定調(diào)、全國聯(lián)動(dòng) 掃黑除惡再升級

      砂石骨料網(wǎng)
      2026-04-09 15:39:43
      河南35歲孕婦吃冰箱剩菜后,感染“李斯特菌”去世,醫(yī)生:孕婦等特殊人群需避免直接進(jìn)食冰箱冷藏食物,高溫加熱10分鐘后更安全

      河南35歲孕婦吃冰箱剩菜后,感染“李斯特菌”去世,醫(yī)生:孕婦等特殊人群需避免直接進(jìn)食冰箱冷藏食物,高溫加熱10分鐘后更安全

      大象新聞
      2026-04-09 14:45:04
      中紀(jì)委:禁止機(jī)關(guān)事業(yè)單位在編職工去做這幾種副業(yè)!

      中紀(jì)委:禁止機(jī)關(guān)事業(yè)單位在編職工去做這幾種副業(yè)!

      細(xì)說職場
      2026-04-09 15:34:47
      美國要變天了,一個(gè)比特朗普更難纏的80后,已經(jīng)掌握了共和黨?

      美國要變天了,一個(gè)比特朗普更難纏的80后,已經(jīng)掌握了共和黨?

      通文知史
      2026-04-09 03:30:03
      金莎官宣結(jié)婚!與00后老公孫丞瀟相差18歲,男帥女美配一臉

      金莎官宣結(jié)婚!與00后老公孫丞瀟相差18歲,男帥女美配一臉

      偵探娛樂
      2026-04-09 13:17:52
      陳麗華葬禮現(xiàn)場!遺體已火化,遲重瑞眼睛哭腫,姜昆張紀(jì)中送花圈

      陳麗華葬禮現(xiàn)場!遺體已火化,遲重瑞眼睛哭腫,姜昆張紀(jì)中送花圈

      180視角
      2026-04-09 13:22:54
      星巴克中國“易主”,“新東家”亮相:將開更多新店!星巴克全球CFO:中國將繼續(xù)是我們?nèi)驑I(yè)務(wù)中非常重要的一部分

      星巴克中國“易主”,“新東家”亮相:將開更多新店!星巴克全球CFO:中國將繼續(xù)是我們?nèi)驑I(yè)務(wù)中非常重要的一部分

      每日經(jīng)濟(jì)新聞
      2026-04-09 14:19:51
      利物浦9年功臣突然攤牌:合同到期走人,俱樂部連挽留都沒試

      利物浦9年功臣突然攤牌:合同到期走人,俱樂部連挽留都沒試

      賽場速報(bào)局
      2026-04-10 03:02:22
      澳大利亞等7國發(fā)表聯(lián)合聲明:“以最強(qiáng)烈措辭”譴責(zé)造成聯(lián)合國維和人員死亡等行徑

      澳大利亞等7國發(fā)表聯(lián)合聲明:“以最強(qiáng)烈措辭”譴責(zé)造成聯(lián)合國維和人員死亡等行徑

      環(huán)球網(wǎng)資訊
      2026-04-09 14:51:06
      國臺(tái)辦果然沒看錯(cuò),鄭麗文真面目被徹底揭露!小算盤到此為止了

      國臺(tái)辦果然沒看錯(cuò),鄭麗文真面目被徹底揭露!小算盤到此為止了

      比利
      2026-01-23 12:41:53
      iPhone Ultra 售價(jià)曝光,國行起售價(jià) 17,999 !

      iPhone Ultra 售價(jià)曝光,國行起售價(jià) 17,999 !

      XCiOS俱樂部
      2026-04-09 13:52:43
      吃完了宴席,兩岸在上海談妥,對賴清德改了稱呼,鄭麗文一錘定音

      吃完了宴席,兩岸在上海談妥,對賴清德改了稱呼,鄭麗文一錘定音

      影孖看世界
      2026-04-09 19:54:02
      卡爾森譴責(zé)以色列破壞停火,主張美國與以色列脫鉤!

      卡爾森譴責(zé)以色列破壞停火,主張美國與以色列脫鉤!

      勝研集
      2026-04-09 12:09:32
      沒有這種食物,你的肌肉將消失!醫(yī)生:60歲后恢復(fù)肌力的7種食物

      沒有這種食物,你的肌肉將消失!醫(yī)生:60歲后恢復(fù)肌力的7種食物

      健康之光
      2026-01-04 09:31:45
      2026-04-10 04:35:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12721文章數(shù) 142621關(guān)注度
      往期回顧 全部

      科技要聞

      Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

      頭條要聞

      以色列總理:同意與黎巴嫩直接談判

      頭條要聞

      以色列總理:同意與黎巴嫩直接談判

      體育要聞

      8萬人面前心臟驟停 現(xiàn)在他還站在球場上

      娛樂要聞

      金莎官宣結(jié)婚 與老公孫丞瀟相差18歲

      財(cái)經(jīng)要聞

      停火又懸了,最糟糕的情況要來了?

      汽車要聞

      文飛掌舵,給神行者帶來了什么?

      態(tài)度原創(chuàng)

      房產(chǎn)
      本地
      教育
      公開課
      軍事航空

      房產(chǎn)要聞

      利潤暴跌44%!那個(gè)春節(jié)被罵慘了的海峽股份 正在經(jīng)歷什么?

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      教育要聞

      一年英碩是父母給你另一張地圖的體驗(yàn)卡!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      黎真主黨發(fā)射火箭彈 回應(yīng)以違反停火協(xié)議

      無障礙瀏覽 進(jìn)入關(guān)懷版