網易首頁 > 網易號 > 正文申請入駐

字節推出模態訓練框架VeOmni:讓模型訓練像搭積木一樣簡單

2025-08-08 20:30:43　來源: 至頂AI實驗室

北京舉報

分享至

AI似乎正在朝著一個有趣的方向演進，從只能處理單一模態的專用模型，發展為能夠同時理解和生成文字、圖像、音頻、視頻等多種媒體的全才模型，也被稱為"全模態"的AI系統。然而，訓練這樣的AI系統面臨著巨大挑戰。

2025年8月7日，字節Seed團隊推出VeOmni框架，通過模塊化設計和智能并行策略，將復雜的全模態AI訓練簡化為"搭積木"式的直觀操作。該框架支持30B參數模型達到每GPU 2800 token/s的吞吐量，能處理160K上下文長度，顯著降低了多模態AI研發門檻，為推動AI技術普及提供了強大工具。相關論文發表在arXiv上。

想象一下，如果訓練一個能夠同時理解文字、圖片、視頻和聲音的AI模型就像搭積木一樣簡單，只需要把不同的積木塊組合在一起，不用擔心底層的復雜連接問題，這會帶來多大的便利？ByteDance的研究團隊就創造了這樣一個"積木盒子"：VeOmni框架，讓原本極其復雜的多模態AI訓練變得像組裝玩具一樣直觀。傳統的訓練方法就像試圖用同一套教具去教授完全不同的課程，效果往往不盡人意。更麻煩的是，當你想要擴大訓練規模，比如從教一個學生變成教一百個、一千個學生時，現有的方法就會變得極其復雜和低效。這正是VeOmni要解決的核心問題。化繁為簡：模塊化的訓練新思路VeOmni的核心創新在于提出了一種"模塊化訓練配方"的概念。如果把傳統的AI訓練比作做菜，那么以往的方法就像每次做菜都要從頭開始，不僅要準備食材，還要自己制作調料，甚至連鍋碗瓢盆都要自己打造。而VeOmni則像是建立了一個標準化的廚房系統，你只需要從調料架上拿取現成的調料，從工具柜里取出合適的廚具，就能快速烹飪出美味的料理。
這種模塊化設計的巧妙之處在于將復雜的訓練過程分解為三個相互獨立又能協調工作的部分：編碼器、基礎模型和解碼器。編碼器就像是翻譯官，負責將不同類型的原始數據（文字、圖像、音頻等）翻譯成AI能夠理解的通用語言。基礎模型則是大腦中樞，負責處理和分析這些翻譯后的信息。解碼器則是表達者，將處理后的信息重新轉換為人類能夠理解的各種形式。更重要的是，VeOmni設計了一套標準化的接口協議，就像USB接口一樣，任何符合標準的設備都能輕松連接。這意味著研究人員可以自由地更換或升級其中任何一個組件，而不需要重新設計整個系統。比如，你想要添加一個新的圖像處理模塊，只需要確保它遵循VeOmni的接口標準，就能無縫集成到現有系統中。訓練過程的設計很直觀，在訓練階段，每個編碼器只需要實現一個名為"lm_encode"的功能，將原始數據轉換為標準格式的嵌入向量，這些向量隨后被插入到基礎模型的輸入中。解碼器也遵循同樣的簡潔設計，通過"lm_head"功能將模型輸出轉換為目標模態的數據。在推理階段，系統更加智能。當模型生成特定的標記符號時，系統會自動切換到相應的生成模式。比如，當檢測到圖像開始標記時，系統會自動啟動圖像生成流程，通過解碼器的"lm_embed"功能生成中間嵌入，然后使用"lm_generate"功能產生最終的圖像輸出。這種設計讓多模態生成變得既靈活又高效。分布式訓練的藝術：讓計算資源發揮最大效能當面對訓練大規模AI模型這個挑戰時，單臺計算機的能力顯然是不夠的，就像用一個人來搬運幾十噸貨物一樣不現實。這時就需要分布式訓練，讓多臺計算機協同工作，就像組織一個搬運團隊一樣。但是，如何讓這些計算機高效協作，避免互相干擾或資源浪費，這本身就是一門藝術。VeOmni在這方面的創新可以用"分工合作"來形容。它提供了多種不同的并行化策略，每種策略都針對特定的場景進行了優化。全分片數據并行（FSDP）就像是將一個大型拼圖分發給多個人同時拼裝，每個人負責一部分，最后再將結果合并。這種方法的好處是顯著減少了每臺計算機需要的內存，讓原本無法在單臺機器上訓練的大型模型成為可能。序列并行（SP）則專門針對長序列訓練進行了優化。當處理極長的文本、高分辨率圖像或長視頻時，傳統方法往往會遇到內存不足的問題。VeOmni采用了DeepSpeed-Ulysses技術，將長序列切分到不同的計算設備上處理，就像將一本厚書的不同章節分給不同的人閱讀，然后再匯總理解內容。更巧妙的是，VeOmni還開發了異步版本的Async-Ulysses，讓通信和計算可以同時進行，大大提高了效率。專家并行（EP）是為混合專家模型（MoE）設計的特殊策略。MoE模型的工作原理類似于一個專業咨詢團隊，面對不同類型的問題時，會激活相應的專家來處理。VeOmni讓這些"專家"能夠分布在不同的計算設備上，同時通過巧妙的通信優化技術，將數據傳輸的延遲隱藏在專家計算的過程中，實現了近乎無損的性能提升。最重要的是VeOmni的"可組合n維并行"設計。就像搭建樂高積木一樣，你可以自由組合不同的并行策略。比如，你可以同時使用FSDP和SP實現2D并行，或者結合FSDP、SP和EP實現3D并行。這種設計的靈活性意味著研究人員可以根據具體的模型架構和硬件配置，選擇最優的并行組合策略。更重要的是，VeOmni使用了統一的設備網格抽象來管理這些復雜的并行配置。傳統方法需要手動管理多個進程組，就像同時指揮幾個不同的樂隊一樣復雜。而VeOmni的設計讓這個過程變得像使用遙控器控制電視一樣簡單，研究人員只需要通過簡單的配置就能啟用復雜的并行策略。系統優化的精妙之處：讓每一分計算資源都物盡其用除了核心的并行化策略，VeOmni還集成了一系列精心設計的系統優化技術，這些技術就像汽車引擎的各種優化部件一樣，雖然單獨看起來可能不起眼，但組合在一起卻能帶來顯著的性能提升。動態批處理技術解決了一個常見的效率問題。在傳統方法中，為了批量處理數據，系統往往需要將所有樣本填充到相同的長度，就像為了裝箱整齊而在不同大小的物品間填充泡沫一樣，這會造成大量的計算浪費。VeOmni的動態批處理則像是使用可調節大小的包裝盒，根據實際內容調整容器大小，配合FlashAttention技術，在保證計算正確性的同時最大化了資源利用率。在計算核心優化方面，VeOmni集成了包括RMSNorm、LayerNorm、RoPE、SwiGLU等在內的高度優化算子核心，以及專門針對MoE操作的優化實現。這些優化就像為發動機更換了高性能零部件，每個組件都經過精心調校，確保在各種不同的硬件配置下都能發揮最佳性能。內存優化策略包括層級重計算、激活卸載和優化器狀態卸載等技術。這些技術的作用類似于智能內存管理，根據實際需要動態調整內存使用策略。比如，不常用的數據可以暫時存儲到速度較慢但容量更大的存儲設備中，需要時再調回高速內存，這樣就能在有限的內存條件下訓練更大的模型。檢查點系統使用了ByteCheckpoint技術，實現了高效的模型保存和恢復。這個系統不僅支持在不同的分布式配置間進行模型遷移，還能確保訓練過程的可靠性。就像汽車的自動保存功能一樣，即使遇到意外情況，也能從最近的保存點繼續，而不需要從頭開始。元設備初始化技術讓大型模型的初始化變得更加高效。傳統方法在初始化大型模型時需要分配實際的物理內存，而VeOmni可以在"虛擬"設備上完成初始化，然后通過DTensor格式進行參數分片和并行加載，顯著加速了大規模模型的啟動過程。實驗驗證：真實世界中的卓越表現為了驗證VeOmni的實際效果，研究團隊進行了一系列詳盡的實驗，涵蓋了從8個GPU到128個GPU的大規模集群，測試了從7B到72B參數規模的不同模型。這些實驗就像是對一輛新車進行全方位的路試，從城市道路到高速公路，從日常通勤到長途旅行，全面測試其性能表現。在使用Qwen2-VL 7B模型的實驗中，VeOmni展現出了令人印象深刻的擴展能力。在8個GPU的配置下，系統能夠支持高達192K的上下文長度訓練，模型FLOPs利用率達到61.5%。當擴展到72B參數的模型時，即使在128個GPU的大規模配置下，系統仍能穩定支持96K上下文長度的訓練，MFU達到54.82%。這些數字背后代表的是系統在處理超長序列時的出色能力，這對于處理長文檔、高分辨率圖像或長視頻等任務具有重要意義。更令人興奮的是在混合專家模型上的測試結果。使用基于Qwen3-30B-A3B的30B參數MoE模型，VeOmni實現了超過2800 tokens/sec/GPU的訓練吞吐量，能夠擴展到160K的上下文長度。這個性能水平意味著研究人員可以在相對較短的時間內訓練出具有強大多模態能力的大型模型。與現有的先進框架TorchTitan的對比實驗進一步證明了VeOmni的優勢。在相同的硬件配置和模型設置下，VeOmni在吞吐量和內存效率方面都表現更優。特別是在長序列訓練場景下，當TorchTitan因為內存不足而無法繼續訓練時，VeOmni仍能穩定運行并保持良好的性能。收斂性研究涵蓋了三種結構不同的全模態模型，包括Janus、LLaMA#Omni和Qwen3-MoE#Omni。這些模型分別專注于不同的任務組合，從純圖像理解和生成，到跨越文本、圖像、視頻、音頻的全模態處理。實驗結果顯示，所有模型在使用VeOmni訓練時都表現出穩定的收斂行為，驗證了框架的可靠性和通用性。這些實驗數據不僅展示了VeOmni在技術指標上的優勢，更重要的是證明了其在實際應用中的可行性。研究團隊使用了多個領域的真實數據集，包括FineWeb-100T用于文本理解、ShareGPT4V用于圖像理解、LLaVA-Video用于視頻理解、Voice Assistant用于音頻理解，以及ImageNet用于圖像生成任務。這種全面的測試確保了VeOmni能夠應對真實世界中的復雜訓練需求。至頂AI實驗室洞見VeOmni提供了全模態AI訓練中的技術難題的解決思路。從技術發展的角度來看，VeOmni降低了進行大規模多模態AI研究的門檻。現在，研究人員可以將更多精力投入到模型設計和算法創新上，而不是被系統工程問題所困擾。在商業應用方面，VeOmni使得更多的公司能夠開發自己的全模態AI產品。過去，開發這樣的產品需要巨大的技術投入和專業知識，現在中小型公司也能夠利用VeOmni快速構建出具有競爭力的AI產品。這種技術民主化可能會催生更多創新的應用場景。教育領域也將從中受益。VeOmni的簡潔設計和清晰文檔使其成為優秀的AI教學工具。計算機科學和AI專業的學生可以通過實際操作VeOmni來深入理解分布式機器學習的原理和實踐。從更廣泛的社會影響來看，VeOmni可能會加速多模態AI技術的普及和應用。當創建能夠同時理解和生成文字、圖像、音頻、視頻的AI系統變得更加容易時，我們可能會看到這些技術在教育、醫療、娛樂、工業設計等各個領域的廣泛應用。論文地址：https://arxiv.org/abs/2508.02317END本文來自至頂AI實驗室，一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。
Q&AQ1： VeOmni是什么？A：VeOmni是一個模塊化訓練框架，專為加速全模態大語言模型（omni-modal LLMs）開發而設計。它通過模型中心的分布式配方庫解耦模型定義與并行邏輯，支持高效3D并行（如FSDP、SP和EP）。例如，在128個GPU上訓練30B參數的混合專家模型時，吞吐量超2,800 tokens/sec/GPU。該框架還提供輕量級接口，以最小代碼更改集成新模態。Q2：VeOmni如何實現全模態訓練？A：VeOmni使用模型中心配方（如FSDP、SP和EP）解耦通信與計算，使不同模態模塊（如視覺編碼器）可獨立處理。它采用輕量接口（基于HuggingFace的PreTrainedModel），簡化多模態集成；它的復合架構包括解耦的編碼器、基礎模型和解碼器。靈活并行組合（如FSDP+SP+EP）處理長序列和MoE模型，減少工程開銷。 Q3：VeOmni的訓練性能有多高？A：實驗中，VeOmni在128 GPU上訓練30B參數模型時，支持160K上下文長度，吞吐量達2,800+ tokens/sec/GPU。對于7B模型，它能處理192K序列長度，模型浮點利用率（MFU）為61.5%。它的n維并行設計能高效處理數據流和負載平衡。該系統在8-128 GPU規模下優于現有框架（如TorchTitan），確保穩定收斂。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.