![]()
隨著大模型步入規(guī)模化應(yīng)用深水區(qū),日益高昂的推理成本與延遲已成為掣肘產(chǎn)業(yè)落地的核心瓶頸。在 “降本增效” 的行業(yè)共識下,從量化、剪枝到模型蒸餾,各類壓縮技術(shù)競相涌現(xiàn),但往往難以兼顧性能損耗與通用性。
在此背景下,投機(jī)采樣作為一種 “另辟蹊徑” 的推理加速范式,正憑借其近乎無損的加速效果成為業(yè)界新寵。騰訊混元近日升級的AngelSlim 訓(xùn)練框架,首次將這一技術(shù)的潛力拓展至 LLM、VLM 及語音的全模態(tài)場景,實(shí)現(xiàn)了從 “可加速” 到 “善加速” 的關(guān)鍵躍遷。其核心在于獨(dú)創(chuàng)的Eagle3 訓(xùn)練架構(gòu),通過讓小模型學(xué)會(huì) “前瞻性” 地為大模型起草多步候選 token,再由大模型并行驗(yàn)證,一舉將大模型解碼階段的算力冗余轉(zhuǎn)化為提速動(dòng)能,實(shí)測最高可帶來1.9 倍的推理速度飆升。這不僅是一次技術(shù)升級,更是對下一代高效推理基礎(chǔ)設(shè)施的重要定義,為多模態(tài) AI 應(yīng)用的實(shí)時(shí)化、普惠化鋪平了道路。
一、AngelSlim + 投機(jī)采樣
投機(jī)采樣是一種通過小模型多步預(yù)測 + 大模型一步驗(yàn)證的推理加速技術(shù),其核心思想是:使用一個(gè)輕量級的草稿模型生成多個(gè)候選 token,由目標(biāo)模型對候選結(jié)果進(jìn)行并行驗(yàn)證是否接受,以此來并行解碼加速,在有效利用大模型解碼階段的算力冗余,提升推理吞吐并降低單請求延遲。
AngelSlim 是一款集成了包括量化、投機(jī)采樣等壓縮算法,面向全模態(tài)的大模型壓縮算法工具包。此次對投機(jī)采樣訓(xùn)練進(jìn)行了重磅升級,支持了大語言、多模態(tài)理解、語音等不同模態(tài)大模型投機(jī)采樣草稿模型訓(xùn)練能力。
AngelSlim 以 “Eagle3 訓(xùn)練即部署” 為設(shè)計(jì)核心,提供從數(shù)據(jù)處理、模型封裝到投機(jī)采樣算法訓(xùn)練的完整鏈路,幫助開發(fā)在不侵入現(xiàn)有模型結(jié)構(gòu)的前提下,顯著降低推理時(shí)延與計(jì)算成本,各模態(tài)、各類大模型加速可達(dá) 1.4-1.9 倍。
![]()
Github 開源地址:https://github.com/Tencent/AngelSlim
二、核心亮點(diǎn)
1. 覆蓋從文生文、多模態(tài)理解到語音的全模態(tài)投機(jī)采樣訓(xùn)練
AngelSlim 是一個(gè)從設(shè)計(jì)之初就支持全模態(tài)的投機(jī)采樣訓(xùn)練框架,通過統(tǒng)一的訓(xùn)練接口,不同模態(tài)之間共享核心算法與工程能力,避免重復(fù)造輪子。
2. 面向部署
AngelSlim 并不止步于 “能訓(xùn)”,而是強(qiáng)調(diào)訓(xùn)出來就能用。AngelSlim 訓(xùn)練產(chǎn)出的模型可以無縫用于 vLLM/Sglang 等框架進(jìn)行部署。
三、核心訓(xùn)練組件解析
![]()
1. 數(shù)據(jù)處理模塊
![]()
數(shù)據(jù)處理模塊為投機(jī)采樣訓(xùn)練多個(gè)模態(tài)提供穩(wěn)定、可復(fù)用的數(shù)據(jù)基礎(chǔ),主要包括:
a. 數(shù)據(jù)重采樣:針對分布外數(shù)據(jù)集重新采樣,生成分布內(nèi)數(shù)據(jù)集用以訓(xùn)練。
b. 數(shù)據(jù)預(yù)處理:
i. 統(tǒng)一不同模態(tài)的數(shù)據(jù)格式,將文本、圖像、音頻等輸入標(biāo)準(zhǔn)化處理成 token ids 和 loss mask。
ii. 草稿模型裁剪詞表的映射。
c. 隱藏特征提取:根據(jù)處理好的 token ids 獲取對應(yīng)的隱藏特征。
![]()
2. 模型模塊
模型模塊是 AngelSlim 實(shí)現(xiàn)高度擴(kuò)展性的關(guān)鍵。
a. 統(tǒng)一的 TargetModel 接口
i.AngelSlim 提供統(tǒng)一的 TargetModel 接口,包括模型加載與權(quán)重管理、前向計(jì)算、中間層 / 隱狀態(tài)特征提取等抽象方法;
b. 低成本擴(kuò)展新的模型后端
ii. 對于新的模型架構(gòu)或后端,用戶只需實(shí)現(xiàn) TargetModel 中定義的抽象方法即可完成模型注冊并接入訓(xùn)練流程,無需修改訓(xùn)練器或核心算法代碼。這一設(shè)計(jì)極大降低了對新模型、新模態(tài)的適配成本。
![]()
3. 訓(xùn)練器模塊
a. 訓(xùn)練器針對 Eagle3 算法特點(diǎn)設(shè)計(jì)了兩種訓(xùn)練模式:在線訓(xùn)練和離線訓(xùn)練。在線與離線訓(xùn)練的區(qū)別在于是否預(yù)先生成并存好全量數(shù)據(jù)的 hidden states。在線訓(xùn)練適合小尺寸模型或顯存足夠的場景,離線訓(xùn)練適合大尺寸模型、低顯存高磁盤空間機(jī)器。
b. 訓(xùn)練器實(shí)現(xiàn)封裝了 Eagle3 等投機(jī)采樣算法訓(xùn)練的關(guān)鍵邏輯:
i. 訓(xùn)練時(shí)測試(training-time-test):訓(xùn)練時(shí)模擬 Eagle3 模型多步生成過程,讓 Eagle3 模型看到并學(xué)習(xí)使用自己的預(yù)測。
c. 訓(xùn)練器原生支持?jǐn)帱c(diǎn)續(xù)訓(xùn)能力,完整保存并恢復(fù):
i. 草稿模型參數(shù)
ii.Optimizer/ LR Scheduler 狀態(tài)以及訓(xùn)練進(jìn)度
四、實(shí)踐與部署
1. 快速開始
當(dāng)安裝好 AngelSlim 后,進(jìn)入 AngelSlim 根目錄按照如下命令可以快速開始 Eagle3 的訓(xùn)練:
# 啟動(dòng)vLLM 服務(wù)
bash scripts/speculative/run_vllm_server.sh
# 生成訓(xùn)練數(shù)據(jù)
bash scripts/speculative/generate_data_for_target_model.sh
# 開始在線訓(xùn)練
bash scripts/speculative/train_eagle3_online.sh
其中前兩條命令是準(zhǔn)備數(shù)據(jù),對訓(xùn)練數(shù)據(jù)進(jìn)行重采樣,生成目標(biāo)模型分布內(nèi)的數(shù)據(jù)。這一步是可選項(xiàng),如果訓(xùn)練數(shù)據(jù)已經(jīng)是來自目標(biāo)模型的 SFT 數(shù)據(jù)或自身生成的數(shù)據(jù),這一步可跳過。對 Eagle3 模型進(jìn)行訓(xùn)練直接執(zhí)行最后一條命令即可,更多進(jìn)階的使用指南可以參見我們的文檔。
我們提供了全面的多模態(tài)模型 Eagle3 訓(xùn)練與部署指南,支持 LLM / VLM / Audio (ASR & TTS) 模型。
詳見:https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/eagle.html
2.AngelSlim 訓(xùn)練模型的加速表現(xiàn)
我們使用 vLLM 在代碼、數(shù)學(xué)、指令跟隨、文本生成、多模態(tài)理解等任務(wù)上評測了 AngelSlim 所訓(xùn)練的 Eagle3 模型,設(shè)置 num_speculative_tokens=2 or 4 下我們所訓(xùn)的模型接收長度可達(dá) 1.8-3.5,最高加速可達(dá) 1.4-1.9 倍。
![]()
3. 代碼和模型鏈接
- AngelSlim 代碼 Github 開源倉庫:https://github.com/Tencent/AngelSlim
- Hugging-Face Eagle3 模型與權(quán)重:https://huggingface.co/collections/AngelSlim/eagle3
五、未來計(jì)劃
在未來規(guī)劃中,我們將從工具與算法兩個(gè)層面持續(xù)推進(jìn)投機(jī)采樣能力演進(jìn):工具方面,計(jì)劃支持基于 vLLM 的離線 hidden states 生成,以進(jìn)一步降低數(shù)據(jù)構(gòu)建與訓(xùn)練成本,并通過系統(tǒng)性的訓(xùn)練加速優(yōu)化提升整體訓(xùn)練效率;算法創(chuàng)新方面,將探索多模態(tài)理解與語音輸入信息在 Eagle3 模型中的深度融合,統(tǒng)一建模文本、視覺與語音特征,拓展投機(jī)采樣在全模態(tài)場景下的適用性與加速潛力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.