騰訊AngelSlim升級，LLM、VLM及語音多模態(tài)一體投機(jī)采樣訓(xùn)練框架

2026-01-16 14:09:08　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

隨著大模型步入規(guī)模化應(yīng)用深水區(qū)，日益高昂的推理成本與延遲已成為掣肘產(chǎn)業(yè)落地的核心瓶頸。在 “降本增效” 的行業(yè)共識下，從量化、剪枝到模型蒸餾，各類壓縮技術(shù)競相涌現(xiàn)，但往往難以兼顧性能損耗與通用性。

在此背景下，投機(jī)采樣作為一種 “另辟蹊徑” 的推理加速范式，正憑借其近乎無損的加速效果成為業(yè)界新寵。騰訊混元近日升級的AngelSlim 訓(xùn)練框架，首次將這一技術(shù)的潛力拓展至 LLM、VLM 及語音的全模態(tài)場景，實(shí)現(xiàn)了從 “可加速” 到 “善加速” 的關(guān)鍵躍遷。其核心在于獨(dú)創(chuàng)的Eagle3 訓(xùn)練架構(gòu)，通過讓小模型學(xué)會(huì) “前瞻性” 地為大模型起草多步候選 token，再由大模型并行驗(yàn)證，一舉將大模型解碼階段的算力冗余轉(zhuǎn)化為提速動(dòng)能，實(shí)測最高可帶來1.9 倍的推理速度飆升。這不僅是一次技術(shù)升級，更是對下一代高效推理基礎(chǔ)設(shè)施的重要定義，為多模態(tài) AI 應(yīng)用的實(shí)時(shí)化、普惠化鋪平了道路。

一、AngelSlim + 投機(jī)采樣

投機(jī)采樣是一種通過小模型多步預(yù)測 + 大模型一步驗(yàn)證的推理加速技術(shù)，其核心思想是：使用一個(gè)輕量級的草稿模型生成多個(gè)候選 token，由目標(biāo)模型對候選結(jié)果進(jìn)行并行驗(yàn)證是否接受，以此來并行解碼加速，在有效利用大模型解碼階段的算力冗余，提升推理吞吐并降低單請求延遲。

AngelSlim 是一款集成了包括量化、投機(jī)采樣等壓縮算法，面向全模態(tài)的大模型壓縮算法工具包。此次對投機(jī)采樣訓(xùn)練進(jìn)行了重磅升級，支持了大語言、多模態(tài)理解、語音等不同模態(tài)大模型投機(jī)采樣草稿模型訓(xùn)練能力。

AngelSlim 以 “Eagle3 訓(xùn)練即部署” 為設(shè)計(jì)核心，提供從數(shù)據(jù)處理、模型封裝到投機(jī)采樣算法訓(xùn)練的完整鏈路，幫助開發(fā)在不侵入現(xiàn)有模型結(jié)構(gòu)的前提下，顯著降低推理時(shí)延與計(jì)算成本，各模態(tài)、各類大模型加速可達(dá) 1.4-1.9 倍。

Github 開源地址：https://github.com/Tencent/AngelSlim

二、核心亮點(diǎn)

1. 覆蓋從文生文、多模態(tài)理解到語音的全模態(tài)投機(jī)采樣訓(xùn)練

AngelSlim 是一個(gè)從設(shè)計(jì)之初就支持全模態(tài)的投機(jī)采樣訓(xùn)練框架，通過統(tǒng)一的訓(xùn)練接口，不同模態(tài)之間共享核心算法與工程能力，避免重復(fù)造輪子。

2. 面向部署

AngelSlim 并不止步于 “能訓(xùn)”，而是強(qiáng)調(diào)訓(xùn)出來就能用。AngelSlim 訓(xùn)練產(chǎn)出的模型可以無縫用于 vLLM/Sglang 等框架進(jìn)行部署。

三、核心訓(xùn)練組件解析

1. 數(shù)據(jù)處理模塊

數(shù)據(jù)處理模塊為投機(jī)采樣訓(xùn)練多個(gè)模態(tài)提供穩(wěn)定、可復(fù)用的數(shù)據(jù)基礎(chǔ)，主要包括：

a. 數(shù)據(jù)重采樣：針對分布外數(shù)據(jù)集重新采樣，生成分布內(nèi)數(shù)據(jù)集用以訓(xùn)練。

b. 數(shù)據(jù)預(yù)處理：

i. 統(tǒng)一不同模態(tài)的數(shù)據(jù)格式，將文本、圖像、音頻等輸入標(biāo)準(zhǔn)化處理成 token ids 和 loss mask。

ii. 草稿模型裁剪詞表的映射。

c. 隱藏特征提取：根據(jù)處理好的 token ids 獲取對應(yīng)的隱藏特征。

2. 模型模塊

模型模塊是 AngelSlim 實(shí)現(xiàn)高度擴(kuò)展性的關(guān)鍵。

a. 統(tǒng)一的 TargetModel 接口

i.AngelSlim 提供統(tǒng)一的 TargetModel 接口，包括模型加載與權(quán)重管理、前向計(jì)算、中間層 / 隱狀態(tài)特征提取等抽象方法；

b. 低成本擴(kuò)展新的模型后端

ii. 對于新的模型架構(gòu)或后端，用戶只需實(shí)現(xiàn) TargetModel 中定義的抽象方法即可完成模型注冊并接入訓(xùn)練流程，無需修改訓(xùn)練器或核心算法代碼。這一設(shè)計(jì)極大降低了對新模型、新模態(tài)的適配成本。

3. 訓(xùn)練器模塊

a. 訓(xùn)練器針對 Eagle3 算法特點(diǎn)設(shè)計(jì)了兩種訓(xùn)練模式：在線訓(xùn)練和離線訓(xùn)練。在線與離線訓(xùn)練的區(qū)別在于是否預(yù)先生成并存好全量數(shù)據(jù)的 hidden states。在線訓(xùn)練適合小尺寸模型或顯存足夠的場景，離線訓(xùn)練適合大尺寸模型、低顯存高磁盤空間機(jī)器。

b. 訓(xùn)練器實(shí)現(xiàn)封裝了 Eagle3 等投機(jī)采樣算法訓(xùn)練的關(guān)鍵邏輯：

i. 訓(xùn)練時(shí)測試（training-time-test）：訓(xùn)練時(shí)模擬 Eagle3 模型多步生成過程，讓 Eagle3 模型看到并學(xué)習(xí)使用自己的預(yù)測。

c. 訓(xùn)練器原生支持?jǐn)帱c(diǎn)續(xù)訓(xùn)能力，完整保存并恢復(fù)：

i. 草稿模型參數(shù)

ii.Optimizer/ LR Scheduler 狀態(tài)以及訓(xùn)練進(jìn)度

四、實(shí)踐與部署

1. 快速開始

當(dāng)安裝好 AngelSlim 后，進(jìn)入 AngelSlim 根目錄按照如下命令可以快速開始 Eagle3 的訓(xùn)練：

# 啟動(dòng)vLLM 服務(wù)

bash scripts/speculative/run_vllm_server.sh

# 生成訓(xùn)練數(shù)據(jù)

bash scripts/speculative/generate_data_for_target_model.sh

# 開始在線訓(xùn)練

bash scripts/speculative/train_eagle3_online.sh

其中前兩條命令是準(zhǔn)備數(shù)據(jù)，對訓(xùn)練數(shù)據(jù)進(jìn)行重采樣，生成目標(biāo)模型分布內(nèi)的數(shù)據(jù)。這一步是可選項(xiàng)，如果訓(xùn)練數(shù)據(jù)已經(jīng)是來自目標(biāo)模型的 SFT 數(shù)據(jù)或自身生成的數(shù)據(jù)，這一步可跳過。對 Eagle3 模型進(jìn)行訓(xùn)練直接執(zhí)行最后一條命令即可，更多進(jìn)階的使用指南可以參見我們的文檔。

我們提供了全面的多模態(tài)模型 Eagle3 訓(xùn)練與部署指南，支持 LLM / VLM / Audio (ASR & TTS) 模型。

詳見：https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/eagle.html

2.AngelSlim 訓(xùn)練模型的加速表現(xiàn)

我們使用 vLLM 在代碼、數(shù)學(xué)、指令跟隨、文本生成、多模態(tài)理解等任務(wù)上評測了 AngelSlim 所訓(xùn)練的 Eagle3 模型，設(shè)置 num_speculative_tokens=2 or 4 下我們所訓(xùn)的模型接收長度可達(dá) 1.8-3.5，最高加速可達(dá) 1.4-1.9 倍。

3. 代碼和模型鏈接

AngelSlim 代碼 Github 開源倉庫：https://github.com/Tencent/AngelSlim
Hugging-Face Eagle3 模型與權(quán)重：https://huggingface.co/collections/AngelSlim/eagle3

五、未來計(jì)劃

在未來規(guī)劃中，我們將從工具與算法兩個(gè)層面持續(xù)推進(jìn)投機(jī)采樣能力演進(jìn)：工具方面，計(jì)劃支持基于 vLLM 的離線 hidden states 生成，以進(jìn)一步降低數(shù)據(jù)構(gòu)建與訓(xùn)練成本，并通過系統(tǒng)性的訓(xùn)練加速優(yōu)化提升整體訓(xùn)練效率；算法創(chuàng)新方面，將探索多模態(tài)理解與語音輸入信息在 Eagle3 模型中的深度融合，統(tǒng)一建模文本、視覺與語音特征，拓展投機(jī)采樣在全模態(tài)場景下的適用性與加速潛力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.