2月10日,騰訊混元推出面向消費級硬件場景的“極小”模型HY-1.8B-2Bit。該模型基于1.8B參數的小尺寸模型,通過2Bit量化技術,等效參數量約為0.3B,實際存儲占用僅約600MB,比常用的一些手機應用還小,實現了端側部署的新突破。
![]()
該模型基于混元團隊首創的產業級2Bit端側量化方案,通過對HY-1.8B-Instruct模型進行2比特量化感知訓練(QAT)產出,模型大小減少至原始精度模型的1/6,同時在真實端側設備上生成速度提升2-3倍,可大幅提升使用體驗。能力上,模型還保留了原版的思維鏈,可以為不同復雜度的任務提供相應深度的推理過程。這是業界首個實現2bit產業級量化的端側模型實踐。
![]()
![]()
左圖為HY-1.8B原始精度模型,右圖為HY-1.8B-2Bit模型,量化后的模型速度明顯更快
隨著大語言模型普及,如何將模型在比如手機、耳機或者智能家居設備應用,成為業界難題,尤其不少應用對模型的離線部署、私密性等都有更高的需求,這就需要更多能夠在端側運行的又小又強的模型。端側部署的展開,本質上是一條在“小而精,快而準”的艱難探索之路,我們既需要模型足夠聰明,能應對千變萬化的真實需求,又必須將它約束在極其有限的硬件資源內部署并快速推理,這就好像在給模型進行“減脂增肌,減重提質”。
比特(Bit)是計算機存儲的最小單位,1比特能表示2種狀態(0或1),2比特能表示4種狀態,依此類推,一般模型的精度有2比特、4比特、8比特、32比特等表示方法,數值越大模型的精度更高,所占的內存就越大。
雖然2比特量化的精度損失較大,但通過QAT和先進的量化策略,已經能讓2比特模型接近全精度模型的性能。在模型能力方面,對比4比特PTQ模型版本數學、代碼、科學等指標上表現相當,實現了“小而強”的設計目標。
技術上,量化作為大模型部署上線不可或缺的一環,肩負了降低部署成本與保精度的使命,大部分情況下對于int4、int8、fp8的壓縮精度要求,采用PTQ量化策略即可實現幾乎無損,但隨著原始模型大小的縮小、壓縮bit數的進一步降低,PTQ帶來的量化損失是巨大的。因此,對于原始模型大小只有1.8B,量化bit數只有2bit的HY-1.8B-2Bit,混元團隊采用了量化感知訓練策略,這顯著提升了量化后模型的性能。
騰訊混元還通過數據優化、彈性拉伸量化以及訓練策略創新三個方法來最大限度的提升HY-1.8B-2Bit的全科能力。
部署方面,騰訊混元提供了HY-1.8B-2Bit的gguf-int2格式的模型權重與bf16偽量化權重,對比原始精度模型,HY-1.8B-2Bit 能夠靈活用于端側設備上,該模型也已在 Arm 等計算平臺上完成適配,可部署于啟用 Arm SME2 技術的移動設備上,并實現高效運行。
在MacBook M4芯片上,HY-1.8B-2Bit 固定了線程數為2測試了不同窗口大小下的首字時延和生成速度,模型選定fp16、Q4、HY-1.8B-2Bit三種gguf格式作為對比,首字時延在1024輸入內能夠保持3—8倍的加速,生成速度上常用窗口下對比原始模型精度,HY-1.8B-2Bit能夠實現至少2倍穩定加速。
![]()
在天璣9500上同樣進行了測試,對比HY-1.8B-Q4格式首字時延能夠加速1.5—2倍,生成速度加速約1.5倍。
![]()
當前,HY-1.8B-2Bit的能力仍受限于監督微調(SFT)的訓練流程,以及基礎模型本身的性能與抗壓能力。針對這一問題,混元團隊未來將重點轉向強化學習與模型蒸餾等技術路徑,以期進一步縮小低比特量化模型與全精度模型之間的能力差距,從而為邊緣設備上的大語言模型部署開拓更廣闊的應用前景。
項目鏈接:https://github.com/Tencent/AngelSlim
模型地址:https://huggingface.co/AngelSlim/HY-1.8B-2Bit
https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF
技術報告:
https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.