網易首頁 > 網易號 > 正文申請入駐

首個產業級2Bit量化新突破，騰訊混元推出0.3B端側模型

2026-02-10 14:13:16　來源: 雷峰網

北京舉報

分享至

2月10日，騰訊混元推出面向消費級硬件場景的“極小”模型HY-1.8B-2Bit。該模型基于1.8B參數的小尺寸模型，通過2Bit量化技術，等效參數量約為0.3B，實際存儲占用僅約600MB，比常用的一些手機應用還小，實現了端側部署的新突破。

該模型基于混元團隊首創的產業級2Bit端側量化方案，通過對HY-1.8B-Instruct模型進行2比特量化感知訓練（QAT）產出，模型大小減少至原始精度模型的1/6，同時在真實端側設備上生成速度提升2-3倍，可大幅提升使用體驗。能力上，模型還保留了原版的思維鏈，可以為不同復雜度的任務提供相應深度的推理過程。這是業界首個實現2bit產業級量化的端側模型實踐。

左圖為HY-1.8B原始精度模型，右圖為HY-1.8B-2Bit模型，量化后的模型速度明顯更快

隨著大語言模型普及，如何將模型在比如手機、耳機或者智能家居設備應用，成為業界難題，尤其不少應用對模型的離線部署、私密性等都有更高的需求，這就需要更多能夠在端側運行的又小又強的模型。端側部署的展開，本質上是一條在“小而精，快而準”的艱難探索之路，我們既需要模型足夠聰明，能應對千變萬化的真實需求，又必須將它約束在極其有限的硬件資源內部署并快速推理，這就好像在給模型進行“減脂增肌，減重提質”。

比特（Bit）是計算機存儲的最小單位，1比特能表示2種狀態（0或1），2比特能表示4種狀態，依此類推，一般模型的精度有2比特、4比特、8比特、32比特等表示方法，數值越大模型的精度更高，所占的內存就越大。

雖然2比特量化的精度損失較大，但通過QAT和先進的量化策略，已經能讓2比特模型接近全精度模型的性能。在模型能力方面，對比4比特PTQ模型版本數學、代碼、科學等指標上表現相當，實現了“小而強”的設計目標。

技術上，量化作為大模型部署上線不可或缺的一環，肩負了降低部署成本與保精度的使命，大部分情況下對于int4、int8、fp8的壓縮精度要求，采用PTQ量化策略即可實現幾乎無損，但隨著原始模型大小的縮小、壓縮bit數的進一步降低，PTQ帶來的量化損失是巨大的。因此，對于原始模型大小只有1.8B，量化bit數只有2bit的HY-1.8B-2Bit，混元團隊采用了量化感知訓練策略，這顯著提升了量化后模型的性能。

騰訊混元還通過數據優化、彈性拉伸量化以及訓練策略創新三個方法來最大限度的提升HY-1.8B-2Bit的全科能力。

部署方面，騰訊混元提供了HY-1.8B-2Bit的gguf-int2格式的模型權重與bf16偽量化權重，對比原始精度模型，HY-1.8B-2Bit 能夠靈活用于端側設備上，該模型也已在 Arm 等計算平臺上完成適配，可部署于啟用 Arm SME2 技術的移動設備上，并實現高效運行。

在MacBook M4芯片上，HY-1.8B-2Bit 固定了線程數為2測試了不同窗口大小下的首字時延和生成速度，模型選定fp16、Q4、HY-1.8B-2Bit三種gguf格式作為對比，首字時延在1024輸入內能夠保持3—8倍的加速，生成速度上常用窗口下對比原始模型精度，HY-1.8B-2Bit能夠實現至少2倍穩定加速。

在天璣9500上同樣進行了測試，對比HY-1.8B-Q4格式首字時延能夠加速1.5—2倍，生成速度加速約1.5倍。

當前，HY-1.8B-2Bit的能力仍受限于監督微調（SFT）的訓練流程，以及基礎模型本身的性能與抗壓能力。針對這一問題，混元團隊未來將重點轉向強化學習與模型蒸餾等技術路徑，以期進一步縮小低比特量化模型與全精度模型之間的能力差距，從而為邊緣設備上的大語言模型部署開拓更廣闊的應用前景。

項目鏈接：https://github.com/Tencent/AngelSlim

模型地址：https://huggingface.co/AngelSlim/HY-1.8B-2Bit

https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF

技術報告：

https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.