![]()
智東西
作者 李水青
編輯 心緣
智東西2月10日報道,今日,騰訊混元開源一款面向消費級硬件場景的“極小”模型HY-1.8B-2Bit,等效參數量僅有0.3B,內存占用僅600MB,比常用的一些手機應用還小,可本地化部署于手機、耳機或智能家居等設備應用。
![]()
該模型基于首個產業級2比特(Bit)端側量化方案,通過對此前混元的小尺寸語言模型HY-1.8B-Instruct進行2比特量化感知訓練(QAT)產出。這一模型對比原始精度模型等效參數量降低6倍,沿用原模型全思考能力,可根據任務復雜度切換長/短思維鏈;同時在真實端側設備上生成速度提升2-3倍。

▲ HY-1.8B原始精度模型生成效果

▲HY-1.8B-2Bit模型生成效果,2bit量化后的模型速度明顯更快
比特是計算機存儲的最小單位,一般模型的精度有2比特、4比特、8比特、32比特等表示方法,數值越大模型的精度更高,所占的內存就越大。雖然2比特量化的精度損失較大,但通過QAT和先進的量化策略,團隊已經能讓2比特模型接近全精度模型的性能,對比4比特PTQ模型版本數學、代碼、科學等指標上表現相當。
對于原始模型大小只有1.8B,量化bit數只有2bit的HY-1.8B-2Bit,混元團隊采用了量化感知訓練策略,從而顯著提升了量化后模型的性能。騰訊混元還通過數據優化、彈性拉伸量化以及訓練策略創新三個方法,來提升HY-1.8B-2Bit的全科能力。
部署方面,騰訊混元提供了HY-1.8B-2Bit的gguf-int2格式的模型權重與bf16偽量化權重,對比原始精度模型,HY-1.8B-2Bit實際模型大小直降6倍,僅有300MB,能夠靈活用于端側設備上。該模型也已在Arm等計算平臺上完成適配,可部署于啟用Arm SME2技術的移動設備上。
在MacBook M4芯片上,HY-1.8B-2Bit固定了線程數為2測試了不同窗口大小下的首字時延和生成速度,模型選定fp16、Q4、HY-1.8B-2Bit三種gguf格式作為對比,首字時延在1024輸入內能夠保持3~8倍的加速,生成速度上常用窗口下對比原始模型精度,HY-1.8B-2Bit能夠實現至少2倍穩定加速。
![]()
在天璣9500上同樣進行了測試,對比HY-1.8B-Q4格式首字時延能夠加速1.5~2倍,生成速度加速約1.5倍。
![]()
項目鏈接:
https://github.com/Tencent/AngelSlim
模型地址:
https://huggingface.co/AngelSlim/HY-1.8B-2Bit
https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF
技術報告:
https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf
結語:模型“瘦身”,加速端邊側智能發展
HY-1.8B-2Bit的推出標志著騰訊在小型化、多語言和端側AI上的新突破。它不僅在性能上接近更大規模的模型,還兼顧了速度、內存和隱私的平衡。
從去年中阿里的Qwen-Embedding-0.6B、谷歌的0.27B的Gemma 3、0.3B的EmbeddingGemma,再到今年初騰訊0.3B的HY-1.8B-2Bit,越來越多的小尺寸模型可供開發者選擇,推動RAG、語義搜索等應用不斷下沉至個人設備。
當前,HY-1.8B-2Bit的能力仍受限于監督微調(SFT)的訓練流程,以及基礎模型本身的性能與抗壓能力。針對這一問題,混元團隊未來將重點轉向強化學習與模型蒸餾等技術路徑,以期進一步縮小低比特量化模型與全精度模型之間的能力差距。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.