三星研究院發(fā)布手機(jī)端側(cè)大模型MeKi：基于Memory的LLM擴(kuò)展新范式，支持旗艦手機(jī)端側(cè)部署

2026-03-04 23:38:18　來源: AI科技評論

廣東舉報

分享至

三星發(fā)布MeKi，用手機(jī)ROM擴(kuò)容大模型，性能媲美更大模型。

隨著三星最新一代旗艦手機(jī) Samsung Galaxy S26 的正式發(fā)布，移動端AI體驗迎來了質(zhì)的飛躍。新機(jī)集成了多種創(chuàng)新AI功能以及多款A(yù)I智能體。這些AI應(yīng)用極大地豐富了用戶的日常體驗，也標(biāo)志著智能手機(jī)正逐步轉(zhuǎn)型為高度智能化的個人助理平臺。然而，支撐這些復(fù)雜功能的背后，是對端側(cè)大模型性能與效率的極致追求。

最近，三星研究院在上月發(fā)布了題為《MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling》的端側(cè)大模型架構(gòu)，提出一種全新的大模型擴(kuò)展思路——通過存儲空間來擴(kuò)展模型容量、提升LLM的性能，而非依賴激活參數(shù)量和計算量的提升，這種新范式為在邊緣設(shè)備部署高性能LLM提供了新的解決方案。

與傳統(tǒng)的部署方式不同，MeKi架構(gòu)巧妙地利用了手機(jī)上豐富的ROM存儲空間，而非僅僅受限于RAM。在移動端 SoC 上，從ROM進(jìn)行查找讀取的操作相對廉價且能效高，且ROM帶寬在大模型推理期間通常處于閑置狀態(tài)，MeKi利用這一特性將ROM轉(zhuǎn)化為模型知識的擴(kuò)展存儲庫，從而緩解了內(nèi)存（RAM）的壓力。這種設(shè)計在不增加計算量（FLOPs）和推理時延的前提下，實現(xiàn)了模型容量與性能的顯著提升。

文章地址：https://www.arxiv.org/pdf/2602.03359

項目主頁：https://github.com/ningding-o/MeKi

核心痛點：邊緣部署的計算與內(nèi)存困境

當(dāng)前大模型的主流擴(kuò)展路徑（增大參數(shù)量、提升推理時計算量）在數(shù)據(jù)中心表現(xiàn)優(yōu)異，但在智能手機(jī)等邊緣設(shè)備上面臨致命瓶頸：

- 稠密模型參數(shù)量增加會導(dǎo)致浮點運算（FLOPs）激增，帶來不可接受的延遲和功耗；

- 混合專家（MoE）架構(gòu)雖通過稀疏激活降低單token計算量，但頻繁加載離散專家權(quán)重會造成嚴(yán)重的內(nèi)存訪問延遲，成為邊緣設(shè)備的主要性能瓶頸；

- 邊緣設(shè)備的RAM和NPU資源有限，而ROM帶寬在推理過程中大量閑置，現(xiàn)有方案未充分利用這一資源優(yōu)勢。

據(jù)此，研究團(tuán)隊提出了本文的核心動機(jī)：能否在不增加推理延遲和計算量的前提下，通過利用存儲空間實現(xiàn)模型容量的有效擴(kuò)展？

MeKi：將存儲內(nèi)容注入推理過程的LLM架構(gòu)

MeKi（Memory-based Expert Knowledge Injection）通過"存儲替代計算"的設(shè)計思路，實現(xiàn)模型容量與計算成本的解耦，其核心架構(gòu)包含三大關(guān)鍵組件：

1. token級專家知識：靜態(tài)與動態(tài)知識融合

MeKi為每個Transformer層配備專屬的知識庫，將其視為token級專家的集合，用來存儲在預(yù)訓(xùn)練階段學(xué)習(xí)到的語義知識。每個token的專家向量由兩部分融合而成：

- 靜態(tài)知識：通過token ID從一個靜態(tài)的詞嵌入矩陣中直接查詢，存儲基礎(chǔ)語義知識；

- 動態(tài)知識：在訓(xùn)練階段通過非線性投影從全局詞嵌入中合成特定的特征向量，增強(qiáng)表示能力；

兩者經(jīng)過歸一化處理后，由逐層可學(xué)習(xí)的系數(shù)進(jìn)行加權(quán)調(diào)節(jié)，形成最終的專家知識向量。

模型每層所用的專家知識庫的大小為，為了控制ROM空間的占用，我們控制知識向量的維度遠(yuǎn)小于模型的hidden size ( )。

2. 低秩門控融合：高效的知識注入機(jī)制

為了將專家知識高效率的注入到Transformer的前向傳播過程中，MeKi采用了一種低秩空間下的加法門控融合策略：

首先利用低秩線性投影和激活函數(shù)利用輸入FFN模塊的token hidden state來生成與上下文相關(guān)的低維門控信號（維度為），門控信號與檢索到的專家知識向量相加，從而實現(xiàn)了hidden state與知識的動態(tài)融合；融合后的embedding（維度為）經(jīng)過升維的線性投影被映射回模型維度( )，最終通過殘差連接融入主數(shù)據(jù)流。

該設(shè)計使得MeKi模塊可以與FFN模塊并行運行，實現(xiàn)模型容量的隱式擴(kuò)展，且低秩空間下的融合操作擁有很少的FLOPs開銷，幾乎不會增加額外計算量。

3. 重參數(shù)化策略：訓(xùn)練復(fù)雜度與推理效率的平衡

為解決訓(xùn)練階段的計算復(fù)雜與推理階段需要高效部署的矛盾，MeKi提出使用重參數(shù)化技術(shù)來進(jìn)一步降低推理階段的FLOPs開銷。

在訓(xùn)練階段，MeKi保留動態(tài)的非線性投影等復(fù)雜結(jié)構(gòu)，最大化模型的表征學(xué)習(xí)能力；部署之前，將MeKi模塊中的動態(tài)投影和歸一化層等操作進(jìn)行預(yù)先計算、并融合成為統(tǒng)一的靜態(tài)查找表，形成緊湊的ROM存儲結(jié)構(gòu)；在推理時，MeKi僅需通過token ID進(jìn)行查找，其I/O過程以及輕量級特征融合可以實現(xiàn)幾乎零延遲的極低額外開銷。

實驗驗證：端側(cè)性能與推理效率的雙重突破

研究團(tuán)隊在基于Qualcomm Snapdragon 8 Elite的安卓移動平臺上，對激活參數(shù)量為0.6B、1.7B、4B三個規(guī)模的MeKi模型進(jìn)行了全面驗證，核心結(jié)果如下：

1.性能對標(biāo)更大參數(shù)量的模型：MeKi-1.7B模型在10個下游基準(zhǔn)測試中平均得分59.7，與4B稠密模型（60.5）性能相當(dāng)；

2.推理效率保持最優(yōu)水平：MeKi通過將知識權(quán)重卸載到ROM空間，保持與同參數(shù)量稠密模型一致的推理速度：MeKi-1.7B模型在端側(cè)的解碼速度達(dá)13.7 token/s，是4B稠密模型（6.1 token/s）的2.26倍；

3.極低的ROM帶寬需求：重參數(shù)化之后的推理階段僅需少量的內(nèi)存查找操作，對于28層的Transformer模型，每個token所需的ROM數(shù)據(jù)傳輸量僅為14KB，完全適配移動設(shè)備的存儲帶寬。

4.超越同期其他基于存儲的LLM架構(gòu)： MeKi-1.7B在10項下游任務(wù)上的平均得分為59.7，與DeepMind的PLE（57.0分）和DeepSeek的Engram（57.9分）等ROM擴(kuò)展方案相比，分別超出了2.7和1.8個百分點，驗證了本方法在融合ROM知識的機(jī)制上的優(yōu)越性。

關(guān)鍵洞察：架構(gòu)設(shè)計消融分析

研究團(tuán)隊通過一系列的消融實驗進(jìn)一步揭示了MeKi架構(gòu)性能優(yōu)勢的核心來源：

?靜態(tài)知識+動態(tài)知識的融合：作者在0.6B參數(shù)量的模型上實驗了兩種知識來源的協(xié)同作用，與只使用單一知識來源的變體相比，兩種知識互補(bǔ)之后分別提升了0.7和0.8個點，驗證了知識互補(bǔ)的價值；

?最優(yōu)的知識注入位置：作者實驗了將MeKi模塊插入到模型中的不同位置上，其中MeKi與FFN并行的部署方式效果最佳，較其他位置（例如與Attention并行、放在FFN之后）平均提升0.4-0.8個百分點；

?最優(yōu)的融合方式：在對token 的hidden state和ROM專家知識進(jìn)行融合時，作者提出了 “相乘后Sigmoid”、“相加后Sigmoid”、“相乘后SiLU”、“相加后SiLU”四種門控融合策略，其中相加后Sigmoid方案的Training Loss最低，實驗得到的模型性能最優(yōu)；

?知識庫容量的擴(kuò)展定律：作者通過實驗證明了MeKi架構(gòu)的模型性能會隨著ROM中存儲的知識容量呈對數(shù)線性增長，通過改變預(yù)訓(xùn)練階段的知識向量維度（）即可調(diào)整模型的知識容量。為了實現(xiàn)性能與存儲成本的平衡，作者將MeKi-0.6B模型的設(shè)置為128，MeKi-1.7B模型的設(shè)置為256。

總結(jié)與展望

MeKi架構(gòu)打破了"性能提升依賴計算量增加"的傳統(tǒng)認(rèn)知，通過"ROM替代RAM"的內(nèi)存化擴(kuò)展范式，首次實現(xiàn)了邊緣設(shè)備上"零延遲開銷+大模型性能"的雙重目標(biāo)。，為智能手機(jī)、物聯(lián)網(wǎng)設(shè)備等邊緣場景部署高性能LLM提供了全新思路。

對于深度集成AI功能的手機(jī)產(chǎn)品，MeKi架構(gòu)意味著用戶可以運行性能更強(qiáng)大的本地大模型，在保護(hù)隱私的前提下，享受更精準(zhǔn)的智能體服務(wù)和更流暢的影像處理體驗，而無需擔(dān)心網(wǎng)絡(luò)延遲導(dǎo)致的體驗割裂，這手機(jī)真正地成為了懂知識、懂場景的“私人口袋專家”。

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.