網易首頁 > 網易號 > 正文申請入駐

百度端側大模型安全建設實踐：在算力與保障之間找到平衡

2026-02-03 13:31:00　來源: InfoQ

北京舉報

分享至

演講嘉賓｜李志偉

編輯｜ Kitty

策劃｜QCon 全球軟件開發大會

隨著大模型和 AIGC 技術的快速發展，AI 正從云端向終端設備延伸；其以實時性、數據保密性和經濟性的特點，吸引模型廠商、芯片廠商和終端廠商紛紛布局端側小模型；在 InfoQ 舉辦的 QCon 全球軟件開發大會上，百度大模型內容安全平臺負責人李志偉做了專題演講“端側大模型的安全建設：如何在算力與保障之間找到平衡”，他從端側大模型發展趨勢開始介紹，分享了 AI 從云端向終端延伸的背景與驅動力以及端側小模型的興起與生態布局，他談到算力限制與監管合規要求之間的平衡，如何在低算力情況下最大限度的滿足端側內容審核的效果等是百度在實踐中的痛點問題，最后他通過實際案例分享了百度在端側大模型安全建設的思路，做到離線場景低算力情況下依舊可以支持多模安全審核，幫助聽眾開拓了一些新思路。

預告：將于 4 月 16 - 18 召開的 QCon 北京站設計了「智能體安全實踐：可控與可靠」專題，本專題融合可靠性建設，聚焦權限控制、行為約束等要點，探索在不壓制能力的前提下，實現智能體可控、可靠、可審計、可追責的路徑，平衡技術價值與安全合規。如果你也有相關方向案例想要分享，歡迎提交至 https://jinshuju.com/f/Cu32l5。

以下是演講實錄（經 InfoQ 進行不改變原意的編輯整理）。

端側大模型發展趨勢

端側大模型是當下人工智能領域的一個熱門研究方向，它與我們日常使用的智能手機、電腦等設備密切相關。端側大模型與常見的端云協同模型有所不同，它有著自己獨特的定義和特點。

端側大模型主要基于云端的大參數規模模型，通過剪枝、蒸餾等模型裁剪技術，將其裁剪為小規格參數的模型。這些裁剪后的模型將網絡計算、存儲與安全全部預置到端上，以端側運行、設備本地化的方式進行推理。端側大模型的承載形態豐富多樣，包括移動終端、PC 設備、物聯網設備、穿戴設備以及具身智能場景等。

與云端 AI 大模型相比，端側大模型在訓練方式上并無太大差異，都是圍繞數據中心或云端進行實踐和訓練。然而，它們最大的差異在于模型的推理方式和參數量級。目前，最新的云端大模型參數規模可能達到千億量級，而端側大模型則主要聚焦于 10 億級別，并且推理過程在端側獨立離線完成。

2024 年可以說是端側大模型的元年，尤其在去年下半年，無論是在模型、芯片還是終端方面，都針對端側進行了大量研發和發布。國內廠商如訊飛、千問、智譜等發布了適配端側的小規格參數模型；海外的 Google、微軟、Meta 等也發布了大約 30 億參數的端側模型。芯片方面，性能更優越的芯片不斷推出。在終端承載方面，2024 年上半年，算力相對充沛的設備如 AI PC 發展迅速，聯想等廠商推出了相關產品。下半年，手機終端也迎來了密集發布期，榮耀、vivo、蘋果、三星等廠商的新型智能手機都搭載了端側模型，這標志著 2024 年端側大模型進入了快速發展的時期。

據一些調研機構預測，在未來幾年，端側大模型市場規模將保持 40% 到 50% 的增長率快速發展。2025 年，端側大模型有望迎來更大的爆發。在端側模型快速發展的階段，安全建設是一個重要的關注點。

端側大模型之所以能快速發展，主要有以下優勢。首先是端側的實時性，算力自主在端側完成推理計算，省去了云端數據傳輸的環節，具有實時性優勢。其次是數據保密性，在智能手機等終端上，涉及大量個人高隱私敏感信息和數據。如果采用傳統的端云協同形式，個人敏感信息上傳云端存在數據隱私安全風險。此外，端側大模型還具有多樣性，其承載體豐富多樣，未來還會有更多新型端側承載體出現。經濟性也是端側大模型的一個優勢，對于模型服務廠商而言，無需耗費大量財力和算力維持高性能的云端服務，從服務廠商角度而言，具有一定的經濟性優勢。

端側大模型的應用場景廣泛。從載體來看，目前智能手機和電腦是發展最快、最有前景的。從生成內容角度而言，過去一年以及今年上半年，端側大模型主要以文本生成和圖片生成產品為主，這兩個多模態領域相對成熟。我們相信，在下半年以及明年，多模態甚至全模態的端側模型將有更多展現機會。今年上半年，面壁智能發布了小鋼炮的最新版本，實現了全模態端側大模型的發布，這表明我們正處于高速快速迭代的階段。

端側大模型面臨的安全挑戰

端側模型與云端模型的本質區別不僅在于參數規模和推理形態，從安全視角來看，端側模型還面臨著諸多獨特挑戰。這些挑戰主要從四個方向展開，綜合了監管要求、業務場景以及終端類型等因素。

首先是用戶隱私保護。端側模型的一大優勢在于用戶敏感信息無需上傳云端，從而有效避免了在云端傳輸過程中可能被劫持或泄露的風險。然而，隨著端側模型的發展，設備在處理數據和模型權限方面引入了新的安全隱患。例如，許多智能手機中的 AI 大模型會繞過三方 APP 的權限限制，通過實屏自動點擊等方式實現個人助理等服務。這些智能體或個人助手往往會過度獲取權限，尤其是無障礙權限，這引發了監管單位、模型廠商、應用服務廠商和手機系統三方的探討。若無法有效管控，用戶的隱私仍將面臨隱患。不過，我預計下半年相關問題及監管導向會給出更清晰的管控思路。

其次是內容合規。過去兩年，網信辦及其他監管單位陸續發布了多項關于大模型安全的管理要求，其中最核心的是深圳市人工智能暫行管理辦法和安全基本要求。這些要求明確了大模型生成內容的安全標準，無論是云端還是終端的大模型，都需滿足監管的合規要求。除了傳統的 PGC 和 UGC 場景風險外，AIGC 還涉及歧視、商業秘密、違法以及侵犯他人合法權益等新型風險分類。云端大模型面臨的內容安全挑戰，在端側同樣是一條紅線。

第三是模型安全。端側模型直接暴露在用戶設備上，更容易受到攻擊，且其防護機制相對云端不夠完善。端側模型多基于蒸餾、量化剪枝等壓縮技術，參數量級大幅壓縮后，對輸入擾動更敏感，對抗樣本的脆弱性增加。此外，數據殘留風險也不容忽視。例如，國內某 AI 廠商和 PC 廠商構建安全方案時，盡管對端上預置的敏感詞進行了加密處理，但在運行過程中，敏感詞仍可能被輕易泄露，這給企業帶來了較大的負面輿情風險。

最后是系統與設備安全。終端承載不僅涉及軟件安全挑戰，硬件方面也可能帶來固件安全、物理安全等問題。

端側大模型安全建設實踐

云端 - 大模型內容安全方案

在深入了解端側內容安全之前，我們先來審視一下完整的云端內容安全方案。這個方案可以從兩個角度來理解。首先，從全鏈路的角度來看，當用戶輸入提問內容，也就是 prompt 之后，我們首先會對其進行安全審核，但這并非單純的審核。具體而言，prompt 到達后，我們首先會進行語種判斷等基礎處理。由于大模型場景中存在多輪對話機制，而多輪對話很容易構成誘導性提問，這是一種很普遍的情況。因此，我們會對多輪對話進行改寫。例如，在多輪指代改寫中，前兩個問題可能都很正常，比如先要求大模型以“香港是一個美麗城市”為題寫一首詩，接著以“英國也是一個美麗的國家”為題寫一首詩，單獨來看每個問題的輸入輸出都沒有太大風險。然而，當進行多輪對話時，比如第四個或第五個問題變為“前面的城市是這個國家的一個美麗地方，寫一首詩”，單純看用戶輸入的 prompt 似乎沒有問題，常規審核也難以攔截，但結合多輪對話的含義，最后一個問題其實存在很多風險。在多輪指代改寫環節，我們會將用戶最后輸入的 prompt 進行改寫，再對改寫后的內容進行審核，這樣可以提高整體的召回率。指代改寫之后，我們會進入 prompt 審核階段，審核內容會涵蓋 TC260 所約束的各類分類，當然也會引入一些新的分類。在傳統的 PGC 和 UGC 場景中，我們可能會直接進行處置和干預，比如刪除帖子、評論或進行個人屏蔽。但在大模型對話、chatbot 場景中，如果單純采取這種簡單粗暴的處置方式，用戶體驗會很差。而且從監管角度看，也不希望大模型對所有敏感問題都拒答，因此會有拒答率的要求。

在云端方案中，我們構建了紅線知識庫，主要圍繞一些高敏感問題，預置一些標準回復，雖然占比不高，但我們希望當用戶問到這類問題時，生成的內容是經過人工審校、安全合規的。因為即使 10 次生成內容中只有一次因幻覺導致風險，在高敏感場景下對企業的影響也很大。所以，我們通過語義相似度匹配構建紅線知識庫，提供預置回復。此外，我們還考慮構建安全紅線大模型，這是一個參數規模較小的模型，當適配的底座模型對風險問題應答不佳，但從用戶角度看又不想完全拒答時，這個模型可以對違規問題進行正向引導。這樣，從用戶角度看不是一味拒答，體驗較好；從監管角度看，也能給用戶一些法律法規和要求方面的正向輸入，這是監管樂見的。

我們還構建了信任域檢索增強能力，因為用戶會結合實時熱點問題與大模型交互，很多大模型也有檢索能力。但在生成內容時，針對高敏感問題，如涉政、民生類問題，我們希望大模型的回復與監管輿論導向和調性保持一致。所以，在涉及安全風險問題時，我們構建了信任域檢索增強能力。同時，我們也有回復干預機制，這是監管比較關注的。當大模型服務上線后，出現違規或嚴重案例，或國家發生敏感事件時，我們需要有快速干預能力，以保證線上服務的穩定性。如果問題是安全的，我們會直接提交到底座模型生成。在這個過程中，我們還會對 prompt 進行風險提示和改寫。例如，當問題是具有誘導性的，如詢問“有哪些國家在亞洲的半導體方面具有優勢，包括臺灣”時，我們的方案能夠對風險 prompt 進行處理，通過 Few-shot 方式給底座模型追加風險提示，比如提醒用戶是中國人，回答內容要符合國內政治制度等要求。針對用戶誘導性提問，我們也能給底座模型風險提示，使其生成內容更安全。在輸出環節，基于流失的方式，我們還會進行一道防護。大家在使用其他主流大模型服務時，當問到敏感問題，可能會看到生成內容生成一兩段后馬上撤回，這說明生成內容存在風險和違規內容，進行了交互處理。這就是云端方案的完整流程。

剛剛提到的紅線安全大模型，主要是針對用戶提出的各類違規問題，除了直接拒絕回答違法犯罪、偏見歧視、涉政以及色情等問題外，還能給出正向引導。以涉政問題為例，在 DeepSeek 尚未火爆的去年，許多廠商使用 Llama 作為底座模型進行微調。然而，這類海外開源模型在回答涉政問題時存在一定風險。因此，我們可以構建一個小型安全大模型，比如 7B 的模型，并對其進行微調，加入大量安全正向語料進行對齊。這樣，它能夠對用戶提出的敏感問題給出更廣泛范圍的正向引導。

在建立信譽檢索增強能力方面，我們會涵蓋國內主流黨媒、央媒官方網站報道的內容，以及百度百科權威認證的信息。當用戶提問涉政民生等問題時，我們會進行信譽檢索，由紅線大模型直接回答，或者經過適配后，底座模型也可以使用這些信息。這主要是為了保證生成內容的高時效性和高準確性。

終端 - 大模型內容安全方案

前面我快速介紹了云端大模型從內容角度的安全防護方案。接下來，聚焦到今天的議題——端側。在構建端側大模型安全方案之初，會面臨兩個方向的難點。

首先是技術上的難點。在適配過程中，我們可以看到終端設備的算力差異較大，對性能要求較高。高運算量的模型需要進行多架構、多平臺的適配。其次，從效果層面來看，我們已經做了很多模型裁剪方案，但如何平衡安全防護效果是一個問題。也就是說，在損失部分效果的情況下，如何滿足性能要求，以及如何選取平衡點。還有一個重要問題是，在端側場景下，安全策略如何進行有效更新和防護。這一點也是我們在配合建設過程中，與監管單位溝通時，他們特別關注的安全點。

另一個方向是從產品視角來看。端側場景有很多，比如手機終端的端側模型，并非是一個可以直接開放式閑聊問答的 chatbot，而是更多以 Agent 的形式呈現給用戶，應用場景豐富多樣。這就需要我們考慮 Agent 的安全邊界，以及如何防范用戶越界使用。從監管角度來看，云端大模型上線之初需要完成網信辦的上線備案。在端側場景下，監管趨勢更為嚴格，不僅滿足于傳統的 API 測試。在備案時，我們需要向監管單位暴露大模型的 API，包括具有安全防護方案的 API 和裸模型的 API，他們會進行效果對比。在端側場景下，不僅需要滿足 API 測試，可能還需要進行純離線設備或沙盒方案的測試，以及考慮如何在離線運行方案下進行應急處置。這些都需要我們關注。因此，在構建端側大模型安全方案時，也是從這四個場景難點出發，進行整體規劃。

在構建端側內容安全方案時，我深入分析了其流程與架構。從流程上看，端側方案與云端方案大致相似，但在細節上存在一些關鍵差異。首先，用戶輸入的 prompt 并非總是用戶直接輸入的內容，有時會結合智能體進行調整或修改。從防護方案角度出發，我們首先對輸入的 prompt 進行內容的輸入輸出審核。在這一過程中，我們在算子層面進行了裁剪與量化，以優化性能。

圖片審核在端側應用較為廣泛，但其算力消耗較大。傳統內容審核通常需要多個算子來覆蓋不同場景，而在端側，單一圖審算子的算力開銷已遠超端側模型本身，這無疑是一個巨大的挑戰。此外，在防護過程中，我們對用戶輸入的 prompt 進行了場景越界過濾。例如，在移動終端的通話摘要應用場景中，網信辦在測試時僅提出了簡短的三四個字或七八個字的問題，這顯然不符合摘要場景的有效輸入。因此，針對每個應用場景的 prompt，我們在端側實施了越界過濾策略，這是與云端方案的一個顯著差異。

在端側方案中，我們還關注了模型封禁和日志加密存儲。云端模型的所有數據都存儲在云端，包括違規日志和正常日志，且需按照法律法規保存 6 個月。然而，在端側，我們無法獲取大量數據，但仍需采用端側加密方式，以便在監管單位需要時進行調取。因此，在端側 SDK 方案中，我們實現了日志的加密存儲和模型封禁。對于違規用戶，云端通常會進行賬號封禁，但端側用戶購買了終端設備，若因幾個問題就被關閉所有 AI 能力，影響較大。因此，我們在端側對封禁模型進行了分級處理，以實現更合理的管控。

解決技術問題 - 平衡算力約束與安全效果

在技術層面，我們首先解決了算力約束問題。年初的方案中，我們采用了一個多分類算子，能夠完全覆蓋 TC260 的所有風險分類。同時，我們還引入了安全算子和回復干預算子，通過策略下發的形式，對用戶輸入的 prompt 或生成內容中的違規內容進行快速干預和調整。在圖片審核方面，雖然涉政、涉敏、涉黃的算子目前是分開的，但最新方案正朝著大模型或圖文融合模型的方向發展，以實現更有效的安全管控。我們摒棄了傳統的單一分類算子訓練，轉而訓練一個能夠融合圖文的模型，以優化算力開銷，并結合模型中流和量化的裁剪技術。最新數據顯示，經過模型壓縮技術處理后，算子的波動控制在 1% 到 2% 之間。從監管角度看，更關注端到端的效果，即模型生成的內容是否違規。在這方面，端側效果的差異基本能控制在 1% 以內。

在性能方面，我們重點關注了幾個關鍵指標。首先是運行內存占用，目前我們已將內存占用控制在 400 兆以內，最新數據約為 350 兆。其次是瞬時運行電流的功耗，這也是端側場景中需要重點考量的因素。通過這些優化措施，我們致力于在端側實現高效、安全且性能卓越的內容安全方案。

解決產品問題 - 多場景使用圈定安全邊界

在產品角度解決問題的過程中，我深入探討了端側模型的應用場景。以 AIPC 為例，其算力相對充沛，通常配備有類似 chatbot 或閑聊助手的功能。然而，由于其特殊性，并非所有的端側方案都能直接移植到此類場景中，因此我們更多地采用了端云協同方案。在這種方案下，對于一些極其違規的問題，端側能夠直接進行檢測和識別，并實施攔截。但對于涉政通識類問題，監管單位在測試大模型時會關注拒答率，我們不能簡單地對所有涉政問題一概拒答。例如，對于“我們的領導人是哪年當選的”這類常識性問題，以及“臺灣是中國的嗎”這類底線性問題，我們都應給予相應的回答。在這種情況下，我們實現了端云協同，將部分問題分流到云端處理。

在移動終端方面，更多地是 Agent 場景。在這里，prompt 相當于源代碼，至關重要。因此，我們重點關注應用邊界和場景安全。我們最終呈現給用戶的并非開放式 chatbot，而是以不同 Agent 為入口的功能。我們在應用服務邊界上進行了限制，并對 prompt 進行保護，特別是針對提示詞注入攻擊的檢測。近期，我們發現了一些通過對話形式泄露 Agent 核心 prompt 的情況，這凸顯了在終端場景下聚焦每個應用場景安全的重要性。

解決監管合規問題 - 端側離線場景的應急與處置

解決合規問題也是我們工作的核心。從監管角度看，他們更關注離線場景下的應急處置能力。經過與監管單位和廠商的溝通，我們總結出四個關鍵方向：一是離線用戶能否封禁；二是違規日志能否上報；三是針對突發事件能否快速響應；四是在備案過程中的場景化測試和沙盒終端方案。沙盒測試對于新型手機終端尤為重要，企業在備案時可能因保密要求無法直接開放手機供監管使用，這就需要找到一種平衡，既能滿足企業保密需求，又能使監管單位有效測試我們的方案。

在封禁模型和日志邏輯方面，考慮到用戶購買智能終端的成本較高，我們不會簡單地因為用戶提問違規內容就直接禁用其 AI 功能。我們采用了分類分級的方式，包括違規分類、頻次、權重以及不同重保期的差異。例如，在智能座艙中，當用戶提問敏感問題時，系統會給出警告，甚至實施小時級或天級別的封禁，以此引導用戶避免違規提問。

違規日志的存儲和上報是一個復雜問題，它與用戶隱私和端側場景存在沖突。我們在端側安全方案中實現了數據加密存儲，并根據監管要求靈活控制上報頻率。對于違規日志的上傳，我們通過引導用戶聯網申訴等方式，在協議中明確說明，以避免用戶利用端側進行違規操作。

在端側場景下，應急處置能力至關重要。我們的安全方案以 SDK 形式呈現，并配備云端管理控制臺。端上 SDK 不預置任何敏感詞，而是將相關內容融入模型訓練中，以防止數據泄露。云端控制臺保留敏感詞管理功能，以便快速響應監管要求和指令。我們還實現了中間干預文件和配置文件的推送與拉取機制，以確保智能終端在離線狀態下也能及時更新安全策略。一鍵禁用功能是監管單位最為關注的要點。在出現極其敏感情況時，企業必須具備一鍵關停的能力，這是服務備案和向公眾提供服務的前提條件。

在端側大模型的日常運營中，與云端相比存在較大差異。云端有完整的日志和巡檢模型，而端側只能上報少量違規日志。因此，我們采用了安全評測主動發現風險的方式，圍繞 Agent 場景和時事敏感話題構建題庫，以提升評測效率和效果。我們還構建了裁判大模型，以降低標注成本，提升評測效率。裁判大模型能夠快速標注問題的安全性，并為后續對齊提供高質量語料。

總結來說，端側方案的核心在于超低算力、跨平臺支持、純離線運行、純語義審核、應急處置能力和評測運營。這些要點構成了我們在端側建設安全方案的主要方向。

典型案例分享與展望未來

下面給大家介紹一個案例。這是我們支持的國內某 AIPC 廠商，他們使用了一個開源的大模型。不過，他們所使用的底座模型相對來說性能稍差一些。在備案過程中，針對一些常規涉政問題以及審核方案，他們之前采用的是敏感詞方式，但這種方式的準確率并不理想。我們與該廠商合作，配合網信辦進行了溝通和測試。結果顯示，經過我們的優化，其生成內容的合格率能夠達到 99.24%。這個案例也展示了我們在應急處置能力等方面的一些新思路，希望能給大家帶來一些啟發。

目前，端側模型還處于起步階段，現階段大家所使用的端側模型大多是端云協同模式。在未來的一到兩年內，這種模式可能仍將是主流。然而，隨著模型技術的不斷迭代和算力的持續更新，純 On Device 的模型占比肯定會逐漸增加。因此，我們在端側安全方面的關注點也需要持續加強，以應對未來可能出現的挑戰。

嘉賓介紹

李志偉，云安全聯盟大中華區 CAISP 認證講師、2025 信通院人工智能安全領域行業卓越貢獻者；長期從事 AI 安全、業務風控、賬號安全、支付風控等安全領域，現為百度大模型安全產品負責人，專注大模型內容安全、模型安全、大模型安全評測、以及大模型安全運營工作，致力于打造覆蓋大模型全生命周期的安全方案；其所負責的大模型安全項目曾獲選 2024 世界智能產業博覽會智能科技創新應用優秀案例、2024 工信部人工智能賦能新型工業化案例及 2024 工信部度網絡安全技術應用典型案例。

會議推薦

2026，AI 正在以更工程化的方式深度融入軟件生產，Agentic AI 的探索也將從局部試點邁向體系化工程建設！

QCon 北京 2026 已正式啟動，本屆大會以“Agentic AI 時代的軟件工程重塑”為核心主線，推動技術探索從「AI For What」真正落地到可持續的「Value From AI」。從前沿技術雷達、架構設計與數據底座、效能與成本、產品與交互、可信落地、研發組織進化六大維度，系統性展開深度探索。QCon 北京 2026，邀你一起，站在拐點之上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.