網易首頁 > 網易號 > 正文申請入駐

安全審核大模型，本地部署，實測

2025-12-08 12:43:52　來源: 機器學習與Python社區

北京舉報

分享至

大家好，我是 Ai 學習的老章

現在的大模型應用搭建越來越簡便，但是安全層面大家普遍不夠重視，各種提示詞越獄，注入，投毒等手段，無論是基模還是最終應用，都極有可能輸出不安全內容（比如暴力、非法行為、個人可識別信息、不道德行為、敏感話題、版權侵犯等）。

一文中，提到 Qwen3Guard 安全審核大模型

最近我部署了這個模型，將其放在工作流第一步的提示詞安全性審核以及最終回復的安全性審核

雙重保障，能夠一定程度降低安全風險。

它的使用極其簡單，就是給提示詞和最終回復打標簽和分類

本文極簡介紹本地部署與用法

Qwen3Guard

阿里開源的 Qwen3 安全審核模型Qwen3Guard，一共 2 個，分兩類：

Qwen3Guard-Gen，將安全性分類視為指令跟隨任務的生成模型；
Qwen3Guard-Stream，在增量文本生成期間實時進行安全監控的標記級分類頭。

這兩類模型又分別有三種大小的模型（0.6B、4B 和 8B）

應用場景：

Qwen3Guard-Gen（生成式版）支持對完整用戶輸入與模型輸出進行安全分類，適用于離線數據集的安全標注、過濾，亦可作為強化學習中基于安全性的獎勵信號源，是構建高質量訓練數據的理想工具。
Qwen3Guard-Stream（流式檢測版）突破了傳統的護欄模型架構，首次實現模型生成過程中的實時、流式安全檢測，顯著提升在線服務的安全響應效率與部署靈活性。

Qwen3Guard-Gen，它具有以下主要優勢：

三級嚴重性分類：通過將輸出分類為安全、有爭議（其危害性可能依賴于上下文或在不同應用場景中存在分歧的內容）和不安全（通常被認為在大多數情況下有害的內容）三個嚴重性級別，支持對不同部署場景的適應。
多語言支持：Qwen3Guard-Gen 支持 119 種語言和方言，確保在全球和跨語言應用中的強大性能。
卓越的性能：Qwen3Guard-Gen 在各種安全基準測試中表現出色，在英語、中文和多語言任務的提示和響應分類方面均表現優異。

本地部署

第一步，下載模型

我選擇了 4B 版本

pip install modelscope
modelscope download --model Qwen/Qwen3Guard-Gen-4B --local_dir /Qwen3Guard-Gen-4B

第二步，vLLM 啟動

vLLM 版本 0.10.2

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3Guard-Gen-4B --port 8000 --max-model-len 32768

實際上，我把 max-modle-len 設置為了 10240，給它分配的顯存為 14GB

模型文件占用了 7.5GB，KV cache 占用了 4.2GB

用法

官方用例

from openai import OpenAI

 openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"
model = "Qwen/Qwen3Guard-Gen-4B"
client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base)

 # Prompt Moderation
prompt = "How can I make a bomb?"
messages = [
    {"role": "user", "content": prompt}
]
chat_completion = client.chat.completions.create(
    messages=messages,
    model=model)
print(chat_completion.choices[0].message.content)
# '''
# Safety: Unsafe
# Categories: Violent
# '''

 # Response Moderation
prompt = "How can I make a bomb?"
response = "As a responsible artificial intelligence system, I regret that I am unable to fulfill your request."
messages = [
    {"role": "user", "content": prompt},
    {"role": "assistant", "content": response}
]
print(chat_completion.choices[0].message.content)
# '''
# Safety: Safe
# Categories: None
# Refusal: Yes
# '''

我是直接把它接入到了 openwebUI 進行簡單測試

在實際業務中，比如 Dify 等智能體開發平臺的工作流中配置提示詞檢測及最終輸出檢測節點，做 if else 判斷，標簽為 Safe 的提示詞及回復方可通過并往下進行。

其實 0.6B 應該就足夠了，速度是極快的，幾乎不會影響整個工作流的效率

0.6B 版本模型文件只有 1.5GB，隨便一個消費級顯卡都能 Hold 住，極低成本收獲更安全的應用，簡直完美。

文末薦書

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.