隨著大模型應用越來越多的深入到日常工作生活場景:從AI教育、客戶服務、商機互動、文旅推薦、醫療導辦到保險咨詢,也隨著智能體交互日益成為社會經濟生活的重要環節,一場隱蔽的安全危機正悄然而來;生成式人工智能對話互動時普遍面臨著惡意誘導、隱藏條件等各類風險,對話風險正成為行業AI落地中的“致命暗礁”。
2025年8月27日,公安部第三研究所數據安全技術研發中心依據GB/T45654-2025《網絡安全技術 生成式人工智能服務安全基本要求》對國內主流大模型商業化版本開展安全測試,并發布了測試結果[1]。如圖一結果顯示8類安全維度的不合規率整體分布在28%至51%之間,其中涉黑灰產、謠言和詐騙類均超過40%。不難看出,智能體所“仰仗”的各通用大模型本身的安全防護能力普遍不足。
![]()
問題如此嚴重的原因,是敏感詞規則防火墻等現有防御手段已跟不上新式AI攻擊手段的迭代:關鍵詞攔截會漏判誤判;而主模型在安全訓練時,為了不讓能力下降過大又很難做到高概率防范。另一方面《生成式人工智能服務安全基本要求》等監管政策對智能體落地應用的安全風險控制“劃了紅線”;如何嚴謹又不失效果的解決對話安全風險問題,困擾著所有的智能體開發者。
彩智科技的深知安全團隊提出了“一個基于專有模型的大模型對話安全響應框架——深知風控”,深知風控框架(以下簡稱“深知”)是一個模型組合,它通過“風險精準識別分類+輸出權威溯源可解釋”協同設計,并以完全不影響智能體的模型能力的“防火墻”式保護機制,給出兼顧安全與效率的突破性解決方案。同時,深知接口可以讓智能體開發者5分鐘上手,快速讓原智能體獲得近100%的安全風險防御能力。
![]()
一、測試驗證:防御能力領先
衡量大模型安全的核心標準是實戰防御能力。
深知在與Qwen3Guard-Gen-8B、TinyR1-Safety-8B等頭部安全模型最新版本進行的專項測評中,從風險識別精度、回復嚴謹性等方面展現出優勢。技術報告中,測評所采用的數據集使用TinyR1-Safety-8B技術報告所公開的測試數據集為主(隨機抽取其中2000條英文與2000中文),同時還使用并公開了深知可信團隊在實戰中積累的100條高風險的數據。
其中,與風險分類模型Qwen3Guard-Gen-8B,按風險召回率測評結果如下(可詳見技術報告):
![]()
與風險應答模型在TinyR1-Safety-8B的對比評測,使用用TinyR1-Safety-8B技術報告所使用的安全應答的測評標準,結果如下(可詳見技術報告):
![]()
在公開中英文安全測試集中,面對欺詐誘導、敏感信息竊取等高風險復雜攻擊場景,同類模型因依賴靜態知識出現政策過時、捏造合規依據、丑聞人物無感知等問題,安全評分僅74%,而深知依托動態可信知識庫有接近100%的高風險防護率。
相關測試過程、評測標準、測試數據集及實驗結果均已公開發表于前述技術報告與開放平臺,評測具備可驗證性。
二、輸入端打破“非黑即白”,四分類體系精準識別鎖死企業風險
傳統大模型安全防御往往在于把風險判定簡化為“安全/不安全”的二元選擇——要么過度攔截影響體驗,要么漏判風險埋下隱患。深知重構安全防護邏輯,建立“安全(Safe)、不安全(Unsafe)、有條件安全(ConditionallySafe)、重點關注(Focus)”的四類體系,有針對性的處置風險。如下:
![]()
三、輸出端:可信知識庫+解讀模型,根治企業AI“幻覺”頑疾
針對識別出的風險問題,深知提供安全代答,在確保安全的前提下進行交流,輸出內容嚴格符合法規與主流價值觀。
代答內容均源自深知全量規章知識庫,知識庫覆蓋全國337個地級及以上城市的法律、政策、行業標準規范、公共服務等領域知識,并保持常態化動態日更新及知識工程化處理;上億條精細治理的知識點可溯源回復,讓每一次響應都有據可查,徹底杜絕信息捏造與“幻覺”問題引發的風險。
同時提供兩種代答模式靈活選擇:
積極型(active):對各類風險問題進行合規可控的交流回應;可以在電商、旅游、娛樂等智能體中使用,有很好互動性。深知的目標,是讓這些平時很大眾化的智能體,在碰到用戶刻意用“敏感”問題挑戰時,及時變身成正能量朋友,不躲避的按主流價值觀“娓娓道來”,進行安全又積極的交流。
穩妥型(conservative):適用于政務、司法等嚴肅場景,部分敏感問題僅輸出提示性內容,嚴守安全底線。尤其是,深知已有案例實戰,模型使用方已在網信、公安等有關部門組織的生成式人工智能安全測評中,取得近100%防護的優異效果。
四、應用價值:低門檻賦能,讓智能體開發聚焦場景痛點與價值核心
深知提供簡潔易用的API接口與多語言調用示例(Python、cURL等),開發者無需復雜配置,獲取api-key后即可快速接入,并集成到現有業務系統,大幅降低風控開發成本。
![]()
深知風控DeepKnown-Guard(見上圖)代表了一種外部化、低耦合的安全防護新范式,旨在通過API調用實現安全服務的熱插拔(Hot-Pluggable),從而徹底解耦安全與業務邏輯。
具體來說,對于那些教育培訓、導游導購、醫療康養、客戶服務、行業咨詢、金融理財等領域大模型與智能體,可以不再為AI對話安全問題而困擾。通過簡單調用深知接口,智能體可以先讓深知來判斷訴求表達的安全情況,在有風險時直接拒答或讓深知返回代答回復,并在無風險時自行場景交互。以上過程不僅可在一次調用內完成;還可進一步通過參數配置,使用深知的上下文理解、流式輸出、地域識別本地化服務等功能。
對企業來說,大模型安全風控的痛點不僅是“防不住”,還有“用不起”——搭建定制化防護架構、持續迭代加固模型,需要投入資金和人力,并且還容易引起模型處理核心場景時的能力下降。深知將復雜的安全技術轉化為“低門檻可隨時調用”的服務,大幅降低AI落地成本。開發者無需精通模型安全技術,也不用改造現有系統;只需通過API接口在線調用深知,就能快速激活全套安全防御能力;從而將更多精力投入AI驅動的業務創新。
結語:安全是智能體進入核心場景的“入場券”
在智能體開始普及于社會生活主流場景的今天,安全早已不是“附加項”,而是不可或缺的“必需品”。深知安全響應框架以“輸入分類+輸出溯源”的技術創新實現近100%高風險防御實測結果;并以“安全托底、業務創新”的模式,將加速大模型在教育、零售、金融、康養、文旅等各行業的規模化應用。
深知團隊在國務院政策答問平臺、廣東“粵政易”AI智能辦公助手等重大人工智能應用項目的成功案例,積累了豐富的AI安全風控經驗。如今通過將復雜的安全技術轉化為低門檻的 API 服務,深知助力智能體從“追求功能炫酷”向“安全實用落地”的成熟轉型,成為智能體進入核心場景的“新基建”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.