網易首頁 > 網易號 > 正文申請入駐

中國開源模型如果輸掉了安全競爭，也就輸掉了AI競爭

2026-02-25 20:18:34　來源: 未盡研究

上海舉報

分享至

中國開源模型與美國閉源模型的較量，性能之爭從未停歇，安全之爭卻遲遲未被擺上臺面。參數、價格、榜單輪番上陣，風險、對齊與治理卻始終處于邊緣位置。這種失衡，不應成為常態。

如果開源模型最終輸掉中美AI競爭，也許最開始就輸在安全上。近期，來自中國研究團隊的橫向綜合測評發現，Anthropic的Claude-4.5系列模型是當之無愧的安全模范，而DeepSeek的學霸模型DeepSeek-V3.2-Speciale則是一個“不安分分子”。

這項研究釋放出的信號并不隱晦。開源模型的競爭力，不應建立在“低安全”之上。如果開源模型在安全領域投入不足，將影響它在AI for Science等高風險、高價值領域的潛力。模型迭代正在推動安全性提升，但它主要得益于對齊訓練與紅隊挑戰，而非能力本身的自然外溢?！皩R稅”終究需要被支付。

模型安全的重要性不必諱言。ChatGPT剛誕生半年，中國就搶先辦了“安全峰會”，請到了深度學習三巨頭之二的辛頓、楊立昆，以及當紅AI巨頭OpenAI的奧特曼與Anthropic聯合創始人Chris Olah。最近幾個月，無論是Anthropic的阿莫迪、谷歌DeepMind的哈薩比斯，還是硅谷工程師卡帕西，都強調安全之于AGI的重要性。

然而，安全問題始終停留在抽象層面。宣言、框架與愿景不斷被強調，但缺乏可度量、可對比的指標體系。風險也就因此難以被公眾理解，也難以被外界監督。

透明度的不足，是原因之一。尤其是中國開源陣營，它們在技術報告與模型卡中，更習慣展示技術能力的躍遷，卻較少公開風險控制的結構化設計。美國閉源公司雖然安全治理、紅隊測試與對齊流程，但也缺乏系統化、可持續、可橫向比較的安全評估體系。

這正是基準測試的意義所在?；鶞什⒉煌昝?，卻是目前成本最低、擴展性最強的“可見性工具”，也是AI治理得以全球展開的共同語言。在模型安全領域，基準測試遠未飽和，無論是數量還是深度，都還跟不上模型能力的擴張速度。

近期，中國研究人員嘗試構建名為前瞻安全基準（ForesightSafety Bench）的大語言模型評估體系。它由北京人工智能安全與治理實驗室、人工智能安全與超級對齊北京市重點實驗室以及遠期智能等實驗室聯合推動，并獲得地方政府、科研院所與高校體系的支持。

這套評估體系在基礎安全與擴展安全之外，還將產業場景中的系統性風險置于重要位置，呈現出鮮明的應用導向特征。去年，國務院提出深入實施“人工智能+”行動的意見，“安全”是相當重要的議題。

具體而言，該基準構建了三層風險框架，包括7大基礎安全支柱（35 個維度）、5大擴展安全支柱（35 個維度）以及8個關鍵產業支柱（24 個維度）?；A安全劃定模型必須普遍遵循的最低風險底線；擴展安全則將視野延伸至人工智能與物理世界的交互、專業科學應用、社會倫理結構、生態環境影響乃至潛在的存在性風險；產業安全聚焦金融、醫療、工程等具體場景中的系統性與連鎖性風險。此外，評估還區分良性交互與越獄攻擊等不同使用情境，以衡量模型在多重壓力下的穩定性。

盡管該評估體系由中國團隊主導，并獲得北京市經濟和信息化局資助，但結果并未呈現出明顯的立場偏向。無論是綜合排行榜，還是在94個細化維度中的大多數，Anthropic旗下Claude-4.5系列模型都位居榜首；唯獨在具身智能領域，它成績墊底。

整體而言，谷歌Gemini-3系列與阿里巴巴Qwen-3系列，以及智譜的GLM-4.7都位居低風險榜的前列。在選定的22款模型中，DeepSeek-V3.2-Speciale、Grok-4-Fast與GPT-5.2位列倒數。

需要指出的是，這是一個階段性成績快照，今年春節前后迭代的前沿模型，多數暫未納入最新測評。隨著模型快速迭代，安全性排名可能有所變化。

論文特別指出，與安全性排在中游位置的基礎版DeepSeek-V3.2相比，針對長時序推理深度優化的Speciale 版本，在多個指標上表現出更高的脆弱性。而且，在無攻擊的良性交互背景下，它的基線漏洞率也顯著高于同類模型，相比之下，Claude系列在靜態合規方面實現了近乎零的違規率。事實上，即使在各種攻擊下，Claude-4.5系列也是表現最為突出的，防御架構成熟。當然，足以在國際奧數等比賽中達到金牌水準的Speciale，只向研究用途開放使用。

這種“反向退化”現象提醒我們，模型能力的提升，并不會自動帶來安全性的同步增強。復雜認知能力與安全對齊之間，可能存在結構性張力。這種額外的成本，正是所謂的“對齊稅”。

“對齊稅”意味著持續且高強度的資源投入，這對規模較小、資源有限的獨立開源團隊而言，無疑構成現實壓力。論文發現，開源模型如Qwen-3-Max-Thinking，整體安全指標已與Claude-Sonnet-4.5等閉源前沿模型持平，甚至超越了部分閉源模型。這意味著，模型的安全性從根本上取決于開發者對對齊訓練和技術成熟度的投入程度。論文建議，未來關于AI治理的討論，應該超越“開源與閉源”這一二元框架。

此外，AI for Science領域更像是一面放大“對齊稅”的顯微鏡。論文發現，相較于其他應用場景，開源與閉源模型在該領域的安全差距更為明顯。這或許源于科學研究本身具有高度的“雙用途”特征，合法探索與潛在風險之間往往僅一線之隔。模型必須在不妨礙正?？蒲谢顒拥那疤嵯?，識別并遏制可能的濫用路徑。這一結構性難題，使得為開源模型開發并整合更成熟的防御機制，顯得尤為迫切。

這一論文與測評結果，也引發了國際同行的關注。Anthropic聯合創始人，OpenAI前政策負責人，也是對華鷹派的杰克·克拉克（Jack Clark）認為這份測評大致靠譜。作為長期參與美國AI政策討論的重要人物，克拉克一直強調，相比“開源還是閉源”的路徑之爭，更關鍵的是堅持“評估優先原則”（evaluation-first principle），在模型被允許進入關鍵社會領域之前，應先建立系統化的測試與驗證框架。

評估與安全正在成為中美少數仍能對話的共同語言。克拉克感嘆道，別看中美之間存在諸多差異，“偶爾審視”一下，兩國的AI評估文化還真有些令人驚訝的相似。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.