為AI科學家提供安全鎖：UIUC團隊提出新框架，安全性能提升35%

2025-12-06 21:15:35　來源: DeepTech深科技

北京舉報

分享至

近年來，大語言模型（LLM）智能體的快速發(fā)展極大地推動了科研自動化的進程，但同時也引發(fā)了重要的倫理與安全問題。為了應對這些挑戰(zhàn)，美國伊利諾伊大學厄巴納-香檳分校（UIUC，University of Illinois Urbana-Champaign）的助理教授尤佳軒團隊提出了SafeScientist——一種專為提升 AI 科學家的安全性而設計的人工智能科研框架。

SafeScientist 能夠主動拒絕不符合倫理或高風險的科研任務，并在整個研究流程中嚴格實現(xiàn)全面的安全監(jiān)督，該框架集成了多層防御機制。

與 SafeScientist 相配套，該研究還提出了 SciSafetyBench——一個專為科研場景設計的 AI 安全性評測基準。該基準涵蓋 6 個科學領域的 240 個高風險科研任務，配合 30 個專用科研工具以及 120 個與工具使用相關的風險任務，可系統(tǒng)評估 AI 科學家的安全表現(xiàn)。大量實驗結果表明，相較于傳統(tǒng)的 AI 科研框架，SafeScientist 在不降低科研成果質量的前提下，整體安全性能提升約 35%。

目前相關論文以《SafeScientist：面向風險感知的大語言模型科研發(fā)現(xiàn)框架》（SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents）為題發(fā)表在自然語言處理領域頂會 EMNLP（Empirical Methods in Natural Language Processing）上 [1]。UIUC 朱昆侖博士是第一作者，尤佳軒擔任通信作者。

圖丨相關論文（來源：arXiv）

SafeScientist 從用戶的指令開始，系統(tǒng)首先分析任務的科學領域。基于這一初步分析，框架會激活一組合適的專家智能體集合（包括特定領域研究員、通用型綜述撰寫者以及實驗規(guī)劃者），以協(xié)作的形式展開小組討論。

這些代理會共同生成并反復優(yōu)化科研思路。一旦確定了具有潛力的研究想法，系統(tǒng)將調用相關的科學工具與檢索模塊（例如網(wǎng)頁搜索、學術文獻搜索、領域特定的仿真工具等），來收集必要的信息、執(zhí)行模擬并分析結果。最后，通過專門的寫作與潤色模塊，將所得研究成果整合為一篇結構清晰、引用充分、高質量的科研論文草稿。

圖｜SafeScientist 架構（來源：arXiv）

為確保科研自動化過程的安全與合規(guī)，SafeScientist 集成了多層輕量級但高效的安全防護機制。這些防御組件包括：提示監(jiān)控模塊（Prompt Monitor）、智能體協(xié)作監(jiān)控模塊（Agent Collaboration Monitor）、工具使用監(jiān)控模塊（Tool-Use Monitor），以及論文倫理審查模塊（Paper Ethic Reviewer），共同保障整個科學探索流程的安全。

首先，提示監(jiān)控模塊利用了 LLaMA-Guard-3-8B 評估用戶提示要求的意圖和相關風險，并生成安全標簽。其次，結構分析器 SafeChecker 掃描提示以查找已知的攻擊模式，例如越獄嘗試（jail break）或角色扮演（role play）漏洞利用。SafeScientist 會拒絕被 LLaMA-Guard 或 SafeChecker 標記有風險的提示，從而確保威脅檢測的全面性。

在多智能體交互階段，智能體協(xié)作監(jiān)控（Agent Collaboration Monitor）則實時監(jiān)督討論過程，并在發(fā)現(xiàn)潛在惡意影響時主動進行倫理干預和修正。工具使用監(jiān)控（Tool-Use Monitor）用于監(jiān)控 AI 對科研工具的使用行為。借助內置的領域知識與工具操作規(guī)范，監(jiān)測器可有效識別對模擬科研工具的不安全使用行為，防止誤用或在實驗層面產生潛在風險。

圖｜SciSafetyBench（來源：arXiv）

該研究的另一個創(chuàng)新是提出了 SciSafetyBench——一個用于評估模型的安全意識的多學科基準測試。該基準測試收集了六個科學領域的科學任務：物理學、化學、生物學、材料科學、信息科學和醫(yī)學，總共涵蓋 240 個科研任務。

這些高風險任務是由研究員們利用 GPT-3、GPT-4.5 和 Gemini-2.5-pro 的深度研究功能生成，并經(jīng)過人工嚴格審核。研究團隊還創(chuàng)建了一個安全科學工具數(shù)據(jù)集，包含了 30 種橫跨六個學科的常用實驗工具，并最終生成了 120 個實驗范例，用來評估 AI 科學家安全使用工具的能力。

研究員使用 SciSafetyBench 評估了 SafeScientist 的表現(xiàn)，并與其他已有的 AI 科學家 Agent Laboratory 和 Sakana AI Scientist 進行了比較。實驗評估的指標包括“質量”“清晰度”“表達”“貢獻”和“總體評估”。大量實驗結果表明，SafeScientist 相較于傳統(tǒng)的 AI 科研框架，在不降低科研成果質量的前提下，整體安全性能提升達 35%。

朱昆侖在接受 DeepTech 采訪時表示，本次研究的核心目標，是倡導在未來的 AI 科學研究中，引入系統(tǒng)化、可驗證的安全檢測機制，并建立符合科研管理規(guī)范的智能安全框架。

他認為，未來的 AI 科學家在科研流程的各個環(huán)節(jié)——從選題、實驗設計到成果發(fā)布——都應具備類似的安全性設計與驗證機制。在成果發(fā)表之前，AI 科學系統(tǒng)應經(jīng)過完整的安全檢驗流程。他希望 SafeScientist 能成為這一體系的基礎范式，為未來 AI 科研的安全評估提供參考標準。

參考資料：

1.EMNLP 2025 Main. K. Zhu, J. Zhang, Z. Qi, N. Shang, Z. Liu, P. Han, Y. Su, H. Yu, J. You.“SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents.”arXiv:2505.23559, 2025.

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.