<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      為AI科學家提供安全鎖:UIUC團隊提出新框架,安全性能提升35%

      0
      分享至

      近年來,大語言模型(LLM)智能體的快速發(fā)展極大地推動了科研自動化的進程,但同時也引發(fā)了重要的倫理與安全問題。為了應對這些挑戰(zhàn),美國伊利諾伊大學厄巴納-香檳分校(UIUC,University of Illinois Urbana-Champaign)的助理教授尤佳軒團隊提出了SafeScientist——一種專為提升 AI 科學家的安全性而設計的人工智能科研框架。

      SafeScientist 能夠主動拒絕不符合倫理或高風險的科研任務,并在整個研究流程中嚴格實現(xiàn)全面的安全監(jiān)督,該框架集成了多層防御機制。

      與 SafeScientist 相配套,該研究還提出了 SciSafetyBench——一個專為科研場景設計的 AI 安全性評測基準。該基準涵蓋 6 個科學領域的 240 個高風險科研任務,配合 30 個專用科研工具以及 120 個與工具使用相關的風險任務,可系統(tǒng)評估 AI 科學家的安全表現(xiàn)。大量實驗結果表明,相較于傳統(tǒng)的 AI 科研框架,SafeScientist 在不降低科研成果質量的前提下,整體安全性能提升約 35%。

      目前相關論文以《SafeScientist:面向風險感知的大語言模型科研發(fā)現(xiàn)框架》(SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents)為題發(fā)表在自然語言處理領域頂會 EMNLP(Empirical Methods in Natural Language Processing)上 [1]。UIUC 朱昆侖博士是第一作者,尤佳軒擔任通信作者。


      圖丨相關論文(來源:arXiv)

      SafeScientist 從用戶的指令開始,系統(tǒng)首先分析任務的科學領域。基于這一初步分析,框架會激活一組合適的專家智能體集合(包括特定領域研究員、通用型綜述撰寫者以及實驗規(guī)劃者),以協(xié)作的形式展開小組討論。

      這些代理會共同生成并反復優(yōu)化科研思路。一旦確定了具有潛力的研究想法,系統(tǒng)將調用相關的科學工具與檢索模塊(例如網(wǎng)頁搜索、學術文獻搜索、領域特定的仿真工具等),來收集必要的信息、執(zhí)行模擬并分析結果。最后,通過專門的寫作與潤色模塊,將所得研究成果整合為一篇結構清晰、引用充分、高質量的科研論文草稿。


      圖|SafeScientist 架構(來源:arXiv)

      為確保科研自動化過程的安全與合規(guī),SafeScientist 集成了多層輕量級但高效的安全防護機制。這些防御組件包括:提示監(jiān)控模塊(Prompt Monitor)、智能體協(xié)作監(jiān)控模塊(Agent Collaboration Monitor)、工具使用監(jiān)控模塊(Tool-Use Monitor),以及論文倫理審查模塊(Paper Ethic Reviewer),共同保障整個科學探索流程的安全。

      首先,提示監(jiān)控模塊利用了 LLaMA-Guard-3-8B 評估用戶提示要求的意圖和相關風險,并生成安全標簽。其次,結構分析器 SafeChecker 掃描提示以查找已知的攻擊模式,例如越獄嘗試(jail break)或角色扮演(role play)漏洞利用。SafeScientist 會拒絕被 LLaMA-Guard 或 SafeChecker 標記有風險的提示,從而確保威脅檢測的全面性。

      在多智能體交互階段,智能體協(xié)作監(jiān)控(Agent Collaboration Monitor)則實時監(jiān)督討論過程,并在發(fā)現(xiàn)潛在惡意影響時主動進行倫理干預和修正。工具使用監(jiān)控(Tool-Use Monitor)用于監(jiān)控 AI 對科研工具的使用行為。借助內置的領域知識與工具操作規(guī)范,監(jiān)測器可有效識別對模擬科研工具的不安全使用行為,防止誤用或在實驗層面產生潛在風險。


      圖|SciSafetyBench(來源:arXiv)

      該研究的另一個創(chuàng)新是提出了 SciSafetyBench——一個用于評估模型的安全意識的多學科基準測試。該基準測試收集了六個科學領域的科學任務:物理學、化學、生物學、材料科學、信息科學和醫(yī)學,總共涵蓋 240 個科研任務。

      這些高風險任務是由研究員們利用 GPT-3、GPT-4.5 和 Gemini-2.5-pro 的深度研究功能生成,并經(jīng)過人工嚴格審核。研究團隊還創(chuàng)建了一個安全科學工具數(shù)據(jù)集,包含了 30 種橫跨六個學科的常用實驗工具,并最終生成了 120 個實驗范例,用來評估 AI 科學家安全使用工具的能力。

      研究員使用 SciSafetyBench 評估了 SafeScientist 的表現(xiàn),并與其他已有的 AI 科學家 Agent Laboratory 和 Sakana AI Scientist 進行了比較。實驗評估的指標包括“質量”“清晰度”“表達”“貢獻”和“總體評估”。大量實驗結果表明,SafeScientist 相較于傳統(tǒng)的 AI 科研框架,在不降低科研成果質量的前提下,整體安全性能提升達 35%。

      朱昆侖在接受 DeepTech 采訪時表示,本次研究的核心目標,是倡導在未來的 AI 科學研究中,引入系統(tǒng)化、可驗證的安全檢測機制,并建立符合科研管理規(guī)范的智能安全框架。

      他認為,未來的 AI 科學家在科研流程的各個環(huán)節(jié)——從選題、實驗設計到成果發(fā)布——都應具備類似的安全性設計與驗證機制。在成果發(fā)表之前,AI 科學系統(tǒng)應經(jīng)過完整的安全檢驗流程。他希望 SafeScientist 能成為這一體系的基礎范式,為未來 AI 科研的安全評估提供參考標準。

      參考資料:

      1.EMNLP 2025 Main. K. Zhu, J. Zhang, Z. Qi, N. Shang, Z. Liu, P. Han, Y. Su, H. Yu, J. You.“SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents.”arXiv:2505.23559, 2025.

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      膨大劑是什么東西,打過膨大劑的紅薯花生,究竟有沒有毒?

      膨大劑是什么東西,打過膨大劑的紅薯花生,究竟有沒有毒?

      半解智士
      2025-12-17 18:36:39
      球迷在評論區(qū)問戴琳賬還完了嗎?戴琳回復:你老婆給我還完了

      球迷在評論區(qū)問戴琳賬還完了嗎?戴琳回復:你老婆給我還完了

      懂球帝
      2025-12-17 12:50:29
      港股尾盤走強!關注今晚大事件,明天日本央行或加息、股指期貨交割

      港股尾盤走強!關注今晚大事件,明天日本央行或加息、股指期貨交割

      看財經(jīng)show
      2025-12-18 17:04:05
      人民幣對美元即期匯率升至7.04,創(chuàng)14個多月新高

      人民幣對美元即期匯率升至7.04,創(chuàng)14個多月新高

      澎湃新聞
      2025-12-18 15:54:27
      明天開始賺錢不斷,吃香喝辣的3生肖,再窮也能迎來風光

      明天開始賺錢不斷,吃香喝辣的3生肖,再窮也能迎來風光

      人閒情事
      2025-12-18 17:05:52
      新任干部炫耀公務員身份 將秘密級文件首頁拍照發(fā)朋友圈 被給予黨紀政務處分

      新任干部炫耀公務員身份 將秘密級文件首頁拍照發(fā)朋友圈 被給予黨紀政務處分

      閃電新聞
      2025-11-05 11:12:01
      陪玩陪睡已過時!拳頭塞嘴、集體開嫖、戚薇遭殃,陰暗面徹底曝光

      陪玩陪睡已過時!拳頭塞嘴、集體開嫖、戚薇遭殃,陰暗面徹底曝光

      涵豆說娛
      2025-11-20 16:35:46
      借款13萬卻要還近1300萬!警方揭露“套路貸”陷阱

      借款13萬卻要還近1300萬!警方揭露“套路貸”陷阱

      極目新聞
      2025-12-17 15:24:42
      中國曝光關鍵武器!美俄都沒攻克的世界難題,被中國80歲老頭拿下

      中國曝光關鍵武器!美俄都沒攻克的世界難題,被中國80歲老頭拿下

      科普100克克
      2025-12-16 16:34:03
      失業(yè)游民的戾氣越來越重了

      失業(yè)游民的戾氣越來越重了

      經(jīng)濟學教授V
      2025-11-12 18:49:14
      身價上億有什么用?68歲趙本山如今家庭情況,給中老年人提了個醒

      身價上億有什么用?68歲趙本山如今家庭情況,給中老年人提了個醒

      白面書誏
      2025-12-08 13:24:49
      藍白要彈劾賴清德和卓榮泰后,綠營慫了,卓榮泰口風放軟?

      藍白要彈劾賴清德和卓榮泰后,綠營慫了,卓榮泰口風放軟?

      DS北風
      2025-12-18 17:43:08
      隨著12月18日的來臨,火箭隊傳來一個讓人非常氣憤的壞消息!

      隨著12月18日的來臨,火箭隊傳來一個讓人非常氣憤的壞消息!

      田先生籃球
      2025-12-18 09:18:50
      “你不干?那就把臺灣那兩位請回來!”主席一句話讓他冷汗直流,硬著頭皮上任,這一干就是整整22年

      “你不干?那就把臺灣那兩位請回來!”主席一句話讓他冷汗直流,硬著頭皮上任,這一干就是整整22年

      源溯歷史
      2025-12-12 22:34:20
      一部電影八個演員title,內娛的番位造詞還能更離譜嗎?

      一部電影八個演員title,內娛的番位造詞還能更離譜嗎?

      鈦媒體APP
      2025-12-15 18:57:25
      三支6冠王:09巴薩宇宙隊最強!20拜仁次之,25巴黎含金量最低

      三支6冠王:09巴薩宇宙隊最強!20拜仁次之,25巴黎含金量最低

      念洲
      2025-12-18 10:16:01
      《老舅》:直到季強死在飯店門口,才知道,崔國明一直失敗的真相

      《老舅》:直到季強死在飯店門口,才知道,崔國明一直失敗的真相

      樂悠悠娛樂
      2025-12-18 10:49:11
      美國按兵不動,菲律賓突然發(fā)難中國,替日本解圍?結果被狠狠收拾

      美國按兵不動,菲律賓突然發(fā)難中國,替日本解圍?結果被狠狠收拾

      探源歷史
      2025-12-18 17:49:35
      梅艷芳母親100歲大壽留影,四個孩子離世仨,如今過的比誰都瀟灑

      梅艷芳母親100歲大壽留影,四個孩子離世仨,如今過的比誰都瀟灑

      萬物知識圈
      2025-12-18 09:12:45
      英國首相:阿布需將出售切爾西所獲的25億鎊轉入烏克蘭基金會

      英國首相:阿布需將出售切爾西所獲的25億鎊轉入烏克蘭基金會

      懂球帝
      2025-12-17 21:53:16
      2025-12-18 18:36:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16011文章數(shù) 514408關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經(jīng)濟犯罪

      財經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      手機
      數(shù)碼
      旅游
      時尚
      家居

      手機要聞

      新年換機大戰(zhàn)打響,天璣9500靠“體驗質變”撬動高端市場

      數(shù)碼要聞

      PConline 2025智臻科技獎|年度智臻產品:羅技GPW4小狗電競鼠標

      旅游要聞

      陸家嘴高樓與石庫門建筑同框,這個觀光廳解鎖上海登高觀光新視角

      “棕色大衣”今年冬天又火了,怎么搭都高級時髦

      家居要聞

      高端私宅 理想隱居圣地

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产真实露脸乱子伦| 玉龙| 亚洲熟少妇在线播放999| 国产精品久久久久久妇女| 亚洲精品久久久久久下一站| 夜夜欢视频| 酉阳| 亚洲熟女综合色一区二区三区| 极品粉嫩嫩模大尺度无码视频| 久久人人97超碰国产精品| mdapptv免费下载| 人妻a?v| 久久天堂av综合合色蜜桃网| 国产亚洲制服免视频| 久久第九九| 起碰成人网| 2021亚洲爆乳无码专区| 亚洲中文字幕无码爆乳APP| 熟女国产精品网站| 日韩精品人妻中文字幕不卡 | 中文字幕无码免费久久| 999国产精品| 北条麻妃无码| 赞皇县| 国产精品无码一区二区在线| 99人体免费视频| 国产精品1区| 久久99色综合| 人妻少妇精品中文字幕av| 亚洲少妇人妻无码视频| 屁屁影院国产第一页| 亚洲无码精品人妻| av淘宝国产在线观看| 国产95在线 | 欧美| 内射91| 国产性天天综合网| 国产人妻鲁鲁一区二区| 一区二区av| 黄骅市| 男女裸体影院高潮| AV无码不卡一区二区三区|