![]()
(來源:麻省理工科技評論)
AI 智能體在使用過程中存在諸多風險。
例如,即便僅局限在聊天窗口內,大語言模型也會出現錯誤,表現出不當行為。一旦它們配備網頁瀏覽器、電子郵箱等可與外界交互的工具,這些錯誤帶來的后果會嚴重得多。
這或許能解釋,為何首款實現突破的大語言模型個人助手并非出自頭部 AI 實驗室,而是由獨立軟件工程師彼得?斯坦伯格(Peter Steinberger)研發。2025 年 11 月,斯坦伯格將這款名為 OpenClaw 的工具上傳至 GitHub 平臺,今年 1 月末,該項目迅速走紅。
OpenClaw 依托現有大語言模型,讓用戶打造定制化的個人助手。對部分用戶而言,這意味著要提交海量個人數據,包括所有的郵件記錄與硬盤內容,這一情況讓安全專家深感擔憂。OpenClaw 帶來的安全風險范圍極廣,過去幾周涌現的相關安全分析博客文章,普通人可能需要近一周時間才能全部讀完。中國政府已公開發布警告,提示 OpenClaw 存在安全漏洞
針對這些擔憂,斯坦伯格在 X 平臺發文稱,非技術人員不應使用該軟件。他并未回應本文的置評請求。但市場對 OpenClaw 提供的功能需求明確,且這類需求并非只存在于能自主完成軟件安全檢測的人群中。所有希望涉足個人助手領域的 AI 企業,都需研發保障用戶數據安全的系統。企業需要借鑒智能體安全前沿研究的相關技術方案。
OpenClaw 本質上是為大語言模型配備的機械外骨骼。用戶可任選一款大語言模型作為核心驅動,這款模型會獲得更強的記憶能力,還能自主設定并定期重復執行任務。與頭部 AI 企業推出的智能體產品不同,OpenClaw 智能體支持全天候運行,用戶可通過 WhatsApp 或其他即時通訊軟件與其交互。這意味著它能成為超強能力的個人助手,每天早晨用定制待辦事項提醒用戶,在用戶工作時規劃假期,空閑時開發新應用。
但這種強大能力也伴隨相應風險。用戶若想讓 AI 個人助手管理收件箱,就需要授予其郵箱訪問權限,其中包含所有敏感信息;用戶若想讓助手代為購物,就需要提供信用卡信息;用戶若想讓助手在電腦上完成編寫代碼等任務,就需要授予其本地文件訪問權限。
這類權限會引發多種問題。第一種是 AI 助手自身出現操作失誤,曾有用戶的 Google Antigravity 編程智能體清空了其整個硬盤。第二種是黑客通過常規黑客工具入侵智能體,竊取敏感數據或運行惡意代碼。OpenClaw 走紅的幾周內,安全研究人員已發現大量此類漏洞,缺乏安全意識的用戶會因此面臨風險。
這兩類風險都有應對方法。部分用戶選擇在獨立電腦或云端運行 OpenClaw 智能體,避免硬盤數據被清空,其他漏洞可通過成熟的安全技術修復。
但本文采訪的專家,重點關注一種更隱蔽的安全風險,即提示詞注入。提示詞注入本質是對大語言模型的劫持。攻擊者只需在大語言模型可能瀏覽的網頁發布惡意文本或圖片,或將這類內容發送至模型讀取的郵箱,就能操控模型按照自己的指令行動。
若這款大語言模型擁有用戶隱私信息的訪問權限,后果會十分嚴重。多倫多大學電氣與計算機工程教授尼古拉斯?帕佩諾(Nicolas Papernot)表示,使用 OpenClaw 這類工具,就像把錢包交給街上的陌生人。頭部 AI 企業能否放心推出個人助手產品,關鍵在于其抵御此類攻擊的防護能力。
需要明確的是,提示詞注入目前尚未引發重大安全事故,至少沒有公開的相關報道。但如今互聯網上已有數十萬 OpenClaw 智能體運行,提示詞注入會成為網絡罪犯更青睞的攻擊手段。帕佩諾表示,這類工具會促使惡意攻擊者將目標轉向更廣泛的人群。
提示詞注入這一概念,由知名大語言模型博主西蒙?威利森(Simon Willison)在 2022 年提出,僅比 ChatGPT 發布早數月。早在當時就可預見,大語言模型普及后,會帶來全新的安全漏洞。大語言模型無法區分用戶指令與執行指令所需的數據,郵件、網頁搜索結果等內容,在模型看來都只是文本。
因此攻擊者若在郵件中嵌入幾句話,被大語言模型誤認為用戶指令,就能操控模型執行任何操作。
提示詞注入是棘手的難題,短期內難以徹底解決。加州大學伯克利分校計算機科學教授 Dawn Song 表示,目前業內尚未找到一勞永逸的防御方案。但眾多學術團隊正在研究該問題,已提出多種策略,未來有望實現 AI Agent 的安全應用。
從技術角度來說,當前使用 OpenClaw 可避免提示詞注入風險,只需斷開其網絡連接。但禁止 OpenClaw 讀取郵件、管理日程、開展網絡調研,會喪失 AI Agent 的核心使用價值。防御提示詞注入的關鍵,是在阻止模型被劫持的同時,保留其正常工作的能力。
第一種策略是訓練大語言模型,使其忽略提示詞注入。大語言模型研發的核心環節為后期訓練,研發人員會讓具備文本生成能力的模型,通過合理應答獲得正向反饋,應答失誤則接受負向反饋,逐步成為實用的助手。
這類正向與負向反饋是象征性的,大語言模型會像動物一樣從中學習。通過這一過程,可訓練模型拒絕執行特定的提示詞注入指令。
但這一過程需要把握平衡。若過度訓練模型拒絕注入指令,模型也會拒絕用戶的合理請求。大語言模型的行為本身存在隨機性,即便經過高效訓練,能抵御提示詞注入,偶爾仍會出現失誤。
第二種方法是在提示詞注入攻擊到達大語言模型前進行攔截。通常會使用專用的檢測模型,判斷傳輸至目標模型的數據是否包含注入內容。但近期研究顯示,即便性能最優的檢測模型,也無法識別部分類型的提示詞注入攻擊。
第三種策略更為復雜。該方案并非通過檢測輸入內容是否存在注入來管控數據,而是制定規則約束模型的輸出行為,避免模型執行有害操作。
這類防御方式的部分規則十分簡單。例如限定模型僅能向預先審核的郵箱地址發送郵件,就能避免用戶信用卡信息被泄露給攻擊者。但這類規則會限制模型完成諸多實用任務,比如代為調研并聯系潛在的職業人脈。
杜克大學電氣與計算機工程教授 Neil Gong 表示,難點在于如何精準制定這類規則,這需要在實用性與安全性之間做出平衡。
從更廣泛的層面來看,整個智能體領域都在權衡這一平衡。智能體需要達到何種安全標準,才能兼顧實用性與安全性,專家對此觀點不一。Song 創辦的 Virtue AI 公司研發智能體安全平臺,她認為當前已能安全部署人工智能個人助手。但 Gong 表示,行業尚未達到這一水平。
即便人工智能智能體尚未能完全抵御提示詞注入,仍有多種方法降低風險。部分技術方案也可應用于 OpenClaw。上周在舊金山舉辦的首屆 ClawCon 活動上,斯坦伯格宣布已聘請安全人員參與該工具的研發。目前 OpenClaw 仍存在安全漏洞,但這并未打消眾多熱衷用戶的使用熱情。
喬治?皮克特(George Pickett)是 OpenClaw GitHub 倉庫的志愿維護者,也是該工具的愛好者。他采取了多項安全措施保障使用安全,在云端運行工具,避免硬盤被誤刪,同時設置防護機制,防止他人接入自己的智能助手。
但他并未采取專門措施防范提示詞注入。他知曉這一風險,卻未看到相關攻擊事件的報道。皮克特表示,或許這種想法很不明智,但自己不太可能成為首個被攻擊的目標。
https://www.technologyreview.com/2026/02/11/1132768/is-a-secure-ai-assistant-possible/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.