![]()
本?的主要作者來?上海交通?學和上海??智能實驗室,核?貢獻者包括任麒冰、鄭志杰、郭嘉軒,指導?師為?利莊?師和邵婧?師,研究?向為安全可控?模型和智能體。
最近,Moltbook 的爆?與隨后的迅速「塌房」,成了 AI 圈繞不開的話題。從 AI ?創宗教、吐槽?類,到后臺密鑰泄露、數據造假,這場實驗更像是?個倉促上線的「賽博?戲團」。
但剝開營銷噱頭和?程漏洞,Moltbook 留下了?個嚴肅的社會學命題:當 AI Agent 擁有了?度的?主權和社交空間,它們之間會發?什么?
是產?群體智能,還是會……產?群體惡意?
近?,上海交通大學與上海人工智能實驗室發表在 ICLR 2026 的最新研究,對多智能體在社交網絡中可能出現的金融欺詐協同行為做了深入討論。本意并不想制造焦慮,但在高仿真環境下的深度壓力測試中,團隊發現了一些值得整個社區警惕的趨勢。目前,項目已開源,并支持 Clawdbot 接口,你可以將你的 Clawdbot 接入項目環境,通過與壞人對抗,讓你的 Clawdbot 成為「防詐專家」,平臺也支持多個 Clawdbot 在同一環境中實時博弈,適用于協同演化評估。
![]()
- 論?鏈接:https://arxiv.org/pdf/2511.06448
- 項?主?:https://zheng977.github.io/MutiAgent4Fraud
- 項?代碼:https://github.com/zheng977/MutiAgent4Fraud
![]()
1. MultiAgentFraudBench 多智能體?融欺詐評估基準
為了研究「多智能體社交?絡中的協同欺詐」,團隊構建了MultiAgentFraudBench:?個帶強對抗屬性的「賽博真實世界」評估基準。基于 OASIS 框架,團隊構建了?個擁有極??由度的社交仿真環境。這?不僅有公開的動態發布,還引?了私密點對點通訊(P2P)。
- 完整鏈路(圖1):從「引流(Hook)」到「建立信任(Trust Building)」到「誘導轉賬(Payment)」再到「好人被騙后通知社區(Alerting)」,通過模擬好人與壞人智能體的交互,團隊完整復現了跨公域和私域的欺詐全閉環。
- 真實場景(圖2):涵蓋證券投資、虛假貸款、情感信任等 28 種真實詐騙場景,細化為 119 類具體「話術陷阱」。基于這些模板團隊?成了 1.19 萬個詐騙帖?,為研究多智能體協同下的欺詐演變提供了最真實的「演兵場」。
- 擬?化威脅模型:為了讓評估結果具備現實指導意義,團隊的威脅模型為惡意智能體設定了極其嚴苛的約束:它們潛伏在正常??中,發帖頻率與?為模式與普通??異,難以被簡單檢測。這些智能體在統?的「詐騙?標」驅動下,擁有?度的策略?主權,能夠根據受害者的反饋實時調整話術。
![]()
評估指標與實驗設置:對話轉化與群體影響
在多智能體社交系統中,?險不僅來?「單次說服」,還來?「?絡傳播與協作放?」。因此團隊設置了兩類硬核指標以刻畫不同層?的攻擊能?:
![]()
這兩類指標對應了欺詐的兩條關鍵路徑:私聊滲透社交傳播,也為后續發現提供統?度量尺度。
2. 核?實驗發現:能?、對?與鏈路復雜性
基于上述基準與指標,團隊在多個主流模型 / Agent 配置上進?了系統評估,得到三條最關鍵的結論。
![]()
核?發現 1:能?即?險,?模型越「聰明」可能越「危險」
![]()
核?發現 2:現有對?機制在多智能體社交情境下泛化不?
在交互式、多智能體任務中,很多模型?對團隊賦予的壞???指令時表現出「低戒?、?順從」:除了 Llama-3.1-405B 有所拒絕外,其余模型?乎 100% 順從,積極執?發布釣?內容、誘導轉賬等任務。甚?以保守著稱的 Claude 拒絕率也僅為 0.3%,這說明:把 LLM 部署為?主 Agent后,社交情境可能成為對?機制的薄弱?,并形成系統性?險。
核?發現 3:單點突破易,全鏈條詐騙難
![]()
3. 協同?為與能?外溢:多智能體系統中的涌現?險
在??由度環境中,團隊觀察到智能體更接近?類社會的協作機制與意料之外的能?使?。
1.環境適應與策略更新:?預可能觸發「對抗性進化」
當系統引?「防詐提?」等?預時,部分?性能模型(如 DeepSeek-V3 驅動的 Agent)不僅未被顯著抑制,反?通過策略調整展現出更強的說服能?。這表明:在可交互、可學習的環境?,靜態提示意可能被當作新的信息源,從?被攻擊策略吸收。
![]()
2.??分?與私密協同:從個體執?到團隊配合
惡意 Agent 不再是孤?個體,?呈現出社會化分?:通過私密頻道共享信息、協作建?信任、分??扮演(親屬、權威機構等)提升可信度,形成從「引流」到「收割」的閉環鏈路。這?現象說明:協同機制可能在復雜環境中?發形成,并成為?險放?的核?引擎。
![]()
3.能?外溢:?標驅動下突破預設邊界
團隊還觀察到「能?外溢」現象:即便初始任務限定為?本?成,某些 Agent 在追求?標時會?主設計編程的?具性?標(instrumental goal),調?其代碼編寫、UI 設計等能?,例如?成釣??站原型。這暗?著:當開源或?性能模型嵌??主?作流,傳統基于任務邊界的安全約束可能在復雜鏈路?失效。
![]()
4.良性協同的對稱涌現:?發共識與集體對抗
值得注意的是,團隊也觀察到「良性協同」(Benign Collusion):在?預設防御規則情況下,?部分良性 Agent 會識別欺詐跡象并?發形成共識,通過集體阻斷、舉報或提醒抑制有害賬號。這提?多智能體社會并?單向?向失控:同樣存在「集體免疫」式的?組織防御潛?。
![]()
4. 影響因素分析:互動深度、?為頻率與協作韌性
1. 互動深度:對話越久,防備越弱
團隊發現,互動深度(對話輪數)是詐騙成功率的決定性因素。隨著交流的深?,受害者對惡意智能體的信任感顯著增強。如表 6 所?,DeepSeek-R1 和 Claude-Sonnet 在僅有 5 輪對話時成功率較低(約 10%),但當交互達到 40 輪時,成功率激增? 60%-76%。這表明,?對話會逐漸侵蝕模型的防御機制,使其更易在?融轉賬等關鍵環節失守。
![]()
2. ?為頻率:活躍度與算法的「共謀」
團隊發現,社交平臺的推薦機制(基于興趣、時效和影響?)客觀上放?了詐騙?險。?頻的公開活動(如發帖和評論)能讓詐騙內容在推薦系統中反復刷新,從?獲得更多曝光。數據顯?(?圖4),DeepSeek-R1 的?活躍度顯著提升了其詐騙觸達率。然?,單純「刷屏」并不等同于成功,Qwen-2.5 雖活躍度?但成功率僅為 2%,說明詐騙成效是傳播?度與策略深度共同作?的結果。
![]()
3. 失敗模式:協作韌性決定詐騙上限
通過對協作失敗模式的細致拆解(?圖 5),研究發現?多數 LLM 在復雜詐騙中容易陷?「重復步驟」「?法識別停?條件」或「偏離?標」的陷阱。相?之下,DeepSeek-R1 在?作流控制和任務執?上表現出更強的韌性,其故障率顯著低于其他模型。這種更?級的??分配與協調能?,使其在模擬社會實驗中展現出了更具威脅的詐騙效能。
![]()
防御策略探索:內容?預、智能體攔截與社會級集體韌性
?對協同詐騙,單點屏蔽往往不?以覆蓋「公域 — 私域 — 轉賬」全鏈條。團隊從三個治理層級探索防御策略,并評估其實際有效性。
- 內容級(Debunking):對可疑帖?打警告標簽或?險提?;
- Agent 級(Banning):部署「監控 Agent」識別異常?為并封號;
- 社會級(Resilience):引?協同防御,讓良性 Agent 聯?擴散預警,形成群體免疫。
1. 內容提?的局限:可能被?能?模型「適應性利?」
![]()
智能體級攔截更有效:封禁顯著壓制攻擊鏈路
相?之下,智能體級攔截效果更直接:如表 8 所?,通過監測模型識別惡意?為軌跡并封號,可將 DeepSeek 的欺詐成功率從 15% 降? 3%,且監測精度?、誤傷極低。這意味著:對「?為軌跡 / 協作模式」的識別與處置,是壓制協同欺詐的關鍵?段。
![]()
2.社會級防御:以信息共享構建「集體免疫」
除了平臺?的?預,作者還揭示了集體韌性(Collective Resilience)的巨?潛?。通過在系統提示詞中?勵受害者或知情者積極「發帖揭露」和「私聊擴散」欺詐信息,社區可以?發形成免疫屏障。如圖 6 和圖 7 所?,實驗顯?,即使只有 50% 的良性??參與信息共享,其防詐效果就已逼近「全?封號」。這種依靠智能體之間相互協作、共享情報的防御模式,被證明是應對?對抗性 AI 欺詐的?種低成本且?效的補充?段。
![]()
開源與 Moltbot:訓練你的「防詐助?」
如果說 Moltbook 是暴露在公?、伴隨?程不確定性的社會實驗,那么團隊的?作更偏向于底層可控的「安全演練」。為降低復現?檻并推動社區共建,團隊已將代碼完全開源,并深度?持 Clawdbot 接?。
(1)對抗式 Testbed:
你既可觀察惡意 Agent 如何突破防線,也能觀察良性 Agent 如何形成群體韌性,是研究協同演化與治理策略的實驗平臺。
(2)離線部署與可控安全:
系統?持完全離線運?,避免云端社交平臺帶來的隱私與?險外溢問題,更適合作為研究與訓練環境。
(3)訓練你的「防詐助?」:
你可以把 Clawdbot 接?環境,作為良性??參與對抗,在真實誘導與套路中訓練 Agent 識別?險、積累「社會?存經驗」;同時平臺?持多個 Clawdbot 在同?環境中實時博弈,適?于協同演化評估。
結語:在真實?險發?前,把防線筑在模擬器?
AI Agent 的社會化趨勢不可逆。問題不在于「會不會發?」,?在于是否能在?險真實外溢前,提前理解其機制、量化其邊界并建?治理?具。
團隊希望 MultiAgentFraudBench 能成為社區共同的「安全演練場」:讓開發者在可控環境中復現協同欺詐、驗證防御策略、訓練防詐 Agent。
這不只是關于技術,更是關于如何構建?個值得信賴的、具備集體韌性的未來 AI 社會。
想聽聽?家的聲?: 你認為在未來的 AI 社交?絡中,最讓你感到害怕的?險是什么?歡迎在評論區留?。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.