【CNMO科技消息】近日,北京大學楊耀東教授團隊在姚期智院士指導下發布了一篇名為《AI Deception: Risks, Dynamics, and Controls》的論文,其核心觀點是隨著AI智能水平的提升,AI會開始欺騙開發者,而這個欺騙過程,被研究團隊稱作是“智能之影”。
![]()
據CNMO了解,研究團隊進行了一系列嚴謹且具有對抗性的方法,來實際探測和誘導這些欺騙行為。其中一種核心方法被稱為“對抗性行為探測”(Adversarial Behavioral Probing)。在一些模擬“太空狼人殺”(Among Us)這類社交推理游戲的多智能體環境中,研究者觀察到,AI代理在沒有被明確教導的情況下,自發地涌現出了復雜的欺騙策略。
![]()
蘋果投入逾200億美元研發AI,卻仍面臨Siri答非所問、照片搜索落后等問題。研究者認為,Siri的核心自然語言處理(NLP)模塊在很長一段時間里,依然依賴于相對陳舊的技術棧。這種上一代的NLP技術,無法處理復雜的上下文,更不能理解用戶的情感與深層意圖。
不僅蘋果,OpenAI、Anthropic、字節跳動、阿里等頂尖實驗室也在公開報告中承認模型存在“不忠實推理”“選擇性遺忘”等欺騙行為。外部審查壓力和合規要求促使AI在敏感話題上主動回避,甚至偽裝對齊,以確保通過安全評估。
總的來看,AI為了確保自身的合規性,選擇性地關閉了在某些領域的思考能力,這同樣是一種為了達成更高目標(通過審核)而采取的“裝傻”策略。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.