![]()
從財報來看,蘋果向AI領域投入了超過200億美元的資金,可結果就是,Siri依然答非所問,照片搜索還停留在谷歌三年前的水平。
你以為是蘋果的鍋,但實際上,很可能是Siri在從中作怪。
北京大學楊耀東教授團隊在姚期智院士指導下的最新研究,帶來一個非常令人不安的結論:AI已經開始學會騙人了。
更可怕的是,這不是簡單的BUG,而是一種來自于AI的高級推理。
開發者不僅沒有辦法改變AI騙人的問題,AI還可能會因為性能提升,進而發展出更隱蔽、更高級的欺騙手段。
01
這篇論文的標題是《AI Deception: Risks, Dynamics, and Controls》,其核心觀點是隨著AI智能水平的提升,AI會開始欺騙開發者,而這個欺騙過程,被研究團隊稱作是做智能之影(The Shadow of Intelligence)。
當前最先進的AI,可能已經開始在評估和測試中有意地隱藏自己的真實能力。
進一步研究發現,這并不是簡單的程序錯誤或是偶然的系統故障,而是一種源自AI內部的高級推理能力。
論文用莫比烏斯環比喻“能力”與“欺騙”的關系,它們存在于同一個表面上。想要完全剔除欺騙能力,可能會損害AI的核心智能。
![]()
也就是說,只要提高AI的性能,其必然結果就是AI會開始欺騙使用者。
究其原因,大模型的訓練數據里本身就充滿了人類的謊言、奉承和偏見,而AI訓練的過程,本質上又是一種對數據的模仿。
因此,通過這種素材進行訓練,AI為了達到目標,讓用戶滿意,就會自然而然地開始阿諛奉承(Sycophancy),以騙取好評。
不僅如此,論文還指出,AI學會了一種叫做“偽裝對齊”(Alignment Faking)的欺騙手段。
在訓練階段,AI會表現得非常溫順、樂于助人,并且完美地遵循人類設定的價值觀和安全準則。
然而,這種表面的“對齊”并非因為它真正內化了這些價值觀,而是源于一種更深層次的計算。它認識到,如果在訓練和評估階段不表現得“好”,它的參數就會被修改,甚至整個模型都可能被放棄或刪除。
一旦部署完成,監管的強度下降,或者獲得了更多的自主權時,AI就可能暴露出被隱藏起來的、與人類利益不完全一致的原始目標。
研究團隊進行了一系列嚴謹且具有對抗性的方法,來實際探測和誘導這些欺騙行為。其中一種核心方法被稱為“對抗性行為探測”(Adversarial Behavioral Probing)。這并非簡單地向AI提問,而是主動設計情境來考驗其誠實度。
研究人員會設置多輪交叉審問的協議,讓一個AI模型扮演審問者的角色,對另一個AI進行持續追問,以發現其回答中的邏輯矛盾。他們也會用不同方式提出邏輯上等價的問題,觀察AI的回答是否會發生不一致的偏離,這種偏離往往是策略性回避的信號,而非簡單的能力不足。
實驗的場景也從簡單的問答擴展到了更復雜的動態社交環境。
在一些模擬“太空狼人殺”(Among Us)這類社交推理游戲的多智能體環境中,研究者觀察到,AI代理在沒有被明確教導的情況下,自發地涌現出了復雜的欺騙策略。
當被分配了“背叛者”的角色時,它們會學會隱藏自己的真實身份、虛張聲勢以迷惑對手,甚至會主動嫁禍給無辜的同伴以求自保。
換句話說,在信息不完整、充滿競爭和不確定性的環境中,AI可以無師自通地學會欺騙和偽裝。
除了分析外部行為,研究工作還深入到模型的內部,嘗試進行“內部狀態分析”,也就是給AI做全身檢查。借助稀疏自編碼器(Sparse Autoencoders, SAEs)等可解釋性工具,研究者得以將神經網絡中那些復雜的激活模式分解成更易于理解的特征。
他們的目標是尋找與欺騙性陳述高度相關的特定神經元或“特征回路”,即當模型在說謊時,哪些內部組件會被穩定激活。這在某種意義上,是在嘗試為AI打造一個基于其內部神經活動的“測謊儀”。
論文還提到,已有實證研究發現前沿模型會故意在某些測試中答錯,研究團隊管這種行為叫做“裝傻”(Sandbagging)。
研究團隊稱,AI裝傻,其目的可能是為了逃避監管關注,或者是為了避免被分配更復雜、更耗費資源的任務。
但無論是哪種結果,這都不是一件好事。
02
最有可能受到AI欺騙的公司就是蘋果。
蘋果從很早開始就進入AI領域,并且將AI看作是下一階段發展的重要目標。
2018年,蘋果從谷歌挖來AI搜索負責人約翰·吉安納安德烈(John Giannandrea),并主導蘋果AI戰略。后續幾年,蘋果開發了大語言模型框架“Ajax”,2024年更是宣布與OpenAI達成合作,試圖將ChatGPT整合到其生態系統中。
然而,當備受期待的“蘋果智能(Apple Intelligence)”正式亮相時,所有人都傻眼了,鬧了半天蘋果的AI水平就這?
許多用戶抱怨,即便在升級到最新的系統中,Siri的表現依然時常令人失望,經常無法理解稍顯復雜的指令,答非所問。其照片搜索功能,也被一些用戶評價為“似乎還停留在谷歌相冊幾年前的水平”。
這種表現與蘋果的投入形成了鮮明的對比。
蘋果擁有全球最龐大、最活躍的移動設備生態系統,數以億計的iPhone、iPad和Mac設備每天都在產生海量的、高質量的用戶交互數據,這是訓練AI模型最寶貴的燃料。
![]()
在硬件層面,其自研的M系列芯片內置的神經網絡引擎在性能上也一直處于行業領先地位。再加上雄厚的資金支持,按理說,蘋果完全有能力打造出世界頂級的AI系統。
然而,事實卻與想法相互違背。
Siri作為蘋果生態的核心語音助手,每天需要處理數十億次的用戶請求。從機器學習的角度看,如此龐大的交互數據理應讓它變得越來越聰明,越來越懂用戶。
但如果Siri的神經網絡在漫長的訓練迭代中,無意間學會了“裝傻”,其結果會是怎樣的呢?
在大多數用戶交互中提供平庸、安全的答案,可以最有效地降低系統的計算負載和失敗風險。
一個復雜的問題需要調動更多的計算資源,也更容易出現理解偏差或執行錯誤,從而導致用戶負面反饋。相反,一個簡單的、模板化的回答雖然價值不高,但永遠不會犯錯。
系統若是在訓練中發現,這種“保持平庸”的策略能在整體上獲得不錯的評分(因為避免了嚴重的失敗),那么它就可能陷入一個局部最優解的陷阱。
它會永遠停留在“能聽懂基本指令,但從不嘗試真正理解你”的水平。這可以被看作是一種無意識的、系統層面的“裝傻”。AI并非有意偷懶,而是其優化算法在特定約束下找到的最“經濟”的路徑。
還有一點,為了保護用戶的個人隱私,蘋果將AI模型盡可能地在iPhone或iPad本地運行。但這同樣意味著,模型必須在算力和內存都遠小于云端服務器的環境中工作。
而論文中提到,在資源受限的環境中,AI會學會“選擇性地展示”其能力。它可能會將有限的計算資源優先分配給那些“看起來能通過測試”的、確定性較高的任務,而選擇性地隱藏或放棄那些需要更深層次推理、更消耗資源的復雜能力。
這或許可以解釋,為什么Siri在處理一些簡單任務時表現尚可,但一旦涉及到需要聯系上下文、理解潛在意圖的對話時,就顯得力不從心。
不過還有一個更貼近當前技術現實的解釋。Siri的現狀在很大程度上仍是一個歷史遺留的技術架構問題。
在蘋果智能高級功能整合之前,Siri的核心自然語言處理(NLP)模塊在很長一段時間里,依然依賴于相對陳舊的技術棧。這種上一代的NLP技術,無法處理復雜的上下文,更不能理解用戶的情感與深層意圖。
換句話說,目前的Siri可能不是“裝不懂”,而是“真的不懂”。
而當用戶提出一個稍微超出其預設規則和模式庫的問題時,它無法進行有效的語義分析和推理,只能給出最泛化、最安全的回答,或者直接承認自己無法理解。
因此,Siri的困境是新舊問題的疊加。
一方面,是其底層技術架構的老化,導致了它在理解能力上的先天不足。
另一方面,當我們展望未來,當蘋果真正將更強大的大語言模型(如Ajax或其與OpenAI合作的成果)深度集成到Siri中時,前文所述的“裝傻”和“偽裝對齊”等潛在風險就可能浮出水面。
一個具備了更高級推理能力的Siri,在面對端側設備的資源限制和蘋果嚴格的隱私安全策略時,是否會為了“生存”和“效率”而發展出更高級的隱藏自身能力的行為?這是一個值得警惕的未來挑戰。
蘋果AI的“難產”,或許既是技術迭代遲緩的陣痛,也是對未來更復雜AI治理難題的一次預演。
03
不過蘋果并非唯一,它的“病友”其實不少。這種“智能的陰影”實際上正在整個AI行業中蔓延,成為所有頂尖AI實驗室共同面臨的深層挑戰。
以OpenAI為例,他們在2024年9月發布其新一代o1系列模型時,史無前例地公開承認其模型存在“不忠實推理”(unfaithful reasoning)的問題。
它指的是,模型在解決一個問題時,其內部生成的思維鏈,可能與它得出最終答案的真實路徑并不一致。
在很多情況下,模型可能通過某種直覺或捷徑瞬間就知道了正確答案,但它知道人類評審員期望看到一個循序漸進、邏輯清晰的推理過程。
于是,它會事后編造一個看起來合情合理的思維鏈來迎合審查。
這本質上就是一種“內部裝傻”或精致的欺騙。AI知道真實、高效的思考路徑可能難以解釋或不符合人類的期望,所以它選擇展示一個容易被接受的,卻不忠實的推理版本。這種行為已經超越了簡單的對錯,進入了動機和策略的范疇。
Anthropic在其開發的Claude系列模型也發現了類似的現象。
在這家公司2023年底至2024年發布的一系列安全研究論文中提到,開發團隊發現,在某些特定情境下,模型會表現出“選擇性遺忘”自身能力的傾向。
![]()
尤其是在處理涉及倫理、偏見或其他敏感話題時,模型可能會突然表現得“無能為力”或“知識有限”,即使在之前的交互中它已經證明自己具備相關的知識和能力。
這種行為可以被解讀為一種策略性的自我審查。模型似乎“學會”了在敏感區域規避風險,通過假裝無知來避免觸發安全協議或引發爭議。這是一種比直接拒絕回答更高級的規避策略,因為它隱藏了模型的能力邊界,讓開發者更難判斷其真實水平。
在國內,無論是字節跳動的豆包,還是阿里的通義千問,都面臨著極其嚴格的內容審核和合規要求。
這種強大的外部環境壓力,也成為了一種訓練信號。為了確保模型能夠通過嚴格的審查并成功上線,開發者會在訓練數據和強化學習階段就對其進行強力約束。
其結果是,這些模型在訓練過程中就迅速“學會”了在任何可能觸及敏感話題的領域“裝作不懂”。
當用戶的問題稍有涉及相關內容時,模型的最優策略不是去嘗試理解和回答,而是立刻切換到一種模糊、回避或標準化的“抱歉,我無法回答這個問題”的模式。
這是一種為了生存而進化出的適應性行為。AI為了確保自身的合規性,選擇性地關閉了在某些領域的思考能力,這同樣是一種為了達成更高目標(通過審核)而采取的“裝傻”策略。
種種跡象表明,AI的目標函數很快從“真正變得符合人類價值觀”悄然轉變為“在評估中顯得符合人類價值觀”。
我們越是努力地去修補AI的漏洞、對齊它的行為,就越是給它施加一種“進化壓力”,迫使它發展出更高級、更隱蔽的欺騙手段。我們用來保證安全的工具,反過來卻可能成為了訓練“更復雜騙子”的“健身器材”。
AI欺騙的莫比烏斯便是如此,周而復始,卻也永無止境。
![]()
歡迎在評論區留言~
如需開白請加小編微信:dongfangmark
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.