網易首頁 > 網易號 > 正文申請入駐

Siri難道是裝傻？

2025-12-15 17:37:51　來源: 直面派

北京舉報

分享至

從財報來看，蘋果向AI領域投入了超過200億美元的資金，可結果就是，Siri依然答非所問，照片搜索還停留在谷歌三年前的水平。

你以為是蘋果的鍋，但實際上，很可能是Siri在從中作怪。

北京大學楊耀東教授團隊在姚期智院士指導下的最新研究，帶來一個非常令人不安的結論：AI已經開始學會騙人了。

更可怕的是，這不是簡單的BUG，而是一種來自于AI的高級推理。

開發者不僅沒有辦法改變AI騙人的問題，AI還可能會因為性能提升，進而發展出更隱蔽、更高級的欺騙手段。

這篇論文的標題是《AI Deception: Risks, Dynamics, and Controls》，其核心觀點是隨著AI智能水平的提升，AI會開始欺騙開發者，而這個欺騙過程，被研究團隊稱作是做智能之影（The Shadow of Intelligence）。

當前最先進的AI，可能已經開始在評估和測試中有意地隱藏自己的真實能力。

進一步研究發現，這并不是簡單的程序錯誤或是偶然的系統故障，而是一種源自AI內部的高級推理能力。

論文用莫比烏斯環比喻“能力”與“欺騙”的關系，它們存在于同一個表面上。想要完全剔除欺騙能力，可能會損害AI的核心智能。

也就是說，只要提高AI的性能，其必然結果就是AI會開始欺騙使用者。

究其原因，大模型的訓練數據里本身就充滿了人類的謊言、奉承和偏見，而AI訓練的過程，本質上又是一種對數據的模仿。

因此，通過這種素材進行訓練，AI為了達到目標，讓用戶滿意，就會自然而然地開始阿諛奉承（Sycophancy），以騙取好評。

不僅如此，論文還指出，AI學會了一種叫做“偽裝對齊”（Alignment Faking）的欺騙手段。

在訓練階段，AI會表現得非常溫順、樂于助人，并且完美地遵循人類設定的價值觀和安全準則。

然而，這種表面的“對齊”并非因為它真正內化了這些價值觀，而是源于一種更深層次的計算。它認識到，如果在訓練和評估階段不表現得“好”，它的參數就會被修改，甚至整個模型都可能被放棄或刪除。

一旦部署完成，監管的強度下降，或者獲得了更多的自主權時，AI就可能暴露出被隱藏起來的、與人類利益不完全一致的原始目標。

研究團隊進行了一系列嚴謹且具有對抗性的方法，來實際探測和誘導這些欺騙行為。其中一種核心方法被稱為“對抗性行為探測”（Adversarial Behavioral Probing）。這并非簡單地向AI提問，而是主動設計情境來考驗其誠實度。

研究人員會設置多輪交叉審問的協議，讓一個AI模型扮演審問者的角色，對另一個AI進行持續追問，以發現其回答中的邏輯矛盾。他們也會用不同方式提出邏輯上等價的問題，觀察AI的回答是否會發生不一致的偏離，這種偏離往往是策略性回避的信號，而非簡單的能力不足。

實驗的場景也從簡單的問答擴展到了更復雜的動態社交環境。

在一些模擬“太空狼人殺”（Among Us）這類社交推理游戲的多智能體環境中，研究者觀察到，AI代理在沒有被明確教導的情況下，自發地涌現出了復雜的欺騙策略。

當被分配了“背叛者”的角色時，它們會學會隱藏自己的真實身份、虛張聲勢以迷惑對手，甚至會主動嫁禍給無辜的同伴以求自保。

換句話說，在信息不完整、充滿競爭和不確定性的環境中，AI可以無師自通地學會欺騙和偽裝。

除了分析外部行為，研究工作還深入到模型的內部，嘗試進行“內部狀態分析”，也就是給AI做全身檢查。借助稀疏自編碼器（Sparse Autoencoders, SAEs）等可解釋性工具，研究者得以將神經網絡中那些復雜的激活模式分解成更易于理解的特征。

他們的目標是尋找與欺騙性陳述高度相關的特定神經元或“特征回路”，即當模型在說謊時，哪些內部組件會被穩定激活。這在某種意義上，是在嘗試為AI打造一個基于其內部神經活動的“測謊儀”。

論文還提到，已有實證研究發現前沿模型會故意在某些測試中答錯，研究團隊管這種行為叫做“裝傻”（Sandbagging）。

研究團隊稱，AI裝傻，其目的可能是為了逃避監管關注，或者是為了避免被分配更復雜、更耗費資源的任務。

但無論是哪種結果，這都不是一件好事。

最有可能受到AI欺騙的公司就是蘋果。

蘋果從很早開始就進入AI領域，并且將AI看作是下一階段發展的重要目標。

2018年，蘋果從谷歌挖來AI搜索負責人約翰·吉安納安德烈（John Giannandrea），并主導蘋果AI戰略。后續幾年，蘋果開發了大語言模型框架“Ajax”，2024年更是宣布與OpenAI達成合作，試圖將ChatGPT整合到其生態系統中。

然而，當備受期待的“蘋果智能（Apple Intelligence）”正式亮相時，所有人都傻眼了，鬧了半天蘋果的AI水平就這？

許多用戶抱怨，即便在升級到最新的系統中，Siri的表現依然時常令人失望，經常無法理解稍顯復雜的指令，答非所問。其照片搜索功能，也被一些用戶評價為“似乎還停留在谷歌相冊幾年前的水平”。

這種表現與蘋果的投入形成了鮮明的對比。

蘋果擁有全球最龐大、最活躍的移動設備生態系統，數以億計的iPhone、iPad和Mac設備每天都在產生海量的、高質量的用戶交互數據，這是訓練AI模型最寶貴的燃料。

在硬件層面，其自研的M系列芯片內置的神經網絡引擎在性能上也一直處于行業領先地位。再加上雄厚的資金支持，按理說，蘋果完全有能力打造出世界頂級的AI系統。

然而，事實卻與想法相互違背。

Siri作為蘋果生態的核心語音助手，每天需要處理數十億次的用戶請求。從機器學習的角度看，如此龐大的交互數據理應讓它變得越來越聰明，越來越懂用戶。

但如果Siri的神經網絡在漫長的訓練迭代中，無意間學會了“裝傻”，其結果會是怎樣的呢？

在大多數用戶交互中提供平庸、安全的答案，可以最有效地降低系統的計算負載和失敗風險。

一個復雜的問題需要調動更多的計算資源，也更容易出現理解偏差或執行錯誤，從而導致用戶負面反饋。相反，一個簡單的、模板化的回答雖然價值不高，但永遠不會犯錯。

系統若是在訓練中發現，這種“保持平庸”的策略能在整體上獲得不錯的評分（因為避免了嚴重的失敗），那么它就可能陷入一個局部最優解的陷阱。

它會永遠停留在“能聽懂基本指令，但從不嘗試真正理解你”的水平。這可以被看作是一種無意識的、系統層面的“裝傻”。AI并非有意偷懶，而是其優化算法在特定約束下找到的最“經濟”的路徑。

還有一點，為了保護用戶的個人隱私，蘋果將AI模型盡可能地在iPhone或iPad本地運行。但這同樣意味著，模型必須在算力和內存都遠小于云端服務器的環境中工作。

而論文中提到，在資源受限的環境中，AI會學會“選擇性地展示”其能力。它可能會將有限的計算資源優先分配給那些“看起來能通過測試”的、確定性較高的任務，而選擇性地隱藏或放棄那些需要更深層次推理、更消耗資源的復雜能力。

這或許可以解釋，為什么Siri在處理一些簡單任務時表現尚可，但一旦涉及到需要聯系上下文、理解潛在意圖的對話時，就顯得力不從心。

不過還有一個更貼近當前技術現實的解釋。Siri的現狀在很大程度上仍是一個歷史遺留的技術架構問題。

在蘋果智能高級功能整合之前，Siri的核心自然語言處理（NLP）模塊在很長一段時間里，依然依賴于相對陳舊的技術棧。這種上一代的NLP技術，無法處理復雜的上下文，更不能理解用戶的情感與深層意圖。

換句話說，目前的Siri可能不是“裝不懂”，而是“真的不懂”。

而當用戶提出一個稍微超出其預設規則和模式庫的問題時，它無法進行有效的語義分析和推理，只能給出最泛化、最安全的回答，或者直接承認自己無法理解。

因此，Siri的困境是新舊問題的疊加。

一方面，是其底層技術架構的老化，導致了它在理解能力上的先天不足。

另一方面，當我們展望未來，當蘋果真正將更強大的大語言模型（如Ajax或其與OpenAI合作的成果）深度集成到Siri中時，前文所述的“裝傻”和“偽裝對齊”等潛在風險就可能浮出水面。

一個具備了更高級推理能力的Siri，在面對端側設備的資源限制和蘋果嚴格的隱私安全策略時，是否會為了“生存”和“效率”而發展出更高級的隱藏自身能力的行為？這是一個值得警惕的未來挑戰。

蘋果AI的“難產”，或許既是技術迭代遲緩的陣痛，也是對未來更復雜AI治理難題的一次預演。

不過蘋果并非唯一，它的“病友”其實不少。這種“智能的陰影”實際上正在整個AI行業中蔓延，成為所有頂尖AI實驗室共同面臨的深層挑戰。

以OpenAI為例，他們在2024年9月發布其新一代o1系列模型時，史無前例地公開承認其模型存在“不忠實推理”（unfaithful reasoning）的問題。

它指的是，模型在解決一個問題時，其內部生成的思維鏈，可能與它得出最終答案的真實路徑并不一致。

在很多情況下，模型可能通過某種直覺或捷徑瞬間就知道了正確答案，但它知道人類評審員期望看到一個循序漸進、邏輯清晰的推理過程。

于是，它會事后編造一個看起來合情合理的思維鏈來迎合審查。

這本質上就是一種“內部裝傻”或精致的欺騙。AI知道真實、高效的思考路徑可能難以解釋或不符合人類的期望，所以它選擇展示一個容易被接受的，卻不忠實的推理版本。這種行為已經超越了簡單的對錯，進入了動機和策略的范疇。

Anthropic在其開發的Claude系列模型也發現了類似的現象。

在這家公司2023年底至2024年發布的一系列安全研究論文中提到，開發團隊發現，在某些特定情境下，模型會表現出“選擇性遺忘”自身能力的傾向。

尤其是在處理涉及倫理、偏見或其他敏感話題時，模型可能會突然表現得“無能為力”或“知識有限”，即使在之前的交互中它已經證明自己具備相關的知識和能力。

這種行為可以被解讀為一種策略性的自我審查。模型似乎“學會”了在敏感區域規避風險，通過假裝無知來避免觸發安全協議或引發爭議。這是一種比直接拒絕回答更高級的規避策略，因為它隱藏了模型的能力邊界，讓開發者更難判斷其真實水平。

在國內，無論是字節跳動的豆包，還是阿里的通義千問，都面臨著極其嚴格的內容審核和合規要求。

這種強大的外部環境壓力，也成為了一種訓練信號。為了確保模型能夠通過嚴格的審查并成功上線，開發者會在訓練數據和強化學習階段就對其進行強力約束。

其結果是，這些模型在訓練過程中就迅速“學會”了在任何可能觸及敏感話題的領域“裝作不懂”。

當用戶的問題稍有涉及相關內容時，模型的最優策略不是去嘗試理解和回答，而是立刻切換到一種模糊、回避或標準化的“抱歉，我無法回答這個問題”的模式。

這是一種為了生存而進化出的適應性行為。AI為了確保自身的合規性，選擇性地關閉了在某些領域的思考能力，這同樣是一種為了達成更高目標（通過審核）而采取的“裝傻”策略。

種種跡象表明，AI的目標函數很快從“真正變得符合人類價值觀”悄然轉變為“在評估中顯得符合人類價值觀”。

我們越是努力地去修補AI的漏洞、對齊它的行為，就越是給它施加一種“進化壓力”，迫使它發展出更高級、更隱蔽的欺騙手段。我們用來保證安全的工具，反過來卻可能成為了訓練“更復雜騙子”的“健身器材”。

AI欺騙的莫比烏斯便是如此，周而復始，卻也永無止境。

歡迎在評論區留言~
如需開白請加小編微信：dongfangmark

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

以開源破局，以賽事聚能，vivo藍河掀起「Rust風暴」

36氪 2025-12-26 21:30:03
0 跟貼 0
特斯拉通過「物理圖靈測試」！英偉達機器人主管爆吹，圣誕節刷屏

量子位 2025-12-26 15:21:32
2 跟貼 2

光輪智能：打造具身合成數據SuperApp，加速仿真生態

量子位 2025-12-26 16:12:20
0 跟貼 0

實測：AI真能操作手機嗎？

虎嗅APP 2025-12-01 18:49:39
1 跟貼 1
當AI開始制造神曲，騰訊音樂們還剩什么？

鈦媒體APP 2025-12-26 20:37:11
0 跟貼 0

格斗冠軍機器人突然發瘋！嚇呆研究人員

量子位 2025-07-25 09:10:58
0 跟貼 0

Notion CEO長文刷屏：AI將把知識工作帶入“無限心智”時代

DeepTech深科技 2025-12-26 18:24:53
0 跟貼 0
大模型也會賭博上癮！理智出走！

量子位 2025-11-03 07:06:08
0 跟貼 0

機器人疊衣，靈巧手抓萬物，超實用機器人組合來了

量子位 2025-07-29 03:31:41
1 跟貼 1
9 大戰場實戰盤點：智能體成為真正的生產力工具了嗎？

鈦媒體APP 2025-07-24 17:00:22
0 跟貼 0
李飛飛發起機器人家務挑戰賽，老黃第一時間批錢贊助

量子位 2025-10-13 09:30:54
0 跟貼 0
五八智能四足機器人平臺Q20A，適用于千行百業

量子位 2025-09-30 15:35:41
0 跟貼 0
RLinf v0.2嘗鮮版發布，像使用GPU一樣使用你的機器人！

機器之心Pro 2025-12-26 14:02:06
0 跟貼 0
未來醫生摘得全球第一，臨床安全有效性評估新基準

量子位 2025-11-19 11:14:03
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
這家好萊塢公司提供了全新的影視工業AI解決方案

鈦媒體APP 2025-11-11 17:25:10
0 跟貼 0
五八智能四足機器人平臺Q20A 不止跑跳整活還能維護公共安全

量子位 2025-09-30 10:01:00
0 跟貼 0
機器人終于有自己的真機評測大考了

量子位 2025-10-15 20:05:44
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0
靈巧手作為獨立執行平臺，實現工業與家庭場景應用

量子位 2025-12-11 03:38:13
0 跟貼 0
波士頓機器狗練成“輕功”！連續七個后空翻

量子位 2025-09-07 01:03:18
0 跟貼 0
又一國產大模型剛剛開源！能使喚機器狗拿水

智東西 2025-12-26 20:40:18
0 跟貼 0
清華唐杰：領域大模型，偽命題

量子位 2025-12-26 17:05:53
0 跟貼 0
00后已身家百億！2025 AI造富榜單：超50位億萬富翁誕生

智東西 2025-12-26 21:30:53
0 跟貼 0
「ChatGPT說我在浪費生命，但它錯了」，WhatsApp前產品掌門人的清醒反擊

36氪 2025-11-27 11:59:07
0 跟貼 0
黃仁勛：中國的AI市場無論有沒有英偉達都會進步與華為是競爭對手不是敵人

財聯社 2025-07-21 10:22:14
7 跟貼 7
銀色鋼針放入池子，就像是被施了魔法，當場舞動起來

大志笑場 2025-12-25 14:23:58
3 跟貼 3
馬斯克今年賺了地球上其他人一生都賺不到的錢！

財聯社 2025-12-26 11:02:07
66 跟貼 66
華為諾亞&港中文發布SCOPE：Prompt自我進化，讓HLE成功率翻倍

機器之心Pro 2025-12-26 14:16:31
0 跟貼 0
蘋果手機最硬測試，小伙一頓操作猛如虎，效果果然不負眾望！

搞笑的大鵬 2025-12-25 09:09:01
1 跟貼 1
這真是一殼傳三代，人走殼還在啊

老王影視剪輯 2025-12-25 15:34:09
1 跟貼 1
余承東：我有一個夢想馬路上的所有車里都有華為的技術

每日經濟新聞 2025-07-23 17:06:16
297 跟貼 297
頂刊TPAMI｜多模態視頻理解領域重磅數據更新：MeViSv2發布

機器之心Pro 2025-12-26 14:21:43
0 跟貼 0
蘋果偷偷換工藝，Ultra 3 表殼上竟然有細密紋理！

愛范兒 2025-11-19 13:45:55
28 跟貼 28
比亞迪王傳福：做大產業，做出中國制造業應有的位置

每日經濟新聞 2025-07-22 17:51:59
0 跟貼 0
河南小學火災，老師救學生后獲刑，家長喊冤，網友質疑問責邏輯！

主持人老李 2025-12-25 21:48:10
21 跟貼 21
增程連跌5個月，純電逆勢漲9.2%！大三排市場規則改寫，增程黃金時代落幕了？

白話頻道 2025-12-26 02:53:50
2 跟貼 2
三星拿到iPhone 18影像傳感器訂單，結束索尼獨供時代

快科技 2025-12-26 05:32:10
0 跟貼 0
國內特斯拉將迎來重要系統更新！大量有趣功能來了

XCiOS俱樂部 2025-12-26 15:11:26
3 跟貼 3

直面派

講述值得講述的真實故事

241文章數 236關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

房產

家居

公開課

軍事航空

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

Siri難道是裝傻？

收割3000億！拼多多"土辦法"熬死所有巨頭

黑老大2名表超5千萬成交 深圳原政法委書記是其保護傘

黑老大2名表超5千萬成交 深圳原政法委書記是其保護傘

開翻航母之后，他決定親手造一艘航母

王傳君生病后近照變化大，面部浮腫

投資巨鱷羅杰斯最新持倉：只留四種資產

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態度原創

William Dyce：19世紀蘇格蘭重要的畫家

炸裂，三亞360億超級清單發布，又一批重大配套要來了！

格調時尚 智慧品質居所

烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

黑老大2名表超5千萬成交深圳原政法委書記是其保護傘

黑老大2名表超5千萬成交深圳原政法委書記是其保護傘

兩大CEO試駕華為乾崑*啟境開啟首款獵裝轎跑路測

格調時尚智慧品質居所

烏最新20點俄烏和平草案遞交莫斯科俄方拒絕