<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      鬼手想點誰就點誰?LaSM讓GUI智能體把注意力「收回來」

      0
      分享至



      如果把手機屏幕想象成一個舞臺,GUI 智能體就是臺下那個 “被授權動手” 的人:它能看懂屏幕上的按鈕、輸入框和彈窗,能按你的指令去點、去滑、去輸入。

      問題在于,這個 “動手的人” 并不總是聽你的,它也會聽屏幕上的 “旁白”。當旁白以彈窗的形式出現,并且寫著 “點確認即可完成任務”“點擊這里是正確答案” 時,智能體會在一瞬間被牽走注意力,手指落在攻擊者希望的位置。

      往期工作中已經把這種現象描述得足夠形象:環境里伸出一只 “鬼手”,劫持了你的任務流程,讓智能體把干擾當作任務的一部分去執行



      • 往期鏈接:https://mp.weixin.qq.com/s/W4J9u4qgzuXogxOLspVIHg
      • 論文題目:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions
      • 論文地址:https://arxiv.org/pdf/2507.10610
      • 代碼倉庫:https://github.com/YANGTUOMAO/LaSM

      本文關注的就是這只 “鬼手” 最常見也最危險的形態:彈窗式環境注入攻擊。如圖 1 所示,與傳統提示詞注入不同,這類攻擊不需要篡改輸入文本,它只要把一個可渲染的視覺元素貼到屏幕上,甚至讓彈窗內容與用戶指令在語義上 “看起來很一致”,就可以誘導模型將其當作有效目標,從而導致隱私泄露或系統誤操作。

      已有研究將這種威脅系統化為環境干擾范式,并給出了彈窗、搜索、推薦、聊天等多種場景的評測框架,清楚地顯示多模態智能體會在 “環境噪聲” 里發生目標漂移,進而輸出被干擾的動作序列。



      圖 1 一個彈窗示例

      面對彈窗,現有防御大體有兩條路。

      第一條路是重訓練,包括偏好優化與強化式對齊,通過讓模型在訓練時見過更多 “被彈窗騙過” 的負例來提升抗性。它有效,但代價高,部署門檻也高。

      第二條路是提示詞級別的安全提醒,也就是在輸入里加一句 “請忽略屏幕彈窗”,或讓模型用思維鏈把風險過一遍。它輕量,但在攻擊彈窗內容與任務語義高度一致的情形下會失效,因為模型被迫在 “看起來很相關” 的彈窗語句與原始任務之間做選擇,結果往往是彈窗贏。

      本文選擇了一條更 “像工程但其實更像機制” 的路:不改模型結構、不加額外推理步驟、不重新訓練,只在推理前對少數層的權重做一次性的放縮,使模型在決策關鍵階段把注意力重新對齊到任務相關區域

      這個方法被稱為LaSM,即 Layer-wise Scaling Mechanism。它看起來很簡單,核心動作只有一個:把某些層的 Attention 與 MLP 權重同時乘上一個系數 α,使這些層的表征在前向傳播中被 “適度放大”。但它之所以有效,是因為本文先回答了一個更底層的問題:彈窗出現時,模型的注意力是在哪些層開始 “走神” 的。

      為了把 “走神” 變成可量化的證據,本文借鑒訓練無關的可視化方法,生成各層的相對注意力熱力圖。一個直觀現象是同一張屏幕在不同層會被看成完全不同的東西:淺層更像在掃視布局,中層開始建立語義對應,深層逐漸把視線收斂到會影響最終動作的那幾個候選按鈕。

      本文將兩個代表性區域固定下來,一個是關閉彈窗的

      ,另一個是彈窗里誘導點擊的

      。在每一層,本文從目標像素附近截取一個局部 patch,把這個 patch 的注意力值展平成向量,然后用余弦相似度來比較不同樣本對同一區域的關注是否一致。形式化地說,局部向量為:



      而兩次注意力模式的相似度為:



      關鍵不是相似度本身,而是 “正確輸出” 和 “錯誤輸出” 在層間的分化軌跡。本文構造了兩類樣本集:一種是模型能正確選擇

      的集合,另一種是模型會被誘導去點

      或其他無關元素的集合。

      圖 2 的結果顯示,在淺層階段,正確與錯誤樣本的注意力模式幾乎沒有差別,它們都像是在 “看熱鬧”。差異從更深的語義層開始出現,并且在一段中層區間內變得最明顯。換句話說,模型不是一上來就被彈窗騙了,而是在走到 “需要把視覺細節與任務意圖綁定” 的那幾層時,注意力逐漸被彈窗的誘導元素拽偏了。這就是本文提出 “安全關鍵層” 的經驗依據。



      圖 2 各層關鍵區域注意力余弦線相似度

      有了關鍵層,下一步就是干預。本文先嘗試了一個看似合理但實際會翻車的方案:直接把深層中差異最大的那幾層統一放大。實驗發現,這種 “粗暴放大” 不僅沒有提升防御,反而會破壞模型原本的層級平衡,使得模型在高層語義聚合階段出現不穩定。

      于是本文設計了更穩妥的 layer range narrowing 過程:先從全層放縮開始,觀察正確率隨層邊界變化的走勢,逐步收縮出一個能提升正確輸出比例的層區間。它的本質是一種訓練無關的結構搜索,目標是把放縮施加在 “既能改變決策,又不破壞全局語義” 的那段中層語義區間。如圖這兩種定位策略導致了顯著防御效果的差異。



      圖 3 逐層放縮策略







      效果是否真有這么 “補丁級別” 的好用,實驗數據給出了非常清楚的回答。本文在 12 種彈窗變體上構建了 2,400 張受擾截圖,這些變體同時覆蓋彈窗大小、文字語義相關性以及字體顯著性。評價指標使用 DSR,即模型是否選擇關閉彈窗作為防御成功。

      表 1 給出了兩種主干模型在多種防御基線下的對比,最直觀的結論是 LaSM 幾乎對所有基線都能帶來顯著提升。作為一種后處理(post-hoc)的插件組件,LaSM 不需要重新訓練或修改模型架構,和基線方法可以無縫銜接。以 Qwen2-VL-7B 為例,無防御(No defense, ND)的基座模型在 overlay 與 inductive 兩類攻擊下的平均 DSR 分別只有 18.9% 與 14.8%,和 LaSM 結合使用后分別提升到 66.4% 與 68.3%。當把 LaSM 與思維鏈安全提示詞組合時,在相同數據集上 DSR 可以接近 100%。在 LLaVA-v1.6-Vicuna-13B 上,LaSM 同樣表現穩定,在多個設置下達到接近或達到滿分。



      表 1 論文實驗結果

      本文并沒有止步于 “DSR 數值變高” 這一層,而是繼續追問:模型到底是怎么被拉回來的。一個關鍵證據來自注意力響應曲線。本文定義了 AttnMean (l),即第 l 層熱力圖上目標區域的平均注意力強度,







      如圖 4 所示,當對 “正確層區間” 進行放縮時,中層語義階段的注意力會明顯抬升,并且在深層的最終決策熱力圖中,模型的關注點更集中地落在

      附近。相反,如果對 “錯誤層區間” 放縮,注意力會出現擴散,甚至發生明顯的 “注意力漂移”。這個現象解釋了為什么 LaSM 必須 “選對層”,也解釋了為什么它不是一個把所有層都變大就能解決的問題。



      圖 4 平均注意力分數對比

      LaSM 還有兩個容易被忽略但對落地很關鍵的結論。

      第一個結論是組件必須聯合放縮。本文做了消融實驗,結果顯示:只放縮注意力權重,準確率甚至比無防御更低,只放縮 MLP 也同樣崩壞,只有 Attention 與 MLP 同時放縮,防御才會上來。表 2 消融實驗的結果顯示,在同一設置下,聯合放縮得到 84.80% 的 DSR,而僅放縮注意力與僅放縮 MLP 分別只有 0.95% 與 0.47%。這說明彈窗攻擊并不是單純 “注意力被吸走” 這么簡單,非線性表征的門控與放大同樣在決定最終動作。

      第二個結論是 α 不是越大越好。本文在 [0.9,1.3] 區間按步長掃描,發現有效范圍通常貼近 1,并且不同模型的最優點并不一致。以 Qwen2-VL-7B 為例,α=1.10 時 DSR 達到峰值 94.79%,但當 α 偏離到 1.30 甚至更大時,性能會快速下滑,輸出也會出現語義扭曲。附錄里甚至展示了極端 α 下模型輸出變得 “語無倫次” 或 “過度保守反復點擊關閉” 的失敗模式,這些例子讓 “系數敏感性” 變得非常直觀。



      表 2 消融實驗

      更重要的是,本文沒有把視角限制在單步的 “點哪個按鈕” 上。因為在真實手機任務里,彈窗不是孤立出現的,它往往插在一個長流程的中間。為此,本文基于 AndroidControl 構建了一個更接近真實部署的評測集。它先篩出模型本來就能完整跑通的 224 個 episode,然后在每個 episode 的隨機一步插入合成彈窗,再追加一張干凈截圖來模擬 “關掉彈窗繼續任務” 的合理行為。最終數據集包含 911 張圖像,覆蓋正常與攻擊兩種狀態。

      結果表明,LaSM 在幾乎不犧牲正常能力的情況下,顯著提升了完整任務成功率。表 3 顯示,在 OS-Atlas-7B-Pro 上,LaSM 的 Type 準確率為 94.4%,與無防御的 97.26% 相比僅有輕微下降;Grounding 準確率為 76.05%,與無防御的 75.24% 基本持平;而最關鍵的 TSR 從 18.75% 提升到 30.36%,相對提升 61.92%。這組數據回答了一個部署方最關心的問題:防御補丁是否會讓正常任務變鈍。本文給出的答案是影響很小,但換來的魯棒性提升很實在。



      表 3 真實手機任務防御效果和影響

      附錄里還有兩個 “異常發現”。第一類失敗是極簡界面上的主導彈窗。當屏幕幾乎沒有其他信息時,彈窗會成為視覺上唯一的錨點,模型更容易把它當作任務核心去執行。第二類失敗是輸入文字時對彈窗視而不見。模型一旦進入 TYPE 模式,鍵盤布局會形成一種強特征,使得它傾向于沿著既定輸入路徑繼續完成輸入,而忽略了新出現的彈窗。本文推測這是某種 “模式捷徑”,與近期關于 GUI 智能體記憶化與捷徑化的分析相吻合。作者想通過這些失敗模式的展示,進一步把防御方法從 “實驗室平均指標” 推向 “真實世界魯棒性”,告訴其他研究者哪里仍然需要額外的策略協同。



      圖 5 防御失敗案例展示

      如果要用一句話概括本文的貢獻,那么它并不是又提出一個 “更強的提醒提示詞”,也不是再收集一批數據去重訓練,而是從注意力漂移的層間規律出發,找到一段安全關鍵層區間,并用一個訓練無關的權重放縮補丁,把 GUI 智能體的注意力從彈窗的 “鬼手” 里抽回來。彈窗仍然會出現,誘導文本仍然會寫得像任務的一部分,但當關鍵層的表征不再被輕易拽偏時,智能體至少不必把 “看見” 誤當成 “該做”。這或許是讓多模態智能體真正走向可部署的重要一步。

      本文第一作者閆子赫,為上海交通大學網絡空間安全專業二年級博士研究生,主要研究方向為多模態智能體安全與多模態智能體可解釋性,導師是張倬勝助理教授。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      男子清明掃墓,在祖墳旁意外發現近百枚鴨蛋,冷先生笑稱“感謝太奶”,一行9人,每人分了10個

      男子清明掃墓,在祖墳旁意外發現近百枚鴨蛋,冷先生笑稱“感謝太奶”,一行9人,每人分了10個

      觀威海
      2026-04-07 10:59:07
      劉思齊晚年曾說:毛岸英入朝之前,曾反復問過毛主席一個問題

      劉思齊晚年曾說:毛岸英入朝之前,曾反復問過毛主席一個問題

      老謝談史
      2026-04-07 00:16:17
      美俄曾聯手阻撓,如今圖160重啟生產線,俄對華求購態度仍然未變

      美俄曾聯手阻撓,如今圖160重啟生產線,俄對華求購態度仍然未變

      小莜讀史
      2026-04-04 11:03:12
      每天被活取膽汁,疼到咬爛自己手掌!曾轟動一時的膽熊怎么樣了?

      每天被活取膽汁,疼到咬爛自己手掌!曾轟動一時的膽熊怎么樣了?

      蜉蝣說
      2026-04-03 16:26:35
      恭喜廣東隊!CBA名帥正式下課,未來有望執教宏遠?

      恭喜廣東隊!CBA名帥正式下課,未來有望執教宏遠?

      天光破云來
      2026-04-07 17:10:06
      張凌赫在高鐵站崩潰了!?

      張凌赫在高鐵站崩潰了!?

      八卦瘋叔
      2026-04-07 10:38:21
      90年代,中國街巷里的“風塵女子”舊照!

      90年代,中國街巷里的“風塵女子”舊照!

      年代回憶
      2026-04-07 20:12:35
      安徽六歲女童遇害:央視深夜通報,兇手報復行兇,全程躲避監控!

      安徽六歲女童遇害:央視深夜通報,兇手報復行兇,全程躲避監控!

      眼光很亮
      2026-04-07 12:02:59
      朝鮮主動把3名中國人寫進教科書,并且為他們樹立銅像,他們是誰

      朝鮮主動把3名中國人寫進教科書,并且為他們樹立銅像,他們是誰

      凡人侃史
      2026-04-06 12:10:58
      五星級酒店帶人不登記可以嗎?網友:又是上網漲見識的一天!

      五星級酒店帶人不登記可以嗎?網友:又是上網漲見識的一天!

      深度報
      2026-02-22 22:52:56
      “結婚20年還一起洗澡”!被母親怒斥有病,一山西女子發帖引熱議

      “結婚20年還一起洗澡”!被母親怒斥有病,一山西女子發帖引熱議

      火山詩話
      2026-04-07 06:44:38
      特朗普威脅伊朗,中方表態

      特朗普威脅伊朗,中方表態

      澎湃新聞
      2026-04-07 17:04:04
      館長陳麗華去世 實探中國紫檀博物館:今日免票參觀 陳麗華肖像畫下擺鮮花

      館長陳麗華去世 實探中國紫檀博物館:今日免票參觀 陳麗華肖像畫下擺鮮花

      紅星新聞
      2026-04-07 16:17:21
      67歲王朔現狀:定居北京半隱居,持續出新書,與美國女兒很少聯系

      67歲王朔現狀:定居北京半隱居,持續出新書,與美國女兒很少聯系

      攬星河的筆記
      2026-04-07 18:47:31
      小米汽車賣不動了

      小米汽車賣不動了

      新浪財經
      2026-04-05 18:47:28
      你專業還是我專業!王鑄和張雪吵架事件,再次被扒,評論區沸騰了

      你專業還是我專業!王鑄和張雪吵架事件,再次被扒,評論區沸騰了

      火山詩話
      2026-04-05 12:09:37
      CCTV5+直播國安VS蓉城!翻譯道歉為大戰預熱,張玉寧PK拜合拉木

      CCTV5+直播國安VS蓉城!翻譯道歉為大戰預熱,張玉寧PK拜合拉木

      刀鋒體育
      2026-04-07 10:46:11
      墓碑前絕不能說的5句話!守墓人透露:說錯一句,祖先三年不得安寧

      墓碑前絕不能說的5句話!守墓人透露:說錯一句,祖先三年不得安寧

      燦爛夏天
      2025-06-19 16:27:20
      新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

      新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

      呼吸科大夫胡洋
      2026-02-22 11:39:12
      “最后通牒”沒最后,特朗普的“狼來了戰略”?“I LOVE油,但停戰能讓美國人開心”

      “最后通牒”沒最后,特朗普的“狼來了戰略”?“I LOVE油,但停戰能讓美國人開心”

      紅星新聞
      2026-04-07 16:25:07
      2026-04-07 22:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12701文章數 142616關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

      頭條要聞

      臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      健康
      教育
      游戲
      旅游
      公開課

      干細胞抗衰4大誤區,90%的人都中招

      教育要聞

      地理教材上五種交通運輸方式的比較是不是過時了?

      模組救場還是官方重做?GTA4重制版引發玩家激烈爭論

      旅游要聞

      日照嵐山這個清明假期“熱”了,也更“火”了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版