![]()
將隱私保護加入到AI技術激增可能造成損失的清單中吧,因為研究人員發現,大語言模型可以比人類調查員更高效地去匿名化網絡用戶,即使是那些使用假名的用戶。
過去25年關于網絡隱私的大部分學術研究都建立在Latanya Sweeney 2002年關于k-匿名性的研究基礎上,以及她之前證明可以使用三個匿名數據點——五位數郵政編碼、性別和出生日期來識別87%美國人口的研究。
從匿名數據中識別個人身份的可能性成為了在線廣告和網頁瀏覽器中使用cookie的核心擔憂之一。
這種風險并沒有消失,現在看起來更加嚴重,因為大語言模型可以自動化地連接網絡帖子中的線索,從而指向可能的來源。
MATS研究所的AI工程師Simon Lermen表示:"我們證明了大語言模型智能體可以從你的匿名在線帖子中找出你的身份。"他是一篇題為"大語言模型大規模在線去匿名化"的預印本論文的通訊作者之一。
Lermen在一篇在線帖子中解釋道:"在Hacker News、Reddit、LinkedIn和匿名化訪談記錄中,我們的方法能夠高精度地識別用戶,并且可以擴展到數萬個候選者。"
研究人員觀察到,雖然長期以來人們就知道可以僅使用幾個數據點來識別個人,但這樣做往往不切實際。這些數據通常以非結構化形式存在,人類調查員需要付出相當大的努力來收集足夠的片段來解決身份謎題。
Lermen和他的合著者聲稱,大語言模型加速并自動化了這一過程,而且成本可承受。
他們在論文中表示:"我們證明大語言模型從根本上改變了這種計算方式,實現了能夠大規模處理非結構化文本的全自動去匿名化攻擊。以前的方法需要預定義的特征模式、仔細的數據對齊和人工驗證,而大語言模型可以從任意文本中提取與身份相關的信號,高效地搜索數百萬個候選檔案,并推斷兩個賬戶是否屬于同一個人。"
在一項實驗中,作者收集了338名Hacker News用戶,這些用戶的簡歷鏈接到LinkedIn檔案。他們這樣做是為了建立研究對象的真實身份,以便檢驗大語言模型的預測——這也是為了避免在研究中真正去匿名化人們所帶來的倫理問題。
接下來,他們基于這些用戶的評論和發布的故事創建了結構化的數據檔案。然后他們創建了一個搜索提示,將其匿名化,并傳遞給AI智能體。智能體繼續正確識別了338個目標中的226個,在90%精確度下成功率為67%(有25個錯誤識別和86個模型未提供預測的棄權)。
作者使用的技術并不是通用的隱私溶解劑——它只在某些時候成功。但它成功的頻率足以讓那些在網上使用假名賬戶發帖的人不應該假設他們的身份會保持未知。
運行成本也很便宜。研究人員報告他們的整個實驗花費約2000美元,每個檔案的估計成本在1到4美元之間。
誰會這么做?作者建議政府可以使用這種技術來針對記者或活動人士,企業可以挖掘論壇來建立高度針對性的廣告檔案,在線攻擊者可以開發詳細的個人檔案來使社會工程詐騙更具可信度。
Lermen認為網民因此需要考慮他們分享的每個數據點如何幫助識別他們。
"這種組合通常是一個獨特的指紋,"他說。"問問你自己:一隊聰明的調查員能從你的帖子中找出你是誰嗎?如果是的話,大語言模型智能體很可能也能做到同樣的事情,而且這樣做的成本只會越來越低。"
Lermen的合著者包括Daniel Paleka(蘇黎世聯邦理工學院)、Joshua Swanson(蘇黎世聯邦理工學院)、Michael Aerni(蘇黎世聯邦理工學院)、Nicholas Carlini(Anthropic)和Florian Tramèr(蘇黎世聯邦理工學院)。
Q&A
Q1:大語言模型如何實現用戶去匿名化?
A:大語言模型可以從用戶的匿名在線帖子中提取與身份相關的信號,自動分析非結構化文本,高效搜索數百萬個候選檔案,并推斷不同賬戶是否屬于同一個人。它們能夠連接網絡帖子中的各種線索,自動化地指向可能的身份來源。
Q2:這種去匿名化技術的成功率有多高?
A:研究實驗顯示,在338個測試目標中,AI智能體正確識別了226個,成功率為67%,精確度達到90%。雖然不是100%成功,但這個成功率足以讓使用假名賬戶的用戶擔心身份暴露。
Q3:進行大規模去匿名化攻擊需要多少成本?
A:研究人員報告整個實驗花費約2000美元,每個用戶檔案的估計成本在1到4美元之間。這種低成本使得大規模去匿名化攻擊變得經濟可行,政府、企業或惡意攻擊者都可能利用這種技術。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.