
策劃 | 李忠良
11 月 13 日,全球領先的 AI 實驗室 Anthropic 發布了兩份令人警醒的報告。報告證實,早在今年 9 月,一場“高度復雜”的攻擊活動已由 AI 徹底主導:黑客組織通過 Claude Code 實現了 90% 的工作自動化,每場攻擊中人類僅需參與 4–6 次關鍵決策。
Anthropic 直言,黑客對 AI Agent 化能力的利用已達到“前所未有”的水平。這種“自主運行、極少干預”的攻擊模式,正標志著網絡安全進入了一個充滿變數的轉折點。
![]()
正如 Anthropic 所警示的那樣,AI Agent 在錯誤的人手中正顯著提升大規模攻擊的可行性。這與數美科技 CTO 梁堃對國內黑灰產趨勢的觀察不謀而合。在梁堃看來,我們正面臨一場黑灰產全面完成“智能化”改造的代際跨越。
隨著黑灰產全面完成“智能化”改造,攻擊手段已從機械腳本進化為具備思考與執行能力的AI Agent。這種“去腳本化”的攻擊不僅能批量生產通過圖靈測試的高擬真內容,更能利用多模態大模型與 Deepfake 實時突破行為驗證與生物核驗,致使傳統風控防線失效。
面對“硅基黑產”的降維打擊,數美科技 CTO 梁堃指出防御必須下沉至物理世界的“第一性原理”。他詳解了穿透 AI 偽裝的 “反欺詐三定律”——利用物理設備的多樣性、信息邏輯的一致性以及社群網絡的關聯性來鎖定異常;同時,揭示了通過引入 “不確定性標簽” 機制解決大模型“幻覺”問題、將準確率提升至工業級水平的技術路徑。
黑灰產的“智能體”革命
“今年以來,最直觀的感受是黑灰產正在全面利用大模型技術提高獲利效率。”在專訪間里,梁堃指出黑產技術的升級并非漸進式的改良,而是一次結構性的代際跨越。這種跨越,讓數字戰爭的性質徹底改變。
最先被顛覆的是賬號孵化環節。在過去,黑產為了獲取用于薅羊毛或營銷欺詐的高權重賬號,面臨著極高的“養號”成本。為了模擬真人,他們需要人工準備大量文案在論壇回帖,一旦文案重復或邏輯不通,極易被風控系統識別。
但現在,大模型成為了黑產最高效的生產力工具。利用 AI,黑產可以針對特定主題,自動生成情感細膩、邏輯嚴密且千人千面的評論文案。這些 AI 生成的回復極具迷惑性,甚至能通過很多平臺的“圖靈測試”,將賬號養得“非常像真人”。這極大降低了黑產的門檻,使其能夠以極低成本批量制造出高權重的“幽靈賬號”。
比內容生成更具威脅的,是攻擊工具的智能化升級。回顧黑產行為模式的演變史,可以清晰地看到從“腳本”向“智能體”進化的軌跡。早期黑產主要依賴“按鍵精靈”等自動化腳本,其破綻在于機械化特征,例如非人類的點擊速度,或代碼中固定的暫停時間。
梁堃分析道:“一旦代碼里寫了固定的暫停時間,就會形成‘等間距特征’,這是非常明顯的異常。” 為了對抗識別,黑產曾嘗試加入隨機間隔,但這顯著增加了代碼編寫和維護的成本。
今年,這一博弈局面被徹底打破。黑產全面轉向 Agent。Agent 能夠理解指令并直接調用 API,其生成的點擊、瀏覽、交互行為序列具備極高的擬人度,且執行成本幾乎為零。這種“去腳本化”的攻擊,讓傳統基于點擊頻率、間隔時間等規則的行為風控防線面臨失效風險。
此外,在驗證碼和身份認證這一核心防線上,多模態技術也展現出了驚人的突破能力。面對“點擊圖中汽車”或空間推理類的行為驗證碼,多模態大模型憑借強大的視覺識別和邏輯推理能力,已能輕松完成識別并繞過驗證。更為警惕的是人臉識別技術的攻防升級。
據梁堃透露,AI 換臉技術已經從簡單的視頻替換進化為實時對抗工具。黑產開發了一套連接 PC 和手機的工具,當人臉認證系統要求手機屏幕變色進行“光線活體檢測”時,該工具能實時采集人臉,并根據屏幕顏色變化實時調整假臉上的光影,從而成功騙過活體檢測系統。
此外,針對大模型本身的攻擊手段也層出不窮。一種名為“輸出劫持”的攻擊正在興起:黑產在網頁或簡歷中利用人眼不可見的白色字體植入攻擊指令,誘導 AI 系統執行錯誤操作。
面對武裝到牙齒的“硅基黑產”,靠純人工或傳統規則去對抗已顯力不從心,防御體系必須進化為“用 AI 對抗 AI”。
在“完美偽裝”中尋找破綻
反欺詐三定律
當 AI 能夠以極低的成本生成近乎完美的真人行為序列時,傳統的基于“圖靈測試”邏輯的風控手段——即試圖通過交互來區分人與機器——面臨著失效的風險。面對這種不對稱的攻防態勢,防御的視角必須從“行為表象”下沉到物理世界和群體行為的“第一性原理”。數美科技 CTO 梁堃在專訪中將其總結為“反欺詐三定律”,這成為了穿透 AI 偽裝的核心邏輯。
這套防御哲學的首要支點,是利用“多樣性”來對抗機器的“統一性”。梁堃提出了第一定律:“好人是多種多樣的好,壞人是一樣的壞”。
在真實世界中,正常用戶的行為充滿了個性化的隨機性——手機型號涵蓋華為、蘋果、小米等各種品牌,系統版本各異,甚至電量也是隨機分布的,有的剩 30%,有的剩 70%。這種高度的“分散性”是自然行為的特征。
相反,黑產為了追求規模化獲利的效率,必須控制成本,往往批量采購相同的設備或使用同一套模擬環境。因此,如果防御系統觀測到一批賬號的手機型號完全相同,或者電量狀態呈現出反常的統一,那么無論它們的操作行為多么像人,這種物理層面的高度一致性都會暴露其機器本質。
防御的第二層邏輯建立在“信息一致性”的校驗上。這是第二定律的核心:好人的信息一致性極高,而壞人的信息一致性往往存在裂痕。正常用戶不會刻意頻繁更改 IP 地址或手機號等基礎信息。
然而,黑灰產的運作模式決定了其必須在不同環節拼湊資源——這邊買 IP,那邊買手機號。這種資源的拼接過程往往會導致邏輯沖突,例如,一個社群內的用戶雖然使用了五花八門的位置信息,但卻被檢測到連接了同一個 WiFi MAC 地址,或者注冊時間與地理位置存在悖論。這種信息維度的割裂感,是 AI 再強大的生成能力也無法在物理層面彌合的邏輯硬傷。
然而,僅靠單點防御往往獨木難支,因此風控的維度必須上升到“社群發現”的上帝視角,這也對應了第三定律:好人的朋友通常是好人,而壞人往往呈現出孤立點或只與壞人關聯。通過構建設備與環境的關聯網絡,防御者不再緊盯著單個賬號的行為,而是分析群體特征。
即便單個 AI Agent 的行為再完美,一旦將其置于網絡結構中,如果發現某個群體內 90% 的設備型號相同,或者注冊時間呈現出非自然的聚集,這個“社群”的風險屬性便會被瞬間鎖定。
用“不確定性標簽”重構模型決策邏輯
當然,防御者自身也在大量應用大模型技術,但也面臨著模型“幻覺”帶來的誤判挑戰。在早期的實踐中,技術團隊發現一個難以突破的瓶頸:無論是嘗試二次預訓練還是更換訓練方法等多種方案,大模型在風控場景中的準確率始終未能突破 90%,遠低于預期的類似人類審核(99.98%)的精度。
通過深入分析,團隊發現問題的核心在于那些模棱兩可的樣本——即處于黑白之間的灰色地帶,這些樣本甚至在人工審核時都可能出現分歧,從而導致模型產生誤判。
梁堃將大模型出現幻覺的原因歸結為 Loss 函數設計上的問題,并引用了 OpenAI 的研究觀點。他指出,現有的訓練機制就像“學生考試”,答對題目得分,答錯則不扣分。
因此,模型在遇到不會做的題時,最佳的策略便是“猜一個”。因為猜錯沒有懲罰,而猜對了則能獲得分數。這種由懲罰機制所驅動的策略,使得模型在面對模糊或無法確定的樣本時,傾向于做出一個確定的判斷,最終產生了幻覺。
為了解決這一由訓練機制本身帶來的問題,數美團隊引入了一個關鍵方案:“不確定性標簽”。這一機制改變了模型的應試策略:當大模型無法對某個內容做出明確判斷時,系統不再強制要求它給出確定的答案,而是允許將該內容標記為“不確定”。
梁堃指出,通過引入這一選項,模型給出錯誤判斷的比例大大降低,將幻覺率控制在 1% 甚至更低的水平,從而使模型的精度達到了工業級可用狀態。
然而,引入“不確定性標簽”后,流程并未結束。梁堃強調,這些被標記為“不確定”的樣本仍需進行人工干預,進行二次判斷。在這一過程中,人工不僅僅是對這些樣本進行審核,更重要的是,如果人工基于這些樣本能夠制定出新的規則或標準,那么這些判斷結果將反向教會模型。
這種持續的反饋機制使得模型在不斷學習和改進中,能夠逐步提升對模糊樣本的識別能力。
以“大模型審核 Agent ”為核心驅動的 AI 風控新范式
![]()
面對規模更大、語義更復雜、對抗更激烈的挑戰,傳統的“機審 + 人審”舊范式已難以為繼。為此,以“大模型審核 Agent ”為核心驅動的“ AI 風控新范式”成為了新的趨勢。梁堃表示,傳統風控往往停留在識別違規關鍵詞或圖片的表層,而新范式則強調對“意圖”與“潛臺詞”的深度理解。
面對 AI 的錯誤、AI 的侵權及對 AI 的“攻擊”等新型挑戰,數美重構了“人機協同”模式——引入基于大模型的審核 Agent。
“Agent 不再是輔助工具,而是能夠像人類一樣思考的‘數字員工’。” 這一變革將風控體系升級為“AI 機器審核 + 大模型審核 Agent + 專家決策”的三角鏈路,大幅提升了對復雜風險的研判能力。
在賬號安全領域,黑產已利用 AI 技術實現了“降維打擊”,不僅能批量制造高擬真的虛假賬號,甚至能利用 Deepfake 偽造人臉和視頻進行欺詐。對此,數美的應對之策是:“新一代設備指紋”與“深度行為分析”。
通過全面引入微行為分析與 LLM 技術,數美能夠基于賬號的行為序列與團伙特征,精準揪出偽裝在屏幕背后的“ AI 幽靈”,真正實現“用 AI 對抗 AI ” 。
當黑產完成了智能體進化,風控的終局便不再是單純的技術博弈,而是防御體系的代際躍遷。在這場用 AI 對抗 AI 的戰役中,唯有依托機器 +Agent+ 專家的三角協同,將防御從線性的規則攔截升級為立體的意圖洞察,我們才能在不斷被 AI 模糊的真假邊界中,重建起堅固的數字信任防線。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.