![]()
作者 李曉丹
在2025年,無論是Web還是API類型的AI Bot,抓取次數的增速均超過100%,在高峰時期,增幅甚至達到200%。當ChatGPT引發的“AI革命”從實驗室走向產業落地,安全威脅的主角悄然換成了更聰明、更隱蔽的“AI玩家”。
來自Akamai的數據顯示,隨著AI興起,網絡爬蟲(AI Bot)日益增加。這一趨勢背后,是由于大模型為訓練自身需要獲取大量數據,因而派出大量AI Bot采集信息。其中,有些 Bot來自我們熟知的大模型,也有一些惡意Bot混雜其中。AI Bot可的核心任務就是從互聯網上大規模抓取數據,用于訓練和優化大型語言模型(LLM)。
從行業分布來看,無論是高科技、商貿、金融還是數字媒體,每個行業中都能觀察到大量 AI Bot 的活動。其邏輯很簡單:要訓練出優質的大模型,數據至關重要。因此,如何最大化獲取互聯網數據,成為大模型發展的關鍵,這也解釋了為何越來越多的 AI Bot 正在抓取各行業數據用于訓練。
IDC預測,到2029年活躍部署的AI智能體數量將超過10億個——比當前水平增長40倍。僅在2025年上半年,智能體創建就激增了119%。
AI Bot是如何從“爬蟲”進化到“獵手”的?隨著AI Bot數量的增加,這些智能體正變得越來越“智能”。2018年,當時傳統的Bot大多執行簡單的腳本行為,相對容易識別,通常通過特征匹配即可檢測和攔截。然而,2022年ChatGPT發布后,許多大模型及相關新技術被應用于機器人,使其變得更“聰明”,它們能更有效地識別如何抓取數據、如何規避監控。2025年,ChatGPT已能繞過“驗證碼驗證”,這說明AI Bot已進入高度智能的階段。
對企業而言,是否應完全開放網絡供AI Bot抓取?這實際上涉及多種運營與控制策略,也與客戶自身的業務模式相關。2025年曾有一個與大模型相關的訴訟案例:一家新聞聚合網站起訴某知名大模型公司,原因是后者在未經授權的情況下大規模抓取其內容。對于新聞聚合平臺而言,其核心資源正是用戶訪問和瀏覽的內容。如果所有內容都通過智能體或大模型獲取,直接訪問原平臺的用戶將大幅減少。因此,在出現未經授權的抓取行為后,該平臺選擇了法律訴訟。
“針對以上情況,可以從兩方面應對:第一,基于更成熟的模型,識別AI Bot的來源、特征并對其進行分類,從而更精準地辨識這類流量;第二,目前正在探索更新的應對機制,例如,與Skyfire等第三方公司合作,識別‘合規’的Bot并實現基于請求量來計費。如果內容提供商與AI公司達成協議,允許其Bot抓取內容并按請求次數收費,就可以識別此類請求,并通過第三方實現靈活計費。這種更靈活的方式,也可以更好地應對日益智能的內容抓取而進行的演進。”Akamai北亞區技術總監劉燁說。
“應用落地對智能體是非常重要的一個環節,需要更多地跟AI生態里面的各個環節做互動、需要根據用戶的需求來調用不同模態、具有不同優勢的模型。”Akamai副總裁暨大中華區總經理李昇表示,任何一個智能體用的應用都牽涉到前端的客戶輸入和后臺各種模型及各種應用的調用,包括API的調用會越來越多、越來越復雜,中間的連接性會越來越強,這就產生了兩種現實需求,一種是API端的安全需求,另一種則是智能體對邊緣云的需求,智能體被注入了海量的文字、圖片、視頻內容,它需要更加安全的超級中心訓練模型。
李昇預測,整個AI市場的熱點將逐漸從訓練大模型、推出各種各樣的模型,轉向針對特定使用場景的模型研發與應用落地。
免責聲明:本文觀點僅代表作者本人,供參考、交流,不構成任何建議。
![]()
李曉丹
宏觀經濟研究院秘書長
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.