![]()
根據Cloudflare發布的2025年度互聯網回顧報告,ChatGPT的網絡爬蟲GPTBot已成為互聯網上最受阻止的機器人,而其最大競爭對手谷歌則是最受允許的爬蟲。更有趣的是,雖然ChatGPT是最受阻止的機器人,但實際上Anthropic的Claude AI引擎對網站所有者來說是最缺乏互惠價值的服務。
每年,互聯網基礎設施公司Cloudflare都會發布互聯網現狀分析報告。今年的重要發現包括:
互聯網流量增長19%,星鏈流量激增130%。谷歌仍是最受歡迎的互聯網平臺,ChatGPT成為最受歡迎的AI問答引擎。Facebook依然是最受歡迎的社交服務,YouTube在流媒體領域獲勝。非人類機器人現在占互聯網流量的56.5%,而人類用戶僅占43.5%。
機器人使用情況分析
機器人使用量已超過互聯網活動的50%。最常見的機器人是谷歌和必應等搜索引擎機器人,但增長最快的是來自AI服務的機器人,它們希望獲得谷歌已經掌握的所有信息。GPTBot在夏末的使用量激增了305%。
然而,一些網站所有者不希望AI了解他們提供的所有內容,因此通過robots.txt文件阻止AI爬蟲。這是一種簡單的方式來表達"不要查看我的內容"。值得注意的是,遵守這一規定完全是自愿的,AI服務Perplexity就被指控忽視robots.txt聲明,無視限制繼續爬取網站。
爬蟲阻止與允許情況
2025年最受阻止的網絡爬蟲是OpenAI的GPTBot。第二受阻止的是CCBot,由一個聲稱維護開源網絡內容數據庫的非營利組織提供。谷歌的爬蟲排名第三。
然而,由于人們仍希望從谷歌獲得網絡流量,谷歌的機器人也是互聯網上最受允許的機器人,其次是微軟的必應機器人,第三名是OpenAI的GPTBot。
這種看似矛盾的現象反映了不同網站所有者的不同策略。一些網站所有者希望被看到和使用,認為這有助于他們成長;而另一些則選擇封閉,認為機器人在沒有充分補償的情況下奪取了價值。
爬取與推薦比率分析
Cloudflare提供的爬取推薦比率圖表揭示了公司允許服務爬取其網站時的隱含交易條件。該比率很簡單:我的網站被機器人分析或搜索多少次,相對于該服務向我發送多少真實人類用戶。
傳統搜索引擎在這方面表現最佳,相比AI引擎提供更多回報流量:
谷歌:約10比1(每發送1個訪客需要10次爬取)
百度:約1比1
DuckDuckGo:約1比1
微軟:約100比1(主要是必應)
Perplexity:約100比1
OpenAI/ChatGPT:約1000比1
Anthropic:約100000比1
作為網站所有者,1比1的爬取推薦比率幾乎是理想狀態,10比1還不錯,100比1甚至1000比1都可以理解。但100000比1意味著大量爬取卻幾乎沒有可察覺的回報。
其他有趣發現
Cloudflare 2025年雷達報告中最奇特的消息是,惡意和垃圾郵件最危險的域名是.christmas。因此在今年慶祝節日時,不要打開任何來自包含"Christmas"字樣域名的郵件。
報告還顯示,互聯網中斷的最大原因不是事故或災難,而是政府指令關閉。美國占全球機器人流量的40%,5.6%的電子郵件包含惡意攻擊。
Q&A
Q1:GPTBot為什么成為最受阻止的網絡爬蟲?
A:GPTBot是ChatGPT的網絡爬蟲,用于收集互聯網信息并轉化為知識。許多網站所有者認為AI機器人在沒有充分補償的情況下獲取了他們的內容價值,因此選擇通過robots.txt文件阻止GPTBot訪問。同時,GPTBot的使用量在夏末激增了305%,增加了網站的負擔。
Q2:爬取推薦比率是什么意思?
A:爬取推薦比率是指AI服務或搜索引擎爬取網站的次數與向該網站發送真實用戶訪問次數的比例。例如,谷歌的比率約為10比1,意味著每爬取10次會發送1個用戶;而Anthropic的比率高達100000比1,意味著爬取10萬次才發送1個用戶,這對網站所有者來說價值極低。
Q3:為什么谷歌既是最受阻止也是最受允許的爬蟲?
A:這反映了不同網站所有者的不同策略。谷歌作為最大的搜索引擎,一些網站希望被谷歌收錄以獲得流量,因此允許其爬蟲;但另一些網站擔心內容被過度利用而選擇阻止。谷歌的爬取推薦比率相對合理(約10比1),比AI服務提供更多回報流量。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.