<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      互聯網上人人遵守的君子協定,正在被AI撕得粉碎!

      0
      分享至

      1993年,互聯網還很小。

      我每天早上都會收到一個叫做《what’s new on the web》的郵件,上面會列出所有新出現的網站。

      沒錯,是所有的新網站。

      我常常一邊喝咖啡,一邊瀏覽這些網站,通常10點鐘之前就能看完。


      無聊的時候,我開始自學Perl,嘗試寫網絡爬蟲,這些爬蟲是有用的,比如可以用來做網站目錄,統計文檔數,檢查死鏈,網頁評價大小等等。

      在測試的時候,我選擇了一個極為愚蠢的起始URL:一個講網絡爬蟲的知識的網站。

      這個網站運行在一家非常小的公司的服務器上,而且只有一條14.4K的專線。(別覺得14.4K很小,我們公司200人,也就租了一個64K的專線)。

      我的爬蟲無意間進行了一次拒絕服務攻擊(DoS),把那個網站搞垮了。

      負責那個網站的人叫馬丁(Martijn Koster) ,他很生氣,立刻要求我停止那些瘋狂的請求。

      馬丁不是一般人,他發明了世界上第一個Web搜索引擎AliWeb。


      當他意識到網絡爬蟲可能泛濫的時候,他發明了一套標準的流程:“機器人排除協議”(Robots Exclusion Protocol)。

      當你的網絡機器人訪問一個新網站時,需要先去找一個叫 robots.txt 的文件,解析它,然后避開里面列出的目錄或文件。

      例如,如果robots.txt長這個樣子:

      User-agent: googlebot

      Disallow: /private/

      它的意思是對于googlebot這個網絡爬蟲,不允許抓取/private這個目錄下的內容。

      我覺得我可能寫了第一個遵守 robots.txt 協議的爬蟲,但可以肯定的是,我是那個逼得它被發明出來的蠢蛋。

      0 1

      君子協定,神奇運行30年

      上面的故事來自查爾斯·斯特羅斯 (Charles Stross) 的自述,非常生動地講述了robots.txt被發明的過程。

      它并不是一個委員會設計出來的規范,而是早期的互聯網用戶為了解決問題被迫發明的方法。

      馬丁只是把這個辦法發到了WWW-Talk的郵件列表中,然后成員們討論robots.txt的基本語言和結構,最后達成一致,所有人都開始支持robots.txt。

      它不像TCP/IP,你不支持就無法聯網,它是一個君子協定,是否遵守完全看網絡爬蟲編寫者的意愿。

      這有點兒像在你敞開的房間門口立上一塊牌子:禁止入內。


      網絡爬蟲/機器人看到了,就真的不進入這個房間了,不管這個房間里有多少寶貝。

      讓人驚奇的是,在長達30年的時間內,robots.txt運轉良好。

      為什么它能活下來?

      在早期,原因只有一個:不守規矩的機器人,會被全網封殺

      在那個小圈子里,“流氓機器人”的IP會被拉黑,域名會被公開點名,這是致命的名譽風險。

      0 2

      最遵守robots.txt的公司贏了

      時間很快來到90年代末,互聯網迅猛擴張,海量的網站一個上午絕對是看不完了。

      那些藏在世界各地的網站,不通過搜索引擎,無論如何也是找不到的。

      于是,搜索引擎和網站之間就robots.txt達成了完美的默契。

      網站允許Google爬蟲抓取自己的網頁,這樣它們就可能展示到搜索結果中,給自己帶來巨大的曝光流量。

      而Google也嚴格遵循robots.txt的規定,將流量導致其他網站,同時在搜索結果中投放廣告。

      這是一次極為成功的價值交換:你讓我爬數據,我給你流量。


      雖然robots.txt此時已經成為事實標準,但世界那么大,總有不遵守robots.txt的公司。

      尤其是那些信息聚合網站,無視robots.txt的約定,從別人的網站抓取數據(例如新聞,產品信息),聚合后放到自己的網站上。

      例如美國的Bidder's Edge(簡稱BE),它建立了一個拍賣信息的聚合網站,專門從包括eBay在內的各個拍賣網站去收集信息,這樣BE的用戶就可以輕松搜索互聯網上的拍賣信息,而無需訪問單獨的拍賣網站。

      這eBay肯定不能忍,由于robots.txt是個君子協定,它只好去限制BE爬蟲的IP地址,但是BE通過代理服務器,繞過了IP的限制。

      eBay沒辦法,最后一紙訴狀把BE告上了法庭,2000年5月,法院以非法入侵為由,禁止BE以任何自動手段抓取eBay服務器的數據。

      0 3

      君子協議被撕毀

      2017年,一個致力于保存互聯網的網站“互聯網檔案館”,干了一件震動圈子的事情:不再遵守robots.txt。

      互聯網檔案館的理由很直接:robots.txt是為了“搜索”設計的,我的目標是保存所有網頁的快照,保存人類的互聯網文明,所以沒必要遵守。

      不過這件事兒沒有引起太大波瀾,因為互聯網檔案館是個非盈利的機構,它即使不遵守robots.txt,把所有數據都爬了下來,但依然免費開放,不會拿這些數據去盈利。

      但是對于AI公司來說,一切都不一樣了。

      如果你開了一家AI公司,嚴格遵守robots.txt,而你的競爭對手通過換UA/IP,偷偷地多抓取一些,結果會如何呢?

      你公司的模型由于訓練數據少,自然比不上競爭對手。

      用戶會因為你的道德規范高而支持你嗎?不會,他們肯定都跑到競爭對手那里去了。

      “如果我守規矩,而對手不守,我就輸了,所以我也不能遵守”。


      抓數據其實也沒啥,要命的是流量無法回流到網站了:

      (1)網站內容被吸干,流量消失。

      (2)AI直接給出答案,用戶再也不會去原來的網站。

      (3)內容的創作者,喪失署名權,沒有分成。

      所有的網站都感受到脊背發涼:AI不是給我帶來流量的,而是來取代我的。

      所以,一定要屏蔽掉那些AI公司的爬蟲!

      2023 年,Originality.AI統計發現,在訪問量最高的 1000 個網站中,有 306 個在其 robots.txt 文件中屏蔽了 OpenAI 的 GPTBot,85 個屏蔽了谷歌的 Google-Extended。

      BBC 和 《 紐約時報》 等新聞網站普遍禁止訪問 GPTBot。2023 年,博客平臺 Medium 宣布將禁止所有人工智能網絡爬蟲訪問。

      OpenAI也擺出了高姿態,說要遵守robots.txt,自家爬蟲的名字就叫GPTBot,它還發布并推廣了一個頁面,“貼心”地教人們如何在robots.txt中屏蔽它。

      但是,這一切發生在“強大的底層模型已經訓練完成之后”。

      換句話說:“你的模型已經吃飽了,你才開始講禮貌?” 這誰受得了?

      robots.txt 是建立在“善意 + 搜索回流”之上的制度,而 AI 打破了這三點。

      0 4

      尾聲

      robots的結構性缺陷,在AI時代徹底暴露。

      2025 年,非營利組織 RSL Collective 宣布推出Really Simple Licensing(RSL),對robots.txt進行了一次升級,允許網站發布者在 robots.txt 中明確設置 AI 爬蟲的使用條款,例如:

      AI-Commercial: license-required

      RSL 標志著 robots.txt 從“爬蟲禮貌手冊”升級成了“產權聲明”,它不阻止AI,而是想讓AI回到一個可以談條件,講規則的世界。

      那些巨頭們會不會遵守RSL呢? 讓我們拭目以待吧!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      90后男生上門喂貓,春節前后20多天賺16萬,最多1天跑55單只睡3小時,律師提醒:上門喂貓需提前明確責任

      90后男生上門喂貓,春節前后20多天賺16萬,最多1天跑55單只睡3小時,律師提醒:上門喂貓需提前明確責任

      瀟湘晨報
      2026-02-18 16:28:53
      維穩辦不能變成欺壓辦,孫玉良:真正的穩定是讓弱勢群體揚眉吐氣

      維穩辦不能變成欺壓辦,孫玉良:真正的穩定是讓弱勢群體揚眉吐氣

      孫玉良
      2026-02-23 08:18:07
      怪發型,唇穿孔,冬奧花滑華裔冠軍叛逆征服了全世界!

      怪發型,唇穿孔,冬奧花滑華裔冠軍叛逆征服了全世界!

      ChicMyGeek
      2026-02-24 17:10:12
      75歲張藝謀再掀桌:比748萬罰款更狠的,是陳婷留的這一手!

      75歲張藝謀再掀桌:比748萬罰款更狠的,是陳婷留的這一手!

      手工制作阿殲
      2026-02-24 16:41:37
      巴拿馬政府強行接管長和營運的兩個港口,中方回應:將堅決維護企業的正當合法權益!

      巴拿馬政府強行接管長和營運的兩個港口,中方回應:將堅決維護企業的正當合法權益!

      每日經濟新聞
      2026-02-24 18:05:18
      母親獨自農村過年,女兒打開監控淚目了,客廳堆滿柴卻沒一點聲音

      母親獨自農村過年,女兒打開監控淚目了,客廳堆滿柴卻沒一點聲音

      子芫伴你成長
      2026-02-24 08:10:06
      當因殺死毒販,而讓半個國家燃起戰火后,終于理解了墨西哥的絕望

      當因殺死毒販,而讓半個國家燃起戰火后,終于理解了墨西哥的絕望

      閱微札記
      2026-02-24 17:06:05
      中美俄意見一致,寧可讓日本從地球上消失,也堅決不允許它擁核!

      中美俄意見一致,寧可讓日本從地球上消失,也堅決不允許它擁核!

      老范談史
      2026-02-23 20:33:48
      別再吹天生混血臉了,谷愛凌那一頭標志性的金發藏不住天然的黑發

      別再吹天生混血臉了,谷愛凌那一頭標志性的金發藏不住天然的黑發

      西樓知趣雜談
      2026-02-24 16:14:33
      戲子誤國!2026年剛開年,就有3位明星相繼塌房,個個荒唐

      戲子誤國!2026年剛開年,就有3位明星相繼塌房,個個荒唐

      林輕吟
      2026-02-24 07:14:49
      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      最美的開始
      2026-02-24 19:00:14
      村里紅白事從不回,男子母親離世,鄰居等著看笑話,結果長了見識

      村里紅白事從不回,男子母親離世,鄰居等著看笑話,結果長了見識

      子芫伴你成長
      2026-02-23 12:21:40
      A股:今天上沖到4131后回落,種種跡象表明,明天或出現巨變大行情

      A股:今天上沖到4131后回落,種種跡象表明,明天或出現巨變大行情

      股市皆大事
      2026-02-24 16:08:16
      “茶幾”正在退出中國家庭,學廣東人這樣做,實用性讓人大開眼界

      “茶幾”正在退出中國家庭,學廣東人這樣做,實用性讓人大開眼界

      室內設計師有料兒
      2026-02-19 11:17:18
      從全球第一到業績腰斬!公牛集團被房地產拖垮,十幾億準備跑路

      從全球第一到業績腰斬!公牛集團被房地產拖垮,十幾億準備跑路

      小熊侃史
      2026-01-08 07:55:06
      OpenClaw刪光Meta安全總監郵箱!連喊3次停手都沒用,她狂奔去拔網線

      OpenClaw刪光Meta安全總監郵箱!連喊3次停手都沒用,她狂奔去拔網線

      新智元
      2026-02-24 12:33:20
      同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區別大,難怪煮出來不一樣

      同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區別大,難怪煮出來不一樣

      阿龍美食記
      2026-02-23 17:00:18
      新加坡大滿貫賽:大捷報!林詩棟3:0大獲全勝,王皓起身鼓掌加油

      新加坡大滿貫賽:大捷報!林詩棟3:0大獲全勝,王皓起身鼓掌加油

      國乒二三事
      2026-02-24 14:02:13
      京東上的假貨,為何如此招搖?

      京東上的假貨,為何如此招搖?

      呦呦鹿鳴
      2026-02-22 21:20:32
      全球頭號毒販被斃,墨西哥的天正在晴,也基本順特朗普了

      全球頭號毒販被斃,墨西哥的天正在晴,也基本順特朗普了

      邵旭峰域
      2026-02-24 10:49:17
      2026-02-24 22:48:49
      碼農翻身 incentive-icons
      碼農翻身
      有趣且硬核的技術文章
      228文章數 627關注度
      往期回顧 全部

      科技要聞

      宇樹科技發布四足機器人Unitree As2

      頭條要聞

      白宮答伊朗問題:特朗普首選是外交 必要時也愿用武力

      頭條要聞

      白宮答伊朗問題:特朗普首選是外交 必要時也愿用武力

      體育要聞

      蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

      娛樂要聞

      汪小菲官宣三胎出生:承諾會照顧好3個孩子

      財經要聞

      縣城消費「限時繁榮」了十天

      汽車要聞

      入門即滿配 威蘭達AIR版上市 13.78萬元起

      態度原創

      手機
      旅游
      教育
      時尚
      游戲

      手機要聞

      PGYTECH預熱RetroVa手機攝影套裝下月國內上市

      旅游要聞

      一房難求,人潮狂涌!韶關春節旅游收入破21億

      教育要聞

      提前返程背后的真相:父母的“精明賬”,是給孩子最好的守護

      闊腿褲失寵了?這4條褲子承包你整個春天的時髦!

      LPL季后賽:一局更比一局快,AL橫掃WE,輕松晉級

      無障礙瀏覽 進入關懷版