1993年,互聯(lián)網(wǎng)還很小。
我每天早上都會收到一個叫做《what’s new on the web》的郵件,上面會列出所有新出現(xiàn)的網(wǎng)站。
沒錯,是所有的新網(wǎng)站。
我常常一邊喝咖啡,一邊瀏覽這些網(wǎng)站,通常10點鐘之前就能看完。
![]()
無聊的時候,我開始自學(xué)Perl,嘗試寫網(wǎng)絡(luò)爬蟲,這些爬蟲是有用的,比如可以用來做網(wǎng)站目錄,統(tǒng)計文檔數(shù),檢查死鏈,網(wǎng)頁評價大小等等。
在測試的時候,我選擇了一個極為愚蠢的起始URL:一個講網(wǎng)絡(luò)爬蟲的知識的網(wǎng)站。
這個網(wǎng)站運行在一家非常小的公司的服務(wù)器上,而且只有一條14.4K的專線。(別覺得14.4K很小,我們公司200人,也就租了一個64K的專線)。
我的爬蟲無意間進(jìn)行了一次拒絕服務(wù)攻擊(DoS),把那個網(wǎng)站搞垮了。
負(fù)責(zé)那個網(wǎng)站的人叫馬丁(Martijn Koster) ,他很生氣,立刻要求我停止那些瘋狂的請求。
馬丁不是一般人,他發(fā)明了世界上第一個Web搜索引擎AliWeb。
![]()
當(dāng)他意識到網(wǎng)絡(luò)爬蟲可能泛濫的時候,他發(fā)明了一套標(biāo)準(zhǔn)的流程:“機(jī)器人排除協(xié)議”(Robots Exclusion Protocol)。
當(dāng)你的網(wǎng)絡(luò)機(jī)器人訪問一個新網(wǎng)站時,需要先去找一個叫 robots.txt 的文件,解析它,然后避開里面列出的目錄或文件。
例如,如果robots.txt長這個樣子:
User-agent: googlebot
Disallow: /private/
它的意思是對于googlebot這個網(wǎng)絡(luò)爬蟲,不允許抓取/private這個目錄下的內(nèi)容。
我覺得我可能寫了第一個遵守 robots.txt 協(xié)議的爬蟲,但可以肯定的是,我是那個逼得它被發(fā)明出來的蠢蛋。
0 1
君子協(xié)定,神奇運行30年
上面的故事來自查爾斯·斯特羅斯 (Charles Stross) 的自述,非常生動地講述了robots.txt被發(fā)明的過程。
它并不是一個委員會設(shè)計出來的規(guī)范,而是早期的互聯(lián)網(wǎng)用戶為了解決問題被迫發(fā)明的方法。
馬丁只是把這個辦法發(fā)到了WWW-Talk的郵件列表中,然后成員們討論robots.txt的基本語言和結(jié)構(gòu),最后達(dá)成一致,所有人都開始支持robots.txt。
它不像TCP/IP,你不支持就無法聯(lián)網(wǎng),它是一個君子協(xié)定,是否遵守完全看網(wǎng)絡(luò)爬蟲編寫者的意愿。
這有點兒像在你敞開的房間門口立上一塊牌子:禁止入內(nèi)。
![]()
網(wǎng)絡(luò)爬蟲/機(jī)器人看到了,就真的不進(jìn)入這個房間了,不管這個房間里有多少寶貝。
讓人驚奇的是,在長達(dá)30年的時間內(nèi),robots.txt運轉(zhuǎn)良好。
為什么它能活下來?
在早期,原因只有一個:不守規(guī)矩的機(jī)器人,會被全網(wǎng)封殺
在那個小圈子里,“流氓機(jī)器人”的IP會被拉黑,域名會被公開點名,這是致命的名譽(yù)風(fēng)險。
0 2
最遵守robots.txt的公司贏了
時間很快來到90年代末,互聯(lián)網(wǎng)迅猛擴(kuò)張,海量的網(wǎng)站一個上午絕對是看不完了。
那些藏在世界各地的網(wǎng)站,不通過搜索引擎,無論如何也是找不到的。
于是,搜索引擎和網(wǎng)站之間就robots.txt達(dá)成了完美的默契。
網(wǎng)站允許Google爬蟲抓取自己的網(wǎng)頁,這樣它們就可能展示到搜索結(jié)果中,給自己帶來巨大的曝光流量。
而Google也嚴(yán)格遵循robots.txt的規(guī)定,將流量導(dǎo)致其他網(wǎng)站,同時在搜索結(jié)果中投放廣告。
這是一次極為成功的價值交換:你讓我爬數(shù)據(jù),我給你流量。
![]()
雖然robots.txt此時已經(jīng)成為事實標(biāo)準(zhǔn),但世界那么大,總有不遵守robots.txt的公司。
尤其是那些信息聚合網(wǎng)站,無視robots.txt的約定,從別人的網(wǎng)站抓取數(shù)據(jù)(例如新聞,產(chǎn)品信息),聚合后放到自己的網(wǎng)站上。
例如美國的Bidder's Edge(簡稱BE),它建立了一個拍賣信息的聚合網(wǎng)站,專門從包括eBay在內(nèi)的各個拍賣網(wǎng)站去收集信息,這樣BE的用戶就可以輕松搜索互聯(lián)網(wǎng)上的拍賣信息,而無需訪問單獨的拍賣網(wǎng)站。
這eBay肯定不能忍,由于robots.txt是個君子協(xié)定,它只好去限制BE爬蟲的IP地址,但是BE通過代理服務(wù)器,繞過了IP的限制。
eBay沒辦法,最后一紙訴狀把BE告上了法庭,2000年5月,法院以非法入侵為由,禁止BE以任何自動手段抓取eBay服務(wù)器的數(shù)據(jù)。
0 3
君子協(xié)議被撕毀
2017年,一個致力于保存互聯(lián)網(wǎng)的網(wǎng)站“互聯(lián)網(wǎng)檔案館”,干了一件震動圈子的事情:不再遵守robots.txt。
互聯(lián)網(wǎng)檔案館的理由很直接:robots.txt是為了“搜索”設(shè)計的,我的目標(biāo)是保存所有網(wǎng)頁的快照,保存人類的互聯(lián)網(wǎng)文明,所以沒必要遵守。
不過這件事兒沒有引起太大波瀾,因為互聯(lián)網(wǎng)檔案館是個非盈利的機(jī)構(gòu),它即使不遵守robots.txt,把所有數(shù)據(jù)都爬了下來,但依然免費開放,不會拿這些數(shù)據(jù)去盈利。
但是對于AI公司來說,一切都不一樣了。
如果你開了一家AI公司,嚴(yán)格遵守robots.txt,而你的競爭對手通過換UA/IP,偷偷地多抓取一些,結(jié)果會如何呢?
你公司的模型由于訓(xùn)練數(shù)據(jù)少,自然比不上競爭對手。
用戶會因為你的道德規(guī)范高而支持你嗎?不會,他們肯定都跑到競爭對手那里去了。
“如果我守規(guī)矩,而對手不守,我就輸了,所以我也不能遵守”。
![]()
抓數(shù)據(jù)其實也沒啥,要命的是流量無法回流到網(wǎng)站了:
(1)網(wǎng)站內(nèi)容被吸干,流量消失。
(2)AI直接給出答案,用戶再也不會去原來的網(wǎng)站。
(3)內(nèi)容的創(chuàng)作者,喪失署名權(quán),沒有分成。
所有的網(wǎng)站都感受到脊背發(fā)涼:AI不是給我?guī)砹髁康模莵砣〈业摹?/p>
所以,一定要屏蔽掉那些AI公司的爬蟲!
2023 年,Originality.AI統(tǒng)計發(fā)現(xiàn),在訪問量最高的 1000 個網(wǎng)站中,有 306 個在其 robots.txt 文件中屏蔽了 OpenAI 的 GPTBot,85 個屏蔽了谷歌的 Google-Extended。
BBC 和 《 紐約時報》 等新聞網(wǎng)站普遍禁止訪問 GPTBot。2023 年,博客平臺 Medium 宣布將禁止所有人工智能網(wǎng)絡(luò)爬蟲訪問。
OpenAI也擺出了高姿態(tài),說要遵守robots.txt,自家爬蟲的名字就叫GPTBot,它還發(fā)布并推廣了一個頁面,“貼心”地教人們?nèi)绾卧趓obots.txt中屏蔽它。
但是,這一切發(fā)生在“強(qiáng)大的底層模型已經(jīng)訓(xùn)練完成之后”。
換句話說:“你的模型已經(jīng)吃飽了,你才開始講禮貌?” 這誰受得了?
robots.txt 是建立在“善意 + 搜索回流”之上的制度,而 AI 打破了這三點。
0 4
尾聲
robots的結(jié)構(gòu)性缺陷,在AI時代徹底暴露。
2025 年,非營利組織 RSL Collective 宣布推出Really Simple Licensing(RSL),對robots.txt進(jìn)行了一次升級,允許網(wǎng)站發(fā)布者在 robots.txt 中明確設(shè)置 AI 爬蟲的使用條款,例如:
AI-Commercial: license-requiredRSL 標(biāo)志著 robots.txt 從“爬蟲禮貌手冊”升級成了“產(chǎn)權(quán)聲明”,它不阻止AI,而是想讓AI回到一個可以談條件,講規(guī)則的世界。
那些巨頭們會不會遵守RSL呢? 讓我們拭目以待吧!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.