Google 推動將網絡爬蟲機器人規範標準化
同時將其 robot.txt 的解析器轉為開源。
網站用來告訴前來搜刮內容的爬蟲機器人什麼地方能去,什麼不能去的「Robot Exclusion Protocol」(REP)協定雖然早在 1994 年就由荷蘭軟體工程師 Martijn Koster 提出,並由大部份的網站與機器人所遵守,但其實 25 年來它都不是一個真正的「標準」,因此在各家的解析器(Parser)在解譯時可能會有所偏差,而且對於許多特殊的狀況都沒有個明確的規範。
舉例來說,一般爬蟲機器人都是去網站的根目錄尋找 robot.txt 文件,來瞭解網站對於爬蟲機器人活動範圍與頻度的規範,但如果因為任何原因(例如伺服器停擺),使得原本找得到的 robot.txt 找不到了,這時候機器人應該視作無規範、還是照著最後一次讀取的 robot.txt 內容進行?又或者,robot.txt 應該多久去查看一次?太頻繁的話,會增加伺服器無謂的負擔,不夠頻繁的話,新的規格可能要很久才會反應在爬蟲機器人上。這些都是在標準規範出來前很難規定的事項。
做為網路爬蟲機器人的大本營的 Google,自然對於將這些事務規範化極為上心,除了將對 Internet Engineering Task Force 提出將 REP 協定標準化的提案之外,還加碼把自家 Googlebot 機器人的 REP 解析器轉為開放原始碼,以讓標準有一個架構的基礎。當然,這並不是說 Google 的版本會原封不動地成為新標準,在制定的過程中勢必會有不同利益的折衝,但最終只要能有個標準出來,應該是能降低網站的維護成本及來自機器爬蟲的流量,對網站管理者來說怎樣都是個好消息吧。
經由: Engadget