Cloudflare 出手協助網站抵禦 AI 機器人的「爬」竊

為了訓練 AI 模型,愈來愈多科技公司的內容機器人選擇不尊重網站的內容規則。

Cloudflare

以提供內容傳遞(CDN)和防止網路攻擊等服務知名的雲端服務提供商 Cloudflare,稍早發表了一個新的免費工具,可以防止 AI 公司的機器人隨意抓取其客戶網站的內容,來訓練大型語言模型。Cloudflare 將此工具開放給所有客戶使用,甚至包括免費套餐用戶在內。該公司並表示,未來他們會持續監控大規模抓取網路內容,以用於模型訓練的惡意機器人,並且自動更新防護。

在一篇部落格文章中,Cloudflare 還分享了一些與 AI 內容爬取機器人有關的數據。過去一年中,最「活躍」的機器人竟是字節跳動的 Bytespider 機器人,它嘗試爬取了 Cloudflare 監管下的 40% 的網站;第二名的 OpenAI 的「GPTBot」 也不惶多讓,嘗試訪問了其中的 35%。如果以請求數量來計算,它們兩個再加上 Amazonbot 和 ClaudeBot 則佔據了前四的排名。

現況是,在大型科技公司為了取得內容來訓練 AI 模型,已經近乎不擇手段的情況下,要完全阻止 AI 機器人訪問內容變得非常困難。為了能在競爭激烈的 AI 領域取得先機,一些公司選擇遊走灰色地帶,或甚至直接無視現有的機器人規則。大概也只有像 Cloudflare 這樣規模龐大的後端公司認真進行防護,才比較有機會制止這種行為吧。

Cloudflare 表示:「我們擔心一些 AI 公司為了繞過禁止訪問的規則,會不斷調整以逃避機器人檢測。我們將繼續監測,並向我們的防護機制添加更多機器人攔截措施,同時不斷發展我們的機器學習模型。我們希望能幫助內容創作者,讓其可以在網路上蓬勃發展的同時,也能完全地控制其內容是否用於 AI 訓練或模型推導。」

緊貼最新科技資訊、網購優惠,追隨 Yahoo Tech 各大社交平台!

🎉📱 Tech Facebook:https://www.facebook.com/yahootechhk

🎉📱 Tech Instagram:https://www.instagram.com/yahootechhk/

🎉📱 Tech WhatsApp 社群:https://chat.whatsapp.com/Dg3fiiyYf3yG2mgts4Mii8

🎉📱 Tech WhatsApp 頻道:https://whatsapp.com/channel/0029Va91dmR545urVCpQwq2D