Cloudflareが、AIボットによるウェブサイトのコンテンツスクレイピングを防ぐ新しいツールを導入した。このツールは、すべての顧客に無料で提供される。生成AIの急速な発展に伴い、多くの企業がチャットボットのトレーニングデータを収集するためにウェブスクレイピングを行っている現状に対応する画期的な取り組みだ。
AIスクレイピングの現状と課題
近年、AIの発展に伴い、ウェブ上のコンテンツをAIのトレーニングデータとして利用する動きが加速している。ChatGPTがRedditの投稿を利用しているように、多くの企業がウェブスクレイピングツールを使用してサイトからテキストを抽出している。
ウェブスクレイピングを行う企業の中には、その行為を隠さず正直に開示する企業もあれば、そうでない企業も存在する。この状況は、ウェブサイト運営者にとって大きな懸念事項となっている。
主要なAIボットの活動
Cloudflareの調査によると、2024年6月時点で同社のサービスを利用している上位100万件のインターネット資産のうち、約39%にAIボットがアクセスしていたとのことだ。興味深いことに、これらの資産のうちAIボットをブロックする措置を講じていたのはわずか3%未満だった。
最も活発に活動していた上位4つのAIボットは以下の通りだ:
- Bytespider(字節跳動が所有、Doubaoのトレーニングに使用)
- Amazonbot(Alexaの質問回答機能向け)
- ClaudeBot(チャットAI Claudeのトレーニング用)
- GPTBot(ChatGPTのトレーニングに使用)
Cloudflareの新ツール:包括的なAIボット対策
Cloudflareの新ツールは、スクレイピングの適切なプロトコルに従うものも含め、すべてのAIクローラーをブロックする包括的なアプローチを採用している。
この新機能は、2023年9月にリリースされた「悪質な」AIウェブクローラーをブロックする機能の進化版だ。前回の機能では、一部の企業が信頼できるスクレイピングツールを装ってブロックを回避する事態が発生した。今回の新ツールは、そのような抜け道を塞ぐ設計となっている。
ツールの特徴と利用方法
新ツールの特筆すべき点は、その使いやすさだ。Cloudflareのユーザーは、ダッシュボードの設定セクションから簡単にこの機能を有効にできる。「Security」>「Bots」と進み、「AI Scrapers and Crawlers」というトグルボタンをオンにするだけで、AIボットによるコンテンツへのアクセスを遮断できる。
さらに、この機能は有害なボットの「フィンガープリント」を検知する能力を持ち、AIボットの進化に合わせて自動的に更新される。これにより、常に最新の脅威に対応できる仕組みとなっている。
ウェブコンテンツ保護の未来
Cloudflareの新ツールは、ウェブコンテンツ保護の分野に大きな一石を投じたと言える。無料で提供されるこのサービスは、大小問わず多くのウェブサイト運営者にとって朗報となるだろう。
ただし、AIボットも絶えず進化を続けている。Cloudflareの新ツールが効果を発揮し続けるためには、AIボットの進化に追随し続ける必要がある。この点について、Cloudflareは自動的に進化する機能を組み込んでいるとしているが、その効果は今後の展開を見守る必要がある。
ウェブコンテンツ利用の倫理的問題
AIボットによるスクレイピングをめぐっては、技術的な対策だけでなく、倫理的な議論も重要だ。AIの学習に使用するデータの適切な収集方法や、コンテンツ作成者の権利保護など、多くの課題が残されている。
今後は、技術的な対策と並行して、AIボットによるウェブスクレイピングに関する業界標準やガイドラインの策定も必要になってくるだろう。ウェブの自由な発展とコンテンツ創作者の権利保護のバランスをどう取るか、社会全体で議論を深めていく必要がある。