AIOの第一歩。AIクローラーの訪問数を把握できるCloudflare AI Crawl Controlを解説 | Cloudflare（クラウドフレア）代理店　株式会社ドーモ　Cloudflare導入実績国内NO.1パートナー

ChatGPTやGemini、Claudeといった生成AIが普及する中、これらのサービスを動かすAI企業は、学習データや回答の材料を集めるために、日々インターネット上のサイトを自動で巡回しています。これを「AIクローラー」と呼びます。
GoogleのようなWeb検索クローラーとは異なり、AIクローラーの目的はあなたのコンテンツをAIの学習や応答生成に活用することです。サイトオーナーとして「うちのコンテンツをAIに使われたくない」「どのAIが来ているか把握したい」と感じるのは自然なことです。

Cloudflareが提供する AI Crawl Control は、こうしたAIクローラーの動きを可視化し、許可・ブロックまで管理できる機能です。

Googleアナリティクスのようなアクセス解析ツールは、ページ上のJavaScriptが実行されることでデータを収集します。
そのため、JavaScriptを実行しないAIクローラーの訪問は、そもそも計測できません。
Cloudflareはサイトへのすべての通信がCloudflareを経由する仕組み上、JavaScriptの実行有無に関わらず、インフラレベルでAIクローラーのアクセスを検知・識別できます。
これがAI Crawl Controlで正確な訪問数を把握できる理由です。

設定不要で全プランですぐに利用できます。

AI Crawl Controlの画面構成

Cloudflareのダッシュボードにログインし、対象のドメインを選択すると、左メニューに「AI Crawl Control」という項目があります。その中に以下の4つの項目があります。

項目名	できること
概要	AI全体の活動をひと目で把握する
クローラー	どのAIが来ているか確認し、許可・ブロックを設定する
メトリクス	トラフィックの詳細データをグラフで確認する
ディレクティブ	robots.txtの状態やAIへの指示を管理する

では、それぞれのページを詳しく見ていきましょう。

概要ページ — まず全体像を把握する

概要ページを開くと、サイトへのAIクローラーのアクセス状況がひと目でわかるサマリーが表示されます。

サマリーカードから何がわかるか

画面中央のサマリーには、たとえばこのような情報が表示されます。

数字の大小より「前より増えているか減っているか」を継続的に見ていくことで効果を可視化できます。

クイックアクション — 3つの設定スイッチ

概要ページの右側には「クイックアクション」として、3つの機能のオン・オフスイッチがあります。

① エージェント用Markdown
AIクローラーがHTMLではなくMarkdown形式でコンテンツを取得できるようにする機能です。オンにするとAIが読みやすい形式でデータを受け取れます。サイトのコンテンツをAIに正確に理解してほしい場合に有効です。

② AIトレーニング用リダイレクト
AIの学習目的クローラーを、コンテンツの古い正規バージョンへリダイレクトする機能です。

③ 管理されたrobots.txt
オンにすると、Cloudflareが自動でrobots.txtを作成・更新し、AIトレーニング用クローラーに対して「学習に使わないでください」というシグナルを送ります。

これらの機能の有効化は必須ではありませんが、「エージェント用Markdown」は有効化しておくとよいでしょう。

クローラーページ — どのAIが来ているか、許可・ブロックを設定する

クローラーページでは、あなたのサイトにアクセスしているAIクローラーの一覧を確認でき、それぞれに対して「許可」か「ブロック」のアクションを設定できます。

クローラー一覧の見方

テーブルには以下の情報が表示されます。

列名	内容
クローラー	クローラーの名前と運営会社
カテゴリ	AI Crawler / AI Search / AI Assistant / Archiverなど
転送バイト数	そのクローラーが取得したデータ量
リクエスト	許可・失敗の件数とトレンドグラフ
アクション	許可 / ブロックの切り替え

実際の画面では、ByteSpider（ByteDance）、BingBot（Microsoft）、ClaudeBot（Anthropic）、GPTBot（OpenAI）など、耳慣れた企業のクローラーが並んでいます。
アクセス数ゼロのクローラーも一覧に含まれており、「非アクティブなクローラーを表示」というチェックボックスで表示を切り替えられます。

カテゴリの意味

クローラーは用途によって分類されています。

AI Crawler — コンテンツの収集・学習が目的
AI Search — AI搭載の検索エンジン向け（Perplexityなど）
AI Assistant — ChatGPTのような対話AIが使うクローラー
Search Engine Crawler — BingやGoogleなど従来の検索エンジン
Archiver — ウェブアーカイブ目的

許可・ブロックの設定方法

各クローラーの右端「アクション」列にある「許可」「ブロック」ボタンをクリックするだけで設定できます。ブロックを選ぶと、そのクローラーからのアクセスはCloudflare WAFによって遮断されます。

どのクローラーをブロックすべきか迷う場合は、まずアクセス数が多いものを確認し、「このAIに使われることに価値を感じるか」を基準に判断するとよいでしょう。
たとえばGoogleやBingはSEOにも関わるため、慎重に判断が必要です。

メトリクスページ — AIトラフィックの詳細データを読む

メトリクスページでは、AIクローラーのアクセスデータをさまざまな角度からグラフで確認できます。概要ページよりも詳しいデータが必要なときに使います。

AI紹介トラフィック

ページ上部の「AI紹介トラフィック」セクションでは、AIがあなたのサイトをどれだけ参照・紹介したかを企業別に表示します。Google、Microsoft（Bing）、DuckDuckGo、Metaなどのランキング形式で確認できます。

「AIが自分のサイトを引用してくれているか？」を知りたい場合に特に役立ちます。

時間経過によるリクエスト

どのクローラーがいつ、どれくらいアクセスしてきたかを時系列グラフで確認できます。急激なスパイク（急増）があった場合、特定のAIが一気にクロールしたことを意味します。

時間経過によるデータ転送

クローラーが実際に持ち出したデータ量（バイト数）のグラフです。リクエスト数が少なくてもデータ転送量が多い場合、ページあたりのコンテンツ量が多いことを示します。

コンテンツ形式

AIクローラーがどの種類のコンテンツにアクセスしているかをドーナツグラフで表示します。Images、HTML、CSS、Markdownなどの割合が確認でき、「AIが主にどんなファイルを取得しているか」がわかります。

ステータスコード分析

AIクローラーへのレスポンスがどのHTTPステータスコードだったかを時系列で確認できます。

ステータス	意味
2xx	正常（アクセス成功）
3xx	リダイレクト
4xx	クライアントエラー（ブロック含む）
5xx	サーバーエラー

ブロック設定が正しく機能しているか確認したいときは、4xxの件数を見るとよいです。

最もクロールされたパス

どのページURLがAIに最もアクセスされているかを確認できます。
特定の記事や商品ページが集中的にクロールされていることに気づけます。

ディレクティブページ — robots.txtの状態を確認・管理する

ディレクティブページでは、「robots.txt」というAIやクローラーへの指示ファイルに関する情報を確認・管理できます。

robots.txtとは

robots.txtとは、Webサイトの特定のディレクトリに置くテキストファイルで、クローラーに対して「ここには来ないでください」という指示を書くためのものです。
ただし、あくまで「お願い」であり、すべてのクローラーがこれを守るとは限りません。

管理されたrobots.txt

ページ上部のトグルスイッチをオンにすると、Cloudflareが自動でrobots.txtを管理してくれます。有効にすることで、コンテンツがAIトレーニングに使われないよう、CloudflareがAIクローラーへシグナルを送ります。

自分でrobots.txtを編集する必要がなくなるため、非エンジニアのサイトオーナーには特に便利な機能です。

エージェントの準備状況

「エージェントの準備状況」パネルでは、robots.txtと関連設定をテストし、サイトがAIエージェントに対応できているかを確認できます。「サイトを確認」リンクから実際にチェックできます。

robots.txtの可用性

この表では、ドメインごとのrobots.txtファイルの状態を一覧で確認できます。

列名	意味
ホスト名	サブドメインを含むドメイン名
リクエスト	robots.txtへのアクセス数（成功/失敗）
ステータス	200 OK / 404 Not Found / 500エラーなど
コンテンツシグナル	AIトレーニング拒否のシグナルが設定されているか

実際の画面では、200 OK（正常）のほか、404 Not Found（robots.txtが存在しない）や500 Internal Server Error（サーバーエラー）になっているサブドメインも確認できます。404や500になっているドメインは、robots.txtが機能していない状態なので、対応が必要です。

「コンテンツシグナル」列が「未設定」のままの場合、AIに対してコンテンツ使用の可否が何も伝わっていない状態です。前述の「管理されたrobots.txt」をオンにするか、自分でrobots.txtを設定することで改善できます。

robots.txtの違反

下部の「robots.txtの違反」セクションでは、robots.txtで拒否したパスにもかかわらずアクセスしてきたクローラーを確認できます。違反が多いクローラーはブロックの候補になります。

AIクローラーの訪問数を継続的に把握するには

Googleアナリティクスでアクセス数を定期的に確認するように、AIクローラーの訪問状況も定点観測する習慣をつけておくと、AIOの効果測定に役立ちます。

見るべき場所は主に2つです。

メトリクスページ

日常的なチェックの起点になります。「時間経過によるリクエスト」グラフでは、AIクローラー全体の訪問数の増減をトレンドとして確認できます。GAでセッション数の推移を見る感覚に近いイメージです。また「AI紹介トラフィック」では、GoogleやPerplexityといったAIサービスが実際に自分のサイトを引用・紹介しているかどうかを企業別に把握できます。

クローラーページ

個別のAIごとの訪問数を見たい場合はクローラーページのリクエスト列を確認します。どのAIが最も多く来ているかが一目でわかります。
なお、概要ページは「異変に気づいたときに最初に開く場所」として使うと便利です。全体のサマリーが表示されるため、急激な増減があればここで把握できます。

最初から全部使いこなす必要はありません。
AI Crawl Controlは設定不要で自動的にデータを収集し始めているため、気軽に開始できます。
ダッシュボードを開いて状況を確認してみましょう。

Web表示スピード改善・セキュリティ対策のCloudflare

導入のご相談だけでなく、運用フェーズでのサポートも承ります。
DDoS攻撃や悪質なBot（ボット）からのアクセスを防ぎたい方、WAF機能やプランの詳細を知りたい方、
国内エンジニアによる安心の運用サポートをご希望の方も、ぜひお気軽にお問い合わせください。

さらに詳しい情報を見る
資料をダウンロード（PDF）無料の診断や導入トライアルご希望など
お問い合わせはこちら