robots.txt でクローラを全拒否する

巡回を全拒否する

robots.txtUser-agent: *
Disallow: /

説明

  • User-agent: *
    • すべてのクローラを対象にする。
  • Disallow: /
    • ルート配下の全ディレクトリを対象にする。

備考:失敗例

robots.txtUser-agent: *
Disallow: 

説明

  • Disallow: (Disallow の未指定)
    • Disallowが未指定の場合、拒否ではなく許可扱いになる。
      • robots.txtは、すべての対象が許可されている前提がある。
      • Disallowが未指定のため、許可しない対象がないことになる。
      • そのため、全許可として処理される。

備考:インデックス

上記のクロール拒否を実施している場合でも、 Google の検索エンジンにインデックスされることがあります。「既にインデックス済みでクロール拒否を後から実施した場合」「外部サイトからリンクが貼られた場合」などです。

robots.txt は、クロール(巡回)を制御するものであり、インデックスを拒否するものではありません。インデックスを拒否したい場合、 noindex を明示的に指示してください。

他の方法(類似する案件)

tag: noindex

<meta name="robots" content="noindex">

noindex は、ロボットにページをインデックスしないように要求します。

tag: nofollow

<meta name="robots" content="nofollow">
<a href="URL" rel="nofollow">Link Text</a>

nofollow は、ロボットにリンク先を参照(巡回)しないように要求します。

HTTP ヘッダー応答: X-Robots-Tag

X-Robots-Tag: noindex, nofollow

HTTP ヘッダー応答を使用して、 「noindex」「nofollow」を指示することもできます。

.htaccess

.htaccessDeny from all

.htaccess ファイルを利用したアクセス制限です。
すべてのアクセスを拒否します。自分のIPアドレスの許可を忘れてはいけません。

参考