robots.txt でクローラを全拒否する
巡回を全拒否する
robots.txtUser-agent: *
Disallow: /説明
User-agent: *- すべてのクローラを対象にする。
Disallow: /- ルート配下の全ディレクトリを対象にする。
備考:失敗例
robots.txtUser-agent: *
Disallow: 説明
Disallow:(Disallow の未指定)Disallowが未指定の場合、拒否ではなく許可扱いになる。robots.txtは、すべての対象が許可されている前提がある。Disallowが未指定のため、許可しない対象がないことになる。- そのため、全許可として処理される。
備考:インデックス
上記のクロール拒否を実施している場合でも、 Google の検索エンジンにインデックスされることがあります。「既にインデックス済みでクロール拒否を後から実施した場合」「外部サイトからリンクが貼られた場合」などです。
robots.txt は、クロール(巡回)を制御するものであり、インデックスを拒否するものではありません。インデックスを拒否したい場合、 noindex を明示的に指示してください。
他の方法(類似する案件)
tag: noindex
<meta name="robots" content="noindex">noindex は、ロボットにページをインデックスしないように要求します。
tag: nofollow
<meta name="robots" content="nofollow">
<a href="URL" rel="nofollow">Link Text</a>nofollow は、ロボットにリンク先を参照(巡回)しないように要求します。
HTTP ヘッダー応答: X-Robots-Tag
X-Robots-Tag: noindex, nofollowHTTP ヘッダー応答を使用して、 「noindex」「nofollow」を指示することもできます。
.htaccess
.htaccessDeny from all.htaccess ファイルを利用したアクセス制限です。
すべてのアクセスを拒否します。自分のIPアドレスの許可を忘れてはいけません。