ロボット除外ファイル - 定義 - サイエンス・ハブ

Web サイトのロボット除外ファイルは、 robots.txtという名前のテキスト形式のファイルで、サイトのルートに配置されます。これにより、一部またはすべてのロボットで考慮すべきでないリソースを指定できますが、ウェブブラウザ。

特に、これは Web マスターが、Web クローラーが検索エンジンからアクセスしたくないサイトの部分にインデックスを付けるのを防ぐために使用されます。

これは「優れた」ロボットが何をすべきかについての単なるガイドラインであり、決してセキュリティ設定ではないことを理解することが重要です。実際、一部のロボットはこのファイルを無視します。これは、個人情報 (スパム送信用の電子メールアドレスなど) を意図的に探しているか、ロボットが単純すぎてこの標準を管理できないためです。

例

すべてのボットがサイト全体にアクセスできるようにします。

ユーザーエージェント: *
禁止:

すべてのボットがサイトにアクセスできないようにブロックします。

ユーザーエージェント: *
許可しない: /

Googlebot を除くすべてのボットが特定のフォルダー (例: http://example.org/forum/)にアクセスできないようにするには

ユーザーエージェント: *
禁止: /フォーラム
ユーザーエージェント: Googlebot
許可しない:

ロボット除外ファイル – 定義

例

参考資料

ロボット除外ファイル – 定義・関連動画