自分のサイトに検索エンジンでヒットさせたくないページがあるのです。
robot.txtをトップディレクトリに作ります
検索エンジンの仕掛けは、「A Standard for Robot Exclusion」という規則に基づいて作ることになっています。
そういうことを知らない人が作ったフリーソフトなどでは分かりませんが、大手の検索エンジンサイトはメーカ品を使っていますので規則に従っているものと考えられます。
その定義で言えば、<META>タグの記述方法と、「robot.txt」というファイルで「ロボット登録」を抑制することができます。
「A Standard for Robot Exclusion」の概略
そもそもインターネット上の情報はオープンなものですが、中にはアクセスされるのは良いが、検索エンジンなどに登録されるのは困る場合やページもあります。
このStandardでは主にロボットへの登録を抑制することを目的に制定されています。
しかし、逆に利用すれば、登録されやすくしたり、指定した検索ロボットだけに登録したり、また、コンテンツ毎に登録を制御したりもできます。
アクセス記述ファイル
ホームディレクトリ(トップディレクトリ)に「robots.txt」という名のアクセス記述ファイルを設置することにより、ロボットのアクセスを制御できます。
アクセス記述ファイルのフォーマット
1つ以上のレコードから構成される
レコードの区切りは、1行以上の空行である(レコードの途中に空行を入れてはならない)
行の終端は、[CR]、[CR/LF]、[LF]のいずれかである
行は   <フィールド>:<0個以上の空白文字><値><0個 以上の空白文字>   という形式である
<フィールド>は、大文字/小文字を区別しない
“#”文字があると、“#”の直前にある0個以上の空白文字からその行の終 端まではコメントとして扱われる
コメントのみから成る行は空行とはみなされず、レコード区切り にはならない
各レコードは1行以上の“User-agent”行で開始され、1行以上の “Disallow” 行が続く
“User-agent”は、ルールが適用されるrobot プログラムの名前を指定する
“User-agent”行の値「*」は『全ての』robot プログラムを意味する
“Disallow”行の値には、アクセスを禁止するURLのフル・パス、または パス名の一部を記述する
robot.txtの書き方サンプル
"NEC-MeshExplorer"以外のロボットに対しては、パス名が"/cgi-bin/"と"/hyper/"で始まるURLを探索しないように通知します。
# すべてのエンジンに対し、CGIプログラムと/hyper/はディレクトリ情報を公開しない
User-agent: *
Disallow: /cgi-bin/
Disallow: /hyper/
# NEC-MeshExplorerにはすべての探索を許可する
User-agent: NEC-MeshExplorer
Disallow:
|
ロボットの種類
色々なメーカ(日本ではNEC、富士通がメジャー)が製品化しているものがあり、海外では数十種類も発表されている。
広義ではワーム、クロウラー、スパイダー、アントなどと呼ばれるものもある。中でも自己増殖型のものをワームといい、検索データベースというより、
コンピュータウィルスとして名を轟かせている。
<META>タグの記述で抑制する
<head> ... </head>の間のヘッダ部分に<META>タグを以下の要領で挿入します。
<META NAME="ROBOTS" CONTENT="●●">
●●=NOINDEX : 検索するときに、このページが出ないようにします。
●●=NOFOLLOW : このページのリンクを辿らないようにします。
両方を指定するときはカンマ区切り","で続けて書くか、"NONE"ときます。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
|
または
<META NAME="ROBOTS" CONTENT="NONE">
|