ロボットについて
データを取得するWWWロボットは現在試作段階のものを運用していますが、robots.txtをはじめとした'A Standard for Robot Exclusion'(WWWロボット制御プロトコル)を遵守しています。巡回ロボット名は「Charlotte/x.xx」(xにはバージョンの数字が入ります)です。ロボットの排除方法等もこれらに従います。
ロボットの排除について
排除方法については標準的なロボット制御プロトコルである「A Standard for Robot Exclusion」に従います。具体的には次のような方法です。
ドキュメントルート(サイトのURLが「http://www.hoge.com/~foo/」である場合は、「http://www.hoge.com/」)に、robots.txtという名前のファイルを作り、以下のように記述します。
User-agent: *
Disallow: /
これで、すべてのWWWロボットを排除することが可能になります。
robots.txtについてのさらに詳しい記述方法は、A Standard for Robot Exclusion(英文)をご参照ください。
また、METAタグによる排除にも対応しています。ロボットによる情報収集を避けたいHTML文書の<HEAD>〜</HEAD>部分に、以下のように記述します。
<META NAME="robots" CONTENT="noindex,nofollow">
これらの排除方法は、今後巡回されるサイトにのみ有効です。ロボットによりすでに検索エンジンに登録されており、かつ登録を望まない場合は、URLの削除をご参照ください。
|