ロボットについて

 データを取得するWWWロボットは現在試作段階のものを運用していますが、robots.txtをはじめとした'A Standard for Robot Exclusion'(WWWロボット制御プロトコル)を遵守しています。巡回ロボット名は「Charlotte/x.xx」(xにはバージョンの数字が入ります)です。ロボットの排除方法等もこれらに従います。


ロボットの排除について

 排除方法については標準的なロボット制御プロトコルである「A Standard for Robot Exclusion」に従います。具体的には次のような方法です。
 ドキュメントルート(サイトのURLが「http://www.hoge.com/~foo/」である場合は、「http://www.hoge.com/」)に、robots.txtという名前のファイルを作り、以下のように記述します。

User-agent: *
Disallow: /

これで、すべてのWWWロボットを排除することが可能になります。
 robots.txtについてのさらに詳しい記述方法は、A Standard for Robot Exclusion(英文)をご参照ください。
 また、METAタグによる排除にも対応しています。ロボットによる情報収集を避けたいHTML文書の<HEAD>〜</HEAD>部分に、以下のように記述します。

<META NAME="robots" CONTENT="noindex,nofollow">

 これらの排除方法は、今後巡回されるサイトにのみ有効です。ロボットによりすでに検索エンジンに登録されており、かつ登録を望まない場合は、URLの削除をご参照ください。