gooなどのサーチエンジンはロボットを使ってホームページを検索しているそうですが,これはどのような仕組みになっているのですか。
サーチエンジンでいうロボットは,考え方としては自動で動くhttpクライアント,つまりWebブラウザのようなものです。
ロボットは,特定の法則に従って動作し,アクセスしたホームページをデータとして保存,その集めたデータがサーチエンジンの検索対象となるデータベースに格納されるわけです。もちろん,データの保存形式,ロボットの動作アルゴリズム,検索アルゴリズムなどは各サーチエンジンによって違います。たいていの場合は,特定のホームページからそこに張られたリンクをたどって次のページを参照するという形で,データを収集しているようです。
ロボットによって,一般に公開したくないホームページが自動的に登録されてしまうのを防ぐための手段として,httpサーバーのルートにrobots.txtというファイルを置き,その中にロボットに参照されたくないページを記しておくという方法も一応あります。
つまりロボットは,/robots.txtというURLを見ることで,参照してはいけないページを知ることができるわけです。詳しくは,
http://info.webcrawler.com/mak/projects/robots/norobots.html
を参照してください。
なお,/robots.txtはたいていの場合,管理者でなくては編集できないと思われます。また,robots.txtがあっても,参照をやめないロボットもあるようです。インターネットサービスプロバイダ(ISP)などと契約してホームページを開設しているユーザーが,どうしても自分のページをロボットに参照されたくない場合には,ページにパスワードをかけるなどの手段が必要になるでしょう。
(恣岡 悄)
goo(http://www.goo.ne.jp/)などはロボット型のエンジンを使用している