本家ヤースケ伝

年取ってから困ること、考えること、興味を惹かれること・・の総集編だろうか。

巡回ロボットが日夜情報収集をしている。

2014-07-06 13:39:42 | web・メディア
 所謂「巡回ロボット」についてNTTPC COMMUNICATIONSにはこうある。 ↓

【巡回ロボット】
クローラー
クローリング
クロール

 現在、多くの検索サイトはロボット型といわれるタイプで、ロボットと呼ばれるプログラムが世界中のウェブページの情報を自動的に集めている。

 この、世界中のウェブページを巡回するロボットのことを、クローラーと呼んでいる。または、巡回ロボットということもある。そして、データを収集することをクロールまたはクローリングという。

 クローラーによって収集された情報は、検索サイトのコンピュータに保存され、そのデータが検索の対象になる。逆にいうと、クローラーによってデータが収集されるまで、そのウェブページは検索対象にならない。

============

お行儀の悪い巡回ロボット」という記事もあった。(但しこのサイトは過去に「荒らし」にあっていたということで、管理人自らがウイルス感染の注意を喚起しているので、危ないなと思う向きは行かない方が賢い。w) ↓

現在位置のナビ
トップ → コンピュータの国 → 雑記帳 → お行儀の悪い巡回ロボット

説明

WEB の世界には巡回ロボットというものが存在します。 主に検索エンジンで表示するページ情報を集めるために、 世界中の WEB をめぐって HTML ファイルを調べています。

検索エンジンに使用する以外にも、 技術的、統計的な研究のために 大学や企業が巡回ロボットを動かすことがあるようです。 ここでは、当サイトを訪れる巡回ロボットのうち、 お行儀の悪いものについて解説します。

IBM の場合

ホスト wfp2.almaden.ibm.com から巡回ロボットのアクセスが来ます。 このロボットは、 HTML ファイルの METAタグでロボットに指示してあることを無視します。

WEB は全ての人に対して公開している情報ばかりではありません。 中には一部の人を対象にした情報や、 制限付きライセンスで公開されたフリーソフトも存在します。 そのように『巡回ロボットに発見して欲しくないページ』 をロボットに知らせる手段が存在します。

1つは /robots.txt というファイルを用意して、その中にアクセスして欲しくないページを列挙する方法です。

もう1つは、 アクセスして欲しくない HTMLファイルにロボット宛の META タグを記述して『このページのことは忘れてくれ』『この先のリンクはたどるな』 などと指示する方法です。

どちらも一般的な手法ですが、巡回ロボットはこれに従う義務はありません。

IBM の巡回ロボットは、一つめの方法をサポートしているのですが、 二つめの方法をサポートしていません。 当サイトでは一つめの方法を採用していません。 なぜなら、 アクセスして欲しくないページ情報を /robots.txt ファイルに書くと、 /robots.txt ファイルを覗くことで アクセスして欲しくないページを見付けられてしまうからです。 このような理由により一つめの方法は今では推奨されていません。 ところが IBM は一つめだけを採用して2番目を採用していないのです。 採用の義務が無いとはいえ、 インターネットを使った e-business を推進している国際企業が こんなところで手を抜いているのは非常にアンバランスです。 この巡回ロボットを運営している部署は IBM の中でレベルの低い部署ではないかなどと勘ぐってしまいます。

そのほか、IBM の巡回ロボットはときどき LZH ファイルを持っていきます。なぜときどきなのか、tgzファイルを持っていかないのはなぜかなど疑問が残ります。

MSN の場合

ホスト msnbot64044.search.msn.com から巡回ロボットのアクセスが来ます。このロボットは、アクセスの間隔が変で、lzh ファイルを毎回持っていきます。

普通、 巡回ロボットは無駄にアクセスを重ねないような仕組を持っています。 ある HTML ファイルに一度アクセスしたら、 その時刻を覚えていて一定の日時が過ぎないと再訪しません。 ところが、MSN の巡回ロボットは1日に同じファイルを数回アクセスしたり、 その後数日来なかったりします。 特に悪影響があるわけではありませんが、 当方にとっても MSN にとっても無駄なので アクセス頻度をコントロールして欲しいです。

さらに MSN の巡回ロボットは HTML ファイルを調べるだけではなくて、 リンクを張ってある lzh ファイルを必ず持っていきます。 JPEG や tgz ファイルにはノータッチなのに lzh ファイルだけを持っていくところが不思議です。

2004年6月18日 初出

============

アクセスログ解析用語集にはこうある。 ↓

クローラー(Crawler)

クローラーとは、各検索サイトや研究機関がWebサイトの情報を収集するために利用している自動巡回ロボットのことです。

クローラーはHTMLに記載されているリンクを一気にたどって行くため、人間のユーザーとは明らかに異なるアクセスを行います。検索サイトでの検索順位を上げるためには、クローラーがWebサイトを訪れることは歓迎すべきことですが、ユーザーの動きを知るために行うアクセスログ解析にとっては不要なデータとなってしまいます。従ってアクセスログ解析を行うにあたっては、可能な限りクローラーの残したログデータを排除して分析を行います。

クローラーの多くはアクセスログのデータ中にあるユーザーエージェントの情報にクローラーであることを明示し、そのクローラーに関する情報を掲載したWebサイトのURLを記載しているので、データの判別と排除が可能です。しかし、中にはクローラーであることを明示せず、一般のユーザーを偽装するようなものもあるため、完全に排除するためには怪しいアクセスをひとつひとつ検証していく必要があります。

============

 他にも自動巡回ロボットに来て欲しいときはどうしろとか、逆に来て欲しくないときにはどうしろとかいった記事がたくさんあるようだが、私にはとてもそこまでは頭が回らない。
 彼らロボットたちはアクセスして欲しい、或いはクリックして欲しい、そのための情報を収集して来いと命じられて、世界中を「巡回」させられているようだ。個々のロボットにだって、それを操作する人間が付いているからこそ「自動」で仕事をするわけであるから、自称「IT関連企業」で働いている人たちこそがその仕事を任されていることになるのだろう。

 私が思うのは内容の伴わない「いいね」とか「コメント」とかをあちこちのブログに貼りまくっているのは彼らではないかということである。それは「お客さんが付いてくれたら儲けもの♪」という彼らの「副業」そのものなのではないか。だから彼らが誘導するサイトへ行けば矢鱈「副業」と「金儲け」という言葉が目に付くのである。
 これも「いいも悪いもない」現在社会の情況(←病状と言ってもいい)なのだと私は思う。


最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。