オープンメモ帳
書き殴ったっていいじゃないか メモ帳だもの    since January, 2007




クローラ (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。WUAの一種。「スパイダー」や「ロボット」などとも呼ばれる。
クローラ - Wikipedia



◆メタ タグを使用してページをブロック ⇒The Web Robots Pages:About the Robots <META> tag

  ※すべてのページをすべてのロボットから排除
    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

  ※すべてのページを特定のロボットから排除
    <META NAME="クローラ名" CONTENT="NOINDEX, NOFOLLOW">


 □CONTENT="xxxxx"

   ・NOINDEX  このページ不許可
   ・NOFOLLOW  リンク先不許可
   ・NOARCHIVE  キャッシュ不許可
   ・NOIMAGEINDEX 画像不許可


 □クローラ名(user-agent)

  google : GOOGLEBOT
    メタ タグを使用してページをブロックまたは削除する

  Yahoo! : Yahoo! Slurp
    Yahoo!検索 ヘルプ - 特定のページ、キャッシュを検索結果から削除したい

  Yahoo!ブログ検索 : Y!J-BSC
    Yahoo!ブログ検索 ヘルプ - 検索結果に表示される情報を削除したい

  MSN Live Search : msnbot
    Windows Live ヘルプ

  goo : ichiro(WakameCrawler?)
    Webクローラについて - goo ヘルプ

  Infoseek : ウェブ検索はGoogleを使用
    インフォシーク 検索 ヘルプ

  BIGLOBE : ウェブ検索はGoogleを使用
    BIGLOBEサーチ Attayo - ヘルプ -

  livedoor : ウェブ検索はGoogleを使用
    検索サービスについて 検索 Q&A livedoor ヘルプ

  百度 : Baiduspider
    Baidu(百度) - プレスセンター



◆robots.txtを使用してページをブロック ⇒The Web Robots Pages:About /robots.txt

  1.User-Agent: 以降のルールを適用するロボット
  2.Disallow: ブロックするページ

  ※すべてのページをすべてのロボットから排除
   User-agent: *
   Disallow: /

コメント ( 0 ) | Trackback ( 0 )
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする


« Firefox 3 ギ... 記事一覧画像一覧読者一覧フォトチャンネル一覧 RealSync »
 
コメント
 
コメントはありません。
コメントを投稿する
 
名前
タイトル
URL
コメント
コメント利用規約に同意の上コメント投稿を行ってください。

数字4桁を入力し、投稿ボタンを押してください。