あちこちからつぎはぎしたクローラ避け.htaccess

SetEnvIf User-Agent "Googlebot" shutout
SetEnvIf User-Agent "Googlebot-Image" shutout
SetEnvIf User-Agent "InfoSeek Sidewinder" shutout
SetEnvIf User-Agent "Slurp" shutout
SetEnvIf User-Agent "mogimogi" shutout
SetEnvIf User-Agent "indexpert" shutout
SetEnvIf User-Agent "ZyBorg" shutout
SetEnvIf User-Agent "nabot" shutout
SetEnvIf User-Agent "Python-urllib" shutout
SetEnvIf User-Agent "dloader" shutout
SetEnvIf User-Agent "Openbot" shutout
SetEnvIf User-Agent "ia_archiver" shutout
SetEnvIf User-Agent "aruyo" shutout
SetEnvIf User-Agent "Aruyo" shutout
SetEnvIf User-Agent "fast" shutout
SetEnvIf User-Agent "Scooter" shutout
SetEnvIf User-Agent "tokiwa" shutout
SetEnvIf User-Agent "moget" shutout
SetEnvIf User-Agent "Girafabot" shutout
SetEnvIf User-Agent "Ask Jeeves" shutout
#SetEnvIf User-Agent "Indy Library" shutout
SetEnvIf User-Agent "NaverBot" shutout
SetEnvIf User-Agent "msnbot" shutout
SetEnvIf User-Agent "Baiduspider" shutout
SetEnvIf User-Agent "sogou spider" shutout
SetEnvIf User-Agent "yetibot" shutout

order allow,deny
allow from all
deny from env=shutout

# Baiduspider
deny from 60.24.0.0/13
deny from 220.181.0.0/16
deny from 61.135.0.0/16
deny from 122.152.128.0/23

#yahoo
Deny from 72.30.0.0/16
Deny from 74.6.0.0/16
deny from 66.196.64.0/18
deny from 68.142.192.0/18

#google
Deny from 66.249.64.0/19

#msn
Deny from 65.52.0.0/14


こんなかんじ。

ソーシャルブックマークは通したいけど本文の一部をキャッシュするようなの(はてぶ等)はキャッシュに来るアクセスだけ弾きたい。web魚拓等のキャッシュするものは弾きたい。等々考えていくとめんどくさいなあ。自分の使っているor使ったことあるものはわかるけどアクセス制限のためにわざわざサービスに登録してってのもめんどくせ

ツギハギ元はこのへん。

同人サイトのロボ避けアク解について 2
http://anime2.2ch.net/test/read.cgi/doujin/1173880544/
Baiduspiderウザすぎ!! ヽ(`Д´)ノ
http://pc11.2ch.net/test/read.cgi/hp/1171240129/
裏サイトオーナーのための Small Tips
http://sp999.oheya.jp/tips/
.htaccessテンプレ
http://www.ii-park.net/~nanashi/htaccess2.html
.htaccess質問コーナー Part6
http://pc11.2ch.net/test/read.cgi/hp/1176912246/

追記(2007.05.26)

Indy Library をコメントアウト。経緯はこれ↓とまったく同一。

【ご要望】わいわいKakikoご要望・不具合情報公開スレッド【不具合】
http://yy28.60.kg/test/read.cgi/maido3/1125552321/496-548

とりあえず対応したけれど、2chにはUAをJaneにしてアクセス、他にはIndy Libraryって何か意図があるのかしらん。実際Indy LibraryをUAにしたクローラが襲来したらコメントアウト外します。巻き添えはご容赦を。

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中