robots.txtでのBaiduspiderの制限は効果がないのか、未だにクロールが続いている。
というか、さらにペースアップで1回/1秒以上・・・
mod_rewriteで対応することに。
対象のサイトに対して以下を設定。
RewriteCond %{HTTP_USER_AGENT} Baiduspider
RewriteRule ^.*$ – [F]
403を返す。
百度が過剰クロールに対処したとのこと
http://baidu.jp/
- 各サイトへのクローラー負荷を下げております。Baiduspiderの最大クローラー頻度を9回/秒から1回/3秒までに下げました。以前のクローラー頻度の1/27になりました。
- 各サイトの規模とIP負荷に対し、それぞれ対応できるクローラー対策を設定し、中小のサイトに対し、クローラー頻度は20秒/回以内にコントロールしています。
- サイトに対し圧縮クローラー機能を追加したことにより、同じ負荷においてサイトへのアクセス量をもともとの1/3に下げました。
- 各サイトに対し、毎日のクローラー総量をコントロールしました、仮にサイトの最大制限を超えた場合、当日に調整致します。