User-agent: Slurp
Crawl-delay: 20
〔Crawl-delay〕
検索エンジンのクローラーがひんぱんにアクセスしてきてサーバーに負荷がかかって困ったらrobots.txtにこう書いておくといい。
User-agent: ロボットの名前
Crawl-delay: 秒数
User-agentはロボットの名前。Crawl-delayはクロール間隔を秒で表している。5秒から120秒位がいいみたいですよ。
http://blog.cles.jp/item/1566
あと、一日数百回ロボットが来たのでロボットをアク禁にしたみたいな話も聞きますが、ちゃんとしたサイトであればロボットはこれくらいのアクセス頻度になるものだということは認識すべきかと思います。
それがサイトの負荷的に問題になるようであれば、Yahoo!の場合はrobots.txtにロボットのクロールの待ち時間を指定してやることで回避することができます。
http://c-kom.homeip.net/review/blog/archives/2008/05/loadaverage_robot_cache.html
最近 サーバ負荷 がかなりマズイことになっています。
今度こそ間違いなく、回線負荷ではなくサーバのCPU負荷です。
急いで対策を考えなければいけないのですが、その中で
以前から気になっていたことを1つ試してみることにしました。
それは検索エンジンの 巡回ロボットの負荷対策 です。
http://sakuya.noblog.net/blog/d/10200068.html
島根県は6月1日、県のWebサイトが韓国ISP経由で1秒間に100回を超える大量のアクセスを受け、Webサイトが表示されにくいなどの問題が発生したと発表しました。また、県サイト上で掲載したメールアドレスに韓国のISP経由で1168件ものメールが送信されたことを発表しました。
ここまで調べて自分でもようやくわかったのですが、大量の socket 通信が必要になるメール配信サーバであったり、web サーバであったりする場合、バッチ処理等で大量のファイルの同時アクセス(例えばDB処理とか)をしていると、標準の FD_SETSIZE で定義された 1024 では足りない場合が出てくるというわけです。
て、気がついたたびに Lighttpd プロセスを終了し、FastCGI プロセスを手動で全て kill して、/tmp