понедельник, 15 июня 2009 г.

YandexSomething - гоу бийонд

Сегодня наш сервер переполнил количество соединений с СУБД из-за излишней прожорливости YandexSomething бота. Этот бот как я узнал в здесь - это робот, индексирующий новостные потоки партнеров Яндекс-Новостей.

Собственно вопрос к серверу 77.88.30.248 и разработчикам робота, что он делал в 20:00-21:00 часов 15 июня на серверах uaprom.net и ruprom.net и почему при этом было выкачано 19238 страниц, причем в 20:40 их было выкачано 717 то есть 12 страниц в секунду?

Пруфлог:

sudo cat /var/log/nginx0.7/access.log| grep -v css|grep -v js| grep -v img | grep YandexSom | grep -c '15/Jun/2009:20'
19238
sudo cat /var/log/nginx0.7/access.log| grep -v css|grep -v js| grep -v img | grep YandexSom | grep -c '15/Jun/2009:20:40'
717


Пришлось сделать


User-agent: YandexSomething
Disallow: /


Помогло, здоровье сервера дороже каких-то новостей.

UPD Не пытайтесь повторить это не прочитав этот пост

2 комментария:

Vitaly комментирует...

Попробйте оптимизировать свои скрипты. 12 страниц в секунду это не есть сколько нибудь много для высокопосещаемого сайта.

Mykola Paliyenko комментирует...

Я уже устал коментировать это, нормальная нагрузка в час пик у нас 2-3 динамические страницы в сек, больше пока нет посетителей, 12 это в 4-6 раз больше пика, мы будем стараться, но мы не обязаны пока такое выдерживать.