Napad spletnega pajka
Spletni iskalniki (Google, Yahoo, Bing …) uporabljajo spletne pajke (legitimni samodejni programi, ki obiskujejo in indeksirajo strani), da jih lahko prikažejo med zadetki.
Tako se ne gre za pravi, zlonamerni napad, temveč za napako v komunikaciji med našo stranjo in pajkom, ki privede do nedostopnosti strani ali celotnega strežnika.
Spletni pajek sledi povezavam, ki jih najde na spletni strani. Lahko se pa zgodi, da povezav ali drugih interaktivnih vsebin ne zna pravilno interpretirati, kar privede do obremenitve spletnega strežnika, tudi do te mere, da neha pravilno delovati.
Ravno tako lahko odkrijejo kakšen del strani, za katero ne bi radi, da se prikaže med zadetki v iskalniku.
Simptomi
- obremenjen celoten operacijski sistem
- visoka raba pomnilnika (konstantno čez 70%, uporablja tudi swap)
Konkreten primer
- sklad aplikacij: LAMP, Joomla, komponenta Jevents
- simptomi:
- Nagios je javil, da ne prejema več informacij o procesih in obremenjenosti
- prijava prek SSH ni mogoča, prijava na konzoli je povsem neodzivna
- ukaz netstat -tan pokaže, da je na vrata 80 prisesan določen IP – z ukazom whois številka IP ugotovimo, da gre za Googlov/Bingov/Yahoojev/… IP
- izhod (STDOUT) prikazuje, da je zmanjkalo pomnilnika in je OS skušal pobiti potratne procese (OOM – out-of-memory)
- pregled dnevnikov spletnega strežnika je pokazal, da GoogleBot skuša indeksirati komponento Koledar
Rešitve
Nepravilno delovanje rešujemo na več načinov:
- datoteka robots.txt
- meta podatki v sami spletni strani
- datoteka htaccess
- konfiguracija dostopa do direktorijev v konfiguraciji samega spletnega strežnika
Viri
- Jevents in GoogleBot: http://www.jevents.net/forum/viewtopic.php?f=17&t=5919 (forum ni več aktiven)
- Onemogočanje GoogleBota: http://www.google.com/support/webmasters/bin/answer.py?answer=93710
- Primer težav z GoogleBotom: http://www.google.com/support/forum/p/Webmasters/thread?tid=25d8e53380c4e050&hl=en (stran ni več aktivna)