Ro-boti útočí na zoombie weby Mozektevidi.net - Píše Olda Šálek.

Ro-boti útočí na zoombie weby

Pokud má web dle google analytics skoro_nula návštěvníků, nemusí to nutně znamenat, že je to mrtvý web

image of Ro-boti útočí na zoombie weby

Proč boti navštěvují mrtvé weby?

A co vlastně chtějí? Dnes jsem prováděl údržbu databáze, konkrétně tabulku s přístupy na web. S místem neplýtvám, zaznamenává to 1 IP adresu za určitý čas a tak se duplicitní přístupy nezaznamenávají. Přesto má tabulka u jedné mrtvé domény, na které již 10 měsíců neběží web, (je tam pouze oznámení o ukončení provozu) za měsíc i 100 MB dat. A jejich trafik? 200k stránka se načetla sta tisíckrát..

Onen web měl i v době plného provozu sotva 10 lidí za den, tak si říkám, kdo vlastně na ten web pořád chodí.. Dle Google analytics nikdo, sem tam nějaký zbloudilý návštěvník zavítá na tento zoombie web.

CCBot/1.0 (+http://www.commoncrawl.org/bot.html) CatchBot/1.0; +http://www.catchbot.com DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Goog DuckDuckBot/1.1; (+http://duckduckgo.com/duckduckb Eurobot/1.1 (http://eurobot.ayell.eu) FollowSite Bot ( http://www.followsite.com/bot.htm Gaisbot/3.0+(robot06@gais.cs.ccu.edu.tw;+http://ga Gigabot/3.0 (http://www.gigablast.com/spider.html) Googlebot-Image/1.0 Googlebot/2.1 (+http://www.google.com/bot.html) Jyxobot/1 Linguee Bot (http://www.linguee.com/bot; bot@lingu MLBot (www.metadatalabs.com/mlbot) MSRBOT (http://research.microsoft.com/research/sv/ MULTIPRISE/Nutch-1.0 (Robot d indexation; htt Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 4.0; Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twic BuiltWith/0.3; +http://bu Exabot/3.0; +http://www.e Galbot/1.0; EuroInvestor. Googlebot/2.1; +http://ww MJ12bot/v1.2.1; http://ww Pedobear platform; Pedobo Plukkie/1.1; http://www.b Purebot/1.1; +http://www. Tagoobot/3.0; +http://www Topicbot/12.0rc-2; +http: arste.info_bot/1.1; +http askpeter_bot/5.1; +http:/ heritrix/1.14.3 +http://w Mozilla/5.0 (compatible; seexie.com_bot/4.1; +http OOZBOT/0.20 ( http://www.setooz.com/oozbot.html ; SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuratio SanszBot/1.7(http://www.sansz.org/sanszbot, spider SeznamBot/2.0 (+http://fulltext.sblog.cz/robot/) SeznamBot/2.0-Test (+http://fulltext.sblog.cz/robo Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/ gh-index-bot/Nutch-1.0 (GH Web Search.; lucene.apa holmes/3.12.4 (http://morfeo.centrum.cz/bot) librabot/2.0 (+http://academic.research.microsoft. librabot/2.0 (+http://search.msn.com/msnbot.htm) msnbot/1.1 (+http://search.msn.com/msnbot.htm) msnbot/2.0b (+http://search.msn.com/msnbot.htm) robotgenius (http://robotgenius.net) taptubot *** please read http://www.taptu.com/corp...

A to je pouze výňatek z mnoha robotů. Někteří jsou velmi agresivní - zkouší různé parametry a různé URL se snahou dostat se k heslům či nějaké chybě s cílem hacknout web a ovládnout server. A zkouší to poměrně agresivně, některý robot dokáže vyzkoušet i několik stovek parametrů v URL během pár minut. A tím vytváří značnou zátěž na serveru. A pokud stejný bot zkouší ve stejný čas z různých IP adresách nějaké průniky, zavání to i DOS útokem.

Jdou nějak zablokovat škodící boty?

Někteří boti (nepatrná menšina) jsou užiteční roboti - google, seznam + další vyhledávače, různé RSS readery, katalogy, web archivery a další.

Ale pak jsou tu ale i roboti, kteří mají temné a temnější úmysly. Převážná část má prázdný nebo zfalšovaný USER AGENT (identifikaci). IP adresy z Indie, Číny.. Jsou tito roboti nějaký vážný problém? A dají se nějak vyfiltrovat? Tak aby se neomezovali i ti hodní návštěvníci? Nejlíp aby to ani nepoznali?

Proti spamovacím robotům se používá převážně kvalitní captcha či důmyslná javascriptová ochrana. Kdo někdy zkoušel pouze blokovat IP adresy, jistě ví, že je to nekonečný a předem prohraný boj. A blokování celých rozsahů IP adres se mi také nelíbí protože se to může dotknout i hodných návštěvníků na dovolené. 

Proti robotům hledající emaily je obrana velmi jednoduchá - neuvádět na www stránkách emaily v čitelné (pro roboty) podobě.

Proti robotům, hledající chyby v redakčním systému je to složitější. V zásadě se vyplatí aktualizovat na poslední verzi.

A proti ostatním robotům? Snad jen optimalizovat skripty a roboty ignorovat.


autor článku Oldřich Šálek | datum publikování 5.leden.2010 10:51 | články o IT bezpečnosti a obraně proti hackingu IT bezpečnost |

Kometáře


Komentáře a diskuze ke článku tady
diskuze ke článku