Ro-boti útočí na zoombie weby Mozektevidi.net - Píše Olda Šálek.
Navigace:Mozektevidi.net ⇒ IT bezpečnost ⇒ Ro-boti útočí na zoombie weby
A co vlastně chtějí? Dnes jsem prováděl údržbu databáze, konkrétně tabulku s přístupy na web. S místem neplýtvám, zaznamenává to 1 IP adresu za určitý čas a tak se duplicitní přístupy nezaznamenávají. Přesto má tabulka u jedné mrtvé domény, na které již 10 měsíců neběží web, (je tam pouze oznámení o ukončení provozu) za měsíc i 100 MB dat. A jejich trafik? 200k stránka se načetla sta tisíckrát..
Onen web měl i v době plného provozu sotva 10 lidí za den, tak si říkám, kdo vlastně na ten web pořád chodí.. Dle Google analytics nikdo, sem tam nějaký zbloudilý návštěvník zavítá na tento zoombie web.
CCBot/1.0 (+http://www.commoncrawl.org/bot.html)
CatchBot/1.0; +http://www.catchbot.com
DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Goog
DuckDuckBot/1.1; (+http://duckduckgo.com/duckduckb
Eurobot/1.1 (http://eurobot.ayell.eu)
FollowSite Bot ( http://www.followsite.com/bot.htm
Gaisbot/3.0+(robot06@gais.cs.ccu.edu.tw;+http://ga
Gigabot/3.0 (http://www.gigablast.com/spider.html)
Googlebot-Image/1.0
Googlebot/2.1 (+http://www.google.com/bot.html)
Jyxobot/1
Linguee Bot (http://www.linguee.com/bot; bot@lingu
MLBot (www.metadatalabs.com/mlbot)
MSRBOT (http://research.microsoft.com/research/sv/
MULTIPRISE/Nutch-1.0 (Robot d indexation; htt
Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 4.0;
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1;
Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twic
BuiltWith/0.3; +http://bu
Exabot/3.0; +http://www.e
Galbot/1.0; EuroInvestor.
Googlebot/2.1; +http://ww
MJ12bot/v1.2.1; http://ww
Pedobear platform; Pedobo
Plukkie/1.1; http://www.b
Purebot/1.1; +http://www.
Tagoobot/3.0; +http://www
Topicbot/12.0rc-2; +http:
arste.info_bot/1.1; +http
askpeter_bot/5.1; +http:/
heritrix/1.14.3 +http://w
Mozilla/5.0 (compatible; seexie.com_bot/4.1; +http
OOZBOT/0.20 ( http://www.setooz.com/oozbot.html ;
SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuratio
SanszBot/1.7(http://www.sansz.org/sanszbot, spider
SeznamBot/2.0 (+http://fulltext.sblog.cz/robot/)
SeznamBot/2.0-Test (+http://fulltext.sblog.cz/robo
Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/
gh-index-bot/Nutch-1.0 (GH Web Search.; lucene.apa
holmes/3.12.4 (http://morfeo.centrum.cz/bot)
librabot/2.0 (+http://academic.research.microsoft.
librabot/2.0 (+http://search.msn.com/msnbot.htm)
msnbot/1.1 (+http://search.msn.com/msnbot.htm)
msnbot/2.0b (+http://search.msn.com/msnbot.htm)
robotgenius (http://robotgenius.net)
taptubot *** please read http://www.taptu.com/corp...
A to je pouze výňatek z mnoha robotů. Někteří jsou velmi agresivní - zkouší různé parametry a různé URL se snahou dostat se k heslům či nějaké chybě s cílem hacknout web a ovládnout server. A zkouší to poměrně agresivně, některý robot dokáže vyzkoušet i několik stovek parametrů v URL během pár minut. A tím vytváří značnou zátěž na serveru. A pokud stejný bot zkouší ve stejný čas z různých IP adresách nějaké průniky, zavání to i DOS útokem.
Někteří boti (nepatrná menšina) jsou užiteční roboti - google, seznam + další vyhledávače, různé RSS readery, katalogy, web archivery a další.
Ale pak jsou tu ale i roboti, kteří mají temné a temnější úmysly. Převážná část má prázdný nebo zfalšovaný USER AGENT (identifikaci). IP adresy z Indie, Číny.. Jsou tito roboti nějaký vážný problém? A dají se nějak vyfiltrovat? Tak aby se neomezovali i ti hodní návštěvníci? Nejlíp aby to ani nepoznali?
Proti spamovacím robotům se používá převážně kvalitní captcha či důmyslná javascriptová ochrana. Kdo někdy zkoušel pouze blokovat IP adresy, jistě ví, že je to nekonečný a předem prohraný boj. A blokování celých rozsahů IP adres se mi také nelíbí protože se to může dotknout i hodných návštěvníků na dovolené.
Proti robotům hledající emaily je obrana velmi jednoduchá - neuvádět na www stránkách emaily v čitelné (pro roboty) podobě.
Proti robotům, hledající chyby v redakčním systému je to složitější. V zásadě se vyplatí aktualizovat na poslední verzi.
A proti ostatním robotům? Snad jen optimalizovat skripty a roboty ignorovat.