Amazon AWS a další bot farmy. 50% provozu HTTP serveru

Co mají společného Amazon AWS, Poney Telecom, ipip.net, internet-census.org, binaryedge.ninja, intruder.io, telnetscanproject.org, Net Systems Research, QuadMetrics, United nebo Protection Security?

Uvedené společností provozují nepřiznané boty. Přímo nebo tím, že poskytují prostor pro jejích provoz. Ono vlastně anonymní slídění není jediný problém. Je to problém? Pokud většina uvedených služeb neumožňuje odhlášení ze sledování, tak rozhodně ano. Když „odhlášení z odběru“ sice existuje je ale nefunkční.. pak v tom není rozdíl. Druhá část společností provozuje sice boty označené, ty se ale chovají podobně jako bad bots. V definici prakticky stejná potíž..

Bad bots (zlý boti) jsou naprogramováni tak, aby procházeli webové stránky a nevyžádaně zkoumali (kradli) unikum či přímo unikátní obsah. Ve zkratce se jedná o využívání volně dostupného obsahu k cizímu finančnímu zisku. Během popsané činnosti o ní autor obvykle vůbec neví. Nejedná se vždy ani primárně pouze o krádež unikátního či licencovaného obsahu, ale o obsah jako takový. Činnost této cílene aktivity lze rozdělit na dva různé kategorie.

SEO bot

Kvantifikace obsahu. Měření slovosledu, četnost slov, typ obsahu, statistické či jiné výstupy.. Unikátní obsahu v podobě textu či fotografii tvoří pouhý zlomek procenta obsahu webu. Tyto zdroje jsou v širokém povědomí. Nereplikovatelné a prakticky nescizitelné z prostého důvodu. Poskytujé exkluzivní informace jako první a jako vysoce zajímavé zdroje jsou tyto okamžitě indexované ve vyhledávačích. Pokus o napodobení nebo scizení obsahu prakticky není možný, a to i z důvodu časového posunu. Trendy.

Druhá nejpodstatnější a tajná část obsahu webu je trend. Neuchopitelné? Vůbec. Psát o tom co je čtené a populární je právě díky botům a statistice lehké. Vyhledávač Google tyto informace zveřejňuje významně zkrácené a se spožděním. Pokud vůbec. Jak jinak tedy tyto informace získat? V šedé zóne. A v ní se právě pohybují zlý boti. Někteří se alespoň snaží respektovat robots.txt ale v současnosti je různých skenovacích projektů tolik, že je u hostingu či poskytovatele cloudových služeb prakticky nemožné vše prověřovat a kontrolovat.

HTTP server bot farma Amazon AWS
Bot farma a zlý boti

Bad bot

Pravověrný bad bot. Opakovaně i několikrát za den skenuje celé rozsahy a testuje obvykle linuxové exploity. Zkouší přítomnost konkrétních CMS, nejčastěji WordPress, pro který existují tisíce rozšíření. Kde potažmo existují logicky desítky pluginů obsahující kritickou chybu. Tento druh „spolupráce“ je vynucený a provozovatele „pavouka“ nezajímá váš názor ani vaše náklady. Důvod skenování či parsování je (pokud ano) inzerován jako bezpečnostní. Skutečný důvod je nedohledatelný, nekomunikovatelný. Obvykle není šance zjistit ani rozsah informací které o vás ten který bot schraňuje, zda-li je profiluje a tak podobně..

Statistika

Ke statistice jsme použili vygenerovaný mix (den + noc) 2x 10 000 IP adres identifikovaných jako (ro)bot, výjma známých služeb typu Bing, Google, DuckDuck. Doba opakování statistického výpočtu probíhala u deseti webů různeho zaměření, po dobu tří měsíců. Ve statistice jsou zahrnuty zejména služby (servery) s DNS záznamem. Hosté bez name překladu a marginální data jsou zahrnuty pouze pokud se objevují pravidelně.

SlužbaZaměřeníPodíl
CZ/SKSamozvaný dohled bez opory v zákoně CSIRT, Gerulata, CZNIC a další1%
TorAnonymizér (Globální)2%
Ruské hostingyHosting (Rusko)3%
Poney TelecomHosting (Francie)5%
FacebookSociální síť (Globální)6%
Německé hostingyHosting (Německo)7%
Amazon AWSCloud (Globální)20%
Statistická tabulka Bot & Crawler

Užitečné

Článek Semrush, Ahrefs, Majestic a ti další..
Bad Robot definice na wikipedii.

ICTIS.CZ