Co mají společného Amazon AWS, Poney Telecom, ipip.net, internet-census.org, binaryedge.ninja, intruder.io, telnetscanproject.org, Net Systems Research, QuadMetrics, United nebo Protection Security?
Uvedené společností provozují nepřiznané boty. Přímo nebo tím, že poskytují prostor pro jejích provoz. Ono vlastně anonymní slídění není jediný problém. Je to problém? Pokud většina uvedených služeb neumožňuje odhlášení ze sledování, tak rozhodně ano. Když „odhlášení z odběru“ sice existuje je ale nefunkční.. pak v tom není rozdíl. Druhá část společností provozuje sice boty označené, ty se ale chovají podobně jako bad bots. V definici prakticky stejná potíž..
Bad bots (zlý boti) jsou naprogramováni tak, aby procházeli webové stránky a nevyžádaně zkoumali (kradli) unikum či přímo unikátní obsah. Ve zkratce se jedná o využívání volně dostupného obsahu k cizímu finančnímu zisku. Během popsané činnosti o ní autor obvykle vůbec neví. Nejedná se vždy ani primárně pouze o krádež unikátního či licencovaného obsahu, ale o obsah jako takový. Činnost této cílene aktivity lze rozdělit na dva různé kategorie.
Obsah
SEO bot
Kvantifikace obsahu. Měření slovosledu, četnost slov, typ obsahu, statistické či jiné výstupy.. Unikátní obsahu v podobě textu či fotografii tvoří pouhý zlomek procenta obsahu webu. Tyto zdroje jsou v širokém povědomí. Nereplikovatelné a prakticky nescizitelné z prostého důvodu. Poskytujé exkluzivní informace jako první a jako vysoce zajímavé zdroje jsou tyto okamžitě indexované ve vyhledávačích. Pokus o napodobení nebo scizení obsahu prakticky není možný, a to i z důvodu časového posunu. Trendy.
Druhá nejpodstatnější a tajná část obsahu webu je trend. Neuchopitelné? Vůbec. Psát o tom co je čtené a populární je právě díky botům a statistice lehké. Vyhledávač Google tyto informace zveřejňuje významně zkrácené a se spožděním. Pokud vůbec. Jak jinak tedy tyto informace získat? V šedé zóne. A v ní se právě pohybují zlý boti. Někteří se alespoň snaží respektovat robots.txt ale v současnosti je různých skenovacích projektů tolik, že je u hostingu či poskytovatele cloudových služeb prakticky nemožné vše prověřovat a kontrolovat.

Bad bot
Pravověrný bad bot. Opakovaně i několikrát za den skenuje celé rozsahy a testuje obvykle linuxové exploity. Zkouší přítomnost konkrétních CMS, nejčastěji WordPress, pro který existují tisíce rozšíření. Kde potažmo existují logicky desítky pluginů obsahující kritickou chybu. Tento druh „spolupráce“ je vynucený a provozovatele „pavouka“ nezajímá váš názor ani vaše náklady. Důvod skenování či parsování je (pokud ano) inzerován jako bezpečnostní. Skutečný důvod je nedohledatelný, nekomunikovatelný. Obvykle není šance zjistit ani rozsah informací které o vás ten který bot schraňuje, zda-li je profiluje a tak podobně..
Statistika
Ke statistice jsme použili vygenerovaný mix (den + noc) 2x 10 000 IP adres identifikovaných jako (ro)bot, výjma známých služeb typu Bing, Google, DuckDuck. Doba opakování statistického výpočtu probíhala u deseti webů různeho zaměření, po dobu tří měsíců. Ve statistice jsou zahrnuty zejména služby (servery) s DNS záznamem. Hosté bez name překladu a marginální data jsou zahrnuty pouze pokud se objevují pravidelně.
Služba | Zaměření | Podíl |
CZ/SK | Samozvaný dohled bez opory v zákoně CSIRT, Gerulata, CZNIC a další | 1% |
Tor | Anonymizér (Globální) | 2% |
Ruské hostingy | Hosting (Rusko) | 3% |
Poney Telecom | Hosting (Francie) | 5% |
Sociální síť (Globální) | 6% | |
Německé hostingy | Hosting (Německo) | 7% |
Amazon AWS | Cloud (Globální) | 20% |
Užitečné
Článek Semrush, Ahrefs, Majestic a ti další..
Bad Robot definice na wikipedii.