Hlavní stránka

V první řadě bych rád řekl, že indexovací roboty mi nevadí. Jejich existence je potřebná, protože jen díky nim se naše stránky dostávají do povědomí vyhledávačů. Co mi ale vadí je, že jejich návštěvy jsou registrovány jako běžný přístup uživatele. Výsledky statistik jsou pak nadmíru zkreslené a vůbec nevypovídají o skutečnosti. A nehovořím tu o nějakých zanedbatelných číslech, ale mnohdy o nadpolovičním podílu na přístupech. Výjimkou pak nejsou ani stránky, u kterých je návštěvnost tvořena prakticky jen roboty! Dalším problémem je zasahování robotů do výsledků anket, na které si občas také "kliknou". Celkové statistiky, čtenost článků i výsledky anket jsou pak roboty silně znehodnoceny. Obvyklé řešení spočívající v použití robots.txt je bohužel k ničemu, protože zaindexovat stránky chceme, ale započítávat návštěvy robotů nikoliv a to se bohužel vzájemně vylučuje. Navíc některé roboty na uvedený soubor vcelku bez skrupulí kašlou.

Co ale může webmaster dělat, aby získal reálné výsledky ? V první řadě potřebujeme zajistit, aby se v rámci počítání přístupů ignorovaly přístupy z těch IP adres, které patří vyhledávacím robotům. K tomu postačí zřídit primitivní tabulku a v testovací funkci, která zjišťuje zda se jedná o unikátní nebo opakovaný přístup doplnit test na existenci adresy v této tabulce. Bude-li adresa zapadat do některého rozsahu používaného roboty, budeme to automaticky považovat za opakovaný přístup a znemožníme tak započítání návštěvy i hlasování v anketě.

Pro naplnění tabulky můžeme pro začátek použít sadu IP adres (jsou součástí importního scriptu roboty.sql), které se mi podařilo vysledovat během asi 14 dnů, kdy jsem pravidelně analyzoval kdo na stránky chodí:

68.142.192.0 - 68.142.255.255 - inktomisearch
66.249.64.0 - 66.249.95.255 - googlebot
212.80.76.0 - 212.80.76.255 - fulltext.seznam
207.46.0.0 - 207.46.255.255 - msnbot
213.29.7.0 - 213.29.7.255 - sherlock2.centrum
64.242.88.0 - 64.242.88.255 - looksmart

Pokud si chcete zjišťovat své vlastní IP adresy a podělit se s ostatními o další roboty, můžete použít log unikátních IP adres, ze kterých bylo na Vaše stránky přistupováno a pak si pomocí WHOIS provést vlastní průzkum - přímo z pluginu ANALYZEIP který jsem pro tento účel vytvořil je ke každé IP adrese přímý odkaz do databáze WHOIS a je zde i rozhraní pro editaci tabulky ignorovaných rozsahů.

Postup instalace úprav:
1. do rootu webu nahrajte soubor ignoredip.php a nahraďte či upravte soubory myweb.php a specfce.php
2. vytvořte tabulky pomocí scriptu v dbpatch/tabulky.sql
3. naplňte tabulku rs_ignorelist_ip základní sadou rozsahů IP adres pomocí scriptu v roboty/roboty.sql
4. Mezi pluginy nakopírujte plugin analyzeip
5. Nezapomeňte na texty v lang.
6. Nainstalujte plugin z administračního rozhraní PHPRS (pouze pokud chcete provádět vlastní analýzy a editace tabulek s rozsahy IP adres a prohlížet a analyzovat zaznamenané IP adresy).

Nezapomeňte, že zaznamenané adresy se automaticky promazávají. V případě, že Vás web má příliš vysoký počet přístupů, doporučuji upravit ve funkci genident v souboru myweb.php příkaz delete a nastavit nižší počet dnů - v této verzi je to 10. Funguje to tak, že pokud existuje záznam starší než 10 dnů, je smazán. Tím se zbavíte nutnosti pravidelně tabulku ručně mazat a neohrozíte chod webu tím, že budete lézt často do tabulky s velkým množstvím záznamů. Aby se omezil počet použití delete, je tento proveden jen tehdy, když má být zaznamenána nová IP adresa.

A jaké lze očekávat výsledky ? Inu - to bude různé, protože dost záleží na tom, jak dlouho jsou stránky v oběhu. Moje osobní stránky to zase tak moc radikálně nepoznamenalo (jsou v chodu pár měsíců), ale jeden z mých webových projektů, který existuje již řadu let by mohl být dokonalou ukázkou toho, jak je tato metoda opravdu úspěšná. Postačí se podívat na následující obrázek:


Pouze slepec nepozná, kdy bylo filtrování robotů zapnuto. Krásně se původně téměř dokonalý chaos bez výrazného odlišení dnů v týdnu změnil v pravidelně tepající křivku, kde je přesně vidět jednotlivé rozdíly mezi víkendy a pracovními dny. I denní návštěvnost se změnila a namísto permanentního vytížení přístupy z celého světa 24 hodin denně je pěkně vidět, kdy se u nás vstává a usíná. Noční masivní přístupy se staly minulostí, ankety přestaly být atakovány roboty a celé se to dostalo do toho správného tvaru. Jsem tedy spokojený s tím jak to funguje. Sice rapidně klesl počet zaznamenaných přístupů (asi o 60%), ale zase alespoň vím, kolik reálně přístupů za den web má.

Je fakt, že zase tak moc toho o PHP nevím (zabývám se trochu jinými programovacími jazyky) - vlastně se PHP teprve učím, takže pokud je něco řešeno příliš kostrbatě, tak se omlouvám - příště to bude určitě lepší. Samozřejmě uvítám, když mi napíšete vlastní zkušenosti s touto metodou, nebo když mi pošlete náměty na vylepšení funkčnosti, případně zašlete vlastní sadu robotích adres pro rozšíření databáze.

Soubory nezbytné pro běh této úpravy včetně pluginu a sql souborů umožňujících vytvořit a naplnit tabulky robotů naleznete v sekci DOWNLOAD. Stahujte zde:

Dostupné soubory:
Soubor Datum Velikost souboru Zobrazení    
Plugin a úprava phpRS na eliminaci robotů 21.08.2005 20.27 KB 1693


Sdílet

Submit to FacebookSubmit to Google BookmarksSubmit to TwitterSubmit to LinkedIn

Komentáře   

+1 #5 Pěknéjiricek 2006-02-02 22:06
Na vojně mě učili "Není umění něco udělat, umění je, najít to hotové..." To se mi dnes povedlo, když jsem dumal jak vyhnat roboty ze statistik. Nejdřív jsem si udělal vlastní tabulku a koukal, kdo že se mi to po webu prochází a nestačil jsem se divit proč goglebot z těch několika milard stránek musí na tu moji vlézt osmkrát za deset minut. Pak jsem si vzpoměl na vojenskou poučku a začal hledat.

Vážně musím ale říct, že větší umění je něco UDĚLAT a HLAVNĚ popsat to tak, aby se to dle návodu dalo nainstalovat a použít.

Takže Díky.
Citovat
0 #4 Re: Re: Pěkný článekVW 2005-12-18 08:16
Tak je to jasné - v odkazech je třeba používat http://, https:// či ftp://, a navíc ten pseudotag má být url a ne odkaz. Takže to pak vypadá takto:



www.maestroclub.cz








ve výsledku pak: http://www.maestr oclub.cz
Citovat
0 #3 Re: Re: Pěkný článekVW 2005-12-15 17:09
Poslední dobou nestíhám. Je to vidět i na tom, že články nějak nepřibývají a nic se tu moc nemění.



O chybě v komentářích vím a je to problém dané verze PHPRS - prostě nepřekládá speciální značky. Slibuju, že se alespoň podívám, jestli to už někdo neřešil.
Citovat
0 #2 Re: Pěkný článekPetr Souček 2005-12-15 14:12
Nějak se mi nepovedl odkaz :-)



viz [odkaz] http://www.maestroclub.cz [/odkaz]
Citovat
0 #1 Pěkný článekPetr 2005-12-15 14:11
Díky za pěkný návod na odstranění robot-šumu ze statistik a anket ...

Já stále používám verzi 2.5.5b, kterou jsem si dost poupravoval, ale přesto jsem dokázal dle článku změny aplikovat.

Na závěr bych se chtěl zeptat, jestli bys mohl zveřejnit novější seznam blokovaných IP adres (případně mi jej poslat na mail)?



Díky Petr Souček



---

Petr Souček

sportovní klub

MAESTRO CLUB Kolovraty

[odkaz]http://www.maestroclub.cz[/odkaz ]
Citovat

Přidat komentář


Bezpečnostní kód
Obnovit