Hlavní stránka
Jak na roboty v phpRS
- Podrobnosti
- Kategorie: phpRS
- Zveřejněno: 21. 8. 2005 15:28
- Zobrazení: 9955
V první řadě bych rád řekl, že indexovací roboty mi nevadí. Jejich existence je potřebná, protože jen díky nim se naše stránky dostávají do povědomí vyhledávačů. Co mi ale vadí je, že jejich návštěvy jsou registrovány jako běžný přístup uživatele. Výsledky statistik jsou pak nadmíru zkreslené a vůbec nevypovídají o skutečnosti. A nehovořím tu o nějakých zanedbatelných číslech, ale mnohdy o nadpolovičním podílu na přístupech. Výjimkou pak nejsou ani stránky, u kterých je návštěvnost tvořena prakticky jen roboty! Dalším problémem je zasahování robotů do výsledků anket, na které si občas také "kliknou". Celkové statistiky, čtenost článků i výsledky anket jsou pak roboty silně znehodnoceny. Obvyklé řešení spočívající v použití robots.txt je bohužel k ničemu, protože zaindexovat stránky chceme, ale započítávat návštěvy robotů nikoliv a to se bohužel vzájemně vylučuje. Navíc některé roboty na uvedený soubor vcelku bez skrupulí kašlou.
Co ale může webmaster dělat, aby získal reálné výsledky ? V první řadě potřebujeme zajistit, aby se v rámci počítání přístupů ignorovaly přístupy z těch IP adres, které patří vyhledávacím robotům. K tomu postačí zřídit primitivní tabulku a v testovací funkci, která zjišťuje zda se jedná o unikátní nebo opakovaný přístup doplnit test na existenci adresy v této tabulce. Bude-li adresa zapadat do některého rozsahu používaného roboty, budeme to automaticky považovat za opakovaný přístup a znemožníme tak započítání návštěvy i hlasování v anketě.
Pro naplnění tabulky můžeme pro začátek použít sadu IP adres (jsou součástí importního scriptu roboty.sql), které se mi podařilo vysledovat během asi 14 dnů, kdy jsem pravidelně analyzoval kdo na stránky chodí:
68.142.192.0 - 68.142.255.255 - inktomisearch
66.249.64.0 - 66.249.95.255 - googlebot
212.80.76.0 - 212.80.76.255 - fulltext.seznam
207.46.0.0 - 207.46.255.255 - msnbot
213.29.7.0 - 213.29.7.255 - sherlock2.centrum
64.242.88.0 - 64.242.88.255 - looksmart
Pokud si chcete zjišťovat své vlastní IP adresy a podělit se s ostatními o další roboty, můžete použít log unikátních IP adres, ze kterých bylo na Vaše stránky přistupováno a pak si pomocí WHOIS provést vlastní průzkum - přímo z pluginu ANALYZEIP který jsem pro tento účel vytvořil je ke každé IP adrese přímý odkaz do databáze WHOIS a je zde i rozhraní pro editaci tabulky ignorovaných rozsahů.
Postup instalace úprav:
1. do rootu webu nahrajte soubor ignoredip.php a nahraďte či upravte soubory myweb.php a specfce.php
2. vytvořte tabulky pomocí scriptu v dbpatch/tabulky.sql
3. naplňte tabulku rs_ignorelist_ip základní sadou rozsahů IP adres pomocí scriptu v roboty/roboty.sql
4. Mezi pluginy nakopírujte plugin analyzeip
5. Nezapomeňte na texty v lang.
6. Nainstalujte plugin z administračního rozhraní PHPRS (pouze pokud chcete provádět vlastní analýzy a editace tabulek s rozsahy IP adres a prohlížet a analyzovat zaznamenané IP adresy).
Nezapomeňte, že zaznamenané adresy se automaticky promazávají. V případě, že Vás web má příliš vysoký počet přístupů, doporučuji upravit ve funkci genident v souboru myweb.php příkaz delete a nastavit nižší počet dnů - v této verzi je to 10. Funguje to tak, že pokud existuje záznam starší než 10 dnů, je smazán. Tím se zbavíte nutnosti pravidelně tabulku ručně mazat a neohrozíte chod webu tím, že budete lézt často do tabulky s velkým množstvím záznamů. Aby se omezil počet použití delete, je tento proveden jen tehdy, když má být zaznamenána nová IP adresa.
A jaké lze očekávat výsledky ? Inu - to bude různé, protože dost záleží na tom, jak dlouho jsou stránky v oběhu. Moje osobní stránky to zase tak moc radikálně nepoznamenalo (jsou v chodu pár měsíců), ale jeden z mých webových projektů, který existuje již řadu let by mohl být dokonalou ukázkou toho, jak je tato metoda opravdu úspěšná. Postačí se podívat na následující obrázek:
Pouze slepec nepozná, kdy bylo filtrování robotů zapnuto. Krásně se původně téměř dokonalý chaos bez výrazného odlišení dnů v týdnu změnil v pravidelně tepající křivku, kde je přesně vidět jednotlivé rozdíly mezi víkendy a pracovními dny. I denní návštěvnost se změnila a namísto permanentního vytížení přístupy z celého světa 24 hodin denně je pěkně vidět, kdy se u nás vstává a usíná. Noční masivní přístupy se staly minulostí, ankety přestaly být atakovány roboty a celé se to dostalo do toho správného tvaru. Jsem tedy spokojený s tím jak to funguje. Sice rapidně klesl počet zaznamenaných přístupů (asi o 60%), ale zase alespoň vím, kolik reálně přístupů za den web má.
Je fakt, že zase tak moc toho o PHP nevím (zabývám se trochu jinými programovacími jazyky) - vlastně se PHP teprve učím, takže pokud je něco řešeno příliš kostrbatě, tak se omlouvám - příště to bude určitě lepší. Samozřejmě uvítám, když mi napíšete vlastní zkušenosti s touto metodou, nebo když mi pošlete náměty na vylepšení funkčnosti, případně zašlete vlastní sadu robotích adres pro rozšíření databáze.
Soubory nezbytné pro běh této úpravy včetně pluginu a sql souborů umožňujících vytvořit a naplnit tabulky robotů naleznete v sekci DOWNLOAD. Stahujte zde: