Statistiky webov²ch strßnek

jak je zφskat a zpracovat

Tato strßnka ztratila svou platnost je╣t∞ p°ed sv²m dopsßnφm, proto╛e se podstatn∞ zm∞nila slu╛ba Navrcholu.cz. AΦ nehotovß, m∙╛e vßs trochu inpirovat.

Jak zφskat data

Jsou dva zßkladnφ zp∙soby sb∞ru dat pro statistiky:

  1. Cizφ servery stahujφ obrßzky z m²ch strßnek a poΦφtajφ si to. To jsou poΦitadla a statistickΘ servery.
  2. Na vlastnφm serveru se dß zapnout logovßnφ. Server sleduje v╣echny po╛adavky a zapisuje je do souboru (do logu).

PoΦitadla

Existujφ servery, kterΘ zdarma nabφzejφ mo╛nost dßt si na strßnku poΦitadlo. Jak se to d∞lß:

  1. Je t°eba jφt na strßnku poΦφtacφho serveru a najφt formulß° na registraci.
  2. Zaregistrovat se. Server vygeneruje HTML k≤d.
  3. HTML k≤d poΦitadla je pot°eba dßt do vlastnφ strßnky.
  4. Na strßnce se bude objevovat poΦitadlo, server bude poΦφtat p°φstupy.

╚esk²ch server∙, kterΘ nabφzejφ registraci poΦitadla, existujφ desφtky (anglick²ch tisφce). Odkazy na n∞ najdete na Seznamu v sekci poΦitadla, (na Atlasu ani Centru jsem sekci poΦitadel nena╣el). M∙╛ete si zaregistrovat poΦitadel vφc a porovnßvat jejich vlastnosti. Navzßjem se mohou velmi li╣it tφm, co zdarma dovedou:

Jakmile poΦitadlo tohle v╣echno umφ, u╛ je lep╣φ naz²vat ho statistick²m serverem.

StatistickΘ servery Toplist a Navrcholu

Nejv∞t╣φ zku╣enosti mßm s Φesk²mi servery www.toplist.cz a www.navrcholu.cz. Um∞jφ toho hodn∞ a poskytujφ solidnφ p°edstavu o tom, co se na strßnkßch vlastn∞ d∞je.

Do strßnek je pot°eba p°idat k≤d obrßzku (viditelnΘho nebo neviditelnΘho), ten k≤d se zφskß po registraci strßnek do systΘmu. P°itom je t°eba zvolit tematickou kategorii webu, nap°. domovskΘ strßnky, software apod. Ka╛dß kategorie mß pak svoji strßnku, porovnßvajφcφ nßv╣t∞vnost strßnek v tΘ kterΘ kategorii. Tak╛e se dß jakoby zßvodit s konkurencφ. D∙le╛it∞j╣φ je ale detailnφ statistika strßnky.

Detailnφ statistika strßnky obsahuje poΦet r∙zn²ch p°φstup∙, grafy a p°ehledy, na kterΘ strßnky u╛ivatelΘ koukajφ a odkud se tam dostali. Svoje detailnφ statistiky si m∙╛ete zaheslovat, aby je nikdo jin² neΦetl. To pova╛uji za zbyteΦnou paranoiu, a tak se m∙╛ete podφvat na detailnφ statistiky strßnek Jak psßt web a vyzkou╣et si na╛ivo, co to umφ. (Jak psßt web Navrcholu, Jak psßt web Toplist).

Nßv╣t∞vnost webu se m∞°φ ve t°ech zßkladnφch veliΦinßch:

Unikßtnφ IP je poΦet IP adres poΦφtaΦ∙, ze kter²ch se za den na moje strßnky n∞kdo podφval. ProblΘmem b²vß to, ╛e za jednou IP adresou podnikov²ch sφtφ se mohou skr²vat stovky fyzick²ch u╛ivatel∙.

Definice nßv╣t∞vy (Visit) u╛ je t∞╛╣φ. M∞lo by jφt o poΦet "seancφ" u╛ivatel∙ (Navrcholu tomu °φkß session). M∞°φ se na zßklad∞ IP nebo cookies, kdy se jedna IP poΦφtß vφcekrßt za den, je-li mezi p°φstupy dostateΦn² Φas (Toplist uvßdφ 30 minut) nebo je z jinΘho stroje (chybφ ulo╛enß cookie).

T°etφ veliΦina je zhlΘdnutφ (pageviews, u Navrcholu "p°φstupy") a poΦφtß se prost²m souΦtem po╛adavk∙ za den bez ohledu na to, od koho po╛adavek je. Platφ nerovnost Unique IP <= Visits <= Pageviews.

Nejv∞t╣φ d∙raz je na obou serverech kladen na veliΦinu nßv╣t∞vy (visits, sessions). ╪adφ se podle nφ v²sledky, proto╛e je nejvφce objektivnφ. Kv∙li rozdφlnΘ metodice v²poΦtu nßv╣t∞v se Navrcholu a Toplist v absolutnφch Φφslech li╣φ (Toplist poΦφtß trochu v∞t╣φ hodnoty). Sledovßnφm poΦtu nßv╣t∞v v Φase zφskßte dobr² p°ehled, jak si zrovna vedete, oba servery to um∞jφ vykreslit do grafu.

PoΦφtacφ k≤d si m∙╛ete umφstit bu∩to pouze na hlavnφ strßnku, rad∞ji ale do v╣ech strßnek svΘho webu. M∙╛ete pak porovnßvat zhlΘdnutφ r∙zn²ch sv²ch strßnek. Mnohokrßt m∞ p°ekvapilo, jak je n∞kterß strßnka neΦekan∞ populßrnφ (nap°. download archivu) a ╛e o jinΘ peΦliv∞ p°ipravovanΘ strßnky prakticky nenφ zßjem. Zpravidla za to m∙╛e chyba v navigaci, kterΘ bych si jinak nev╣imnul: prost∞ mi n∞kde chybφ odkaz na d∙le╛itou strßnku.

Je╣t∞ zajφmav∞j╣φ je statistika "odkud p°i╣li", dostupnß p°i pou╛itφ javascriptovΘho k≤du. Vyu╛φvß vlastnosti document.referrer, kterß obsahuje adresu strßnky, na kterΘ u╛ivatel kliknul na odkaz, ne╛ se dostal na sledovanou strßnku. Nejzajφmav∞j╣φ jsou z toho dotazy do vyhledßvaΦ∙: nap°φklad dφky t∞mto statistikßm vφm, ╛e ze Seznamu na m∞ nejvφce klikajφ ti, kdo hledajφ n∞kolik mßlo slov: pozadφ, html, css, javascript, frontpage. Z Google oproti tomu jde o spoustu (Φasto zcela neΦekan²ch) termφn∙ z oblasti HTML. TakovΘ poznatky hodn∞ pomßhajφ p°i optimalizaci pro vyhledßvaΦe. Nebo kdy╛ ze dne na den stoupne nßv╣t∞vnost, staΦφ se podφvat, kter² dobrodinec na mΘ strßnky p°idal odkaz.

Je╣t∞ musφm zmφnit pßr zajφmavostφ. Toplist mß infopanel - druh poΦφtacφho k≤du, kter² do sledovanΘ strßnky vklßdß obrßzek s detailnφm stavem nßv╣t∞vnosti (ne pouze jedno Φφslo), kter² tak mohou vid∞t v╣ichni nßv╣t∞vnφci. Navrcholu zasφlß ka╛d² den do mailu podrobnΘ statistiky. Z obou systΘm∙ se za mal² poplatek dajφ zφskßvat maximßln∞ detailnφ statistiky v r∙znΘm zpracovßnφ. Podle Tomß╣e Krauseho by systΘm Navrcholu v °φjnu 2003 m∞l p°ejφt na n∞jak² lep╣φ systΘm.

Profesionßlnφ servery si nechßvajφ statistiky poΦφtat serverem idot.cz, kter² je pova╛ovßn za nejobjektivn∞j╣φ. Jeho slu╛by jsou placenΘ. Ka╛d² server se sna╛φ v idotu nahonit co nejv∞t╣φ Φφsla, proto╛e Φφm vy╣╣φ mß nam∞°enou nßv╣t∞vnost, tφm lΘpe se na jeho strßnkßch prodßvß reklama.

Logy ze serveru

Zatφmco poΦitadla a statistickΘ servery zφskßvajφ data nep°φmo pomocφ obrßzk∙, logovßnφ na serveru je metoda naprosto p°φmß. Http server sleduje po╛adavky, kterΘ na n∞j od u╛ivatel∙ p°ichßzejφ, a zapisuje si je do souboru. TakovΘmu souboru se °φkß log (Φteno [log], mno╛nΘ Φφslo logy). Uklßdß se na serveru, odkud si ho majitel m∙╛e stßhnout, nebo se tam rovnou analyzuje.

Ne ka╛d² mß p°φstup ke sv²m log∙m. N∞kterΘ servery nelogujφ, jinΘ jsou ╣patn∞ nastavenΘ, n∞kde se za logy platφ. Zkuste si logovßnφ nastavit (na vlastnφm serveru) nebo se domluvit sprßvcem serveru. Mßte-li strßnky na freewebu, o logovßnφ si m∙╛ete nechat jenom zdßt. ProblΘmem b²vß velikost log soubor∙ -- mohou mφt mnoho megabajt∙.

Ka╛d² zßznam se do logu pφ╣e na nov² °ßdek. ╪ßdek v nßsledujφcφm p°φkladu obsahuje datum a Φas, ip adresu klienta, http metodu, po╛adovanΘ url (relativnφ v rßmci serveru) k≤d odpov∞di a otisk prohlφ╛eΦe (user-agent). M∙╛e obsahovat i dal╣φ ·daje, to zßle╛φ na nastavenφ. P°φklad kousku logu:

2003-09-02 14:58:29 62.245.90.159 GET /pozadi.htm 200 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+.NET+CLR+1.1.4322)
2003-09-02 14:58:32 160.218.144.158 GET /javascript/priklady/skryvane_zalozky.htm 200 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+98;+Win+9x+4.90)
2003-09-02 14:59:09 194.228.206.162 GET /weblog/yuhu_weblog.xml 304 Feedreader
2003-09-02 14:59:17 62.229.222.18 GET /images/jakpw.gif 304 Mozilla/5.0+(X11;+U;+Linux+i686;+en-US;+rv:1.0.2)+Gecko/20030708

P°φklad ukazuje Φty°i p°φstupy z druhΘho zß°φ odpoledne. Z IP adresy 62.245.90.159 n∞kdo po╛ßdal o strßnku pozadi.htm prohlφ╛eΦem MSIE 6.0 a dostal ji (to je ten k≤d 200). O chvφli pozd∞ji se n∞kdo jin² (z rozdφlnΘ IP adresy) dφval na p°φklady skr²van²ch zßlo╛ek. Zßznam na t°etφm °ßdku ud∞lala n∞jakß rss ΦteΦka (Feedreader), zjistila ale, ╛e se po╛adovan² soubor yuhu_weblog.xml nezm∞nil (k≤d 304), a tak ho nestahovala. Stejn∞ tak se nezm∞nil obrßzek /images/jakpw.gif, na kter² se kdosi koukß linuxovou Mozillou (Gecko).

 

 

 

Logovßnφ podporujφ v╣echny b∞╛n∞ pou╛φvanΘ servery (krom∞ t∞ch bizardnφch jako je t°eba Boa).

Nastavenφ logovßnφ pro Apache. Poznßmky o logFormat.

Nastavenφ logovßnφ pro IIS.

╪φzenΘ logovßnφ.

Zpracovßnφ log∙

WebalizΘr

Analog

Hodφ se zejmΘna pro anal²zu log∙ z IIS. Sta╛enφ z adresy google > "download analog"

Rozbalenφ zipu.

V souboru analog.cfg ud∞lat zm∞ny:
p°idat °ßdek s textem
LANGFILE cz.lng
(Φe╣tina)

°ßdek LOGFILE logfile.log

p°epsat na sprßvnou cestu k souboru, nap°. LOGFILE c:\www\muj_log.log

pokud je nastaven vlastnφ formßt logu nebo je log z Apache, je t°eba pohrßt si s nastavenφm LOGFORMAT, p°φklady jsou v souboru examples/misclogs.cfg

Spustit program analog.exe. Problikne Φernß obrazovka a jakoby se nic nestane, ale vznikne soubor Report.html. To je zprßva o statistice zφskanß z logu obsahujφcφ v╣echny zßkladnφ v∞ci.

Konverze

http://www.rebex.net/rconvlog/ Program rconvlog konvertuje IIS (W3C) logy do formßtu NSCA, co╛ umφ zpracovat Webalizer. OpaΦn∞ funguje mrkvosoftφ program Convlog (bacha exßΦ).

Grep

KontingenΦnφ tabulka

SpecializovanΘ programy

Co z toho Φφst

Je pot°eba v∞d∞t, co chci

Nßv╣t∞vnost jednotliv²ch strßnek

Zdroj nßv╣t∞vnosti

Clickstream kontingenΦnφ

Clickstream individußlnφ

Viewtime

Chyby 404

2003-09-02 15:06:04 194.108.55.244 GET /priklady/j,.html - 404 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0;+DigExt)