O Google

Podle Φeho Google °adφ - Page Rank - Duplicitnφ obsah - Penalizace - Co Google nevidφ - ProΦ je Google d∙le╛it² - Co umo╛≥uje Google webmaster∙m - Meta tag googlebot

Tento text je urΦen provozovatel∙m strßnek, kte°φ se cht∞jφ trochu zorientovat v tom,

jak Google funguje
a co webmaster∙m nabφzφ.

Profφci na optimalizaci pro vyhledßvaΦe m∞ za formu podßnφ budou asi proklφnat, ale sna╛φm se to zjednodu╣it.

Podle Φeho Google °adφ

Nikdo p°esn∞ nevφ, podle Φeho Google °adφ v²sledky hledßnφ. Google si to dr╛φ jako tajemstvφ.

Budu hledat slovo W. Jak vysoko bude moje strßnka A ve v²sledcφch? Co na to mß vliv:

V prvnφ °ad∞ Google samoz°ejm∞ prohledßvß text strßnky, titulek a adresu a hledß v nich
slovo W (jako to d∞laly p°edchozφ ·sp∞╣nΘ vyhledßvaΦe), ale to zdaleka nenφ jedinΘ kritΘrium.
Ka╛dß strßnka mß Page Rank, Φφslo vyjad°ujφcφ d∙le╛itost strßnky. Je tφm vy╣╣φ, Φφm vφce jin²ch strßnek na strßnku A odkazuje.
Stra╣n∞ d∙le╛it² je text odkaz∙ zvenku, kterΘ na strßnku A mφ°φ, zejmΘna pokud obsahujφ hledanΘ slovo W.
Google ka╛dou strßnku A za°azuje do jak²chsi tematick²ch skupin podle toho, jakΘ jinΘ strßnky na strßnku A mφ°φ a jakß obsahujφ d∙le╛itß slova.
Zßle╛φ na tom, kde ve strßnce se hledanΘ slovo W nachßzφ. V titulku a v nadpisech mß v∞t╣φ vßhu ne╛ v ostatnφm textu.
Mo╛nß existujφ i dal╣φ kritΘria, kterß neznßm.
Pro v²slednou pozici strßnky A ve v²sledcφch hledßnφ slov se to n∞jak nakombinuje. P°esn² zp∙sob kombinace je jednak pravd∞podobn∞ tajn² a jednak se dost Φasto m∞nφ.

Page Rank

Page Rank je Φφslo p°i°azenΘ ka╛dΘ strßnce. Vyjad°uje n∞co jako v∞rohodnost nebo d∙le╛itost strßnky, dosahuje hodnot od nuly do jednΘ. Google si Page Rank poΦφtß (zjednodu╣en∞ °eΦeno) podle toho, kolik a jak d∙le╛it²ch strßnek na tu poΦφtanou strßnku odkazuje. Existuje na to vzoreΦek (originßlnφ dokumentace mß vzoreΦek trochu chybn²). VzoreΦek se dß zjednodu╣en∞ p°etlumoΦit tak, ╛e strßnka p°edß Φßst svΘho PageRanku strßnkßm, na kterΘ odkazuje.

Tφm, ╛e strßnka obsahuje odkazy, o sv∙j PR nep°ichßzφ. Spφ╣e ne╛ o "p°edßvßnφ" bych m∞l mluvit o "kopφrovßnφ" nebo "p°eposφlßnφ" PageRanku. ╚φm mΘn∞ mß strßnka odkaz∙, tφm vφc Page Ranku se ka╛d²m odkazem p°eposφlß.

PageRank nijak nezßvisφ na hledanΘm slov∞ (je to veliΦina skalßrnφ). Page Rank mß ka╛dß jednotlivß strßnka, nikoliv cel² web dohromady (site, domΘna).

╚φm mß strßnka vy╣╣φ PageRank, tφm bude pravd∞podobn∞ v²╣e ve v²sledcφch. Pozor! Page Rank zdaleka nenφ jedinΘ kritΘrium pro nalezenφ strßnky v Google. Poslednφ dobou kolem Page Ranku vypukla na webu doslova hysterie. Page Rank je jist∞ velmi d∙le╛it², ale jeho v²znam je podle mΘho nßzoru p°ece≥ovßn.

Jak zjistit Page Rank

Nainstalujte si Google Toolbar, mal² progrßmek dostupn² zdarma na Google (v lΘt∞ 2003 byla uvoln∞na druhß verze). Krom∞ jednodu╣╣φ prßce s hledßnφm se pomocφ Google Toolbar p°ibli╛n∞ dozvφte, jak velk² PR mß prßv∞ prohlφ╛enß strßnka.

Na toolbaru se objevuje m∞°φtko Page Ranku od 0 do 10. Google Toolbar mß velmi dobrou nßpov∞du (makß se na ΦeskΘ verzi), ze kterΘ se dozvφte podrobnosti. ZejmΘna to, ╛e:

PageRank zobrazen² na Toolbaru nenφ skuteΦn² PageRank, ale n∞jakß jeho odvozenina (patrn∞ logaritmickß). (PR ╣est na toolbaru m∙╛e znamenat t°eba skuteΦn² PR=0,00000008.) Tento na toolbaru zobrazovan² PR °φkejte, a╛ se vßs n∞kdo zeptß, jak² mßte PageRank.
Pokud se ukazuje PR 0, m∙╛e to znamenat dv∞ v∞ci. Bu∩to Google strßnku je╣t∞ neznß (neindexoval ji), nebo je strßnka natolik nev²znamnß, ╛e mß skuteΦn∞ PR = 0
Pokud se neukazuje nic, strßnka nenφ v Google indexu nebo mß toolbar na chvilku v²padek. Je pot°eba to zkusit po n∞jakΘm Φase znovu.

P°ed prßzdninami 2003 Google toolbar u neznßm²ch strßnek zobrazovan² Page Rank odhadoval podle hloubky zano°enφ v adresß°φch. Te∩ u╛ to ned∞lß.

Jak zv²╣it sv²m strßnkßm PR

Postarejte se, aby na strßnku vedlo co nejvφc odkaz∙ ze strßnek, kterΘ majφ vysok² PR. Jinak to nejde. To se nejsnßze d∞lß v katalozφch. Jakmile ale nemß vyhlΘdnutß strßnka katalogu na toolbaru PR alespo≥ 4, je otßzka, zda mß cenu mφt na takovΘ strßnce odkaz. Dobr² nßpad je oslovovat sp°φzn∞nΘ weby se ╛ßdostφ o v²m∞nu odkaz∙. ╚φm mΘn∞ je na zdrojovΘ strßnce odkaz∙, tφm je odkaz hodnotn∞j╣φ.

Existujφ matematickΘ modely, kterΘ ukazujφ, jak se dß vzßjemn²m prolinkovßnφm strßnek na urΦit²ch strßnkßch webu koncentrovat PR z jin²ch strßnek. NejΦast∞ji se doporuΦuje mφt na ka╛dΘ strßnce odkaz na domovskou strßnku. Je to jedna z mnoha metod a rozhodn∞ nenφ univerzßlnφ, n∞kdy je dokonce kontraproduktivnφ (to kdy╛ je na hlavnφ strßnce mßlo hodnotnΘho obsahu).

Jednoduch²m v²sledkem model∙ je to, ╛e by se na strßnky m∞lo dßvat co nejmΘn∞ "odkaz∙ pryΦ" mφ°φcφch na cizφ strßnky ven z webu, aby se na strßnkßch koncentroval Page Rank. Podle m²ch v²poΦt∙ to ale nenφ zas tak podstatnΘ. Je to zbyteΦnΘ ╣kudlenφ. Mnohem lep╣φho v²sledku ne╛ odstran∞nφm vn∞j╣φho linku se dß dosßhnout p°idßnφm dal╣φ strßnky s hodnotn²m (nejlΘpe unikßtnφm) obsahem.

Duplicitnφ obsah

Dost lidφ mß naprosto stejn² obsah na r∙zn²ch strßnkßch nebo domΘnßch. Kdyby vyhledßvaΦe neum∞ly rozeznat, ╛e jde o stejn² obsah, u╛ivatel∙m by se to nelφbilo, proto╛e by ve v²sledcφch dostßvali mnoho naprosto stejn²ch strßnek. Mo╛nß si pamatujete, ╛e se tak je╣t∞ nedßvno mnoho vyhledßvaΦ∙ chovalo.

Tak╛e vyhledßvaΦe majφ algoritmy, kter²mi zji╣╗ujφ, zda jde o stejnφ obsah. Dokonce jsou pr² schopnΘ poznat, ╛e se strßnka li╣φ t°eba jen navigacφ. Ty algoritmy asi nikdo p°esn∞ neznß. Pokud vyhledßvaΦe dupicitu zjistφ, chovajφ se r∙zn∞.

Google duplicitnφ strßnky indexuje tak, ╛e si vybere jednu strßnku z mnoha stejn²ch a ostatnφ ignoruje. To je dost rozumnΘ chovßnφ. Je na to ale pot°eba myslet, kdy╛ obsah n∞kam kopφrujete, proto╛e se vßm m∙╛e stßt, ╛e Google zaindexuje zcela jinou strßnku, ne╛ chcete.

Zßsadnφ doporuΦenφ proto znφ: nekopφrujte obsah zbyteΦn∞. Pokud musφte mφt obsah na vφce mφstech, zva╛te pou╛itφ n∞jakΘho p°esm∞rovßnφ na jednu strßnku, nejlΘpe p°esm∞rovßnφ na stran∞ serveru.

Google poΦφtß ka╛dΘ duplicitnφ strßnce (url) PageRank zvlß╣╗. Znφ to logicky, ale je to nep°φjemnΘ u v²chozφch soubor∙ (index, default apod.). P°φklad: mßm strßnku

http://www.domΘna.cz/

Google ji chßpe jako jinou strßnku ne╛

http://www.domΘna.cz/index.html

Z odkaz∙, kterΘ vedou do rootu /, poΦφtß PageRank pro root, z odkaz∙, kterΘ vedou na index, se poΦφt PageRank pro index.html. Co z toho plyne: rozhodn∞te se, jakΘ url budete prefereovat a na n∞j sm∞°ujte (a doporuΦte sm∞°ovat) v╣echny odkazy.

Penalizace

Na zßklad∞ znalosti vzoreΦku pro Page Rank dajφ vytvo°it "klikacφ farmy" (mno╛iny navzßjem prolinkovan²ch strßnek s nßhodn²m obsahem). Webmaste°i pou╛φvajφ ke zmatenφ vyhledßvaΦ∙ i skryt² text obsahujφcφ klφΦovß slova, neviditelnΘ odkazy a jinΘ metody. To se Googlu nelφbφ, a tak p°istoupil k penalizaci takov²ch praktik.

Pravd∞podobn∞ to d∞lajφ n∞jak²m algoritmem, kter² podvodnΘ strßnky vyhledßvß. Pracovnφci Google navφc sami takovΘ strßnky sami vyhledßvajφ. TakΘ se jim dß napov∞d∞t. Znßte-li strßnku pou╛φvajφcφ n∞jakΘ takovΘ nekalΘ praktiky, m∙╛ete ji nabonzovat na strßnce Spam report (anglicky). Pokud lidΘ z Google usoudφ, ╛e mßte pravdu, podvodnou strßnku z indexu vy°adφ nebo jφ nastavφ n∞jakou jinou penalizaci. Dß se to pou╛φt na likvidaci nekalΘ konkurence :-)

Co Google nevidφ

Jsou zp∙soby, jak zaruΦit (cht∞n∞ Φi necht∞n∞), aby na strßnku Google nep°i╣el Φi ji nebral v ·vahu:

nenamφ°it na strßnku ╛ßdn² odkaz
pomocφ meta tag∙ robots nebo pomocφ souboru robots.txt zakßzat indexovßnφ
ud∞lat ji n∞jak zak≤dovanou nebo v blbΘm formßtu (prezentace Poverpointu fakt nenφ to pravΘ)
dßt do adresy za otaznφk prom∞nnou id= , nap°. http://cokoliv.cz/page.php?id=1235 Google pravd∞podobn∞ nezaindexuje, proto╛e to id pova╛uje za se╣nu (to je spφ╣ chyba Googlu)

Dßle se uvßdφ, ╛e mß Google nerad moc komplikovanΘ adresy, kterΘ majφ za otaznφkem p°φli╣ mnoho parametr∙. Ale nynφ (podzim 2003) je indexuje mnohem vφce ne╛ d°φve.

ProΦ je Google d∙le╛it²

P°es vyhledßvßnφ Google chodφ na ΦeskΘ strßnky u╛ asi t°etina lidφ (psßno na ja°e 2003, druhou t°etinu zaujφmß podle m²ch m∞°enφ Seznam) a tento podφl se bude dßle zvy╣ovat.

Google je d∙le╛it² nejen proto╛e p°es n∞j hledß stra╣n∞ moc lidφ, ale hlavn∞ tφm, ╛e jej v╣echny vyhledßvaΦe budou napodobovat. I kdyby o svojφ pozici nejlep╣φho vyhledßvaΦe p°i╣el, jeho nßstupci budou mφt hodn∞ podobnΘ algoritmy a zßsady. Nap°. nejlep╣φ Φesk² vyhledßvaΦ Jyxo se ΦßsteΦn∞ inspiruje Googlem a netajφ se tφm.

Co Google umo╛≥uje webmaster∙m

Znßte to v∞t╣inou sami. Krom∞ normßlnφho hledßnφ:

pokroΦilΘ hledßnφ podle data, formßtu souboru
hledßnφ obrßzk∙
archivovßnφ strßnek
nalezenφ odkaz∙ mφ°φcφch na konkrΘtnφ strßnku
spoustu dal╣φch v∞cφ
a vyhledßvßnφ v rßmci jednΘ domΘny

Prohledßnφ jednoho webu

Pro webmastery je prßv∞ klφΦov∞ d∙le╛itΘ prohledßvßnφ jednΘ domΘny. Dß se tak ud∞lat hledacφ formulß° na vlastnφ strßnky. Jsou dva zp∙soby:

zkusit si pokroΦilΘ hledßnφ omezenΘ na moji domΘnu a z v²sledk∙ ud∞lat parazitnφ formulß°
nebo se u Google zaregistrovat na free search. Po╣lou k≤d formulß°e a navφc lze barvy v²sledku p°izp∙sobit vzhledu vlastnφho webu.

Kde je registrace: V╣e o Google > Search solutions > Free search > Register. Odklikß se registrace a vyberou se barvy v²sledk∙. Vizte p°φklad formulß°e hledajφcφho na strßnkßch dusan.pc-slany.cz a p°φklad obarven²ch v²sledk∙ hledßnφ slova "pokus".

Hlavnφ nev²hodou "googleovskΘho prohledßnφ webu" je to, ╛e kdy╛ je v adrese webu adresß°, nap°. domΘna.cz/adresß°/, tak Google pochopφ jako web to domΘna.cz, hledß tam v╣ude a na adresß° nebere z°etel. Tak╛e kdy╛ mß t°eba n∞kdo strßnky na Swebu na adrese t°eba www.sweb.cz/adresß°/, tak mß prost∞ sm∙lu a googleovsk² hledacφ formulß° na prohledßvßnφ t∞ch strßnek pou╛φt nem∙╛e, proto╛e by to hledalo na celΘm www.sweb.cz. (Na prohledßvßnφ takovΘho webu se dß pou╛φt Atomz.)

Kdy╛ chcete n∞co najφt na konkrΘtnφm cizφm webu, nemusφte p°es pokroΦilΘ hledßnφ. StaΦφ do normßlnφho hledßnφ napsat t°eba:

xhtml site:www.sovavsiti.cz

a bude to hledat informace o xhtml na serveru www.sovavsiti.cz. Nebo

Feynman site:cz

hledß infromace o nejgenißln∞j╣φ bytosti dvacßtΘho stoletφ v domΘn∞ cz. Pozor, to nenφ totΘ╛ co hledat v Φe╣tin∞. Pozor, za dvojteΦkou nenφ mezera.

Hledßnφ na vlastnφm serveru -- vφce informacφ a dal╣φ mo╛nosti.

Zp∞tnΘ odkazy

PokroΦilΘ hledßnφ Google umo╛≥uje zjistit, jakΘ strßnky odkazujφ na tu va╣i. Je tam mo╛nost "najφt strßnky odkazujφcφ na strßnku:" a mφsto pro zadßnφ adresy. Nebo se to dß i z normßlnφho hledßnφ zßpisem

link:http://ta.adresa.cz

najφt strßnky odkazujφcφ na konkrΘtnφ strßnku. To je pro autory strßnek velice zajφmavß informace. Pozor, jsou vypisovßny pouze d∙le╛itΘ strßnky. Pokud na n∞jakou strßnku mφ°φ odkaz z nepodstatnΘ strßnky (PageRank men╣φ ne╛ asi 4), Google ji nevypφ╣e.

Meta tag googlebot

Krom∞ klasickΘho meta tagu robots akceptuje indexovaΦ Google jeden zvlß╣tnφ meta tag googlebot

<meta name="googlebot" content="nosnippet,noarchive">

snippet / nosnippet

Vypisovat / nevypisovat ·ryvky (ukßzky) ze strßnky. Pokud je nastaven "nosnippet", nevypisuje Google ╛ßdnΘ ·ryvky v textu strßnky. Maximßln∞ se jako popisek objevφ katalogov² popis strßnky z ODP, to je obvykle text uveden² v <meta name="Description" content="popis strßnek">, ale strßnka musφ b²t za°azena v ODP a tam m∙╛e b²t popisek zm∞n∞n.

archive / noarchive

Archivovat / nearchivovat verzi strßnek v archivu (neboli cache) Googla. Pokud dßm noarchive, nedostanete se ke starΘ verzi m²ch strßnek, pokud ji z webu odstranφm. V opaΦnΘm p°φpad∞ bude mφt Google uchovanou kopii m²ch strßnek a i kdy╛ je z webu odstranφm, tak nap°φklad prßv∞ p°es Google se na n∞ dostanu, p°esto╛e ji╛ fyzicky neexistujφ.

Yuh∙: Osobn∞ doporuΦuji meta tag googlebot moc nepou╛φvat. Kdy╛ se nezadß, tak to Google chßpe jako snippet,archive. TakovΘ nastavenφ umo╛≥uje p°esn∞j╣φ vyhledßvßnφ (Google si udr╛uje cache kv∙li p°esnosti) a je v∞t╣φ ╣ance, ╛e si na to u╛ivatel klikne, kdy╛ uvidφ hledanΘ slovo v kontextu (snippet).

Vizte tΘ╛: Vyhledßvacφ servery, jak fungujφ, Slu╛by vzdßlen²ch server∙, Parazitnφ formulß°e, Hledßnφ na vlastnφm serveru
Odkaz mimo: Google, PokroΦilΘ hledßnφ, Archiv konference optimalizace pro vyhledßvßnφ (Φesky), Google dance (Martin Kopta), Vysv∞tlenφ v²poΦtu PageRanku (anglicky)

o tvorb∞, ·dr╛b∞ a zlep╣ovßnφ internetov²ch strßnek

Nßvody HTML CSS JavaScript FrontPage

Pφ╣e Yuh∙, dusan@pc-slany.cz

Jak psßt web: www.jakpsatweb.cz

Pφ╣e Yuh∙: http://dusan.pc-slany.cz, mail: dusan@pc-slany.cz

Poslednφ aktualizace 10.12.2003