COMPUTERWORLD
 

profil kontakt CD-ROM CW100 předplatné

archiv anketa CO VY NA TO? CW kariéra seriály
 

IDG

IDG CZ homepage
COMPUTERWORLD
PC WORLD
INTERNET4U
MEGABYTE
TESTCENTRUM
ON-LINE






COMPUTERWORLD 23/98

Quo vadis AltaVista

Zbyšek Bahenský

Kdo neví, co je AltaVista, buď vůbec nezná Internet, nebo je úplným začátečníkem. Všichni uživatelé Internetu si totiž automaticky vybaví (ti rychlejší hned vyťukají na klávesnici) adresu www.altavista.digital.com. Altavista je jedním z největších a tedy i nejznámějších prohledávačů Webu. Kdysi jsme v Computerworldu zveřejnili rozhovor s Louisem Monierem, jedním z tvůrců tohoto projektu. Letos přijel na konferenci Internet World do Prahy Paul Flaherty, další muž zapojený do projektu AltaVista. Dnes již přímo v AltaVistě nepracuje, ale to nám nemohlo zabránit v zajímavém rozhovoru, z něhož vzešel následující příspěvek.

Projekt Altavista vznikl na jaře 1995, kdy právě Louis Monier u oběda diskutoval s Joellou Paquettovou o možnosti fulltexového vyhledávání na Webu. Pak se k nim přidal Paul Flaherty, který věděl, jak náročné je vyhledávání informace na Webu. Přišel však s myšlenkou demonstrovat schopnosti tehdy nejnovějšího výkonného serveru firmy Digital -- Alpha 8400 Turbolaser. Otevřela se tím možnost mnohonásobně snížit dobu vyhledávání určitého dokumentu. Uplatnění samozřejmě není jen v Internetu, ale i v situaci, kdy např. obchodník telefonuje se zákazníkem a potřebuje mu poskytnout nějakou informaci. Pokud má možnost dostat tuto informaci během několika sekund, může mu ji dát hned, pokud se "k ní nedostane", musí zákazníka požádat, aby zavolal zítra a možná o něj přijde. Tak vznikla myšlenka vytvořit databázi informací na Webu.

Když byl projekt AltaVista spuštěn, nikdo vlastně netušil, jaký dopad bude výsledný hledač mít. První den po spuštění však přinesl 600 tisíc přístupů a 300 tisíc zodpovězených dotazů. Tehdy si tým okolo AltaVisty uvědomil, že má v rukou cosi, co pravděpodobně nemá ve světě Webu obdoby. To bylo před koncem roku 1995. Rychlost vyhledávání byla dána 64bitovou architekturou procesoru Alpha a rozvinutým instrukčním souborem, co se týče instrukcí pro manipulaci s jednotlivými bity.

Dnes již běží AltaVista na 5 serverech po celém světě. Posledními doplňkovými projekty, které mají "zpestřit" nabídku vyhledávací služby, jsou rozpoznávání jazyka, překlad webových stránek do několika jazyků ve spolupráci s francouzskou firmy Systran a konečně kontextový rejstřík.

Jak na sebe obrátit pozornost AltaVisty

Majitel malé soukromé stránky stejně jako správce rozsáhlého firemního Webu hledají cestu, jak se dostat do databáze AltaVisty a tím i mezi miliony stránek, které AltaVista nabízí svým návštěvníkům. Zadáme-li hlavní stránku Webu, AltaVista se na ni prakticky ihned podívá a uloží ji do svého indexu. To však neplatí o celém Webu, ale jen o prvním souboru, na který ukazuje odkaz zadaný vyhledávači. Tato první strana se však zároveň ocitne v seznamu úkolů pro indexovacího robota a ten po několika dnech až týdnech navštíví a zaindexuje celý váš Web. Pak bude AltaVista váš Web navštěvovat častěji a bude se snažit odhadnout, zda vaše stránky patří k těm statickým, nebo zda se mění poměrně často. Podle toho pak upraví hustotu návštěv robota na vaší stránce.

Jak odstranit adresu

Naopak, odstranění stránky z indexu je složitější, není možné na základě vložení informace "stránka www.mojefirma.cz už neexistuje" tuto stránku vymazat. Velmi snadno by se totiž mohlo stát, že si konkurenti budou navzájem odstraňovat z AltaVisty své webové adresy. Proto robot nejprve ověří, zda stránka skutečně neexistuje a teprve pak ji odstraní.

Kdo svádí vyhledávače ze správné cesty

Nejnovějším problémem vyhledávacích strojů je tzv. "search engine spam", česky řekněme podvádění vyhledávačů. Podobně jako u spamu zasílaného elektronickou poštou, se i zde jedná o druh manipulace s informacemi. Např. po smrti princezny Diany se objevily stránky, které měly v textu mnohokrát její jméno (a slova blízká její osobně a její tragické smrti), ovšem umístěné a barevně nastavené tak, že je běžný návštěvník na stránce neviděl. Vyhledávací stroj však "získal dojem", že tato stránka se velmi intenzivně zabývá tématem lady Diany a mnoha zájemcům o toto téma pak "podstrčil" i stránku zaměřenou na jiné, většinou komerční téma. Podle slov Paula Flahertyho je velmi nelehké s touto webovou manipulací bojovat. Situaci však prý zjednodušuje fakt, že se na podvádění vyhledávačů specializují malé skupinky lidí, o nichž je to většinou již známo.

 

 

© IDG Czechoslovakia, a.s., Všechna práva vyhrazena
info@idg.cz, webmaster@idg.cz