Quo vadis AltaVista
ZbyÜek Bahensk²
Kdo nevφ, co je AltaVista, bu∩ v∙bec neznß Internet, nebo je ·pln²m zaΦßteΦnφkem. VÜichni u₧ivatelΘ Internetu si toti₧ automaticky vybavφ (ti rychlejÜφ hned vy¥ukajφ na klßvesnici) adresu www.altavista.digital.com. Altavista je jednφm z nejv∞tÜφch a tedy i nejznßm∞jÜφch prohledßvaΦ∙ Webu. Kdysi jsme v Computerworldu zve°ejnili rozhovor s Louisem Monierem, jednφm z tv∙rc∙ tohoto projektu. Letos p°ijel na konferenci Internet World do Prahy Paul Flaherty, dalÜφ mu₧ zapojen² do projektu AltaVista. Dnes ji₧ p°φmo v AltaVist∞ nepracuje, ale to nßm nemohlo zabrßnit v zajφmavΘm rozhovoru, z n∞ho₧ vzeÜel nßsledujφcφ p°φsp∞vek.
Projekt Altavista vznikl na ja°e 1995, kdy prßv∞ Louis Monier u ob∞da diskutoval s Joellou Paquettovou o mo₧nosti fulltexovΘho vyhledßvßnφ na Webu. Pak se k nim p°idal Paul Flaherty, kter² v∞d∞l, jak nßroΦnΘ je vyhledßvßnφ informace na Webu. P°iÜel vÜak s myÜlenkou demonstrovat schopnosti tehdy nejnov∞jÜφho v²konnΘho serveru firmy Digital -- Alpha 8400 Turbolaser. Otev°ela se tφm mo₧nost mnohonßsobn∞ snφ₧it dobu vyhledßvßnφ urΦitΘho dokumentu. Uplatn∞nφ samoz°ejm∞ nenφ jen v Internetu, ale i v situaci, kdy nap°. obchodnφk telefonuje se zßkaznφkem a pot°ebuje mu poskytnout n∞jakou informaci. Pokud mß mo₧nost dostat tuto informaci b∞hem n∞kolika sekund, m∙₧e mu ji dßt hned, pokud se "k nφ nedostane", musφ zßkaznφka po₧ßdat, aby zavolal zφtra a mo₧nß o n∞j p°ijde. Tak vznikla myÜlenka vytvo°it databßzi informacφ na Webu.
Kdy₧ byl projekt AltaVista spuÜt∞n, nikdo vlastn∞ netuÜil, jak² dopad bude v²sledn² hledaΦ mφt. Prvnφ den po spuÜt∞nφ vÜak p°inesl 600 tisφc p°φstup∙ a 300 tisφc zodpov∞zen²ch dotaz∙. Tehdy si t²m okolo AltaVisty uv∞domil, ₧e mß v rukou cosi, co pravd∞podobn∞ nemß ve sv∞t∞ Webu obdoby. To bylo p°ed koncem roku 1995. Rychlost vyhledßvßnφ byla dßna 64bitovou architekturou procesoru Alpha a rozvinut²m instrukΦnφm souborem, co se t²Φe instrukcφ pro manipulaci s jednotliv²mi bity.
Dnes ji₧ b∞₧φ AltaVista na 5 serverech po celΘm sv∞t∞. Poslednφmi dopl≥kov²mi projekty, kterΘ majφ "zpest°it" nabφdku vyhledßvacφ slu₧by, jsou rozpoznßvßnφ jazyka, p°eklad webov²ch strßnek do n∞kolika jazyk∙ ve spoluprßci s francouzskou firmy Systran a koneΦn∞ kontextov² rejst°φk.
Jak na sebe obrßtit pozornost AltaVisty
Majitel malΘ soukromΘ strßnky stejn∞ jako sprßvce rozsßhlΘho firemnφho Webu hledajφ cestu, jak se dostat do databßze AltaVisty a tφm i mezi miliony strßnek, kterΘ AltaVista nabφzφ sv²m nßvÜt∞vnφk∙m. Zadßme-li hlavnφ strßnku Webu, AltaVista se na ni prakticky ihned podφvß a ulo₧φ ji do svΘho indexu. To vÜak neplatφ o celΘm Webu, ale jen o prvnφm souboru, na kter² ukazuje odkaz zadan² vyhledßvaΦi. Tato prvnφ strana se vÜak zßrove≥ ocitne v seznamu ·kol∙ pro indexovacφho robota a ten po n∞kolika dnech a₧ t²dnech navÜtφvφ a zaindexuje cel² vßÜ Web. Pak bude AltaVista vßÜ Web navÜt∞vovat Φast∞ji a bude se sna₧it odhadnout, zda vaÜe strßnky pat°φ k t∞m statick²m, nebo zda se m∞nφ pom∞rn∞ Φasto. Podle toho pak upravφ hustotu nßvÜt∞v robota na vaÜφ strßnce.
Jak odstranit adresu
Naopak, odstran∞nφ strßnky z indexu je slo₧it∞jÜφ, nenφ mo₧nΘ na zßklad∞ vlo₧enφ informace "strßnka www.mojefirma.cz u₧ neexistuje" tuto strßnku vymazat. Velmi snadno by se toti₧ mohlo stßt, ₧e si konkurenti budou navzßjem odstra≥ovat z AltaVisty svΘ webovΘ adresy. Proto robot nejprve ov∞°φ, zda strßnka skuteΦn∞ neexistuje a teprve pak ji odstranφ.
Kdo svßdφ vyhledßvaΦe ze sprßvnΘ cesty