COMPUTERWORLD
Specializovaný týdeník o výpočetní technice
o Internetu
(CW 49/96)

Roboty WWW: Nová generace na scéně

Jiří T. Pelech

Seznamy a vyhledávací roboty

Celosvětová pavučina je doslova nepřebernou zásobárnou všech možných i nemožných údajů. Díky Internetu s jeho celosvětovým dosahem jsou komukoli dostupné (téměř) všechny stránky, které se objeví v Pavučině kdekoli na naší planetě. Počet takto vystavených stránek dosahuje astronomických čísel, takže není v lidských silách mít přehled o všem, co se kde objeví. Zmapovat alespoň nějakou část WWW se v Internetu -- s různými úspěchy a v různém rozsahu -- snaží kdekdo. Jen málo jich však dosáhlo celosíťové proslulosti a jen málo z nich si dovede udržet přehled.

S nástupem Pavučiny se objevily i první databáze stránek WWW. Obecně se jim říká seznamy a zpravidla jsou sestavovány jedním nebo několika lidmi, který řadí odkazy na stránky podle předem připraveného schématu. Nejznámějsí z nich je bezpochyby Yahoo (http://www.yahoo.com). Tyto databáze jsou vhodné ve chvílích, kdy se zajímáte o určité téma a kdy máte alespoň hrubou představu, co přesně chcete. Potom stačí zabrousit do předem vytipované oblasti databáze a poohlédnout se kolem. Zpravidla naleznete nějakou stopu, která vás nakonec úspěšně dovede k cíli.

Nepředstavitelně prudký nárůst počtu stránek WWW (a tím i objemu dat) podnítil myšlenku automatických sběračů informací - robotů, které samovolně prohledávají prostor Pavučiny a vyrábějí jakési rejstříky. Tyto rejstříky potom využívají při pátraní po informacích a odkazech, o které jsou požádány. V této oblasti je konkurence znatelně větší, protože špici ledovce tvoří nejméně pět prohledávacích gigantů. Dnes se zaměříme na horkou novinku, kterou její tvůrci označují robotem nové generace, a která je k dispozici zatím jen v testovací verzi.

Infoseek Ultra

Firma Infoseek není v Pavučině nováčkem, její robot se v posledních letech umisťoval na předních místech hodnocení v kategorii vyhledávacích nástrojů. S nástupem dravé konkurence a s neustálým bujením Sítě však ztrácel Infoseek na důležitosti a byl znatelně odsouván do pozadí, a to zejména kvůli nedostatečné rychlosti odpovědí a relativní zastaralosti údajů v databázi.

Vývojový tým Infoseeku však zvedl rukavici hozenou svými rivaly a vstoupil do arény s novým nástrojem -- Infoseekem Ultra (http://ultra.infoseek.com).

Mezi jeho hlavní výhody by měly patřit: rychlost -- dokáže vyřídit až 1 000 dotazů v průběhu jedné vteřiny (nejen jednotlivých slov, ale i jejich složitých kombinací); rozsah -- v současné době má k dispozici zhruba 80 mil. odkazů, v tom 50 miliónů prozkoumaných stránek, přičemž se snaží pominout několik různých adres jedné stránky; aktuálnost -- pokud přidáte nový odkaz, je okamžitě zaregistrován a zařazen do databáze; přesnost -- umí hledat slova i s ohledem na velká a malá písmena, dokáže rozlišovat anglická slova a hledat i jejich příbuzné tvary, hledá celé věty nebo jejich části; u výsledku vypisuje celkový počet nalezených stránek; jednoduchost ovládání -- kromě obvyklých logických konstrukcí porozumí dokonce i jednoduchým tázacím větám v angličtině, takže s ním může komunikovat i naprostý laik.

Předchozí odstavec se opírá o dokumentaci robotu, kterou nabízejí jeho tvůrci, takže jim můžeme věřit nebo nemusíme. Já jsem si jej samozřejmě vyzkoušel sám. V pondělí večer jsem hledal spojení "hlavni nadrazi". Infoseek Ultra mi nabídl první desítku (z celkového počtu 1 118) odkazů po necelých třech vteřinách. Jeho předchůdce našel celkem 32 odkazů, přičemž prvních deset se mi objevilo po pěti vteřinách. Alta Vista mi po dvou vteřinách nabídl prvních deset ze 184 odkazů. Lycos mi po zhruba devíti vteřinách vypsal prvních deset z 11 odkazů. HotBot mi po čtrnácti vteřinách předvedl první desítku z 217 odkazů. Web Crawler mě po 72 vteřinách uspokojil třiceti odkazy. Excite nalezl celkem 130 odkazů a prvních deset mi předvedl po třinácti vteřinách.

To jsou samozřejmě jen čísla. Mnohem důležitější je, jestli nám nalezené odkazy k něčemu budou. V tomto konkrétním případě jsem našel hlavní nádraží nejen v Praze, ale i v dalších městech ČR a USA. Proto jsem podmínku zúžil na "hlavni nadrazi praha". Následuje stručný přehled doby hledání a celkového počtu nalezených odkazů. Infoseek Ultra: 4s + 802; Infoseek: 5s + 437; Alta Vista: 6s + 100; Lycos: 17s + 5; HotBot: 10s + 159; Web Crawler: 88s + 388; Excite: 14s + 91. (Viz též graf)

Jak je vidět, nabízí opravdu Infoseek Ultra v krátké době nejvíce odkazů, přičemž jejich skladba byla v mém případě podivuhodně podobná rejstříku konkurenčního HotBotu. Nevím, možná šlo jen o náhodu. Dále jsem si všiml, že Alta Vista nabízí v první desítce více odkazů ze zahraničí než od nás (např. ze Skandinávie a Francie), zatímco u všech ostatních robotů převžují odkazy na naše zdroje.


| <<< | CW o Internetu | COMPUTERWORLD | IDG CZ homepage |