![]() Specializovaný týdeník o výpočetní technice o Internetu (CW 12/97) Fulltextové prohledávače českého Internetu -- a hned tři!
Pavouk má nejlépe ošetřené některé funkce, ale zatím příliš použitelný není. SearchCZ vám nikdy neodpoví nesmysl, ale leccos nenajde. Atlas najde nejvíce, jenže občas odpoví špatně...
Musím se přiznat, že tento článek jsem začal psát velmi rozhořčen. Vymýšlel jsem titulky jako Pavouk v pavučině zabloudil, Představuje Atlas krajinu jiné planety? či Nedokážou zavést dráty a chtějí prohledat Internet. Příčinou mého hněvu přitom byla skutečnost, že nově se objevivší prohledávače českého Internetu nepracují zrovna tak, jak by měly. Představitelé firmy Seznam se již loni v listopadu netajili záměrem nabídnout jako svoji další službu fulltextové vyhledávání. Nyní se stalo, že se jim objevila konkurence hned trojnásobná: Pavouk (http://pavouk.cesnet.cz), SearchCZ (na stránce Telecomu na http://194.228.2.35:8000/searchcz/) a Atlas (http://www.atlas.cz). Řekněme si rovnou, že i když to není vždy výslovně uváděno, všechny tři služby zatím běží víceméně ve zkušebním provozu -- z hlediska uživatele to znamená, že ani jedna nefunguje tak, jak by měla. Podoby, ve kterých se tyto tři prohledávače objevily, mají v tuto chvíli k ideální verzi hodně daleko. Začněme Pavoukem. Podle původního plánu měl vesele šermovat nožičkami ve chvíli, kdy nalezne žádaný odkaz. Jenže ouha, radost se mnohdy nekoná, tato nestvůra se s velkým množstvím pojmů prostě míjí a její sítí toho propadne až příliš mnoho. V tuto chvíli je tedy Pavouk použitelný pouze omezeně; je mu ale ke cti, že se postupně zlepšuje. Jiří T. Pelech, jeden ze dvou lidí pod celým projektem podepsaných, totiž zjistil, že Pavouk nenajde ani hesla vztahující se k jeho vlastní osobě a to mu dodalo potřebnou motivaci k dalšímu vylepšování. Pavouk nyní sice najde odkaz na "Pelech", ale nezná Pavla Housera ani českou domovskou stránku IDG, což hodnotím jako mimořádně významný nedostatek. Uvidíme časem. Ještě je třeba říci, že v případě Pavouka je ale dobře ošetřena duplicita serverů i různé kódování češtiny (viz dále). Pavouk většinou nachází dokumenty kódování pro windows. Pavoukovi podobnou službou je Atlas, který do provozu uvolnila firma Sprinx. Je zajímavé, že v internetových periodikách (Zprávy z Internetu na serveru Bajt, komentář na Neviditelném psovi, Svět Namodro) byla hodnocena bezvýhradně kladně, ačkoliv má v tuto chvíli také celou řadu nectností. Na počátku na ní byly nefunkční odkazy. To se zlepšilo, jenže předpis opět obsahuje řadu chyb. Nerozlišuje mnohdy mezery na konci slov (opět jsem to zjistil především testováním informací, které Atlas nalezne o mé maličkosti, jde o to, že pokud hledáte řetězec abc, najdete i xxxab cxx), nebo se i jak mýlí. Hledání uživatelů podle jména či e-mailové adresy je zatím rovněž ve stavu zrodu -- i když databáze se zřejmě bude postupně naplňovat. Její první podoba byla dle tvrzení představitelů firmy Sprinx vyhotovena podle lidí aktivních v newsových konferencích, což má něco do sebe. Atlas nerozlišuje malá a velká písmena. Třetí z řady pánů na holení je ve zkušebním provozu běžící služba Telecomu. Ta má jako jednu z výhod schopnost skloňování (s výjimkou např. nezvyklých příjmení), lze ji však vytknout, že neobsahuje možnost pracovat s logickými operátory. Rovněž rozměry stránky nejsou příliš šťastné, pokud máte nastaveno nejběžnější rozlišení obrazovky 800 * 600 pixelů. Podstatná pro prohledávač je prezentace výsledku. Podle předdefinovaných kritérií se počítá tzv. skóre a podle něj dojde k seřazení nalezených dokumentů ve vašem prohlížeči. Pro každého, kdo přišel do styku s AltaVistou, bude pořadí generované českými fulltextovými prohledavači připadat nezvyklé. Je však třeba uznat, že jak na Atlasu, tak na SearchCZ, máte možnost si do jisté míry vše nastavit sami. Opravdovým neštěstím českého fulltextu je, jak jinak, samotná čeština. Ne snad, že by prohledávače česky neuměly, jenomže vás zcela zaplaví jediným dokumentem v celé škále kódování. Ono to působí na první pohled dobře, najít tolik odkazů, ovšem v zápětí se ukáže, že se jedná o dokument jediný... Pokud je tedy v databázi prohledávače zaindexováno X stránek, toto číslo je zřejmě podstatně nižší právě kvůli existenci rozdílného kódování a duplicitě serverů (např. http://cech.cesnet.cz je stejné jako http://www.cech.cesnet.cz, http://seznam.cz je stejné jako http://svetobeznik.cz). Čestnou výjimkou je v tomto ohledu Pavouk. SearchCZ alespoň ve výpisu rozličuje kódování ASCII a diakritiku. Zbývá tedy zásadní otázka: Má dnes význam používat k orientaci na českém Internetu spíše české fulltextové prohledávače a nebo zkusit AltaVistu s omezením +host:cz? Konec konců, na Atlasu i SearchCZ toho dnes už zřejmě najdete víc -- přes všechny jejich chyby. AltaVista nebude výhledově zřejmě schopna tak rychle reagovat na změny v jediné zemi. Nepochybuji o tom, že ve chvíli, kdy toto čtete, se již proti popisovanému stavu mnohé zlepšilo a nebo se to zlepší v blízké budoucnosti. Skutečná bitva o zákazníka se teprve rozbíhá a první rozpačité dojmy mohou být rychle zapomenuty. Přesto mně však nedostatky prohledávačů nejsou lhostejné. Předtstavte si internetového začátečníka, kterého kamarád posadí k počítači a řekne mu: "Podívej, na Internetu najdeš všechno, úplně všechno. Co tě nejvíc zajímá?" "Jezevčíci." "Výborně. Vyťukej slovo bez hacku a carek, v 1. pádě jednotného čísla (a nebo jen slovní základ doprovázený hvězdičkou) tady na tom a tom vyhledávacím serveru a ono ti to najde..." Pakliže však služba nenajde nic a nebo přijde nesmyslná reakce, má Internet -- když ne přímo nepřítele, tedy alespoň skeptika. Představitelé prozatím pouze katalogového prohledávače Seznam jsou klidní a dál pracují na fulltextu vlastním: "Už nemůžeme být první, ale můžeme být lepší," říká ředitel firmy Ivo Lukačovič. Buď jak buď, po nerovné konkurenci Seznamu a U zdroje se však můžeme těšit, že souboj vyhledávacích služeb se naplno rozjede i v České republice.
(pah)
České fulltextové prohledávače stav na počátku března 97
| <<< | CW o Internetu | COMPUTERWORLD | IDG CZ homepage | |