Červen 1997   

   ROMAN VÁNĚ   
Vyhledávací služby Internetu
Internet
Možná jste kouzlu Internetu propadli i vy. V Síti lze totiž najít informace téměř o všem, co vás zajímá. Je nepřebernou studnicí znalostí, zkušeností, ale také zbytečností. Největším problémem ovšem zůstává, jak kýžené informace nalézt. Díky obrovské dynamice růstu Internetu a jeho decentralizovanosti dochází k mnoha změnám ze dne na den, či dokonce z hodiny na hodinu. Navíc z principiálních důvodů neexistuje žádný seznam např. připojených uživatelů nebo WWW stránek. Proto může být člověk hledající na Síti něco konkrétního často frustrován z kvanta zbytečného balastu, kterým se musí prokousat. Naštěstí existují v Internetu specializované služby, které si kladou za cíl odpovídat uživatelům na jejich dotazy, co kde hledat. A právě o nich je tento článek.

Vyhledávací stroje fungují buď při univerzitách coby nástroj vědy a výzkumu, nebo se jedná o servery komerčních organizací. Financování komerčních serverů se provádí buď platbou za vyhledávací služby, nebo komerční organizace získává finanční prostředky za reklamu umístěnou na svých stránkách. Vyhledávací stroje jsou stále dokonalejší. Původně vyhledávaly jen pomocí jednoduchých booleovských funkcí, dnes již mnohé disponují enginy s fuzzy logikou a měřením relevance vyhledaných informací. Služby lze rozdělit do několika kategorií:

* katalogizační služby poskytují ucelený strom témat, kterým lze procházet. Je to strukturovaná a podle subjektu organizovaná hierarchie kategorií informací. Subjekt jednotlivých příspěvků stanoví administrátor služby nebo autor stránky. Některé služby disponují rovněž indexy klíčových slov -- pak lze též položit dotaz. Služby se dále liší několika charakteristikami:

-- velké katalogy s minimálními restrikcemi zařazování zdrojů (např. Yahoo, Galaxy, WWW Virtual Library)

-- služby se zřetelnou hodnotou nových příspěvků včetně komentářů a hodnocení odborníků (např. GNN's Whole Internet Catalogue, Magellan, Point)

-- specializované katalogy (např. ArchNet -- archeologie)

* search engines zpracovávají uživatelské dotazy formou hledání slova či fráze. Obsahují automaticky přidávané informace do indexů (pomocí robotů a spiderů). Jednotlivé služby se liší velikostí indexů, periodicitou obnovy dat, rychlostí dodání odpovědi na dotaz a jeho prezentací (anotace, velikosti nalezených stran atd.), možnostmi hledání (search options), relevancí výsledků a snadností obsluhy.

* metasearch engines (přijímají uživatelský dotaz a rozesílají jej na více vyhledávacích strojů). Označují se taky jako Multi-threaded search engines.

* interface služby (poskytují jednotný interface mezi uživatelem a některými vybranými vyhledávacími stroji. Tyto servery samy nic nevyhledávají; prostřednictvím jednotného formuláře uživatel zadává dotaz a vybírá si, na který server bude dotaz poslán)

* seznamy obsahující listing tematických oblastí, jimiž se příspěvky zabývají.

* vlastní vyhledávací služby organizací (vyhledávání zdrojů interně v určité organizaci).

* jiné vyhledávací služby (mapy apod.).

Vyhledávací stroje pracují s databází zdrojů, kterou při dotazu prohledávají. Tato databáze může být tvořena ručně správou serveru (např. YAHOO), nebo může být generována algoritmicky (např. LYCOS). Serverů existuje velké množství a jejich databáze bývají specifické pro každý server. Proto mohu vřele doporučit: pokud na prvním serveru nenajdete požadované informace, obraťte se na jiný. Pro první "nástřel" bývá často vhodné použít některý metasearch engine nebo katalog (aby si hledající uvědomil, co vlastně hledá a jaké termíny k hledání použít). Vzhledem k dynamickému růstu a změnám v Internetu se taky může stát, že odkaz nalezený vyhledávací službou již neexistuje. V následujících řádkách možná naleznete inspiraci kam se podívat, hledáte-li odpovědi na své všetečné dotazy.


Katalogizační služby (procházení katalogu)

SEZNAM českého Internetu
http://www.seznam.cz

Procházení seznamu podle kategorií nebo vyhledávání: jednoduché (slova spojena OR), nebo vyhledávací centrála (pokročilejší funkce, volby OR, AND, citlivost na velká/malá písmena).

Český národní navigátor
http://www.uzdroje.cz

Umožňuje prohledávat strom témat, nebo zadat dotaz k vyhledání určitého termínu. Termín může být hledán na serveru U zdroje, službou Borec (odezvou je seznam URL adres bez dalších popisků), službou Pavouk (seznam URL s popisky) nebo jej lze hledat v pražské síti. Strom témat (katalog) obsahuje 10 základních položek, které se dále dělí do subkategorií. Neobsahuje sice příliš mnoho odkazů, zato komunikuje s uživatelem v češtině a spojení i vyhledávání je velmi rychlé.

Atlas
http://www.atlas.cz

Nejmladší katalogizační (strom témat) a vyhledávací (jednoduché i složitější dotazy) služba, poskytující orientaci v doméně cz. Umí též hledat osoby, podporuje diskuse a komunikaci v reálném čase.

Yahoo
http://www.yahoo.com/

Databáze odkazů na jiné WWW stránky a servery, kterou lze prohlížet (browse) nebo prohledávat (search). Hlavní menu je rozděleno do několika oblastí, za každým názvem oblasti následuje v závorce počet linků, které se této oblasti týkají. Tyto linky jsou rozděleny do dalších několika úrovní a podúrovní.

Internet Sleuth
http://www.isleuth.com

Procházení stromu kategorií + možnost hledat klíčové slovo. Obsahuje na 750 prohledávatelných databází. Spojení není nejrychlejší, zato výběr témat a databází stojí za vyzkoušení. Můžete dokonce zadat dobu, jakou jste ochotni na výsledky hledání čekat.

EINet Galaxy
http://galaxy.einet.net/galaxy.html

Jeden z vůbec prvních a největších katalogů (stromů). Dobře organizovaný a snadno browsovatelný katalog témat, který je sestavován ručně administrátory. Pohodlný interface umožňuje hledat pomocí jednoduché i "advanced" vyhledávací funkce.

Search engines (hledání klíčových slov)

Alta Vista
http://altavista.digital.com/
http://www.altavista.com

Prohledávání WWW stránek a skupin Usenetu (max. 14 dní staré příspěvky). Informace možno dostat ve třech formulářích (standard, compact, detailed). V dotazu je možné používat hvězdičkové konvence (SUPER!), dotaz lze položit jako jednoduchý (Simple query) -- hledá jeden termín, nebo jako Advanced (AND, OR, NOT, NEAR, setřídění dle vyhledaných termínů, aktuálnost). Službu možno najít též na jiných adresách po celém světě.

Lycos
http://www.lycos.com

Databáze linků se tvoří automaticky pomocí sběračských programů. Je možné prohledávat Web, hledat zvuk, obrázky, subjekt, Newsy, lidi, města a automapy. Je možné hledat jen jedno klíčové slovo, což považuji za nevýhodu (pak musíte procházet velké množství vyhledaných příspěvků).

InfoSeek
http://www.infoseek.com/

InfoSeek vznikl někdy v druhé polovině roku 1994, a hned od začátku byl rozdělen na dvě služby: placenou (InfoSeek Professional) a bezplatnou (InfoSeek Guide). První z nich je spíše službou rešeršní, vhodnou zejména k vyhledávání odborných článků. Bezplatná část InfoSeeku nabízí možnost vyhledávat v rámci WWW stránek, diskusních skupin Usenetu a v rámci dokumentů FAQ (Usenet). Dostupné informace lze procházet ve stromu témat (katalogizováno) nebo lze zadat dotaz.

WebCrawler
http://webcrawler.com/

Vyhledávací stroj s výborným designem svých stránek a ještě lepším katalogem. Informace lze buď vyhledávat (jen jeden termín), nebo procházet katalogem (browse). Výsledky dotazu možno nechat zobrazit jen jako titulky nalezených stran, nebo včetně summaries. Počet vyhledaných příspěvků lze omezit na 10/25/100.

excite
http://www.excite.com/

Disponuje browserem (20 základních kategorií) a vyhledávací funkcí. Kromě WWW stránek najde i mapy, shareware, slovníky, e-mailové adresy, lidi, zlaté stránky (neboli organizace).

Open Text Index
http://www.opentext.com/omw/f-omw.html

Umí hledat max. 3 klíčová slova, zato kombinovaná operátory AND, OR, NOT (zde se zove BUT NOT), NEAR a dokonce FOLLOWED BY. Pro hledaná klíčová slova lze specifikovat oblast jejich výskytu v dokumentech (anywhere, summary, title, first heading, URL...) -- což může (ale nemusí!) být přínosem. Na serveru je taky sekce search tips, která poradí, jak položit dotaz, aby byly výsledky co nejlepší. Výsledky dotazu zobrazí včetně dalších užitečných informací (relevance score, file size, abstract, links to similar pages).

Inktomi
http://inktomi.berkeley.edu/

Snaží se o co nejrychlejší a nejobsažnější vyhledání odpovědi na dotaz. K tomuto nelehkému cíli používá metodu paralelního zpracování (paralel computing). Hledá až deset klíčových slov. Výsledky ohodnotí dle relevance a setřídí je. V době psaní tohoto textu nebylo v lidských silách se k serveru připojit.

DejaNews
http://www.dejanews.com/

Služba usnadňuje orientaci v Newsech. Umožňuje dokonce číst a posílat příspěvky do Usenetu, disponuje browserem (procházení katalogu informací). Udržuje informace i daleko zpět do historie.

Metasearch engines (hledání klíčových slov na více strojích)

SavvySearch
http://www.cs.colostate.edu/~dreiling/smartform.html

Umožňuje položit jediný dotaz více strojům současně. SavvySearch od vás přijme dotaz, rozešle jej na několik dalších strojů, vyzvedne od nich odpovědi, které sestaví do jediného celku a pošle tazateli. Spolupracuje s celkem 23 stroji. Na základě několika kritérií sestaví vyhledávací plán: rozdělí obhospodařované služby do několika skupin a položí dotaz první (tedy nejvhodnější) skupině strojů. Uživatel pak může zadat dotaz i dalším jejich skupinám. S uživatelem komunikuje v několika jazycích (i česky!).

MetaCrawler
http://metacrawler.cs.washington.edu:8080/index.html

Jednou položený dotaz MetaCrawleru je předložen několika vyhledávacím strojům, duplicity v odpovědích jsou eliminovány. Dobu hledání lze omezit časově (na 1--10 minut), geograficky či druhem serverů (komerční, vojenské, akademické).

Interface služby (jednotné rozhraní pro více vyhledávacích strojů)

CUSI
http://sunsite.mff.cuni.cz/search/cusi.html

Není vlastně vyhledávací službou, jen jakýmsi "deštníkem" zastřešujícím několik vyhledávacích strojů. Snaží se být jediným interfacem mezi uživatelem a vyhledávacími stroji. Je to inteligentní seznam vyhledávacích strojů, který dokáže zprostředkovat položení dotazu libovolnému stroji, který si uživatel vybere ze seznamu. CUSI nic nevyhledává, stará se jen o doručení dotazu vybranému stroji. Odpověď na dotaz neprochází, tázaný stroj odpovídá přímo tazateli.

All-in-One
http://www.albany.net/allinone/

Kompilace několika form-based (formulářových) vyhledávacích strojů (search engines).

Seznamy

Yanoff's List
http://www.spectracom.com/islist

Jeden z nejlepších a nejstarších seznamů (5 let). Poskytuje přístup k FTP archivům, telnetovským uzlům a samozřejmě WWW stránkám. Jeho obsah tvoří dlouhá stránka témat a jejich podtémat. Velice hezky graficky zpracováno.

Seznamy CZ_list
http://www.dcit.cz/CZ_list/index.html

Na stránce firmy DCIT najdete čtyři seznamy: žlutý CZ list obsahuje tematicky řazený (tedy jak jsme zvyklí ze zlatých stránek) seznam internetovských služeb v ČR, bílý CZ list obsahuje adresář firem a organizací, modrý CZ list poskytne seznam všech poskytovatelů Internetu v ČR. Duhový CZ list zastřešuje všechny výše zmíněné seznamy, a navíc obsahuje odkazy na další seznamy, které vznikly mimo firmu DCIT.

Zdroje CESNETu
http://www.cesnet.cz/html/cesnet/cesnet-resources.html

Přehled většiny WWW serverů, FTP serverů a Gopher Serverů, Mirrory, e-maily, Newsy, vyhledávání uživatelů v CESNETu včetně doplňkových informací (např. anonymní loginy a hesla na FTP servery)

Vlastní vyhledávací služby organizací

Hledání osob na Karlově univerzitě
http://www.cuni.cz/cucc/whois/whoisdotazCS.html

Hledání e-mailových adres na VŠE
http://www.vse.cz/hledej.html

Hledání lidí na VUT v Brně
http://www.fee.vutbr.cz/info/CSO/cso.html.cz.Windows-1250

Jiné vyhledávací služby

Veronica
gopher://veronica.vslib.cz:2347/7

Prohledává menu gopherovských serverů.

CityNet
http://city.net/regions/

Informace o státech, fotografie památek, měst, významných míst, historie...

Nosey Parker
gopher://parker.vslib.cz:1996/1

Prohledávání obsahů anonymních FTP serverů v ČR.

Netfind
gopher://netfind.vslib.cz:4320/1netfind

Vyhledávání e-mailových adres.

Další služby
gopher://gopher.vslib.cz:70/11/.gopherinfo/gateways

Na této adrese najdete přístupové body k dalším užitečným službám, jako např. X-500, Wais, WhoIs a některým dalším.


PC WORLD 06/97