Zßkladnφ pojmy

àaneb co to je, kdy₧ se °ekne fulltext a hypertext.

      Oba, v poslednφ dob∞ velmi frekventovanΘ v²razy, chßpe °ada u₧ivatel∙ podle sv²ch dosavadnφch poznatk∙ a zkuÜenostφ. Ty mohou b²t velmi jednostrannΘ a omezenΘ, proto₧e je omezen² i rozsah jimi u₧φvan²ch program∙. Existuje ovÜem celß °ada nßstroj∙ a prost°edk∙ aplikovan²ch p°i tvorb∞ databßzφ a nßsledn∞ p°i fulltextovΘm Φi hypertextovΘm vyhledßvßnφ a auto°i ka₧dΘho programu, ka₧dΘho informaΦnφho systΘmu nebo webovΘ vyhledßvacφ slu₧by u₧φvajφ jejich jinou kombinaci. A proto₧e prßv∞ ten sv∙j model majφ za samoz°ejm² a vÜeobecn∞ znßm², nepova₧ujφ obΦas za nezbytnΘ podßvat bli₧Üφ vysv∞tlenφ nebo podrobnou nßpov∞du o tom, jak jejich aplikace pracuje. Stßvß se tak nap°. v situaci, kdy se u₧φvß pro vyhledßvßnφ p°esn² obraz znakovΘho °et∞zce (spouÜt∞n² pokynem Search, Ctrl F apod.).

      Proto₧e mo₧nosti fulltextovΘho vyhledßvßnφ jsou velmi ÜirokΘ, nabφzφ °ada systΘm∙ sv²m u₧ivatel∙m vlastnφ volbu parametr∙ - zapojenφ Φi nezapojenφ diakritiky, rozliÜovßnφ velikosti pφsmen, pou₧itφ lingvistickΘho modulu.

      V p°φpad∞ hypertextu jsou struktura a vazby p°edem dßny a u₧ivatel je neovlivnφ, pokud si ovÜem nevytvß°φ pomocφ vhodn²ch nßstroj∙ vlastnφ texty nebo celou databßzi.

FULLTEXT

      Fulltext je v²raz pou₧φvan² pro vyhledßvßnφ textovΘho °et∞zce v textovΘm dokumentu (na rozdφl od metody tzv. klφΦov²ch slov). Pro kvalitnφ v²sledek je t°eba se soust°edit na re₧im tohoto °et∞zce, tj. urΦit jakΘ vlastnosti mß mφt p°i zßpisu i jak² oΦekßvßme v²sledek. ╪et∞zec chßpeme ve smyslu
  • n∞kolika po sob∞ nßsledujφcφch pφsmen Φasto bez konkrΘtnφho v²znamu (nap°. "str"),
  • slovnφho kmene (nap°. "strav" pro stravenku, stravovat, stravnΘ),
  • slova, tj. urΦitΘho poΦtu znak∙ mezi dv∞ma mezerami v textu ("stravnΘ").
      Dv∞ nebo vφce slov svßzan²ch gramaticky nebo sΘmanticky (v²znamov∞) budeme oznaΦovat jako slovnφ spojenφ (da≥ ze mzdy, prßvnφ ·kon). Dßle je t°eba urΦit Φßsti dokument∙, kterΘ budeme prohledßvat. Text je v podstat∞ sekvence slov a mezer a Φlenφ se do nejr∙zn∞jÜφch struktur, typick²ch pro urΦitΘ obory lidskΘ Φinnosti (prßvnφ p°edpis, bßsniΦka, novinov² Φlßnek, zßznam dialogu, adresß° apod.).

      Efektivnost vyhledßvßnφ je spojena s pojmy koeficient ·plnosti a koeficient p°esnosti. Prvnφ vyjad°uje, v jakΘ mφ°e byly vyhledßny dokumenty, kterΘ z hlediska po₧adavku m∞ly b²t nalezeny. Druh² pak ukazuje, kolik nadbyteΦn²ch dokument∙ bylo vyhledßno vzhledem k formulaci po₧adavku. V zßsad∞ platφ, ₧e Φφm je vyÜÜφ koeficient ·plnosti, tφm menÜφ dosahujeme p°esnosti. StruΦn∞ shrnuto - systΘmy, kterΘ up°ednost≥ujφ ·plnost stavφ zejmΘna na hledßnφ nev²znamovΘho °et∞zce znak∙ zatφmco pro p°esnost je vy₧adovßna kvalitnφ Φeskß lingvistika.

Pro efektivnφ vyhledßvßnφ je t°eba v∞d∞t:

A. V jakΘm prost°edφ hledßme

      Je velmi podstatnΘ, zda vyhledßvßme v prost°edφ ΦeskΘho jazyka nebo jin²ch jazyk∙ a zda fulltextovΘ vyhledßvßnφ je pro Φesk² jazyk pln∞ vyvinuto nebo Φerpß z princip∙ u₧φvan²ch v cizφm jazykovΘm prost°edφ bez ohledu na oh²bßnφ slov. V ΦeÜtin∞ °ada slov m∞nφ svΘ kmeny - d∙l/doly, smlouva/smluv, roky/let. N∞kterΘ systΘmy majφ plnohodnotn² lingvistick² modul a pou₧φvajφ jej jako implicitnφ. JinΘ umo₧≥ujφ volbu tohoto modulu pokynem "pou₧φt jazykovou anal²zu", "zapojenφ lingvistiky" "odstran∞nφ vlivu oh²bßnφ slov" a pod. (viz dßle lemmatizßtor).V prost°edφ ΦeskΘho i jinojazyΦnΘho internetu neprobφhß klasickΘ fulltextovΘ vyhledßvßnφ, ale pr∙b∞₧nß indexace a vyhledßvßnφ klφΦov²ch slov. NejrozsßhlejÜφ indexovan² prostor v domΘn∞ .cz mß nepochybn∞ Kompas nßsledovßn Atlasem, HotBotem a Alta Vistou.

B. Jak je respektovßna Φeskß diakritika.

1. Je po₧adovßna Φeskß diakritika p°i zßpisu s vlivem na vyhledßvßnφ - je rozdφl mezi slovem liÜka a lφska.
2. Je Φeskß diakritika p°i zßpisu mo₧nß, ale nenφ nutnß pro vyhledßvßnφ, to probφhß bez nφ - p°i zßpisu da≥ se vyhledß i dßn (Kompas, fulltext firmy Fulcrum).
3. ╚eskß diakritika je vylouΦena a zßpis by byl jako nekorektnφ odmφtnut.

      V prost°edφ internetu se mnohdy t∞₧ko propracovßvßme k informacφm o vlastnostech databßzov∞ orientovan²ch vyhledßvacφch centrßl (HotBot, AltaVista, Kompasà). Diakritika je zde zmφn∞na v souvislosti s k≤dov²mi strßnkami. Kompas jich podporuje 8 se schopnostφ p°ek≤dovßnφ diakritiky tak, aby nedochßzelo k duplicitnφm nßlez∙m strßnek s v²skyty hledan²ch v²raz∙.

C. Jak jsou zohledn∞na velkß pφsmena.

1. Je nastaven zßpis mal²m pφsmem s tφm, ₧e budou nalezena slova bez ohledu na velikost pφsmen. Tato varianta je nejΦast∞jÜφ a neb²vß specißln∞ zd∙raz≥ovßna (kovß° = Kovß°, kovß° i kOVß°).
< 2. Je po₧adovßn p°φm² zßpis velkΘho pφsmene - nap°. na zaΦßtku jmΘna k jeho odliÜenφ - obec B°ezovß od p°φdavnΘho jmΘna b°ezovß. V n∞kter²ch systΘmech je po₧adovßno velkΘ pφsmeno jen pro jmΘna zemφ, stßt∙ a m∞st, ale ne pro instituce, jmΘna osob.
3. Je dßna mo₧nost volby pro ka₧d² jednotliv² p°φpad vyhledßvßnφ.

D. Jak je zohledn∞na sΘmantika a vyu₧φvßn tezaurus

      SΘmantika je nauka o v²znamu slov a tezaurus je slovnφ zßsoba p°φsluÜnΘho jazyka v obecnΘm smyslu slova, p°φpadn∞ slovnφ zßsoba odbornΘho jazyka, °eÜφcφ otßzky nad°azenosti a pod°azenosti pojm∙, synonymie, homonymie, asociativnφch pojm∙ atd. (lΘka°sk², technick², prßvnφ tezaurus). Tolik struΦn∞ encyklopedie. S pojmeme tezaurus se setkßvßme nap°. ve WORDu - nabφzφ nßm jinΘ varianty k napsan²m a v textu oznaΦen²m v²raz∙m. ╚eÜtina je toti₧ velmi bohat² jazyk se spoustou synonym, homonym a antonym a prßv∞ jejich zvlßdnutφ hovo°φ o kvalit∞ fulltextovΘ technologie. P°edem je t°eba °φci, ₧e ₧ßdn² z prov∞°ovan²ch systΘm∙ nemß ideßlnφ kombinaci vÜech nßstroj∙ zohled≥ujφcφch uvedenΘ vlastnosti ΦeskΘho jazyka.

      Synonyma jsou slova r∙zn∞ zn∞jφcφ se stejn²m v²znamem. Testament - poslednφ v∙le, zßv∞¥, poslednφ po°φzenφ. Zatφm nejsou tak dokonalΘ systΘmy, aby synonymii v ÜirokΘm rozsahu p°i vyhledßvßnφ zvlßdly. SystΘm JUSTIS ohlßsil vyu₧φvßnφ synonymickΘho slovnφku pro urΦitou oblast prßvnφch vztah∙ (problematika mezinßrodnφho prßva), ale zatφm nenφ ve°ejnosti p°φstupn². Nenarazili jsme na systΘm, kter² by dokßzal p°i zadßnφ slovnφho spojenφ obytn² d∙m - najφt automaticky i Üirokou Ükßlu dalÜφch v²raz∙ obdobnΘho obsahu - obytn² objekt, d∙m na bydlenφ, stavenφ, rodinn² d∙m, domekà.

      Homonyma jsou slova stejn∞ zn∞jφcφ s rozdφln²m v²znamem. Druh ve smyslu partner nebo typ, strana - u soudu, smluvnφ, ve sporu, sv∞tovß, v knize, politickß, b²t na n∞Φφ stran∞, kurs - m∞ny, akciφ, kurs ve smyslu sm∞r, Ükolenφ.

      Pokud systΘm umφ rozpoznat homonymum, dß u₧ivateli na v²b∞r z n∞kolika variant. To je ovÜem spojeno s p°edchozφ indexacφ textu - n∞kdo musφ p°edem rozhodnout, kter² v²znam mß slovo ve zpracovßvanΘm textu mφt a p°i°adit mu p°φsluÜn² index. Tento zp∙sob prßce s textem je v²jimeΦn² a mß jej ASPI.

V²znamovß a nev²znamovß slova, zakßzanΘ znaky
      P°i fulltextovΘm vyhledßvßnφ jsou n∞kterß nev²znamovß slova p°edem vylouΦena (tzv. stop-slova). Zßb∞r systΘm∙ b²vß r∙zn² - od n∞kolika desφtek po stovky slov. B∞₧n∞ jsou takov²mi slovy spojky, p°edlo₧ky, n∞kdy slovn∞ psanΘ Φφslovky, zkratky, Φßstice, velmi obecnΘ v²razy typu b²t, mφt apod. LEGSYS neindexuje vφce ne₧ 500 takov²ch slov. Na druhΘ stran∞ systΘm ┌Φetnφ poradce vyhledßvß v rßmci souslovφ nap°. spojku a, spojku nebo, p°edlo₧ku z. N∞kterΘ systΘmy ohlßsφ p°i zßpisu neindexovanΘho slova chybu a zßpis odmφtnou, jinΘ systΘmy se s nφm vypo°ßdajφ tak, ₧e je prost∞ ignorujφ. Pro pohodlφ u₧ivatele je lepÜφ psßt ustßlenß spojenφ jak mu jdou pod prsty a nemuset uva₧ovat o n∞jak²ch omezujφcφch pravidlech - da≥ ze mzdy, spoleΦnost s ruΦenφm omezen²m.

      Znaky, kterΘ v jednom systΘmu jsou chßpßny jako zßstupnΘ, mohou b²t v jinΘm zakßzßny. Nap°. @, ASCII znaky s hodnotou ni₧Üφ ne₧ 32, #, $ apod.

      Do tΘto Φßsti textu pat°φ i poznßmka o volb∞ slov v²znamn²ch pro urΦitou oblast lidskΘ Φinnosti. N∞kterß velmi obecnß a samostatn∞ pou₧itß slova prakticky nevedou k ₧ßdanΘmu cφli - zßkon, prßvo, prßvnφ, kapitola, skladba, pracovat. V²sledkem jsou desetitisφce v²skyt∙. ╪eÜenφm je pak vhodn∞ volenß kombinace slov a slovnφch spojenφ.

╚eÜtina a slovenÜtina
      N∞kterΘ databßzovΘ systΘmy, kterΘ vznikly v dobßch spoleΦnΘho stßtu obsahujφ i p°ekladov² slovnφk pro vyhledßvßnφ v nßzvech dokument∙ (souvisφ to s dobou jejich vzniku - indexovßny a prohledßvßny byly pouze n∞kterΘ Φßsti systΘmu - rejst°φky - ne pln² text). Tak se nap°. spolu se slovem zem∞d∞lsk² najde i po╛nohospodßrsk².

E. Co hledßme

1. Slovo nebo jednoduch² v²znamov² °et∞zec znak∙ - v²raz mzda, 119/1992 Sb., º12, Φl.33, IPB, NATOà
2. Kombinaci jednotliv²ch slov nebo v²raz∙ - mzda nebo plat ; mzda a zßrove≥ zam∞stnanec ; Novßk, ale ne Martin, 10 nebo desetà
3. UstßlenΘ slovnφ spojenφ (termφn, frßze) jako jsou - da≥ovΘ p°iznßnφ, obΦanskΘ sdru₧enφ, telefonnφ seznam
4. Slo₧itou kombinaci slov, slovnφch spojenφ a Φφsel s nutnostφ urΦit priority p°i vyhodnocovßnφ dotazu -Novßk NOT (Martin OR FrantiÜek) AND (telefon OR adresa).

Ad 1)
Re₧imZp∙sob zßpisuV²sledek
TVARautomobil, autoautomobil, auto
 "automobil", "auto"dtto

Najde p°esn∞ zadan² °et∞zec znak∙ tvo°φcφch tvar slova.

      Z tohoto hlediska stojφ za zmφnku r∙zn² zp∙sob zßpisu Φφsel prßvnφch p°edpis∙ - 111/92, 7/92 Sb., 119/1992, 1992 119, 1992 007, 119-92 - jednß se °et∞zec znak∙, jeho₧ p°esnou podobu systΘm vy₧aduje a jinou nerespektuje. Podobnß situace m∙₧e nastat u spojenφ Φφsla a pφsmene nebo znaku - n∞kterΘ systΘmy po₧adujφ zßpis s mezerou, jinΘ bez º 43, º43, R╚216101/0775.

FIX, PRAVOSTRANN╔ ╪EZ┴N═autoautomobil, autor, autorsk², autoremeduraà
  pravpravomoc, prav², pravo·hl², pravov∞rn², pravdaà
  prav=, prav~dtto

      Tento zp∙sob tvorby hledanΘho v²razu m∙₧e b²t spojen se statistick²m zobrazovßnφm v²raz∙ za°azen²ch do bßze - Φφm vφce rozÜi°ujeme poΦet zapsan²ch znak∙, tφm vφce se blφ₧φme k cφlovΘmu slovu. M∙₧eme p°φpadn∞ ihned poznat, ₧e p°φsluÜnΘ slovo se v bßzi nevyskytuje. Statistika systΘmu Profidata ukazuje posloupnost slov pom∞r, pom∞r∙, pom∞ry, pom∞°en² - chybφ pom∞°ovat. V²b∞r slov z tΘto statistiky se pak d∞je Üipkou nebo klßvesou Enter.

      Variantu pravostrannΘho rozÜφ°enφ se znakem "~" nebo "=" znß ASPI. Rozbalφ se okno se seznamem vÜech zßkladnφch tvar∙ slov (lem∙) se stejn²m zaΦßtkem. K zßpisu stra= je to 185 slov velk²m i mal²m pφsmem, k zßpisu strav= ji₧ jen 15 slov.

      ╪ET╠ZEC ZNAK┘ ve smyslu "n∞kolik po sob∞ nßsledujφcφch pφsmen Φasto bez konkrΘtnφho v²znamu", m∙₧e b²t v n∞kterΘm slov∞ kmenem, v jinΘm jen jeho souΦßstφ.

stra - stravenka, Ostrava, odstravovat, strakat²à
rok - prokuratura, rokov², ·rok, prokßzatà

      Na n∞j navazuje celß Ükßla mo₧nostφ, jak ve slov∞ kombinovat °et∞zec se zßstupn²mi znaky. Hv∞zdiΦka "*" slou₧φ jako nßhrada za 1- 4 znaky uprost°ed a libovoln² poΦet znak∙ na konci slova (takΘ viz kmenovΘ vyhledßvßnφ), otaznφk "?" neurΦuje poΦet znak∙. Pro jeden nebo vφce znak∙ se u₧φvß i $, #, %. B∞₧n² pojem hv∞zdiΦkovß Φi otaznφkovß konvence m∙₧e mφt tedy °adu podob. V jednom ze systΘm∙ je hv∞zdiΦka naz²vßna dokonce "₧olφkem". Efektivnost nßsledujφcφch zßpis∙ posu∩te sami. Nap°φklad p°i odstran∞nφ vliv∙ p°eklep∙, p°i neznalosti p°esnΘho Φφsla nebo psanφ s/z m∙₧e b²t tento zp∙sob prßce s textem u₧iteΦn².V posledn∞ jmenovanΘm p°φpad∞ je situace spφÜe °eÜena indexacφ a p°i zßpisu prezident se najde i president.

vod*kvodnφk, vodßkà
p*vod*povodφ, podvody, p°evody, p∙vodà.
psy*ick*psychick², psychotick²à
fy?i*fyzika, fysika, fyziologick²à
2??/199? 201/1990, 201/1992, 299/199A, 2/9/1994à
Φ?#rΦssr, Φsr, Φnr, Φsfr


KMENautomobilautomobil, automobilov², autoà
  automobil*automobilu, automobil, automobilov²à
  auto nebo auto*auto, automobil, autorsk²à


      V prvΘm p°φpad∞ dochßzφ k automatickΘmu vygenerovßnφ kmene auto a k vyhledßnφ jeho dalÜφch odvozenin. Nenφ vylouΦeno, ₧e jin² systΘm by za kmen vzal celΘ slovo automobil a tvo°il by odvozeniny z n∞j. Pojetφ kmene je toti₧ v °ad∞ systΘm∙ r∙znΘ a nemusφ korespondovat s naÜφ p°edstavou.

      Ve druhΘm p°φpad∞ je t°eba kmen (zßklad slova) p°esn∞ zapsat a p°ipojit hv∞zdiΦku "*".

      Vzhledem k tomu, ₧e Φasto je jeden kmen vlastnφ vφce slov∙m r∙znΘho v²znamu a na druhΘ stran∞ dochßzφ ke zm∞nßm v jeho podob∞ (rok - po roce), p°inßÜφ tento zp∙sob hledßnφ v²hody i nev²hody zßrove≥. Na jednΘ stran∞ velmi ÜirokΘ v²sledky - byt* - bytov², bytu, bytost a na druhΘ stran∞ nenφ posti₧eno vÜe pot°ebnΘ. èirÜφ zßb∞r vÜak m∙₧e b²t v urΦitΘ situaci v²hodou. Hledßme-li obΦanskΘ sdru₧enφ i sdru₧enφ obΦan∙, je kmenovΘ vyhledßvßnφ slova obΦan* optimßlnφ. V p°φpad∞ hv∞zdiΦkovΘ konvence je n∞kdy po₧adovßno, aby p°ed "*" byly minimßln∞ 2 (u nßzv∙ firem), spφÜe vÜak 3 znaky. V jednom ze systΘm∙ lze p°i hledßnφ frßzφ pou₧φt "*" na konci poslednφho slova frßze. Pokud se umφstφ hv∞zdiΦka do vnit°nφch slov frßze, hledßnφ je nep°esnΘ a v nalezen²ch kapitolßch se v²skyty frßze nezv²raznφ.

      KmenovΘ vyhledßvßnφ m∙₧e b²t definovßno jen jako pravostrannΘ rozÜφ°enφ kmene reagujφcφ na zßpis s hv∞zdiΦkou nebo jako automatickΘ generovßnφ kmene bez nutnosti pou₧φt hv∞zdiΦku. V ·vahu p°ipadß i rozÜφ°enφ levostrannΘ, ale je t°eba odliÜovat slova negativnφ, ta majφ jin² kmen - platn²/neplatn². SystΘm Pallas znal i kmenovΘ vyhledßvßnφ, kterΘ nabφzelo odvozeniny z vφce p°φbuzn²ch kmen∙ (kon∞*, koni*, ko≥* p°i zßpisu ve tvaru $k∙≥)

 zßpisnφkzßpis, zßpisu, zapisovat
 tresttresty, trestnφ, trestanec, trestankyn∞, trestn²à
 vodnφvodnφk, p°evodnφk, vodnφhoà
 obΦanobΦan∙, obΦanskß, stßtoobΦansk², obΦanskoprßvnφà
 obΦan*obΦan, obΦan∙, obΦansk² à
 *obΦanstßtoobΦan
 
LEMMAobΦanobΦana, obΦan∙, obΦanyà
 rokrok∙, let, letyà
 hnßt₧enu, ₧eneÜà


      Lemmatizßtor (psßno i s jednφm m) je nßstroj k oh²bßnφ slov. Je postaven na respektovßnφ druhu slova - z podstatnΘho jmΘna neud∞lß p°φdavnΘ a naopak. Jeho velkou v²hodou je respektovßnφ zm∞n kmene. Zßkladnφm tvarem ka₧dΘ lemmatizaΦnφ skupiny je podstatnΘ jmΘno v prvnφm pßd∞, sloveso v infinitivu apod. Z tohoto zßkladnφho tvaru se pak odvozujφ tvary ostatnφ.

      Pro ka₧dΘ slovo jin² re₧im lze volit v LEGSYSu, zkratka re₧imu se zapφÜe za p°φsluÜnΘ slovo do hranat²ch zßvorek - T - Tvar, F - Fix, K - Kmen, L - Lemma

obΦanskΘ[K] sdru₧enφ - obΦanskΘ sdru₧enφ, sdru₧enφ obΦan∙
da≥&mzdy[T] - dan∞ ze mzdy, danφm ze mzdy

Ad 2)
      K vyhledßnφ n∞kolika slov v textu bez ohledu na jejich umφst∞nφ v dokumentu pou₧φvßme logick²ch spojek, z nich₧ nejznßm∞jÜφ jsou tzv. booleovskΘ operßtory AND, OR, NOT, zapisovanΘ bu∩ anglicky nebo Φesky, mal²m, Φi velk²m pφsmem. Zßpis "nebo" mal²m pφsmem m∙₧e vyvolat hledßnφ slova "nebo".

      N∞kdy se mφsto pojmu spojka u₧φvß pojem odd∞lovaΦ slov a myslφ se totΘ₧.

Operßtory slou₧φ k dosa₧enφ vazby mezi slovy ve smyslu:

konjunkce (a zßrove≥)AND, A, a, &, *, +
disjunkce (a nebo) OR, NEBO, nebo, |, +
negace (a ne) NOT, NE, ne

DalÜφ operßtory vyjad°ujφ slo₧it∞jÜφ vztah:
xor - najdi vÜechny dokumenty, kterΘ obsahujφ v²raz 1 nebo v²raz 2, ale ne oba zßrove≥
... - najdi vÜechny dokumenty, kterΘ obsahujφ v²raz 1 i v²raz 2, navφc musφ b²t v jednom odstavci a ne ve v∞tÜφ vzdßlenosti ne₧ 5 slov.
NOT Intel AND Cyrix - hledej ne Intel ano Cyrix
obΦanskΘ&sdru₧enφ - hledej obΦanskΘ a zßrov∞≥ sdru₧enφ
d∙l* OR dol* - doly, d∙lnφ, dolar, dolo₧kaà

      Posledn∞ uveden² p°φklad musφme pou₧φt, pokud systΘm znß jen kmenovΘ vyhledßvßnφ. Jinak bychom nenaÜli vÜechny tvary slova d∙l. Je z°ejmΘ, ₧e najdeme i spoustu slov, kterΘ s doly nesouvisφ.

      N∞kterΘ systΘmy majφ implicitn∞ urΦitou vazbu nastavenu s tφm, ₧e zßpisem dvou slov za sebe bez jak²chkoliv znamΘnek (nahrazuje je mezera) je spuÜt∞no vyhledßvßnφ slov bu∩ v konjunkci (ASPI) nebo disjunkci (EPIS, http://www.sagit.cz). Dotaz se vyhodnocuje zleva doprava a ke zd∙razn∞nφ v²znamu n∞kter²ch slov nebo spojenφ u₧φvßme kulatΘ zßvorky. adresa AND (telefon OR fax) - adresa a zßrove≥ telefon nebo fax

Ad 3)
      P°i hledßnφ ustßlenΘho slovnφho spojenφ je, na rozdφl od p°edchozφ situace, velmi podstatnΘ, jak je volena kombinace velikosti prohledßvanΘho dokumentu s vazbami mezi slovy.

      Pokud se hledß v celΘm dokumentu (p°edpise, Φlßnku, zprßv∞, dopisu), pak je t°eba p°idat siln² nßstroj k udr₧enφ slovnφho spojenφ - implicitnφ nebo volitelnΘ nastavenφ maximßlnφ vzdßlenosti slov.

      V p°φpad∞ prohledßvßnφ menÜφch textov²ch struktur pak tato funkce nenφ tak v²znamnß, i kdy₧ m∙₧e pomoci k p°esnΘmu v²sledku. T∞mi ni₧Üφmi strukturami mohou b²t gramatickΘ odstavce, typografickΘ odstavce, v∞ty, nejmenÜφ Φßsti v∞t mezi dv∞ma diakritick²mi znamΘnky, nadpisy strßnek, nßzvy dokument∙, Φφsla dokument∙, dokonce i podpis, poznßmka pod Φarou, paragraf, odstavec, bod, ·sek.

      Metod, jak udr₧et slovnφ spojenφ pohromad∞, je n∞kolik.

a) zßpis v uvozovkßch nebo s apostrofy;
b) zapojenφ funkce "v souvislosti" pro typografick² odstavec, p°φpadn∞ funkce "souslovφ" (Profidata). Jin² systΘm oznaΦuje tuto funkci jako "hledßnφ frßzφ" (produkty firmy MP SOFT);
c) mo₧nost prohledßvßnφ velmi mal²ch ·sek∙ textu s implicitn∞ nastavenou konjunkcφ slov ve spojenφ (LEGSYS);
d) implicitnφ nastavenφ vzdßlenosti slov poΦtem znak∙ - nap°. dvojnßsobek velikosti slov (ASPI), jedin² znak vyjßd°en² mezerou (da≥ovΘ p°iznßnφ), p°esnΘ Φφslo nap°. 25;
e) implicitnφ nastavenφ vzdßlenosti slov vyjßd°enΘ poΦtem jin²ch slov s p°φpadn²m pou₧itφ operßtoru NEAR nebo pφsmene "U" k aktivaci tΘto funkce (AltaVista 10 slov, WINLEX 8 slov, ┌Φetnφ poradce 8 slov);
f) mo₧nost vlastnφho nastavenφ vzdßlenosti - poΦtem znak∙, poΦtem slov - p°φpadn∞ s pou₧itφm dalÜφho operßtoru NEAR- alternativn∞ "I", hranat²ch zßvorek apod. Aplikacφ operßtoru NEAR se v p°φsluÜnΘm systΘmu vylouΦφ vliv p°edlo₧ek a spojek, kterΘ jsou jinak pova₧ovßny za v²znamovß slova a vzdßlenost je nastavitelnß na 1-32 slov. Zßpis v podob∞ p°φjmy I pronßjmu vyhledß vÜechny texty, kterΘ obsahujφ slova "p°φjmy" a "pronßjmu" ve vzdßlenosti odpovφdajφcφ ve formulß°i maximßln∞ nastavenΘmu poΦtu slov. V²sledkem hledßnφ jsou stat∞, kde se pojednßvß o p°φjmech z pronßjmu, ani₧ by tato slova nutn∞ byla vedle sebe;
g) operßtory [<=], [=] a [=>] pou₧φvß pro lingvistickou vzdßlenost mezi slovy LEGSYS. Hledßme-li slovnφ spojenφ "prßvnφ stßt", pak prßvnφ[>1]&stßt odpovφdß umφst∞nφ slova stßt maximßln∞ 1 slovo za prßvnφ prßvnφ[<1]&stßt odpovφdß umφst∞nφ slova stßt maximßln∞ 1 slovo p°ed prßvnφ prßvnφ[=1]&stßt prßvnφ stßt i stßt prßvnφ.

Mo₧nost zachovßnφ po°adφ slov ve spojenφ je implicitn∞ dßna nebo se vyjad°uje podtr₧φtkem. Dß se jφm zabrßnit situaci, aby se p°i zßpisu obchodnφ_ spoleΦnost neobjevila i spoleΦnost obchodnφho prßva.

Ad 4)
P°i tvorb∞ slo₧itΘho dotazu, tj. kombinace slov a slovnφch spojenφ nebo n∞kolika slovnφch spojenφ jsou u₧φvßny kulatΘ zßvorky k odliÜenφ v²znamu jednotliv²ch v²raz∙. V²raz uzav°en² do zßvorek se vyhodnocuje p°ednostn∞.

NOT (Intel AND Cyrix)nesmφ b²t souΦasn∞ ob∞ slova Intel i Cyrix
(p°φjmy z pronßjmu) A (ostatnφ p°φjmy) (à) a souΦasn∞ (à)
(p°φjmy z pronßjmu) NEBO (ostatnφ p°φjmy) (à) a nebo (à)
(p°φjmy z pronßjmu) NE (ostatnφ p°φjmy) (à) a souΦasn∞ ne (à)
25 %Φφslovku 25, mezera a znak %
(25 %) NEBO (25%) 25 % s mezerou nebo 25% bez mezery
(da≥ov² nebo finanΦnφ) poradceda≥ov² poradce nebo finanΦnφ poradce
darovacφ (smlouva or da≥) darovacφ smlouva nebo darovacφ da≥
darovacφ smlouva or da≥darovacφ smlouva nebo slovo da≥
zbra≥ NOT (puÜka OR d²ka) zbra≥, ale ne puÜka nebo d²ka


F. Kde hledßme

      V p°φpad∞ hledßnφ jednotliv²ch slov nenφ podstatnΘ, jakß Φßst dokumentu se prohledßvß. TakΘ v p°φpad∞ vφce r∙zn²ch slov, netvo°φcφch spojenφ, po₧adujeme v∞tÜinou jejich v²skyt v celΘm dokumentu. Problematika struktury textu byla ji₧ zmφn∞na v²Üe u slovnφch spojenφ.

      Jin² pohled na fulltextovΘ hledßnφ je odliÜenφ globßlnφho prohledßvßnφ celΘ bßze dat, hledßnφ ve vybran²ch Φßstech (tematick²ch okruzφch) nebo hledßnφ na aktußlnφ strßnce. K tomu poslednφmu je nejΦast∞ji u₧φvßn pokyn Ctrl F a pro hledßnφ dalÜφch v²skyt∙ Ctrl L. B²vß dßna i mo₧nost prohledßvat od kurzoru nahoru, dol∙ nebo od zaΦßtku celΘho textu. Hledßnφ na aktußlnφ strßnce je tΘm∞° pravideln∞ hledßnφm prostΘho °et∞zce znak∙.

      K v²b∞ru prohledßvan²ch podmno₧in z celΘ bßze dat slou₧φ i filtry - t∞mi mohou b²t urΦitΘ roky, druh Φasopisu, Φßst ·zemφ, skupina osob a dalÜφ. Odfiltrujφ tak, co nßs nezajφmß a blφ₧e vymezφ oblast naÜeho zßjmu.

G. Jak je prezentovßn v²sledek vyhledßvßnφ

      Celkov² komfort p°i vyhledßvßnφ tvo°φ jeÜt∞ dalÜφ podmφnky a okolnosti. D∙le₧itΘ je i to, zda si systΘm pamatuje p°edchozφ zadßnφ, zda m∙₧e ulo₧it do archivu slo₧it∞jÜφ dotaz.

      FulltextovΘ hledßnφ nenφ v∞tÜinou jedinou mo₧nostφ pro vyhledßnφ urΦit²ch text∙ nebo jejich Φßstφ v rßmci celΘ databßze. DalÜφ kritΘria (ve vztahu vzßjemnΘ konjunkce nebo disjunkce) ovliv≥ujφ samoz°ejm∞ ·sp∞Ünost naÜeho sna₧enφ. OdliÜnΘ b²vß i to, jak²m zp∙sobem jsou v²sledky hledßnφ prezentovßny. Rozhodn∞ nenφ komfortnφ systΘm, kter² nenabφzφ zv²razn∞nφ nalezen²ch slov odpovφdajφcφch zadßnφ. Od kvalitnφho systΘmu oΦekßvßme, ₧e nßs navede na mφsto v²skytu slova a zv²razn∞no je bu∩ celΘ slovo nebo jeho Φßst korespondujφcφ se zßpisem p°i zadßnφ (skupina znak∙, kmen) - Ostrava nebo Ostrava, trestnφ nebo trestnφ.

      FulltextovΘ vyhledßvßnφ b²vß provßzeno i statistikou v²skytu - jsou nßm nabφzeny poΦty v²raz∙, skupin, slov, dokument∙, je nßm sd∞lovßno, v kolika se nachßzφ jeden z hledan²ch pojm∙, v kolika druh² Φi t°etφ a v kolika vÜechny zßrove≥.

      Zobrazenφ nalezen²ch v²skyt∙ v konkrΘtnφch dokumentech b²vß uspo°ßdßno podle urΦitΘho pravidla - bu∩ dle relevance v²skytu nebo dle ΦasovΘho hlediska vzestupn∞ Φi sestupn∞ (u dokument∙, kde lze Φas urΦit).

      Vyhledßvßnφ slova prßvnφ pomocφ Kompasu vede k ohromujφcφmu v²sledku - 16 235 odkaz∙. Se 100% relevancφ je jako prvnφ nabφzena strßnka poradenskΘ firmy Bohemia patent, 72% relevance mß server Juristic, 26% relevance text notß°skΘho °ßdu, 22 % strßnky firmy SPUR specializovanΘ a lepidla a tmely a pak nßsleduje n∞kolik set v²skyt∙ s 9% relevancφ. Kolikrßt je a co vlastn∞ (p°edpoklßdßme, ₧e °et∞zec znak∙) ve v²skytu Φφslo 16 235 si lze jen st∞₧φ p°edstavit.

      Ka₧dß vyhledßvacφ slu₧ba na internetu zachßzφ s prohledßvßnφm a indexovßnφm jinak a priority jsou odliÜnΘ. Obecn∞ m∙₧eme uvΘst, ₧e vyÜÜφ prioritu majφ strßnky, kde je °et∞zec v titulu, pak v klφΦov²ch slovech, ve velk²ch nadpisech, v samotnΘm textu. Samostatn² problΘm pak tvo°φ hledßnφ URL, soubor∙, odkaz∙. Jako p°φklad m∙₧eme uvΘst zprßvu ze dne 29.11.1999, ₧e M.I.A. uvedla do praxe internetov² "HalfText". Je to FullText nap∙l! Neboli, Φesky: "p∙ltext". M.I.A. se sv²m vyhledßvaΦem Zmije (souΦßst portßlu Trafika, http://www.trafika.cz) umo₧≥uje hledßnφ na bßzi fulltextu - za sprßvn∞jÜφ a p°ilΘhav∞jÜφ v²raz vÜak pova₧ujφ prßv∞ pojem "HalfText".

      Podstatou Zmijφ novinky mß b²t vylepÜenφ mo₧nosti vyhledßvat nejen v samotnΘm katalogu (tedy v URL, titulku a popisu strßnek), ale takΘ v html k≤du strßnek, kterΘ jsou v katalogu v souΦasnΘ dob∞ zaregistrovßny. Vysv∞tleno podrobn∞ji: b∞₧nΘ "plnΘ textovßnφ" teoreticky zahrnuje cel² Φesk² web - fulltextov² robot automaticky prohlΘdne a zaindexuje vÜechny jeho strßnky (nebo se o to alespo≥ sna₧φ). "P∙ltext", jak je uvedeno v²Üe, prohledßvß pouze strßnky registrovanΘ ve Zmiji, tzn. ₧e si "nesahß" pro strßnky na dalÜφ ΦeskΘ servery ani do hloubi struktury strßnek Zmijφ registrovan²ch. AΦkoliv zatφm nelze hovo°it o skuteΦnΘm plnΘm fulltextu, mß halftext p°isp∞t k v²znamnΘmu zdokonalenφ slu₧eb Zmije poskytovan²ch u₧ivatel∙m ΦeskΘho Internetu. S pomocφ halftextu lze v Φßsti ΦeskΘho webu "pod k°φdly Zmije" nalΘzt mnohem vφce souvisejφcφch odkaz∙, ne₧ klasick²m dotazovßnφm v katalogu. Halftext je takΘ pru₧n∞jÜφ, ne₧ klasick² fulltextov² vyhledßvaΦ: pokud autor svoji strßnku zm∞nφ, zm∞na se projevφ v halftextu zpravidla do n∞kolika dn∙ - pru₧n∞ reagujeme na ·pravy obsahu strßnek.

HYPERTEXT

      Textov² dokument provßzan² k°φ₧ov²mi vazbami a odkazy, kter² lze pohodln∞ prohlφ₧et a prohledßvat. NejΦast∞ji se pou₧φvß u elektronick²ch p°φruΦek a text∙ nßpov∞dy. SouΦßstφ textu jsou odkazy do jin²ch Φßstφ textu. Odkazy jsou v zv²razn∞ny odliÜnou barvou nebo podtr₧enφm, p°φpadn∞ obojφm. Odkaz viditeln² v textu lze zvolit bu∩ lev²m tlaΦφtkem myÜi nebo jej lze vybrat p°φsluÜn²mi klßvesami (Tab, kurzorovΘ "Üipky", End) a nßsledn∞ stisknout klßvesu Enter.

      Po zvolenφ odkazu je zobrazena ta Φßst textu, na kterou dan² odkaz sm∞°uje. Po jejφm p°eΦtenφ se lze vrßtit zp∞t do mφsta, odkud byl odkaz vyvolßn stiskem pravΘho tlaΦφtka myÜi, kliknutφm na p°φsluÜnou ikonu se Üipkou nebo klßvesou Esc. N∞kdy se zp∞t dostaneme paradoxn∞ pokynem Enter (Zßkony na PC).

      To je zßkladnφ charakteristika hypertextu - rozdφl je v tom, do jakΘ Φßsti textu je odkazovßno, jak hluboko nßs hypertextovß vazba zavede a zda je vazba oboustrannß.

      Jednoduch²m hypertextov²m odkazem jsou oÜet°eny v textu poznßmky pod Φarou. DalÜφ mo₧nostφ je odkaz na jinou Φßst proΦφtanΘho textu - paragraf, Φlßnek, odstavec, jmΘno. Odkaz na jin² dokument m∙₧e mφt podobu nap°φklad Φφsla prßvnφho p°edpisu, nßzvu Φlßnku z Φasopisu, pojmu nebo adresy webovΘ strßnky. VÜe zßle₧φ na zpracovateli textu a vytvo°it vazbu lze prakticky od ka₧dΘho slova k jakΘmukoliv jinΘmu slovu Φi dokumentu.

      Zcela originßlnφ hypertextovΘ odkazy mß systΘm LEGSYS. Vazby jsou oboustrannΘ. Jednoduchß je situace, kdy v textu p°edpisu je zmφn∞n jin² p°edpis p°φmo Φφslem nebo konkrΘtnφm paragrafem. Takto postupn∞ (nap°φklad na paragrafy zßkona o dani z p°φjm∙) odkazuje spousta jin²ch prßvnφch p°edpis∙, ovÜem v p∙vodnφm textu da≥ovΘho zßkona o nich nem∙₧e b²t ani zmφnka. To je prßv∞ oÜet°eno zp∞tn²m hypertextov²m odkazem, tak₧e se dokß₧eme propracovat i k mφst∙m, odkud je na dokument odkazovßno.

      Hypertext umo₧≥uje zpracovateli n∞jakΘho programu nebo databßze vytvo°it strukturu odkaz∙ tak, ₧e seznamy dokument∙ (objekty) jsou dostupnΘ v urΦit²ch strukturßch - kapitoly, podkapitoly, Φlßnky, a strom je hypertextov²mi odskoky rozvφjen. Je vytvß°en °et∞zec vazeb. Hypertextov∞ jsou oÜet°eny i zßlo₧ky, kterΘ si u₧ivatel vytvo°φ v mφst∞, kam se chce vracet, p°φpadn∞ i poznßmky, kterΘ si m∙₧e k textu p°ipojit.

      Hypertextov² odkaz (vazba, skok, link, hyperlink) v prost°edφ internetu je element ve strßnce, kter² vede k dalÜφ webovΘ strßnce, je zv²razn∞n - podtr₧enφm, barvou, vypadß jako tlaΦφtko, a stisk levΘho tlaΦφtka myÜi s kurzorem na tomto elementu zp∙sobφ, ₧e se otev°e strßnka, na kterou odkazuje. Pojem hypertextov² odkaz p°esn∞ platφ pouze na odkaz v textu. Krom∞ n∞j vÜak existujφ i odkazy obrßzkovΘ a proto se pou₧φvß obecn∞jÜφ a dnes ji₧ p°esn∞jÜφ pojem odkaz neboli link.
JUDr. DanuÜe SpßΦilovß

Prameny :
Vrabec V., Winter J.: Informace jsou penφze. Podnikßme s Internetem, Profess 1997, str. 67-69
Ve°tßt S., Jimel J., Stranad M.: Encyklopedie o poΦφtaΦφch, Praha 1993
Hlavenka J.: Internet Explorer 4.0, Computer Press 1998 Brno
Vitovsk² A.: V²kladov² slovnφk software, Praha 1994
Cejpek J.: ┌vod do prßvnφ informatiky, Praha 1997
Manußly a nßpov∞da prßvnφch informaΦnφch systΘm∙.

Poznßmka: P°ipomφnky, poznßmky nebo konkrΘtnφ poznatky k rozÜφ°enφ zßb∞ru v²Üe uvedenΘho textu sm∞°ujte, prosφm, na adresu spacil@law.muni.cz.