Trendy Elektronické publikování Elektronické zpracování nejen textu, ale i dalších podob informace (zvuku, obrazu, videa) je novou, vysoce progresivní formou šíření lidských vědomostí. V následujícím článku se můžete seznámit s některými aspekty této technologie. Od klínového písma k fulltextu Vývoj lidstva a jeho způsobu života, kultury, právní i technické úrovně je úzce spjat s výměnou informací poznatků a zkušeností. K uchování a šíření informací v prostoru a čase byly využívány různé postupy: nejprve pouze ústní forma, později se vědomosti předávaly dalším lidem a pokolením pomocí symbolů a různých druhů písma (obrázkové, slovní, slabičné, hláskové). Písemná podoba textu se stala (a v současné době stále je) základní formou záznamu informace. V poslední době je však stále častěji doplňována také formou zvukovou obrazovou (film, video). Z historie výměny informací Změny technologie práce s textem vždy charakterizovaly určitá přelomová období vývoje lidstva. K záznamu psané informace sloužily různé materiály, od hliněných tabulek, kamene, papyru, pergamenu až po papír, který je zatím hlavním nositelem psané informace i dnes. Také způsob záznamu informace prodělal v historii svůj vývoj, od tlačení, rytí a psaní různými materiály (uhlem, inkoustem) až po moderní tiskové technologie. Historicky významnou a převratnou změnou byl vynález knihtisku (Johannes Gutenberg - pravděpodobně 1444; v Asii byl knihtisk znám dříve - Čína 8. století, Korea 1403). Knihtisk zásadně změnil technologii šíření informací - umožnil nahradit dosavadní ruční přepisování textu "strojní výrobou". Postupně tak bylo možno díky efektivnějšímu šíření informací knihami, časopisy a dalšími tiskovinami zpřístupnit informace psanou formou většině obyvatel. Podle odhadů je dnes 80 - 90 % veškerých informací, které lidstvo dosud nashromáždilo, uloženo jako volný text v různých přirozených jazycích. Objem informací narůstá závratným tempem; odhaduje se, že každých 10 až 15 let se zdvojnásobuje - tedy od roku 1980 vzniklo více informací než za celou dobu existence lidstva do roku 1980! Udržení přehledu o existujících informacích je stále obtížnější a bez využití moderních informačních technologií dnes už nemožné. Přitom znalo st potřebné informace v pravý čas je často životně důležitá. Současně s růstem objemu dostupných informací se postupně vyvíjely technologie jejich transformace, distribuce, třídění a archivace. Rozsáhlé systémy knihoven slouží k uchovávání a zpřístupňování dokumentů a jim podobných hmotných zdrojů informací. Využívají k tomu především bibliografické přehledy, referátové časopisy, kartotéky, expresní informace, rejstříky a anotace. Vyhledání příslušných zdrojů požadovaných informací je jedním z hlavních úkolů při dalším využití informací. Technické předpoklady využití informací Vznik a rozvoj výpočetní techniky znamenají pro efektivní využití informací další přelom. Po krátkém období, kdy počítače sloužily pouze k výpočtům, se velmi rychle rozšířilo využívání počítačů také při zpracování textových informací. Dnes je tomu naopak, objem vlastních výpočtů je ve srovnání s objemem práce s textovými informacemi výrazně nižší. Digitalizace informace smazala z hlediska technologie zpracování, uchování a přenosu informace rozdíl mezi textovou, z vukovou a obrazovou informací. Umožnila tak automatizaci zpracování všech typů dat (nositelů informací) a byla nutným předpokladem vzniku nové informační kategorie - multimédií. Rozšíření osobních počítačů, dostupnost velkokapacitních paměťových médií (především CD-ROM) a pokrok v komunikačních technologiích přinášejí novou a zásadní kvalitu v přístupu k informacím. Dnes lze prakticky bez obtíží získat kdykoliv a kdekoliv jakoukoliv informaci, kt erá je uložena v rozsáhlých informačních bázích přístupných pomocí počítačových sítí (především Internetu) nebo uložena na některém z tisíců stříbrných kotoučů CD-ROM. Vize proslulého Billa Gatese o informační dálnici se pomalu stává realitou. Zatím jediným technologicky nedořešeným omezením použití počítačů při evidenci informací je existence rozdílných jazyků. Pro technické aplikace je sice nepsaným standardem angličtina, ale jazykové bariéry v přístupu k informacím jsou dnes omezením obvykle silnějším než bariéry ekonomické. Dalším omezením je pak určitá konzervativnost lidí vůči novým praktikám. Ale nesporné výhody, které moderní informační technologie přinášejí, si velmi rychle nacházejí cestu k běžným uživatelům. Mohu to doložit konkrétním příkladem. Při přípravě tohoto článku jsem nemusel trávit mnoho hodin hledáním podkladových materiálů, ale mohl jsem vzácný čas věnovat jejich obsahové analýze, třídění a zpracování. Na "cédéčkách" jsem našel texty článků převážné většiny časopisů zabývajících se výpočetní a informační technikou (viz přehled použitých pramenů) včetně knihy Ivana Guly "Elektronické zpracování textu". Pomocí vyhledávacích programů jsem objevil množství zajímavých informací, po kterých bych jinak velmi těžko (a především velmi dlouho) pátral a mnohé z nich pravděpodobně ani nenašel. Základním předpokladem vytváření elektronických knihoven a archivů je existence dokumentů v elektronické podobě. Informační hodnota dokumentů nezávisí na tom, v jaké podobě byly pořízeny (rukopis, strojopis, elektronická forma), ale na tom, jaké informace obsahují. Přestože lze oprávněně očekávat, že významné historické dokumenty budou časem převedeny do elektronické podoby, bude se jejich ekonomicky i časově náročná transformace nepochybně týkat jen velmi omezené části celéh o dosud vzniklého informačního bohatství lidstva. Jiná situace nastává u nově vznikajících informací. Jsou sice pořizovány v různých prostředích, ale téměř výhradně v elektronické podobě, protože dnešní technologie přípravy jakékoliv tištěné informace je založena na elektronickém zpracování podkladů. Lze je tedy bez větších obtíží zařadit do některé z možných forem elektronického publikování. Po splnění základního předpokladu, tj. existence elektronické formy dokumentu a jeho zařazení do některé z dostupných informačních bází dat, je nutno řešit způsob nalezení požadované informace. Nad množinou existujících textů, případně doplněných texty zvukovými, obrazovými a videosekvencemi lze vybudovat prakticky tři různé typy systémů pro další práci s uloženými informacemi: * Rešeršní systém s anotacemi nejdůležitějších pojmů, myšlenek a vazeb, blízký "klasickým" bibliografickým systémům. * Hypertextový systém, v němž je uživateli přístupný plný text dokumentů doplněný hypertextovými vazbami. * Fulltextový systém zpřístupňující uživateli plný text dokumentů a funkce pro vyhledání libovolného pojmu, který se v textu může vyskytovat. Hypertext Základní charakteristikou hypertextů je skutečnost, že běžný (lineární) text je doplněn systémem odkazů, sloužících k dalšímu rozvinutí pojmů, a přístupu k navazujícím informacím zvukovým, obrazovým a k videosekvencím. Hypertextové vazby definují odborníci na danou problematiku při přípravě dokumentu. Tyto vazby jsou pevné, tj. uživatel je nemůže měnit. Proto jsou modernější systémy pro určité zmírnění nevýhody pevné struktury připravených vazeb doplněny možností definovat tzv. uživatelské záložky. Ty pak umožňují rychle se přesunout na často využívané místo v textu. Další doplňující funkcí obvykle bývá jednoduché vyhledávání libovolného textového řetězce. Hypertextové systémy jsou vhodné především pro výukové, informační (konzultační) a prezentační programy. Mohou být určeny jak laickým uživatelům, tak odborníkům - v obou případech hypertextové vazby postupně umožňují pronikat stále hlouběji do dané problematiky. Filozofie a technologie řešení hypertextu totiž dovoluje vytvořit libovolně strukturovaný materiál; zároveň každá další úroveň hypertextových odkazů přináší podrobnější a speciálnější informace. Určitou nevýhodou je skutečnost, že při práci s takovým dokumentem může dojít ke ztrátě orientace v textu. Proto by měla být k dispozici funkce zobrazení přehledu členění dokumentu a systém by měl být doplněn dalšími funkcemi k zlepšení orientace (např. krok zpět, návrat na začátek, rejstřík apod). Mezi nejznámější aplikace hypertextové technologie patří kontextové nápovědy programů, se kterými se většina uživatelů výpočetní techniky už setkala. Také domovské stránky na Internetu jsou řešeny formou hypertextu. Fulltext Na rozdíl od hypertextových systémů je fulltext založen na myšlence najít libovolné slovo či slovní spojení obsažené v textech všech dostupných dokumentů (často mohou být uloženy na různých paměťových médiích) a rychle je zpřístupnit uživateli. Výjimkou obvykle bývají omezené množiny slov, jejichž informační hodnota je prakticky nulová (spojky, předložky apod.), které takto vyhledat nelze. Zdůrazněme, že přitom nejde o "otrocké" sekvenční hledání zadaného řetězce v celém objemu dat (i když i k tomuto způsobu se prohlížeč může za jistých okolností uchýlit), ale o promyšlený systém indexace textu, jehož zdrojový tvar proto musí před vstupem do systému prodělat patřičnou přípravu. Fulltextové systémy vznikaly původně jako prostředek pro řešení speciálních, obvykle zpravodajských úloh vyhledávání informací ve velkých objemech dat. Dnes jsou dostupné i pro úlohy každodenní praxe všech uživatelů. Fulltextové systémy lze členit podle účinnosti vyhledávání a dalších rozšiřujících funkcí do tří generací: 1. generace - vyhledávání pouze samostatných slov a jejich základních odvozenin (tzv. pravostranné rozšíření). 2. generace - vyhledávání kombinací několika slov spojených pomocí logických a vzdálenostních operátorů (podmínka je splněna, pokud se např. obě slova, bez ohledu na pořadí, v textu vyskytují, a to ne dále než je jejich maximální definovaná vzdálenost). 3. generace - použití i tzv. pojmového vyhledávání; takové systémy mají definovány speciální slovníky pojmů (tezaury), podle nichž najdou například po dotazu na "Holandsko" i texty, ve kterých se vyskytuje slovo "Nizozemí" apod. Nejmodernější (a obvykle také nejdražší) fulltextové systémy umožňují uživateli definovat celé struktury pojmů s příslušnými váhovými koeficienty jednotlivých variant, případně i využívání fuzzy logiky při vyhodnocování dotazů. Podmínky pro vyhledávání lze modifikovat také vzhledem k času a místu vzniku dokumentu, jeho autora, jeho zdroje či mnoha dalších podmínek. Na vyhledávací funkci fulltextového systému jsou kladeny především tyto požadavky: * Rychlost - vyhledávání musí být rychlé a nesmí (alespoň ne lineárně) záviset na množství prohledávaných dat. Tento kontroverzní požadavek většina moderních fulltextových systémů kupodivu splňuje, * Přesnost - vyhledaná slova musí reprezentovat právě ty pojmy, které měl uživatel na mysli (v případě víceznačného pojmu systém formou upřesňujících dotazů zúží množinu vyhledaných pojmů pouze na požadované), * Úplnost - systém musí najít všechna slova i jejich gramatické a významové tvary (!), které lze ve specifikované množině dat najít. Z uvedeného vyplývá, že (na rozdíl od hypertextů) je efektivní fulltextový systém nutno vybavit účinnou lexikografickou a morfologickou analýzou textů, která musí zabezpečit optimální využití gramatických pravidel - v našem případě nejednoduchých pravidel českého jazyka, včetně práce s diakritikou (je totiž podstatný rozdíl např. mezi slovy trest, tresť a Třešť). V praxi se dnes postupně prosazují fulltextové systémy doplněné hypertextovými vazbami. Pochopitelně i u těchto prostředků lze nalézt různé vývojové varianty. Elektronické publikování Elektronické publikování jako nová a vysoce progresivní forma publikační činnosti využívá nejnovější poznatky informatiky a výpočetní techniky. Vlastní příprava elektronické publikace (knihy, příručky, katalogu atd.) spočívá v úpravě elektronicky pořízeného textu (a případných dalších multimediálních doplňků) do tvaru, který se může prohlížet vhodným prohlížečem. Tento proces lze pro fulltextové systémy víceméně automatizovat; hypertextové vazby je třeba řešit převážně "ručně". Upravený digitalizovaný text tak získá další nezanedbatelný rozměr. Vylisování CD-ROM je už rutinní záležitostí, zařazení publikace do počítačové sítě, třeba Internetu, ještě jednodušší (dnes jsou např. na Internetu přístupny aktuální texty některých významných deníků nebo časopisů). Jaké výhody přinášejí elektronické publikace na CD-ROM? Pro nakladatele to jsou nižší výrobní náklady (výroba CD-ROM se vyplatí už od 50 kusů), pro distributory méně náročná distribuce. Pro vydavatele i uživatele pak velká kapacita - na jeden kotouč CD-ROM lze najednou uložit několik knih nebo ročníků novin či časopisů (existuje např. CD s osmi ročníky Lidových novin). V případě, že je na jednom CD-ROM zapsáno několik knih, lze pomocí uživatelských klíčů umožnit přístup jen k některým z nich (bez znalosti klíče jsou dostupné pouze základní informace o příslušné knize či její části). Tak je možno zaručit, že uživatel zaplatí pouze ty informace, které skutečně požaduje. Kotouč CD zabere v knihovně nesrovnatelně méně místa než odpovídající množství knih nebo časopisů; dokonce si lze celé rozsáhlé encyklopedie, slovníky, mapy a další informační systémy nosit v malém přenosném pouzdře stále s sebou. Nezanedbatelnou výhodou (zejména u příruček, učebnic a katalogů je možnost snazší aktualizace - v porovnání s celým "výrobním" procesem klasického aktualizovaného vydání. Jak jsme na tom u nás Na zdejším trhu se už objevilo několik desítek produktů, které lze s určitou mírou zobecnění zařadit mezi elektronické publikace. Některé z nich obsahují pouze textové informace, v jiných narazíme také na informace obrazové a zvukové. Mezi tyto systémy patří například: * elektronické encyklopedie - Evropané, Kdo byl kdo, První počítačová multimediální encyklopedie, Česká multimediální encyklopedie, * obsahy novin a časopisů - Periodika, Lidové noviny, Okno do světa informací, * elektronické katalogy - Modré stránky, Invex'95, Katalog strojírenského veletrhu v Brně, Computer Graphics, Cofax'96, Autotec'96, Automobily 95, * výukové programy a slovníky - LANGMaster, Windict, Excel 5.0, Použití Windows'95, * právní systémy - ASPI, Jurisys, JURIX CDW, Legsys, Profidata, Winlex, Občanský soudní řád, * informační systémy - InfoMapa, CD Mapa ČR, FIS, EDB, Jupiter, EPIS, * průvodce - Muzea a galerie, Karlštejn, Šumava, Bohemia, * fotoarchivy - Fotoarchiv budoucnosti, Praha. U dosud vytvořených produktů (seznam zdaleka není úplný) jsou uplatněny různé přístupy k informacím. U těch progresivnějších jsou implementovány hypertextové a fulltextové systémy s různou úrovní uživatelských funkcí. Tyto systémy pocházejí z firemních dílen nebo využívají několik oblíbených modulů, například Fulcrum, Microsoft Multimedia Viewer, Lenora, Byllbase aj. Většinou co produkt, to jiný prohlížeč. Snahu realizovat jednotný prohlížeč pro různé datové zákla dny (což uživatelům značně usnadní práci) vykazují firmy 5D software hypertextovým systémem SuperText a CD-ROM Centrum fulltextovým systémem VIEWMaster(r). O konkrétní podobě některých typických produktů poskytnou představu připojené obrázky. ViewMaster(r) jako systém CD-ROM Centrum uvedlo letos v dubnu na náš trh novou verzi fulltextového prohlížeče ViewMaster(r), který umožňuje prohlížení nejen textů, ale i dalších multimediálních prvků - obrázků, videosekvencí a poslech zvukových ukázek. Nechybí mu ani schopnost zobrazovat hypertextové odkazy a brzy má přibýt unifikovaný prostředek pro interakci typu dotaz - odpověď (např. pro zkušební otázky). Jde o český produkt využívající pro fulltextové vyhledávání stejné jádro jako zná mé produkty řady Microsoft. Práce se systémem je snadná a umožňuje prohlížení elektronických publikací na CD-ROM i na jiném médiu. Dnes je k dispozici už několik publikací zpracovaných pro tento prohlížecí systém. Většinou jde o počítačová periodika a výstavní katalogy, např. známé elektronické katalogy Modré stránky. Také encyklopedie Evropané, deníky Lidové noviny (osm ročníků) a Hospodářské noviny či nejnovější průvodce Šumava - léto 1996 jsou zpracovány touto technologií. Další produkty, např. encyklopedie Státy a jejich představitelé, Hudba, Literatura k maturitě, "zimní" Šumava, b udou brzy následovat. ViewMaster(r) je tedy fulltextový systém, který není úzce svázán s jedinou datovou množinou. Naopak, CD-ROM Centrum jej nabízí všem vydavatelům a "majitelům informací", kteří uvažují o vydání svých produktů v elektronické formě. Co bude dál? Jaký další vývoj systémů využívání elektronických publikací je možno očekávat? Zdá se, že jej budou charakterizovat tyto vlastnosti: v pohodlné a intuitivní ovládání prohlížečů, umožňující jejich použití co nejširšímu okruhu uživatelů, od laiků až po specialisty v informatice; v vznik expertních systémů umožňujících vyhledávání nejen pojmů a jejich jednoduchých vazeb, ale i odpovědí na složitěji formulované otázky; v použití automatizovaných překladových systémů, které umožní najít požadovanou informaci bez ohledu na to, v jakém jazyce byla vytvořena; v přístup k "nekonečnému" zdroji informací uložených v elektronických knihovnách všech států a kontinentů. Závěrem Možná ve vás dosavadní text vzbuzuje dojem, že klasické "papírové" formě tištěné informace je odzvoněno. Nedomnívám se, že se to stane v dohledné době. Osobně se přikláním k názoru, že obě formy, klasická a moderní "elektronická", budou existovat vedle sebe a vzájemně se doplňovat. Vždyť např. zážitek z oblíbené knihy pod letní oblohou těžko může nahradit její četba z displeje počítače, byť přenosného. Navíc stále ještě bude mnoho situací, ve kterých bude mí t klasická forma knihy své plné opodstatnění. Elektronická forma však má své přednosti především v oblasti encyklopedií, katalogů, informačních systémů, multimediálních a interaktivních výukových systémů, odborných publikací, skript apod. Také jako archivační metoda uložení informací je elektronická podoba bezkonkurenční. Nezanedbatelnou výhodou je ekologický přístup při výrobě, distribuci, využití a následné recyklaci používaných materiálů při použití "nepapírové formy" publikování. Cestování po informační dálnici zkrátka zač íná, a vy můžete být při tom! Milan Pola Chip č. 9/1996, str.44-50