[Architag International Corporation - http://www.architag.com/solutions/971206-01.html ]

Brian Travis, Michael Hahn

HTML, SGML, PDF, XML: V čem se liší?

Přeložil: Miloslav Nič [MNaaaa]

Úvod

XML se v nedávné době ocitl na předních stránkách novin. Byl ohlášen jako "nový jazyk WWW", "náhrada za HTML", "nový směr ve správě informací" a jako mnoho dalších věcí. Přes všechnu tuto pozornost je obtížné přesně porozumět, co je XML a jak se může hodit vám samotným.

Tento článek porovnává XML se svým otcem, SGML, bratrancem, HTML, a stránkově orientovaným standardem, PDF.

Výzkum

HTML: výhody

HTML je pravděpodobně nejpřenosnější značkovací jazyk na světě. Podporuje ho přes 100 miliónů prohlížečů a stává se ve své podstatě standardem pro přenos informací mezi lidmi. HTML má mnoho výhod:

Protože je HTML jednoduchý a levný, byla vytvořena ohromná informační základna, která jej učinila ještě hodnotnějším.

HTML: nevýhody

Jednoduchost HTML, která je velmi cenná jako základní způsob přenosu jednoduše strukturovaných dokumentů, způsobuje, že tento formát není výhodný pro přenos komplexních struktur a pro uchovávání informací v delším časovém měřítku.

Jelikož je však téměř univerzálně kompatabilní, tvůrci webovských aplikací obcházejí jeho omezení s pomocí tabulek, kterými napodobují sloupce a různá odsazení, s pomocí grafiky v GIF formátu, se kterými vkládají prázdná místa a různé styly písma, a s dalšími triky. HTML se stal prostředím, s jehož pomocí je teprve vytvářeno skutečné formátování.

HTML je rovněž jen neúčinný značkovací nástroj, protože neumožňuje tvorbu vlastních tagů nebo prezentaci tagů s různými styly. Neexistuje tu opravdové členění nebo hierarchie mezi jednotlivými prvky. Tím je HTML omezen na přenos stránkově orientovaných informací,¨místo toho, aby přenášel inteligentní informace.

HTML poskytuje hypertextové odkazy, ale pouze v základní podobě. Je možné propojit pouze dva body a místo, kam odkaz směřuje, navíc musí obsahovat ukotvení, pokud odkaz směřuje na konkrétní místo v dokumentu. Většinou tato možnost postačuje, jenže z dlouhodobého hlediska je takto omezena jeho dlouhodobá použitelnost.

Dalším velkým problémem HTML je jeho nestabilita. Nejdříve vznikl HTML, poté HTML+, pak HTML 2 , pak řada specifikací 3.xx a nakonec HTML-4. Tvůrci prohlížečů navíc přidávali svá různá rozšíření k standardnímu HTML, jako tagy "blink" a "center".

Kombinace nestability a jednoduchosti HTML způsobila situaci, kdy řada stránek je zobrazena správně pouze v některých prohlížečích. Výskyt upozornění "Nejlépe zobrazeno v Microsoft Internet Exploreru" nebo "Optimalizováno pro Netscape" ukazuje, že řada stránek je zaměřena na jeden prohlížeč za cenu ignorování těch ostatních. Tato balkanizace HTML způsobila frustraci autorů a uživatelů, kteří začali hledat jiná řešení.

Jednou z možností, kterou se snaží tvůrci standardů HTML rozšířit jeho působnost, je systém, ve kterém značkování zůstává stejné a mění se styly zobrazení. Tento systém je založen na kaskádovitých tabulkách stylů (CSS), které jsou definovány v technickém doporučení W3C. CSS oddělují značkování (tagy HTML) od formátu (tedy vzhledu). Zatímco je to významný krok vpřed, stále jsme omezeni základní sadou tagů HTML.

SGML: výhody

SGML je mezinárodní standard, který je více než 10 let starý. Původně byl vytvořen tak, aby s ním bylo možné popsat textově založené informace tak, aby organizace si mohly snadno vyměňovat informace. Od té doby se SGML stal velmi cenným při popisu informačních struktur, takže společnosti mohly překonat omezení papírových publikací. SGML umožňuje vytvoření značkovacích jazyků, které jsou přizpůsobeny konkrétním typům dokumentů a umožňuje oddělit obsah od konečného formátování.

SGML není spojen s žádným operačním systémem nebo aplikací a tak je přenosný mezi různými systémy. Jedná se o standard, který spravuje ISO (mezinárodní organizace pro standardy). Znamená to, že je velmi stabilní, a i když existují možnosti pro jeho doplnění a změnu, ISO činí tento proces velmi obtížným. To se ukázalo být velkou výhodou, neboť je tak k dispozici známý syntax.

Protože se jedná o stabilní standard, v každé kategorii je k dispozici řada produktů, od editorů až k nástrojům pro správu dokumentů nebo pro tisk a publikaci na Internetu. Mnoho výrobců nabízí nástroje a podporu v každé kategorii, jejichž cena sahá od nabídek zdarma až k velmi vysokým hodnotám. Jelikož SGML nezávisí na systémech, tyto nástroje mohou být kombinovány podle potřeby, takže informace společnosti nejsou riskantně závislé na produktech jediného dodavatele.

SGML nenabízí přesně určenou sadu tagů, ale syntax pro vytváření vlastních. Mnohá průmyslová odvětví vytvořila konsorcia, ve kterých jsou vytvářeny sady společných tagů pro výměnu informací za použití termínů a výrazů typických pro danou oblast.

SGML: nevýhody

SGML je komplikovaný jazyk a obtížně se integruje do jednotlivých aplikací. SGML vyžaduje "parser", který je obtížné napsat a udržovat. Jelikož byl SGML vytvořen na počátku éry stolních počítačů, je příliš zaměřen na úsporu omezené paměti a diskového prostoru a proto využívá řadu minimalizačních pravidel a výjimek.

Výsledkem této složitosti je fakt, že SGML je dražší než jednoduchý systém tagů jako HTML. Každý dokument musí obsahovat "definici typu dokumentu", takže vlastník dokumentu musí provést jeho analýzu, aby odkryl jeho strukturu. Po SGML zatím existuje jen omezená poptávka, takže je obtížné nalézt odborníky pro analýzu dokumentů a tvorbu definic typu dokumentu a je drahé si je udržet.

Protože je standart tak složitý a existuje menší poptávka, nástroje podporující SGML jsou dražší než v případě HTML.

PDF: výhody

PDF, přenosný formát dokumentu, byl vytvořen společností Adobe System Inc., za účelem nalezení na systému nezávislého způsobu přenášení stránkových informací. PDF soubory jsou produkovány tiskem s pomocí PDF driveru nebo destilací PostScript souboru. Výsledný PDF soubor může být prohlížen s pomocí nástroje od Adobe s názvem Acrobat Reader. Tento nástroj je k dostání zdarma pro většinu operačních systémů, které jsou v dnešní době používány.

PDF nabízí elektronické stránky, které do detailů zobrazují vzhled stránky tištěné. Fonty, grafika a barva jsou zobrazeny stejně jako na papíře. K těmto dokumentům mohou být dokonce přidány hypertextové odkazy a další elektronické objekty jako zvuk a video. Tvorba PDF souborů je levná a mnoho společností používá PDF pro přenos na stránky rozčleněných dat, aniž by musely platit vysoké poštovné.

Jelikož koncový uživatel dostává něco, co velmi připomíná papír, cena za zaškolení je nízká.

PDF: nevýhody

PDF ovšem vytváří velké soubory, které obsahují jen málo strukturních informací. PDF soubory také nejsou natolik flexibilní jako jiné elektronické formáty, protože jejich hlavním úkolem je znovuvytvoření papírové stránky a ne přenos inteligentní struktury dokumentu uživateli.

Prohledávání je jen omezeně podporováno, ačkoliv Adobe nabízí nástroje, které umožňují indexovat mnoho různých PDF souborů pro pozdější prohledávání a navigaci, tedy pro otáčení stránek, přeskakování mezi kapitolami a nacházení konkrétního textu. Jiné způsoby navigace jsou omezeny.

Dalším problémem je věrné zobrazení stránky. PDF stránky nutně nemusí být přesnou kopií stránky, kterou si vytiskl vlastník dokumentu. Jedním z důvodů může být to, že fonty, které obsahoval původní dokument, nejsou na počítači uživatele dostupné.

Potřebujeme něco nového...

Nebylo by to pěkné, mít řešení v ceně a jednoduchosti HTML, se schopnostmi a flexibilitou SGML a formátovacími schopnostmi PDF? Navrhovatelé XML, rozšiřitelného značkovacího jazyka, tvrdí, že XML tyto požadavky splňuje.

Cílem bylo nalézt způsob, jak vytvářet, zpracovávat a zobrazovat dokumenty levně, rychle a snadno. Nový standard potřeboval vytvořit upravitelnou sadu tagů kompatabilních s HTML, a poskytnout sílu SGML bez zbytečné složitosti.

XML: Rozšiřitelný značkovací jazyk

Když tvůrci XML započali s prací, měli deset cílů:

Tyto cíle vedly k vývoji XML a pomohly tvůrcům udržet koncentraci na důležité věci. Výsledkem je XML, technické doporučení W3C. XML je přenosné mezi systémy, protože používá SGML jako centrální technologii. XML je možné se snadno naučit. Článek, který popisuje syntaxi XML má jen okolo 30 stránek a může mu porozumět každý tvůrce XML dokumentů.

Závěr

Je snadné psát programy, které zpracovávají XML dokumenty. Procesor, který může zpracovávat "správně formátované" dokumenty, je možné napsat za dva dny, a parser, který rozumí "platným" XML dokumentům je možné napsat do týdne. Díky tomu je možné zahrnout zpracování XML do nových programů, jak učinil například Microsoft s Internet Explorerem 4.0.

XML, protože je jednoduchý a protože zavedl koncept "správného formátování" je přirozeným kandidátem pro použití na Internetu, nabízí komplexní formátovací možnosti a navíc umožňuje pokročilé prohledávací a navigační funkce.

XML, stejně jako SGML, nevlastní žádný výropce hardware nebo software, takže zde nejsou žádné problémy s licencemi a je přiměřeně stabilní.

Čas ukáže, jestli může být dosaženo cílů XML, ale již za krátkou dobu svého života, měl XML takový dopad, o který se SGML snažil více než 10 let. XML povzbudilo představivost poskytovatelů obsahu tím, že poskytlo jednoduchý, rozšiřitelný, na konkrétním výrobci nezávislý způsob popisu a výměny informací tam, kde HTML selhalo. A XML rovněž nabízí možnost velmi dobře vyhlížejících zobrazení s vysoce kvalitní strukturou, kterou PDF nemůže dosáhnout.