Problémy s češtinou

Diagnostická stránka

Snažil jsem se shromáždit ukázky nečastějších chybných zobrazení počítačové češtiny. Tento přehled má význam obecný, ne pouze pro autory webových stránek, třebaže pro ně cíleně.

Má to sloužit jako pomůcka pro zjištění, co je s češtinou v konkrétním případě v nepořádku. Samozřejmě to není úplné. Někdy se vyplatí prozkoumat rovnou tabulky kódování.

Jako ukázkový text se nabízel tradiční "žluťoučký kůň", ale s koňmi nemám žádné zkušenosti, tak jsem si sestavil text z vodáckého prostředí, obsahující všechny české diakritizované znaky: "Loď čeří kýlem tůň obzvlášť v Grónské úžině." Doufám, že to nebude takový nezvyk. 

Správné zobrazení

Chybné zobrazení ISO

ISO-8859-2 je standardní kódování označované též jako Latin 2. V Microsoft Exploreru je označováno jako "středoevropské (ISO)". Je užíváno zejména na Unixu a Linuxu, ale též v mnoha Windows - aplikacích. Jeho podpora je velmi rozšířená.

Chcete-li, aby se ISO texty na Internetu správně zobrazovaly napoprvé, přidejte do hlavičky HTML souboru meta tag, který prohlížeči sdělí, že je to v ISO:

<meta http-equiv="Content-type" content="text/html; charset=iso-8859-2">

Nechcete-li používat meta deklaraci a můžete-li ovlivňovat http hlavičky (zejména programátoři), pak přidejte tuto http hlavičku:

Content-type: text/html; charset=iso-8859-2

 

Iso jako win

Nejčastější chybné zobrazení, postihuje znaky š, ž a ť. Řešením je samozřejmě přidání meta tagu.

Iso jako Latin 1

Velmi časté chybné zobrazení, které nastává hlavně v Netscapu. Latin 1 je znaková sada západní Evropy, která nezná háčkovaná písmena. Všimněte si, že čárkované znaky se zachovaly, háčkované ne. Tato chyba se poznává podle malé jedničky, které se zobrazuje namísto š.

Iso jako PC - Latin2

Dos kódování se už moc nepoužívá, ale překvapivě často se zobrazuje tento rozsypaný čaj, pokud si někdo v prohlížeči IE zapne Automatický výběr kódu.

Iso špatným fontem

Zde chybuje autor stránek, který má na svém počítači nainstalován nějaký neobvyklý font v české verzi. Takový font v lepším případě na klientovi není (pak se to naštěstí zobrazí Timesem), v horším případě je font na klientovi pouze v anglické verzi, která neumí zobrazovat korektně české znaky. Jedinými bezpečnými českými fonty jsou Times, Arial a Courier.

Iso jako Unicode

Velmi řídký případ.

Chybné zobrazení Windows 1250

Win-1250 je pro platformu Windows základní středoevropské kódování. Na jiných operačních systémech se příliš nepoužívá. V současnosti (2001) je tímto kódem psáno asi 70% českého netu. Internet Explorer nazývá tento kód středoevropský (bez přívlastků), což je poněkud nefér přístup.

Meta deklarace windowsovského kódování vypadá takto:

<meta http-equiv="Content-type" content="text/html; charset=win-1250">

Správné zobrazení

Win jako iso

Velmi častá chyba, způsobená nejčastěji přenosem textů mezi platformami. Opět jsou postiženy pouze znaky š, ž a ť.

Win jako Latin 1

Naprosto nejčastější chyba zobrazení způsobená absencí meta deklarace. Prohlížeč se domnívá, že je text v západoevropských jazycích (latin 1). Jsou postiženy znaky ě, č, ř, ď ť, ů a ň. Obzvlášť dobře se tato chyba rozpozná podle toho přeškrtnutého o namísto ř a zachováním š.

Některé anglické HTML editory běžně převádějí text tak, že vypadá jako by měl tuto chybu. Ve skutečnosti to podělávají, protože háčkované znaky nahrazují entitami (&něco;). Pak není pomoci, leda to (nejčastěji ručně) opravit. 

Win jako PC Latin 2

Překvapivě častá chyba při zapnutém automatickém výběru kódu.

Win nečeským fontem

Jedna ukázka z mnoha různých pohledů, které se naskýtají, když se autor designu snaží použít nečeský font.

Win pseudo-českým fontem

Některé fonty páchají toto: anglické znaky zformátují, české nahrazují znaky z jiných fontů. Častý úkaz při používání systémových jmen fontů (např. fantasy, cursive apod.).

Win jako Unicode

Výjimečná chyba.

ASCII

Pod pojmem ASCII se v českých zemích chápe verze textu bez háčků a čárek. To snad nemusím rozvádět. Připomenu jen, že omezování se na toto "kódování" je dnes už omezováním zbytečným, které pouze omezuje čtenáře. Fakt ale je, že není co zkazit.

Chybná zobrazení Mac kódování

Kódování češtiny používané na Macintoshích se v českých internetových luzích a hájích objevuje velmi zřídka. Uvádím ho spíše pro doplnění. Pokud na takovou stránku narazíte, nedá se s tím moc dělat, protože prohlížeče Internet Explorer neumožňují překódování. Ale Mozilla třeba ano.

Mac jako iso

Mac jako win

PC Latin 2 aneb DOS

Windowsovské kódování pro DOS, víceméně historické kódování.

Dos jako iso

Dos jako win

Kód bratří Kamenických

Historicky první elegantní kód prakticky zmizel z povrchu světa. Občas se v něm vyskytují některé staré texty.

Kameničtí jako iso

Kameničtí jako win

Unicode UTF-8

Mezinárodní kódování, které obsahuje všechny znaky všech národních abeced používá pro kódování divných (neanglických) znaků dvojice bajtů = dvou písmen. Takže když se text náhodou zobrazí v jiném kódu, je z toho naprostý maglajs.

Unicode jako win

Toto kódování se též označuje jako multibite (vícebitové) a multilingual (vícejazyčné), protože je obzvláště vhodné pro psaní vícejazyčných textů. V HTML se musí deklarovat takto:

<meta http-equiv="Content-type" content="text/html; charset=UTF-8">

URL kódování

Pro předávání formulářových dat HTTP protokolem bylo vyvinuto URL kódování, což není ani tak kódování, jako spíše transportní metoda. (Text je ve skutečnosti v tom kódu, ve kterém byla stránka s formulářem.) Někdy se ale následkem nějaké chyby její výstup zapomene dekódovat a uživatel se potkává se změtí procent. (Mezera je nahrazena pluskem. V novější verzi URL kódování je mezera %2* (kde * je nějaká další šestnáctková cifra, nejčastěji nula)):

Win jako URL encoded

Pokud jsou tam namísto procent rovnítka (a zachovány mezery), tak se jedná o tzv. quoted-printable kódování standardu MIME. Občas se s ním lze setkat v poště (chyba je pak u odesílatele, který má špatně nastavený formát odesílané pošty).

Sháním poznatky

Pokud znáte nějaké další problematické zobrazení češtiny související nějak s webem, pošlete mi prosím jeho popis. 

Předchozí: Čeština na webu Další: Tabulky kódování
Vizte též: Formátovací chyby, Meta tagy, Rozdíly kódování Iso a Win

Píše Yuhů
dusan@pc-slany.cz
mail formulářem
Jak psát web O tvorbě, údržbě a zlepšování internetových stránek.

Základy HTML CSS FrontPage Hledání

Obsah

Hlavní stránka

Novinky

FAQ

Download

Zdroje

Hledání


Rozšířené

Základní kurs

Jak udělat stránku

Základy HTML

Publikování

Zásady psaní

Editory

Různé prohlížeče

Editory

FrontPage 2000

FP Editor 98

Word 97

FrontPage Express

HTML tipy

Příprava obrázků

Obrázky

Pozadí

Odkazy

Vychytávky odkazů

Záložky

Aktivní mail

Tabulky

Úprava tabulek

Novinky tabulek

Design tabulkami

Rámy

Formátování rámů

Rámy nepoužívat

Iframe

Formuláře

Formuláře v HTML

Dokonalé formuláře

Zápis barev

Definice

Formátovací chyby

Jak udělat levé menu

Vytěžování stránek

Provoz webu

Rychlost stránek

Vzdálené služby

Vyhledávače

Katalogy

Správa souborů

Ikona stránky

Obsah / forma

Čeština

Chyby češtiny

Tabulky kódování

Meta tagy

Nastavení serveru

Programování stránek

Začátky PHP

Možnosti PHP

Používání prohlížeče

CSS styly

CSS styly

Úvod do CSS

Struktura textu

CSS prakticky

PŘEHLED VLASTNOSTÍ CSS

Složitější deklarace

Délkové jednotky

Pozicování

Sloupce pozicováním

Okraje objektů

Odlišení prohlížečů

Omezení CSS

Odlišný tisk

Dynamické HTML

Filtry

Příklady filtrů

Různé barvy odkazů

Barva rolovací lišty

 


Jak psát web: http://dusan.pc-slany.cz/internet/

Píše Yuhů: autorova stránka, mail: dusan@pc-slany.cz

Poslední aktualizace 26.08.2001