Dione
Z. KotalaP. Toman: Java
Predchozi (Obsah) Dalsi

C. Unicode

Unicode je šestnáctibitový systém kódování znaků, který je určen pro výměnu, zpracování a zobrazení textu v různých současných a historických jazycích. Toto kódování zavedlo Unicode Consorcium a nadále ho vyvíjí. V současné době je k dispozici verze 2.0, která je podporovaná i v Javě. Unicode je skoro shodný s normou ISO 10646, která jej přejala.

Kódování znaků \u0020\u007E je stejné jako v ASCII. Rovněž znaky \u00A0\u00FF odpovídají ASCII kódování. To je výhodné pro konverzi textů z kódování Latin-1 do Unicode a naopak. Převod mezi jiným kódováním je však poněkud komplikovanější, což je malá nevýhoda.

Druhou a to hlavní nevýhodou je malá podpora Unicode v současných operačních systémech. To je zapříčiněno velkou datovou náročností textů (jsou dvakrát delší), ale hlavně fontů, které by měly obsahovat přes 30 000 znaků.

Bližší a aktuální informace lze nalézt na [WWW17].

C.1. UTF-8

Jelikož je podpora Unicode zatím velmi malá a je zapotřebí zajistit přenos těchto znaků mezi platformami, byla vyvinuta kódování pro přenos na systémech, které podporují jen osmibitové kódování znaků (ASCII).

Java nabízí podporu kódování UTF-8, což je kód s proměnnou šířkou značky - jeden znak může být kódován jedno-, dvou- nebo tří-bytově. Jednoznačnost kódu umožňuje přesně stanovit začátek znaku, což je výhoda při obnově poškozeného souboru. Princip kódování shrnuje následující tabulka:

Znaky Bitů Kódování
0000-007F 7 0xxxxxxx
0080-07FF 11 110xxxxx 10xxxxxx
0800-FFFF 16 1110xxxx 10xxxxxx 10xxxxxx

C.2. Akcentované znaky v Unicode

V tabulce je zobrazeno kódování některých znaků v Unicode.

Unicode Znak
0x00C1 Á
0x00C2 ^A
0x00C4 Ä
0x00E1 á
0x00E2 ^a
0x00E4 ä
0x00DF B (ostré s)
0x010C Č
0x010D č
0x010E Ď
0x010F ď
0x00C9 É
0x00CB "E
Unicode Znak
0x011A Ě
0x00E9 é
0x00EB "e
0x011B ě
0x00CD Í
0x00CE ^I
0x00ED í
0x00EE ^i
0x013D Ĺ
0x013E ĺ
0x0147 Ň
0x0148 ň
0x00D3 Ó
Unicode Znak
0x00D4 Ô
0x00D6 Ö
0x00F3 ó
0x00F4 ô
0x00F6 ö
0x0154 Ŕ
0x0158 Ř
0x0155 ŕ
0x0159 ř
0x0160 Š
0x0161 š
0x0164 Ť
0x0165 ť
Unicode Znak
0x016E Ů
0x00DA Ú
0x00DC Ü
0x016F ů
0x00FA ú
0x00FC ü
0x00DD Ý
0x00FD ý
0x017D Ž
0x017E ž


Predchozi
Converted by Selathco v0.9 on 25.09.1999 19:46
Dalsi